通义万相数字人

通义万相数字人

万相数字人

图片+音频生成数字人说话/唱歌视频

25-90 积分

📸 上传人物图片

图片要求:

• 格式:jpeg/jpg/png/bmp/webp

• 分辨率:宽高都在 [400, 7000] 像素范围内

• 内容:画面中仅有一人,正对镜头,人脸完整无遮挡

🎵 上传音频文件

音频要求:

• 格式:wav/mp3

• 大小:< 15M

• 时长:3-30 秒

• 内容:清晰的人声语音(无噪音、无背景音乐)

⚙️ 生成参数

视频风格
视频分辨率

📊 任务状态

🎬 生成结果

等待视频生成完成

视频信息:

• 时长:

• 分辨率:

💡 使用说明

1. 上传图片:清晰的正面人脸照片,画面中仅有一人,人脸完整无遮挡

2. 上传音频:清晰的人声语音(3-30秒),无噪音和背景音乐

3. 选择参数:视频风格(说话/唱歌/表演)和分辨率(480P/720P)

4. 提交任务:系统会先进行图像检测,检测通过后开始生成视频

5. 等待生成:数字人视频生成通常需要几分钟,点击「查询状态」查看进度

6. 下载视频:生成完成后可在线播放或下载视频

7. 积分计费 💰:按视频时长和分辨率计费。480P: 26积分/秒,720P: 47积分/秒。图像检测费用包含在内。

💡 官方示例