AI Lip同步视频生成器

Q: AI 嘴唇同步工具是做什么的?

上传一张脸部照片和音频剪辑,而AI制作了一张脸部视频,用现实的嘴唇运动、头部姿势和眨眼来说话。 建在SadTalker(CVPR 2023)上,这是麻省理工省理工学院许可的口型外加动画的口型口语头模型。

Q: 支持了哪些输入格式?

面部输入可以是 JPG 或 PNG 图像( 最多 10 MB) 或 简短的 MP4/ WebM 驱动视频( 我们使用第一个框架 ) 。 驱动音频可以是 MP3 、 WAV、 M4A 或 FLAC, 最多 10 MB 。 我们内部将音频复制到 16 kHz 。

Q: 音频能持续多久?

自由帐户: 每个剪辑最多30秒。 支付用户: 每个请求最多5分钟。 音频越长, 意味着时间越长, 字符费用就越高 。

Q: 多少钱?

Lip同步视频使用每秒生成的视频1,000个字符。 30秒的剪辑 = 30,000个字符。 成本从您的字符平衡帐面上提取帐单, 如果生成失败, 自动退款 。

Q: 一代人需要多长时间?

我们的 A100 服务器上大约30 秒的5 秒剪辑,以音频长度大致线性缩放。 使GFPGAN 增强面部的功能大约翻了一番,但能产生更清晰、更高质量的输出。

Q: "完整"和"仍然"预设之间有什么区别?

完全预设(默认)头部姿势、眨眼和表情与嘴唇一起制作一个更自然的说话头部视频。 仍然预设头部固定位置,只动动口动脉 — — 当你想要稳健的阿凡达射手时有用。

Q: GFPGAN的增强者是什么?

GFPGAN是一种面部恢复模型,在唇合成后会磨焦面部细节。它清理了文物,使256像素输出接近512。 它大约翻了一番时间,但值得英雄射击。

Q: 为什么我的输出看起来低分辨率?

SadTalker 默认以 256 px 制成。 切换到 512 px 大小, 用于更锐利的输出( 更慢, 更高的 VRAM ), 或者使 GFPGAN 增强器能够提升面部细节。 最好的结果是, 上传一张高质量、 高亮的肖像照片 。

Q: 我能用嘴唇合成一段视频到新的音频吗?

是的 。 上传 MP4 或 WebM 作为脸部输入, 我们将使用第一个框架作为驱动身份 。 完整视频重拍( 每框架的嘴部替换) 请看 Dubbing 工作室即将到来的视频管道 。

上传一张脸部照片和音频剪辑 — — 用现实的嘴唇同步、头部姿势和眨眼来获取一个有声头的视频。由SadTalker(MIT)提供动力。商业使用也行。

签署自由

上传 face + 音频

每秒1,000个字符

1. 脸部图像或驾驶视频

拖放您的文件到这里( D), 或者浏览

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. 驱动音频

拖放您的文件到这里( D), 或者浏览

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

动动图预设

输出大小

美容增强器

GFPGAN(拖慢)

关于赛德多克的故事,

SadTalker (CVPR 2023, Tencent ARC) 是一个开放源码口语头模型,它能动画一个单张脸像来播放任何音频。与Wav2Lip变体不同,SadTalker还动画头部姿势、眨眼和表达更自然的结果。

代码和重量由麻省理工学院许可终止,没有Llama、Gemma或非商业主干,所以你制作的视频可以安全用于商业用途。

最佳成果提示

使用高质量、利利的肖像——目视、闭嘴、闭嘴
中心面部、正方或4:5或4:5的方位比率最有效
清洁言语音响( 没有音乐) 使嘴唇同步更紧
启用 GFPPGAN 来拍摄英雄镜头—— 双倍让时间变长, 细化
想要稳步阿凡达拍摄时使用“静态预设”

Lipc 视频同步计划

开始免费, 需要时升级

自由

30秒音频限制
256 px 输出
仅“ 仍然” 预设
无面容增强器

最受欢迎的

自由帐户

30秒音频限制
"满"和"还"的预设
256/512 px 输出
GGGPPAN 增强脸部

签署自由

职业

5分钟音频限制
优先的 GPU 队列
API 访问(多部分上传)
WebHook 完成回调
商业使用(MIT许可证)

升级

常问问题

上传一张脸部照片和音频剪辑,而AI制作了一张脸部视频,用现实的嘴唇运动、头部姿势和眨眼来说话。建在SadTalker(CVPR 2023)上,这是麻省理工省理工学院许可的口型外加动画的口型口语头模型。

面部输入可以是 JPG 或 PNG 图像( 最多 10 MB) 或简短的 MP4/ WebM 驱动视频( 我们使用第一个框架 ) 。驱动音频可以是 MP3 、 WAV、 M4A 或 FLAC, 最多 10 MB 。我们内部将音频复制到 16 kHz 。

自由帐户: 每个剪辑最多30秒。支付用户: 每个请求最多5分钟。音频越长, 意味着时间越长, 字符费用就越高。

Lip同步视频使用每秒生成的视频1,000个字符。 30秒的剪辑 = 30,000个字符。成本从您的字符平衡帐面上提取帐单, 如果生成失败, 自动退款。

是的,SadTalker代码和重量是麻省理工学院许可终止的(没有Llama、Gemma或非商业主干)视频。您制作的视频是您可以用于商业用途的。您负责对源面图像和上传的音频拥有权利。

我们的 A100 服务器上大约30 秒的5 秒剪辑,以音频长度大致线性缩放。使GFPGAN 增强面部的功能大约翻了一番,但能产生更清晰、更高质量的输出。

完全预设(默认)头部姿势、眨眼和表情与嘴唇一起制作一个更自然的说话头部视频。仍然预设头部固定位置,只动动口动脉 — — 当你想要稳健的阿凡达射手时有用。

GFPGAN是一种面部恢复模型,在唇合成后会磨焦面部细节。它清理了文物,使256像素输出接近512。它大约翻了一番时间,但值得英雄射击。

SadTalker 默认以 256 px 制成。切换到 512 px 大小, 用于更锐利的输出( 更慢, 更高的 VRAM ), 或者使 GFPGAN 增强器能够提升面部细节。最好的结果是, 上传一张高质量、高亮的肖像照片。

是的。上传 MP4 或 WebM 作为脸部输入, 我们将使用第一个框架作为驱动身份。完整视频重拍( 每框架的嘴部替换) 请看 Dubbing 工作室即将到来的视频管道。

是。 POST 对 /api/ v1/lipsync 的多部分请求 / api/ v1/lipsync / 包含脸和音频字段, 然后对 opol / api/ v1/lipsync/ result/? uuid = 直到状态“ 完成 ” 。回复包含完成 MP4 的 URL 。 API 访问需要付费计划。

萨达克(Sadalker)使用面部对齐来探测和裁剪最突出的面孔。为了取得最佳效果,上传一张画像,以一个人为中心,眼睛可见,最小的隐蔽。群体照片可能会产生无法预测的结果。

5.0/5 (1)

准备好开始了吗?

免费报名并获得50张信用卡,不需要信用卡。

签署自由视图定价

AI Lip同步视频生成器

上传 face + 音频

你的说话头视频

关于赛德多克的故事,

最佳成果提示

Lipc 视频同步计划

常问问题

AI 嘴唇同步工具是做什么的?

支持了哪些输入格式?

音频能持续多久?

多少钱?

我可以用视频 商业?

一代人需要多长时间?

"完整"和"仍然"预设之间有什么区别?

GFPGAN的增强者是什么?

为什么我的输出看起来低分辨率?

我能用嘴唇合成一段视频到新的音频吗?

有API吗?

如果我的相片里有多人呢?

准备好开始了吗?