AI Lip同步视频生成器

上传一张脸部照片和音频剪辑 — — 用现实的嘴唇同步、头部姿势和眨眼来获取一个有声头的视频。由SadTalker(MIT)提供动力。商业使用也行。

上传 face + 音频

每秒1,000个字符

拖放您的文件到这里( D), 或者 浏览

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

文件. mp3

0 MB

拖放您的文件到这里( D), 或者 浏览

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

文件. mp3

0 MB

处理...

制作视频 通常需要30秒到2分钟

你的说话头视频

下载 MP4

关于赛德多克的故事,

SadTalker (CVPR 2023, Tencent ARC) 是一个开放源码口语头模型,它能动画一个单张脸像来播放任何音频。 与Wav2Lip变体不同,SadTalker还动画头部姿势、眨眼和表达更自然的结果。

代码和重量由麻省理工学院许可终止,没有Llama、Gemma或非商业主干,所以你制作的视频可以安全用于商业用途。

最佳成果提示

  • 使用高质量、利利的肖像——目视、闭嘴、闭嘴
  • 中心面部、正方或4:5或4:5的方位比率最有效
  • 清洁言语音响( 没有音乐) 使嘴唇同步更紧
  • 启用 GFPPGAN 来拍摄英雄镜头—— 双倍让时间变长, 细化
  • 想要稳步阿凡达拍摄时使用“静态预设”

Lipc 视频同步计划

开始免费, 需要时升级

自由
  • 30秒音频限制
  • 256 px 输出
  • 仅“ 仍然” 预设
  • 无面容增强器
最受欢迎的
自由帐户
  • 30秒音频限制
  • "满"和"还"的预设
  • 256/512 px 输出
  • GGGPPPAN 脸板增强器
签署自由
职业
  • 5分钟音频限制
  • 优先的 GPU 队列
  • API 访问(多部分上传)
  • WebHook 完成回调
  • 商业使用(MIT许可证)
升级

常问问题

上传一张脸部照片和音频剪辑,而AI制作了一张脸部视频,用现实的嘴唇运动、头部姿势和眨眼来说话。 建在SadTalker(CVPR 2023)上,这是麻省理工省理工学院许可的口型外加动画的口型口语头模型。

面部输入可以是 JPG 或 PNG 图像( 最多 10 MB) 或 简短的 MP4/ WebM 驱动视频( 我们使用第一个框架 ) 。 驱动音频可以是 MP3 、 WAV、 M4A 或 FLAC, 最多 10 MB 。 我们内部将音频复制到 16 kHz 。

自由帐户: 每个剪辑最多30秒。 支付用户: 每个请求最多5分钟。 音频越长, 意味着时间越长, 字符费用就越高 。

Lip同步视频使用每秒生成的视频1,000个字符。 30秒的剪辑 = 30,000个字符。 成本从您的字符平衡帐面上提取帐单, 如果生成失败, 自动退款 。

是的,SadTalker代码和重量是麻省理工学院许可终止的(没有Llama、Gemma或非商业主干)视频。您制作的视频是您可以用于商业用途的。您负责对源面图像和上传的音频拥有权利。

我们的 A100 服务器上大约30 秒的5 秒剪辑,以音频长度大致线性缩放。 使GFPGAN 增强面部的功能大约翻了一番,但能产生更清晰、更高质量的输出。

完全预设(默认)头部姿势、眨眼和表情与嘴唇一起制作一个更自然的说话头部视频。 仍然预设头部固定位置,只动动口动脉 — — 当你想要稳健的阿凡达射手时有用。

GFPGAN是一种面部恢复模型,在唇合成后会磨焦面部细节。它清理了文物,使256像素输出接近512。 它大约翻了一番时间,但值得英雄射击。

SadTalker 默认以 256 px 制成。 切换到 512 px 大小, 用于更锐利的输出( 更慢, 更高的 VRAM ), 或者使 GFPGAN 增强器能够提升面部细节。 最好的结果是, 上传一张高质量、 高亮的肖像照片 。

是的 。 上传 MP4 或 WebM 作为脸部输入, 我们将使用第一个框架作为驱动身份 。 完整视频重拍( 每框架的嘴部替换) 请看 Dubbing 工作室即将到来的视频管道 。

是。 POST 对 /api/ v1/lipsync 的多部分请求 / api/ v1/lipsync / 包含脸和音频字段, 然后对 opol / api/ v1/lipsync/ result/? uuid = 直到状态“ 完成 ” 。 回复包含完成 MP4 的 URL 。 API 访问需要付费计划 。

萨达克(Sadalker)使用面部对齐来探测和裁剪最突出的面孔。 为了取得最佳效果,上传一张画像,以一个人为中心,眼睛可见,最小的隐蔽。 群体照片可能会产生无法预测的结果 。
5.0/5 (1)

我们能改进什么?您的反馈帮助我们解决问题。

准备好开始了吗?

免费报名并获得50张信用卡,不需要信用卡。