バグ/機能要求を報告

人工唇同期ビデオ生成器

顔写真とオーディオクリップをアップロードして、リアルな唇同期、頭のポーズ、瞬きを持つ話し頭のビデオを作成します。 SadTalker (MIT) によるものです。商用利用はOKです。

顔とオーディオをアップロード

1000文字/秒

ファイルをここにドラッグ&ドロップするか、 ブラウズ

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ファイル.mp3

0 MB

ファイルをここにドラッグ&ドロップするか、 ブラウズ

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ファイル.mp3

0 MB

処理中...

動画をレンダリングしています。通常 30 秒から 2 分かかります。

ユア・トークンヘッド・ビデオ

サドトーカー

SadTalker(CVPR 2023, Tencent ARC)は、単一の顔画像をアニメーション化して、どんな音声でも話すオープンソースの話し頭モデルである。Wav2Lipの変種とは異なり、SadTalkerは頭の姿勢、瞬き、表情をアニメーション化することで、より自然な結果を得る。

これは、コードと重みはMITのエンドツーエンドライセンスである。Llama、Gemma、非商用バックボーンはない。だから、あなたが生成するビデオは商用に安全である。

最高の結果を得るためのヒント

  • 高品質で明るい肖像画を使う - 目が見える、口が閉じている
  • 中心に面、四角または 4:5 のアスペクト比が最適です
  • 音声をクリアにすると (音楽なし) 唇同期が良くなります
  • ヒーローショットの GFPGAN を有効にする - レンダリング時間を倍にするが、詳細を鋭くする
  • アバターの写真を静止画にしたい場合は、静止画プレセットを使用します

リップシンク

無料で始め、必要に応じてアップグレード

自由
  • 30秒音声制限
  • 256 px 出力
  • プリセットのみ
  • 顔のエンハンサーなし
最も人気のある
無料アカウント
  • 30秒音声制限
  • "フル" と "スティック" の両方のプリセット
  • 256 / 512 px 出力
  • GFPGAN顔エンハンサー
無料登録
プロ
  • 5分音声制限
  • 優先度GPUキュー
  • API アクセス (多重アップロード)
  • ウェブフック完了コールバック
  • 商用利用(MITライセンス)
アップグレード

よくある質問

顔写真と音声クリップをアップロードすると、AIはその顔のビデオを生成し、リアルな唇の動き、頭のポーズ、瞬きを伴って音声を話します。 SadTalker (CVPR 2023) をベースにしています。これは、口の形に加えて表情をアニメーション化するMITライセンスの話し頭モデルです。

顔の入力は JPG または PNG 画像 (最大 10MB) または短い MP4/WebM ドライビングビデオ (最初のフレームを使用) です。ドライビング音声は MP3、WAV、M4A、FLAC で最大 10MB です。音声は内部で 16kHz にリサンプリングします。

無料アカウント: クリップ当たり最大 30 秒。有料ユーザ: 要求当たり最大 5 分。長いオーディオは長いレンダリング時間と高い文字コストを意味します。

リップシンクビデオは生成されたビデオの 1 秒あたり 1,000 文字を使用します。30 秒のクリップ = 30,000 文字。コストは文字残高から前もって請求され、生成に失敗した場合は自動的に返金されます。

SadTalker のコードと重みは MIT のエンドツーエンドライセンスである (Llama、Gemma、非商用バックボーンはありません)。生成されたビデオは商用利用可能です。アップロードしたソースの顔画像とオーディオの権利を持つ責任はあなたにあります。

5秒のクリップは約30秒で、オーディオの長さに対してはほぼ線形にスケールします。GFPGANの顔の強化を有効にすると、レンダリング時間は約2倍になりますが、より鋭く、高品質な出力を生成します。

完全プリセット (デフォルト) は、頭のポーズ、瞬き、表情を唇と共にアニメーションし、より自然な話し頭のビデオを生成します。 静止プリセットは、頭をその場所に固定し、口のみをアニメーションします。安定したアバターショットを望むときに役立ちます。

GFPGAN は唇同期レンダリング後に顔の詳細を鋭くする顔復元モデルです。アーティファクトを消去し、256 ピクセル出力を 512 ピクセルに近づけます。レンダリング時間は約2倍になりますが、ヒーローのショットにはそれほど価値はありません。

SadTalker は標準で 256 px でレンダリングします。より鋭い出力を得るには 512 px に切り替えてください (遅く、より多くの VRAM を使用)。または、顔の詳細をアップスケールするために GFPGAN エンハンサーを有効にしてください。最良の結果を得るには、高品質で、明るい肖像写真をアップロードしてください。

はい。顔入力として MP4 または WebM をアップロードしてください。最初のフレームを運転者のアイデンティティとして使用します。完全なビデオ再ダビング(フレームごとの口の置き換え)については、次に公開される Dubbing Studio ビデオパイプラインを参照してください。

はい。顔と音声フィールドを含むマルチパートリクエストを /api/v1/lipsync/ に POST し、状態が "completed" になるまで /api/v1/lipsync/result/?uuid= をポールします。応答にはレンダリングされた MP4 の URL が含まれます。API アクセスには有料プランが必要です。

SadTalker は顔の配列を使って最も目立つ顔を検出し、カットします。最良の結果を得るには、1 人の人物を中心に、目が見えるように、最小限の遮蔽を持つ肖像画をアップロードしてください。グループ写真は予測できない結果を生み出す可能性があります。
5.0/5 (1)

改善点は何ですか?フィードバックは問題を解決するのに役立ちます。

準備はいいか?

クレジットカードは必要ありません