バグ/機能要求を報告

人工唇同期ビデオ生成器

顔写真とオーディオクリップをアップロードして、リアルな唇同期、頭のポーズ、瞬きを持つ話し頭のビデオを作成します。 SadTalker (MIT) によるものです。商用利用はOKです。

無料登録

顔とオーディオをアップロード

1000文字/秒

１．顔画像または運転動画

ファイルをここにドラッグ＆ドロップするか、ブラウズ

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ドライビング・オーディオ

ファイルをここにドラッグ＆ドロップするか、ブラウズ

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

アニメーションプレセット

出力サイズ

フェイスエンハンサー

GFPGAN (より鋭く、より遅く)

サドトーカー

SadTalker（CVPR 2023, Tencent ARC）は、単一の顔画像をアニメーション化して、どんな音声でも話すオープンソースの話し頭モデルである。Wav2Lipの変種とは異なり、SadTalkerは頭の姿勢、瞬き、表情をアニメーション化することで、より自然な結果を得る。

これは、コードと重みはMITのエンドツーエンドライセンスである。Llama、Gemma、非商用バックボーンはない。だから、あなたが生成するビデオは商用に安全である。

最高の結果を得るためのヒント

高品質で明るい肖像画を使う - 目が見える、口が閉じている
中心に面、四角または 4:5 のアスペクト比が最適です
音声をクリアにすると (音楽なし) 唇同期が良くなります
ヒーローショットの GFPGAN を有効にする - レンダリング時間を倍にするが、詳細を鋭くする
アバターの写真を静止画にしたい場合は、静止画プレセットを使用します

リップシンク

無料で始め、必要に応じてアップグレード

自由

30秒音声制限
256 px 出力
プリセットのみ
顔のエンハンサーなし

最も人気のある

無料アカウント

30秒音声制限
"フル" と "スティック" の両方のプリセット
256 / 512 px 出力
GFPGAN顔エンハンサー

無料登録

プロ

5分音声制限
優先度GPUキュー
API アクセス (多重アップロード)
ウェブフック完了コールバック
商用利用（MITライセンス）

アップグレード

よくある質問

顔写真と音声クリップをアップロードすると、AIはその顔のビデオを生成し、リアルな唇の動き、頭のポーズ、瞬きを伴って音声を話します。 SadTalker (CVPR 2023) をベースにしています。これは、口の形に加えて表情をアニメーション化するMITライセンスの話し頭モデルです。

顔の入力は JPG または PNG 画像 (最大 10MB) または短い MP4/WebM ドライビングビデオ (最初のフレームを使用) です。ドライビング音声は MP3、WAV、M4A、FLAC で最大 10MB です。音声は内部で 16kHz にリサンプリングします。

無料アカウント: クリップ当たり最大 30 秒。有料ユーザ: 要求当たり最大 5 分。長いオーディオは長いレンダリング時間と高い文字コストを意味します。

リップシンクビデオは生成されたビデオの 1 秒あたり 1,000 文字を使用します。30 秒のクリップ = 30,000 文字。コストは文字残高から前もって請求され、生成に失敗した場合は自動的に返金されます。

SadTalker のコードと重みは MIT のエンドツーエンドライセンスである (Llama、Gemma、非商用バックボーンはありません)。生成されたビデオは商用利用可能です。アップロードしたソースの顔画像とオーディオの権利を持つ責任はあなたにあります。

5秒のクリップは約30秒で、オーディオの長さに対してはほぼ線形にスケールします。GFPGANの顔の強化を有効にすると、レンダリング時間は約2倍になりますが、より鋭く、高品質な出力を生成します。

完全プリセット (デフォルト) は、頭のポーズ、瞬き、表情を唇と共にアニメーションし、より自然な話し頭のビデオを生成します。静止プリセットは、頭をその場所に固定し、口のみをアニメーションします。安定したアバターショットを望むときに役立ちます。

GFPGAN は唇同期レンダリング後に顔の詳細を鋭くする顔復元モデルです。アーティファクトを消去し、256 ピクセル出力を 512 ピクセルに近づけます。レンダリング時間は約2倍になりますが、ヒーローのショットにはそれほど価値はありません。

SadTalker は標準で 256 px でレンダリングします。より鋭い出力を得るには 512 px に切り替えてください (遅く、より多くの VRAM を使用)。または、顔の詳細をアップスケールするために GFPGAN エンハンサーを有効にしてください。最良の結果を得るには、高品質で、明るい肖像写真をアップロードしてください。

はい。顔入力として MP4 または WebM をアップロードしてください。最初のフレームを運転者のアイデンティティとして使用します。完全なビデオ再ダビング（フレームごとの口の置き換え）については、次に公開される Dubbing Studio ビデオパイプラインを参照してください。

はい。顔と音声フィールドを含むマルチパートリクエストを /api/v1/lipsync/ に POST し、状態が "completed" になるまで /api/v1/lipsync/result/?uuid= をポールします。応答にはレンダリングされた MP4 の URL が含まれます。API アクセスには有料プランが必要です。

SadTalker は顔の配列を使って最も目立つ顔を検出し、カットします。最良の結果を得るには、1 人の人物を中心に、目が見えるように、最小限の遮蔽を持つ肖像画をアップロードしてください。グループ写真は予測できない結果を生み出す可能性があります。

5.0/5 (1)

準備はいいか？

クレジットカードは必要ありません

無料登録価格を表示

人工唇同期ビデオ生成器

顔とオーディオをアップロード

ユア・トークンヘッド・ビデオ

サドトーカー

最高の結果を得るためのヒント

リップシンク

よくある質問

人工知能の唇同期ツールは何をするの？

入力フォーマットはどれですか？

音声はどれくらいかかる？

いくらですか。

商用に使える？

生成にはどれくらいかかりますか。

プリセットの「フル」と「スティル」の違いは何ですか。

ＧＦＰＧＡＮエンハンサとは何か。

なぜ出力は低解像度に見えるのですか？

音声とビデオをリップシンクできる？

APIはあるのか？

顔写真に複数の人が写ってるなら？

準備はいいか？