人工唇同期ビデオ生成器
顔写真とオーディオクリップをアップロードして、リアルな唇同期、頭のポーズ、瞬きを持つ話し頭のビデオを作成します。 SadTalker (MIT) によるものです。商用利用はOKです。
顔とオーディオをアップロード
1000文字/秒サドトーカー
SadTalker(CVPR 2023, Tencent ARC)は、単一の顔画像をアニメーション化して、どんな音声でも話すオープンソースの話し頭モデルである。Wav2Lipの変種とは異なり、SadTalkerは頭の姿勢、瞬き、表情をアニメーション化することで、より自然な結果を得る。
これは、コードと重みはMITのエンドツーエンドライセンスである。Llama、Gemma、非商用バックボーンはない。だから、あなたが生成するビデオは商用に安全である。
最高の結果を得るためのヒント
- 高品質で明るい肖像画を使う - 目が見える、口が閉じている
- 中心に面、四角または 4:5 のアスペクト比が最適です
- 音声をクリアにすると (音楽なし) 唇同期が良くなります
- ヒーローショットの GFPGAN を有効にする - レンダリング時間を倍にするが、詳細を鋭くする
- アバターの写真を静止画にしたい場合は、静止画プレセットを使用します
よくある質問
改善点は何ですか?フィードバックは問題を解決するのに役立ちます。