AI Lip Sync Video Generator

Mengunggah foto wajah dan klip audio. Dapatkan video berbicara dengan lip sync realistis, pose kepala, dan berkedip. Ditenagai oleh Sad Talker (MIT). Penggunaan komersial OK.

Kami belum memiliki suara TTS dalam bahasamu. Juallah Suara Anda

Unggah Face + Audio

1.000 karakter per detik

Seret & jatuhkan berkas anda di sini, atau ramban

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

berkas.mp3

0 MB

Seret & jatuhkan berkas anda di sini, atau ramban

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

berkas.mp3

0 MB

Memproses...

Mengalihkan video Anda ini biasanya memakan waktu 30 detik sampai 2 menit.

Video Kepala Bicara Anda

Unduh MP4

Tentang SadTalker

SadTalker (CVPR 2023, Tencent ARC) adalah model berbicara-sumber terbuka-kepala yang menghidupkan gambar wajah tunggal untuk berbicara audio apapun. Tidak seperti varian Wav2Lip, Sad Talker juga animate head pose, berkedip, dan ekspresi untuk hasil yang lebih alami.

Kode dan beban adalah MIT-licenseed end untuk mengakhiri tidak ada Llama, Gemma, atau non-komersial tulang punggung sehingga video yang Anda hasilkan aman untuk penggunaan komersial.

Tip untuk Hasil - Hasil Terbaik

  • Gunakan kualitas tinggi, potret yang terang baik. Mata terlihat, mulut tertutup.
  • Wajah tengah, rasio persegi atau 4:5 aspek bekerja terbaik
  • Audio pidato bersih (tanpa musik) menghasilkan lip sync ketat
  • Aktifkan GFPGAN untuk tembakan pahlawan ı doubles render waktu tetapi menajamkan detail
  • Gunakan Masih preset ketika Anda ingin tembakan avatar stabil

Lip Sync Video Plans

Mulai bebas, upgrade ketika Anda membutuhkan lebih banyak

Bebas
  • Batas audio 30 detik
  • Keluaran 256 px
  • "Masih" preset saja
  • Tidak ada penambah wajah
Paling Populer
Akun Bebas
  • Batas audio 30 detik
  • Keduanya "penuh" dan "masih" preset
  • 256 / 512 px output
  • Penambah wajah GFPGAN
Daftar Bebas
Pro
  • Batas audio 5 menit
  • Antrian GPU prioritas
  • Akses API (multipart upload)
  • Pemanggilan pelengkapan webhook
  • Penggunaan komersil (lMM)
Tingkatkan

Pertanyaan yang Sering Diajukan

Upload foto wajah dan klip audio, dan AI menghasilkan video wajah yang berbicara audio dengan gerakan bibir realistis, kepala berpose, dan berkedip.

Masukan wajah dapat berupa gambar JPG atau PNG (naik sampai 10 MB) atau video penggerak MP4/WebM pendek (kita menggunakan bingkai pertama). Audio mengemudi dapat MP3, WAV, M4A, atau FLAC hingga 10 MB. Kami mengulang audio ke 16 kHz secara internal.

Akun bebas: hingga 30 detik per klip. Membayar pengguna: hingga 5 menit per permintaan. Audio lebih panjang berarti render waktu dan biaya karakter yang lebih tinggi.

Lip sync video menggunakan 1.000 karakter per detik dari video yang dihasilkan. Klip 30 detik = 30.000 karakter. Biaya ditagih di depan dari keseimbangan karakter Anda dan dikembalikan secara otomatis jika generasi gagal.

Ya, kode dan beban Sad Talker adalah MIT yang dilisensikan untuk mengakhiri (tidak ada Llama, Gemma, atau non-commercial backbone). video yang Anda hasilkan adalah milikmu untuk menggunakan secara komersial. Anda bertanggung jawab untuk memiliki hak-hak untuk gambar wajah sumber dan audio yang Anda unggah.

Sekitar 30 detik untuk klip 5 detik pada server A100 kami, skala kira-kira linier dengan panjang audio. Mengaktifkan wajah GFPGAN sebagai penambah kira-kira doubles render waktu tetapi menghasilkan keluaran kualitas lebih tajam dan lebih tinggi.

Praset penuh (default) animates head pose, blinks, and expression along with the lips, production a more natural talking-head video.

GFPGAN adalah model restorasi wajah yang mempertajam rincian wajah setelah render lip-sync. membersihkan artefak dan membuat keluaran 256-pixel terlihat lebih dekat ke 512. Ini kira-kira doubles render waktu tetapi layak untuk tembakan pahlawan.

SadTalker mengrender pada 256 px secara baku. Ganti ke 512 px ukuran untuk keluaran lebih tajam (slower, VRAM lebih tinggi) atau aktifkan GFPGAN meningkatkan rincian wajah skala atas. Untuk hasil terbaik, unggah foto potret berkualitas tinggi dan dilit.

Mengunggah MP4 atau WebM sebagai masukan wajah dan kita akan menggunakan frame pertama sebagai identitas mengemudi. Untuk video yang diredubbing penuh (per-frame mulut pengganti), lihat pipa Dubbing Studio mendatang.

Ya. POST permintaan multipart untuk /api/v1/lipsync/ dengan bidang wajah dan audio, kemudian jajak pendapat /api/v1/lipsync/result/?uid= sampai status "selesai". Responnya berisi URL ke akses MP4 yang dirender API membutuhkan rencana yang dibayar.

SadTalker menggunakan pengenalan wajah untuk mendeteksi dan memanen wajah yang paling menonjol. Untuk hasil terbaik, upload potret dengan satu orang berpusat, mata terlihat, dan minimal okklusion. Foto grup mungkin menghasilkan hasil yang tak terduga.
5.0/5 (1)

Umpan balikmu membantu kita memperbaiki masalah.

Siap untuk memulai?

Daftar gratis dan mendapatkan 15.000 karakter Tidak ada kartu kredit yang diperlukan.