Laporkan Permintaan Kutu / Fitur

AI Lip Sync Video Generator

Mengunggah foto wajah dan klip audio. Dapatkan video berbicara dengan lip sync realistis, pose kepala, dan berkedip. Ditenagai oleh Sad Talker (MIT). Penggunaan komersial OK.

Daftar Bebas

Kami belum memiliki suara TTS dalam bahasamu. Juallah Suara Anda

Unggah Face + Audio

1.000 karakter per detik

Foto Wajah atau Video Mengemudi

Seret & jatuhkan berkas anda di sini, atau ramban

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Kandungan Audio

Seret & jatuhkan berkas anda di sini, atau ramban

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Preset Animasi

Ukuran Keluaran

Peningkat Wajah

GFPGAN (sharper, slower)

Tentang SadTalker

SadTalker (CVPR 2023, Tencent ARC) adalah model berbicara-sumber terbuka-kepala yang menghidupkan gambar wajah tunggal untuk berbicara audio apapun. Tidak seperti varian Wav2Lip, Sad Talker juga animate head pose, berkedip, dan ekspresi untuk hasil yang lebih alami.

Kode dan beban adalah MIT-licenseed end untuk mengakhiri tidak ada Llama, Gemma, atau non-komersial tulang punggung sehingga video yang Anda hasilkan aman untuk penggunaan komersial.

Tip untuk Hasil - Hasil Terbaik

Gunakan kualitas tinggi, potret yang terang baik. Mata terlihat, mulut tertutup.
Wajah tengah, rasio persegi atau 4:5 aspek bekerja terbaik
Audio pidato bersih (tanpa musik) menghasilkan lip sync ketat
Aktifkan GFPGAN untuk tembakan pahlawan ı doubles render waktu tetapi menajamkan detail
Gunakan Masih preset ketika Anda ingin tembakan avatar stabil

Lip Sync Video Plans

Mulai bebas, upgrade ketika Anda membutuhkan lebih banyak

Bebas

Batas audio 30 detik
Keluaran 256 px
"Masih" preset saja
Tidak ada penambah wajah

Paling Populer

Akun Bebas

Batas audio 30 detik
Keduanya "penuh" dan "masih" preset
256 / 512 px output
Penambah wajah GFPGAN

Daftar Bebas

Pro

Batas audio 5 menit
Antrian GPU prioritas
Akses API (multipart upload)
Pemanggilan pelengkapan webhook
Penggunaan komersil (lMM)

Tingkatkan

Pertanyaan yang Sering Diajukan

Upload foto wajah dan klip audio, dan AI menghasilkan video wajah yang berbicara audio dengan gerakan bibir realistis, kepala berpose, dan berkedip.

Masukan wajah dapat berupa gambar JPG atau PNG (naik sampai 10 MB) atau video penggerak MP4/WebM pendek (kita menggunakan bingkai pertama). Audio mengemudi dapat MP3, WAV, M4A, atau FLAC hingga 10 MB. Kami mengulang audio ke 16 kHz secara internal.

Akun bebas: hingga 30 detik per klip. Membayar pengguna: hingga 5 menit per permintaan. Audio lebih panjang berarti render waktu dan biaya karakter yang lebih tinggi.

Lip sync video menggunakan 1.000 karakter per detik dari video yang dihasilkan. Klip 30 detik = 30.000 karakter. Biaya ditagih di depan dari keseimbangan karakter Anda dan dikembalikan secara otomatis jika generasi gagal.

Ya, kode dan beban Sad Talker adalah MIT yang dilisensikan untuk mengakhiri (tidak ada Llama, Gemma, atau non-commercial backbone). video yang Anda hasilkan adalah milikmu untuk menggunakan secara komersial. Anda bertanggung jawab untuk memiliki hak-hak untuk gambar wajah sumber dan audio yang Anda unggah.

Sekitar 30 detik untuk klip 5 detik pada server A100 kami, skala kira-kira linier dengan panjang audio. Mengaktifkan wajah GFPGAN sebagai penambah kira-kira doubles render waktu tetapi menghasilkan keluaran kualitas lebih tajam dan lebih tinggi.

Praset penuh (default) animates head pose, blinks, and expression along with the lips, production a more natural talking-head video.

GFPGAN adalah model restorasi wajah yang mempertajam rincian wajah setelah render lip-sync. membersihkan artefak dan membuat keluaran 256-pixel terlihat lebih dekat ke 512. Ini kira-kira doubles render waktu tetapi layak untuk tembakan pahlawan.

SadTalker mengrender pada 256 px secara baku. Ganti ke 512 px ukuran untuk keluaran lebih tajam (slower, VRAM lebih tinggi) atau aktifkan GFPGAN meningkatkan rincian wajah skala atas. Untuk hasil terbaik, unggah foto potret berkualitas tinggi dan dilit.

Mengunggah MP4 atau WebM sebagai masukan wajah dan kita akan menggunakan frame pertama sebagai identitas mengemudi. Untuk video yang diredubbing penuh (per-frame mulut pengganti), lihat pipa Dubbing Studio mendatang.

Ya. POST permintaan multipart untuk /api/v1/lipsync/ dengan bidang wajah dan audio, kemudian jajak pendapat /api/v1/lipsync/result/?uid= sampai status "selesai". Responnya berisi URL ke akses MP4 yang dirender API membutuhkan rencana yang dibayar.

SadTalker menggunakan pengenalan wajah untuk mendeteksi dan memanen wajah yang paling menonjol. Untuk hasil terbaik, upload potret dengan satu orang berpusat, mata terlihat, dan minimal okklusion. Foto grup mungkin menghasilkan hasil yang tak terduga.

5.0/5 (1)

Siap untuk memulai?

Daftar gratis dan mendapatkan 15.000 karakter Tidak ada kartu kredit yang diperlukan.

Daftar Bebas Tilik Pricing

AI Lip Sync Video Generator

Unggah Face + Audio

Video Kepala Bicara Anda

Tentang SadTalker

Tip untuk Hasil - Hasil Terbaik

Lip Sync Video Plans

Pertanyaan yang Sering Diajukan

Apa alat AI lip sync lakukan?

Format masukan apa yang didukung?

Berapa lama audio bisa?

Berapa biayanya?

Dapatkah saya menggunakan video komersial?

Berapa lama waktu yang dibutuhkan generasi?

Apa perbedaan antara "penuh" dan "masih" preset?

Apa itu GFPGAN enhancer?

Mengapa output saya terlihat resolusi rendah?

Dapatkah saya lip-sync video ke audio baru?

Apa ada API?

Bagaimana jika foto wajah saya memiliki beberapa orang di dalamnya?

Siap untuk memulai?