Lapor Pepijat / Permintaan Ciri

Penjana Video Segerakkan Lidah AI

Muat naik foto muka dan klip audio — dapatkan video kepala bercakap dengan penyegerakan bibir realistik, pose kepala, dan berkelip. Dikuasakan oleh SadTalker (MIT). Penggunaan komersial OK.

Daftar Masuk

Kami belum mempunyai suara TTS dalam bahasa anda. Bantu kami tambahkan suara anda! Jual Suara Anda

Muat naik Face + Audio

1,000 aksara per saat

1. Imej Wajah atau Video Memandu

Seret dan lepaskan fail anda di sini, atau layari

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Memandu Audio

Seret dan lepaskan fail anda di sini, atau layari

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Praset Animasi

Saiz Output

Peningkatan Wajah

GFPGAN (lebih tajam, lebih perlahan)

Perihal SadTalker

SadTalker (CVPR 2023, Tencent ARC) adalah model kepala bercakap sumber terbuka yang menganimisasikan imej wajah tunggal untuk bercakap sebarang audio. Tidak seperti varian Wav2Lip, SadTalker juga menganimisasikan pose kepala, berkelip, dan ekspresi untuk hasil yang lebih semulajadi.

Kod dan berat adalah MIT-dilesenkan hujung ke hujung — tiada Llama, Gemma, atau tulang belakang bukan komersial — jadi video yang anda cipta adalah selamat untuk penggunaan komersial.

Panduan untuk Hasil Terbaik

Gunakan potret berkualiti tinggi, terang - mata kelihatan, mulut tertutup
Muka di tengah, persegi atau nisbah aspek 4:5 berfungsi dengan baik
Audio percakapan bersih (tiada muzik) menghasilkan penyegerakan bibir yang lebih ketat
Hidupkan GFPGAN untuk tembak hero - gandakan masa render tetapi pertingkatkan perincian
Guna praset Tetap bila anda mahukan gambar avatar yang stabil

Rencana Video Lip Sync

Mulakan percuma, naik taraf bila anda perlukan lebih

Bebas

Had audio 30 saat
Output 256 px
"Still" praset sahaja
Tiada penambah muka

Paling Popular

Akaun Bebas

Had audio 30 saat
Praset "penuh" dan "tak bergerak"
256 / 512 px output
Peningkat muka GFPGAN

Daftar Masuk

Pro

Had audio 5 minit
Baris gilir GPU keutamaan
Capaian API (muat naik berbilang bahagian)
Panggilan balik penyelesaian Webhook
Penggunaan komersial (lesen MIT)

Naik taraf

Soalan Lazim

Muat naik foto muka dan klip audio, dan AI menghasilkan video wajah itu bercakap audio dengan pergerakan bibir realistik, pose kepala, dan berkelip. Dibina pada SadTalker (CVPR 2023), model kepala bercakap berlesen MIT yang menganimisasikan ekspresi selain bentuk mulut.

Input wajah boleh menjadi imej JPG atau PNG (sehingga 10 MB) atau video MP4/WebM pendek (kami gunakan bingkai pertama). Audio boleh menjadi MP3, WAV, M4A, atau FLAC sehingga 10 MB. Kami sampel semula audio ke 16 kHz secara dalaman.

Akaun percuma: sehingga 30 saat setiap klip. Pengguna berbayar: sehingga 5 minit setiap permintaan. Audio lebih panjang bermakna masa render lebih lama dan kos aksara lebih tinggi.

Video penyegerakan bibir menggunakan 1,000 aksara per saat video yang dijana. Klip 30 saat = 30,000 aksara. Kos dicaj dari imbangan aksara anda dan dikembalikan secara automatik jika penjanaan gagal.

Ya — Kod dan berat SadTalker adalah dilesenkan MIT dari hujung ke hujung (tiada Llama, Gemma, atau tulang belakang bukan komersial). Video yang anda cipta adalah milik anda untuk digunakan secara komersial. Anda bertanggungjawab untuk mempunyai hak untuk imej wajah sumber dan audio yang anda muat naik.

Kira-kira 30 saat untuk klip 5 saat pada pelayan A100 kami, menyesuaikan secara linear dengan panjang audio. Mengaktifkan penambah muka GFPGAN kira-kira gandakan masa render tetapi menghasilkan output yang lebih tajam, kualiti yang lebih tinggi.

Praset penuh (piawai) menganimasikan pose kepala, berkelip, dan ekspresi bersama dengan bibir, menghasilkan video kepala bercakap yang lebih semulajadi. Praset tetap mengunci kepala di tempat dan menganimasikan hanya mulut - berguna bila anda mahukan tangkapan avatar yang stabil.

GFPGAN adalah model pemulihan wajah yang memperjelaskan perincian muka selepas render bibir-segerakkan. Ia membersihkan artefak dan membuatkan output 256-piksel kelihatan lebih dekat dengan 512. Ia kira-kira melipatgandakan masa render tetapi berbaloi untuk tembak hero.

SadTalker mengembalikan pada 256 px secara lalai. Tukar ke saiz 512 px untuk output yang lebih tajam (VRAM yang lebih perlahan, lebih tinggi) atau benarkan penambah GFPGAN untuk skala naik perincian muka. Untuk hasil terbaik, muat naik foto potret berkualiti tinggi, terang.

Ya. Muat naik MP4 atau WebM sebagai input muka dan kami akan menggunakan bingkai pertama sebagai identiti pemandu. Untuk penyuntingan semula video penuh (penggantian mulut per-bingkai), lihat paip video Studio penyuntingan yang akan datang.

Ya. POST permintaan berbilang bahagian ke /api/v1/lipsync/ dengan medan wajah dan audio, kemudian poll /api/v1/lipsync/result/?uuid= sehingga status adalah "selesai". Balasan mengandungi URL ke MP4 yang dirender. Akses API memerlukan rancangan berbayar.

SadTalker menggunakan jajaran muka untuk mengesan dan memotong muka yang paling ketara. Untuk hasil terbaik, muat naik potret dengan satu orang di tengah, mata kelihatan, dan oklusi minimum. Foto kumpulan mungkin menghasilkan hasil yang tidak dapat diramal.

5.0/5 (1)

Sedia untuk mula?

Daftar percuma dan dapatkan 15,000 aksara. Tiada kad kredit diperlukan.

Daftar Masuk Lihat Harga

Penjana Video Segerakkan Lidah AI

Muat naik Face + Audio

Video Talking-Head anda

Perihal SadTalker

Panduan untuk Hasil Terbaik

Rencana Video Lip Sync

Soalan Lazim

Apa yang alat sinc bibir AI lakukan?

Format input apa yang disokong?

Berapa lama audio boleh?

Berapakah harganya?

Boleh saya gunakan video untuk tujuan komersial?

Berapa lama masa yang diperlukan untuk menghasilkan?

Apakah perbezaan antara praset "penuh" dan "tetap"?

Apa itu penguat GFPGAN?

Kenapa output saya kelihatan resolusi rendah?

Bolehkah saya selaraskan video ke audio baru?

Ada API?

Bagaimana jika foto muka saya mempunyai beberapa orang dalamnya?

Sedia untuk mula?