Lapor Pepijat / Permintaan Ciri

Penjana Video Segerakkan Lidah AI

Muat naik foto muka dan klip audio — dapatkan video kepala bercakap dengan penyegerakan bibir realistik, pose kepala, dan berkelip. Dikuasakan oleh SadTalker (MIT). Penggunaan komersial OK.

Kami belum mempunyai suara TTS dalam bahasa anda. Bantu kami tambahkan suara anda! Jual Suara Anda

Muat naik Face + Audio

1,000 aksara per saat

Seret dan lepaskan fail anda di sini, atau layari

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

fail.mp3

0 MB

Seret dan lepaskan fail anda di sini, atau layari

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

fail.mp3

0 MB

Memproses...

Menyalin video anda. Ini biasanya mengambil masa 30 saat hingga 2 minit.

Video Talking-Head anda

Perihal SadTalker

SadTalker (CVPR 2023, Tencent ARC) adalah model kepala bercakap sumber terbuka yang menganimisasikan imej wajah tunggal untuk bercakap sebarang audio. Tidak seperti varian Wav2Lip, SadTalker juga menganimisasikan pose kepala, berkelip, dan ekspresi untuk hasil yang lebih semulajadi.

Kod dan berat adalah MIT-dilesenkan hujung ke hujung — tiada Llama, Gemma, atau tulang belakang bukan komersial — jadi video yang anda cipta adalah selamat untuk penggunaan komersial.

Panduan untuk Hasil Terbaik

  • Gunakan potret berkualiti tinggi, terang - mata kelihatan, mulut tertutup
  • Muka di tengah, persegi atau nisbah aspek 4:5 berfungsi dengan baik
  • Audio percakapan bersih (tiada muzik) menghasilkan penyegerakan bibir yang lebih ketat
  • Hidupkan GFPGAN untuk tembak hero - gandakan masa render tetapi pertingkatkan perincian
  • Guna praset Tetap bila anda mahukan gambar avatar yang stabil

Rencana Video Lip Sync

Mulakan percuma, naik taraf bila anda perlukan lebih

Bebas
  • Had audio 30 saat
  • Output 256 px
  • "Still" praset sahaja
  • Tiada penambah muka
Paling Popular
Akaun Bebas
  • Had audio 30 saat
  • Praset "penuh" dan "tak bergerak"
  • 256 / 512 px output
  • Peningkat muka GFPGAN
Daftar Masuk
Pro
  • Had audio 5 minit
  • Baris gilir GPU keutamaan
  • Capaian API (muat naik berbilang bahagian)
  • Panggilan balik penyelesaian Webhook
  • Penggunaan komersial (lesen MIT)
Naik taraf

Soalan Lazim

Muat naik foto muka dan klip audio, dan AI menghasilkan video wajah itu bercakap audio dengan pergerakan bibir realistik, pose kepala, dan berkelip. Dibina pada SadTalker (CVPR 2023), model kepala bercakap berlesen MIT yang menganimisasikan ekspresi selain bentuk mulut.

Input wajah boleh menjadi imej JPG atau PNG (sehingga 10 MB) atau video MP4/WebM pendek (kami gunakan bingkai pertama). Audio boleh menjadi MP3, WAV, M4A, atau FLAC sehingga 10 MB. Kami sampel semula audio ke 16 kHz secara dalaman.

Akaun percuma: sehingga 30 saat setiap klip. Pengguna berbayar: sehingga 5 minit setiap permintaan. Audio lebih panjang bermakna masa render lebih lama dan kos aksara lebih tinggi.

Video penyegerakan bibir menggunakan 1,000 aksara per saat video yang dijana. Klip 30 saat = 30,000 aksara. Kos dicaj dari imbangan aksara anda dan dikembalikan secara automatik jika penjanaan gagal.

Ya — Kod dan berat SadTalker adalah dilesenkan MIT dari hujung ke hujung (tiada Llama, Gemma, atau tulang belakang bukan komersial). Video yang anda cipta adalah milik anda untuk digunakan secara komersial. Anda bertanggungjawab untuk mempunyai hak untuk imej wajah sumber dan audio yang anda muat naik.

Kira-kira 30 saat untuk klip 5 saat pada pelayan A100 kami, menyesuaikan secara linear dengan panjang audio. Mengaktifkan penambah muka GFPGAN kira-kira gandakan masa render tetapi menghasilkan output yang lebih tajam, kualiti yang lebih tinggi.

Praset penuh (piawai) menganimasikan pose kepala, berkelip, dan ekspresi bersama dengan bibir, menghasilkan video kepala bercakap yang lebih semulajadi. Praset tetap mengunci kepala di tempat dan menganimasikan hanya mulut - berguna bila anda mahukan tangkapan avatar yang stabil.

GFPGAN adalah model pemulihan wajah yang memperjelaskan perincian muka selepas render bibir-segerakkan. Ia membersihkan artefak dan membuatkan output 256-piksel kelihatan lebih dekat dengan 512. Ia kira-kira melipatgandakan masa render tetapi berbaloi untuk tembak hero.

SadTalker mengembalikan pada 256 px secara lalai. Tukar ke saiz 512 px untuk output yang lebih tajam (VRAM yang lebih perlahan, lebih tinggi) atau benarkan penambah GFPGAN untuk skala naik perincian muka. Untuk hasil terbaik, muat naik foto potret berkualiti tinggi, terang.

Ya. Muat naik MP4 atau WebM sebagai input muka dan kami akan menggunakan bingkai pertama sebagai identiti pemandu. Untuk penyuntingan semula video penuh (penggantian mulut per-bingkai), lihat paip video Studio penyuntingan yang akan datang.

Ya. POST permintaan berbilang bahagian ke /api/v1/lipsync/ dengan medan wajah dan audio, kemudian poll /api/v1/lipsync/result/?uuid= sehingga status adalah "selesai". Balasan mengandungi URL ke MP4 yang dirender. Akses API memerlukan rancangan berbayar.

SadTalker menggunakan jajaran muka untuk mengesan dan memotong muka yang paling ketara. Untuk hasil terbaik, muat naik potret dengan satu orang di tengah, mata kelihatan, dan oklusi minimum. Foto kumpulan mungkin menghasilkan hasil yang tidak dapat diramal.
5.0/5 (1)

Apa yang boleh kami perbaiki?

Sedia untuk mula?

Daftar percuma dan dapatkan 15,000 aksara. Tiada kad kredit diperlukan.