Poročilo o napaki / Zahteva o lastnostih

AI Lip Sync Video Generator

Pošljite fotografijo obraza in zvočni posnetek – dobite pogovorno glavo video z realistično sinhronizacijo ustnic, glavo pozo in miglja. Napajal SadTalker (MIT). Komercialna uporaba OK.

Prosto se prijavite

Nimamo še glasov TTS v vašem jeziku. Pomagajte nam dodati svoje! Prodaj svoj glas

Pošlji obraz + zvok

1000 znakov na sekundo

1. Slika obraza ali vožnja video

Povlecite in spustite datoteko sem ali brskanje

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Vožnja zvoka

Povlecite in spustite datoteko sem ali brskanje

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Predpostavka animacije

Velikost izhoda

Povečevalnik obraza

GFPGAN (sharper, počasnejša)

O SadTalkerju

SadTalker (CVPR 2023, Tencent ARC) je odprti zvočni govorniški model, ki animira enolično obrazno sliko, da govori kakršen koli zvok. Za razliko od Wav2Lip različic, SadTalker prav tako animira glavo, trepne in izraz za bolj naravni rezultat.

Koda in uteži so licencirani konec do konca – nobena Llama, Gemma ali nekomercialna hrbtenica – zato so posnetki, ki jih ustvarjate, varni za komercialno uporabo.

Nasveti za najboljše rezultate

Uporabite visokokakovostni, dobro osvetljen portret – oči vidne, usta zaprta
Usmerjen obraz, kvadratni ali 4:5 razmerje vidika deluje najbolje
Čist govor zvok (brez glasbe) prinaša tesnejše usne sinhronizacije
Omogoči GFPGAN za junaške posnetke – dvojno izdeluje čas, vendar oštri podrobnosti
Uporabi še vedno prednastavitev, če želite stalni avatar snemanje

Videonačrti za sinhronizacijo lipov

Začnite brezplačno, nadgradnja, ko potrebujete več

Prosto

30-sekundna zvočna omejitev
Izhod 256 px
Samo "doslej" prednastavitev
Nobenega okrepitelja obraza

Najbolj priljubljeno

Brezplačni račun

30-sekundna zvočna omejitev
Tako "polni" kot "še vedno" nastavitve
256 / 512 px izhod
GFPGAN okrepilec obraza

Prosto se prijavite

Prof.

5-minutna zvočna omejitev
Prednostna vrstica GPU
Dostop API (večstransko nalaganje)
Povratni klici za dokončanje spletne strani
Trgovska uporaba (dovoljenje MIT)

Nadgradnja

Pogosta vprašanja

Pošljite fotografijo obraza in zvočni posnetek, in AI ustvari video zvoka, ki govori z realističnimi gibi ustnic, pozira glavo in miglje. Vgrajen na SadTalker (CVPR 2023), z MIT-licenziranim pogovornoglavim modelom, ki animira izraz poleg oblike ust.

Vnos obraza je lahko JPG ali PNG slika (do 10 MB) ali kratka vožnja MP4/WebM video (koristimo prvi okvir). Vožnja zvoka je lahko MP3, WAV, M4A ali FLAC do 10 MB. Notranji vzorec zvoka prevzemamo na 16 kHz.

Brezplačni računi: do 30 sekund na posnetek. Plačilo uporabnikov: do 5 minut na zahtevo. Dlje avdio pomeni daljši čas izdelave in višje stroške karakterja.

Lip sinhronizacija video uporablja 1.000 znakov na sekundo generiranega videa. 30-sekundni klip = 30.000 znakov. Strošek je plačan vnaprej od vašega karakternega ravnovesja in povrnjen samodejno, če generacija ne uspe.

Da – SadTalker koda in uteži so MIT licencirani konec do konca (ni Llama, Gemma ali nekomercialna hrbtenica). Posnetki, ki jih ustvarjate, so vaši, da uporabljate komercialno. Odgovorni ste za pravice do slike vira obraza in zvoka, ki ste ga poslali.

Okoli 30 sekund za 5-sekundni posnetek na našem strežniku A100, skaliranje približno linearno z zvočno dolžino. Omogočanje GFPGAN pojačevalca obraza približno podvoji čas, vendar proizvaja ostrejši, višji izhod.

Polna prednastavitev (privzeto) animira glavo pozo, trepne, in izraz skupaj z ustnicami, ustvarjajo bolj naravno govorno glavo video. Še vedno prednastavljivo zaklene glavo na mestu in animira samo usta – koristno, če želite stalni avatar snemanje.

GFPGAN je model restauracije obraza, ki oštri podrobnosti obraza po usni sinhronizaciji. Očisti artefakte in naredi 256 pik izhoda bližje 512. Približno dvojno izdeluje čas, vendar je vredno za junaške strelke.

SadTalker privzeto izdeluje pri 256 px. Preklopite na 512 px velikost za ostrejši izhod (počasnejši, višji VRAM) ali omogočite GFPGAN povečanje obraza podrobnosti. Za najboljše rezultate naložite visokokakovostno, dobro osvetljeno portretno fotografijo.

Da. Naložite MP4 ali WebM kot vhod obraza in bomo uporabili prvi okvir kot vozniško identiteto. Za celoten video ponavljanje (zamenjava ust na okvir), glej prihajajoč Dubbing Studio video cevovod.

Da. POST večdelni zahtevek za /api/v1/lipsync/ z obrazom in zvočnimi polji, nato anketa /api/v1/lipsync/result/?uuid= dokler status ni "dopolnjen". Odgovor vsebuje URL do prevedene MP4. API dostop zahteva plačan načrt.

SadTalker uporablja face-alignment za odkrivanje in pridelovanje najpomembnejšega obraza. Za najboljše rezultate, naložite portret z eno osebo središče, oči vidne, in minimalno okclusion. Skupinske fotografije lahko povzročijo nepredvidljive rezultate.

5.0/5 (1)

Pripravljeni za začetek?

Vpišite se brezplačno in dobite 15.000 znakov.

Prosto se prijavite Prikaži ceno

AI Lip Sync Video Generator

Pošlji obraz + zvok

Vaš govorniški-glavi video

O SadTalkerju

Nasveti za najboljše rezultate

Videonačrti za sinhronizacijo lipov

Pogosta vprašanja

Kaj naredi AI orodje za sinhronizacijo ustnic?

Kateri vhodni formati so podprti?

Kako dolgo lahko traja zvok?

Koliko stane?

Lahko uporabim videoposnetke komercialno?

Koliko časa traja generacija?

Kakšna je razlika med "polnim" in "še vedno" nastavitvijo?

Kaj je GFPGAN pojačevalec?

Zakaj je moj izhod videti nizko ločljivost?

Lahko posnamem posnetek novega zvoka?

Ali obstaja API?

Kaj, če ima moja fotografija več ljudi v njej?

Pripravljeni za začetek?