Poročilo o napaki / Zahteva o lastnostih

AI Lip Sync Video Generator

Pošljite fotografijo obraza in zvočni posnetek – dobite pogovorno glavo video z realistično sinhronizacijo ustnic, glavo pozo in miglja. Napajal SadTalker (MIT). Komercialna uporaba OK.

Nimamo še glasov TTS v vašem jeziku. Pomagajte nam dodati svoje! Prodaj svoj glas

Pošlji obraz + zvok

1000 znakov na sekundo

Povlecite in spustite datoteko sem ali brskanje

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Povlecite in spustite datoteko sem ali brskanje

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Obdelava...

Snemanje vašega videa. To običajno traja 30 sekund do 2 minuti.

Vaš govorniški-glavi video

Prenesi

O SadTalkerju

SadTalker (CVPR 2023, Tencent ARC) je odprti zvočni govorniški model, ki animira enolično obrazno sliko, da govori kakršen koli zvok. Za razliko od Wav2Lip različic, SadTalker prav tako animira glavo, trepne in izraz za bolj naravni rezultat.

Koda in uteži so licencirani konec do konca – nobena Llama, Gemma ali nekomercialna hrbtenica – zato so posnetki, ki jih ustvarjate, varni za komercialno uporabo.

Nasveti za najboljše rezultate

  • Uporabite visokokakovostni, dobro osvetljen portret – oči vidne, usta zaprta
  • Usmerjen obraz, kvadratni ali 4:5 razmerje vidika deluje najbolje
  • Čist govor zvok (brez glasbe) prinaša tesnejše usne sinhronizacije
  • Omogoči GFPGAN za junaške posnetke – dvojno izdeluje čas, vendar oštri podrobnosti
  • Uporabi še vedno prednastavitev, če želite stalni avatar snemanje

Videonačrti za sinhronizacijo lipov

Začnite brezplačno, nadgradnja, ko potrebujete več

Prosto
  • 30-sekundna zvočna omejitev
  • Izhod 256 px
  • Samo "doslej" prednastavitev
  • Nobenega okrepitelja obraza
Najbolj priljubljeno
Brezplačni račun
  • 30-sekundna zvočna omejitev
  • Tako "polni" kot "še vedno" nastavitve
  • 256 / 512 px izhod
  • GFPGAN okrepilec obraza
Prosto se prijavite
Prof.
  • 5-minutna zvočna omejitev
  • Prednostna vrstica GPU
  • Dostop API (večstransko nalaganje)
  • Povratni klici za dokončanje spletne strani
  • Trgovska uporaba (dovoljenje MIT)
Nadgradnja

Pogosta vprašanja

Pošljite fotografijo obraza in zvočni posnetek, in AI ustvari video zvoka, ki govori z realističnimi gibi ustnic, pozira glavo in miglje. Vgrajen na SadTalker (CVPR 2023), z MIT-licenziranim pogovornoglavim modelom, ki animira izraz poleg oblike ust.

Vnos obraza je lahko JPG ali PNG slika (do 10 MB) ali kratka vožnja MP4/WebM video (koristimo prvi okvir). Vožnja zvoka je lahko MP3, WAV, M4A ali FLAC do 10 MB. Notranji vzorec zvoka prevzemamo na 16 kHz.

Brezplačni računi: do 30 sekund na posnetek. Plačilo uporabnikov: do 5 minut na zahtevo. Dlje avdio pomeni daljši čas izdelave in višje stroške karakterja.

Lip sinhronizacija video uporablja 1.000 znakov na sekundo generiranega videa. 30-sekundni klip = 30.000 znakov. Strošek je plačan vnaprej od vašega karakternega ravnovesja in povrnjen samodejno, če generacija ne uspe.

Da – SadTalker koda in uteži so MIT licencirani konec do konca (ni Llama, Gemma ali nekomercialna hrbtenica). Posnetki, ki jih ustvarjate, so vaši, da uporabljate komercialno. Odgovorni ste za pravice do slike vira obraza in zvoka, ki ste ga poslali.

Okoli 30 sekund za 5-sekundni posnetek na našem strežniku A100, skaliranje približno linearno z zvočno dolžino. Omogočanje GFPGAN pojačevalca obraza približno podvoji čas, vendar proizvaja ostrejši, višji izhod.

Polna prednastavitev (privzeto) animira glavo pozo, trepne, in izraz skupaj z ustnicami, ustvarjajo bolj naravno govorno glavo video. Še vedno prednastavljivo zaklene glavo na mestu in animira samo usta – koristno, če želite stalni avatar snemanje.

GFPGAN je model restauracije obraza, ki oštri podrobnosti obraza po usni sinhronizaciji. Očisti artefakte in naredi 256 pik izhoda bližje 512. Približno dvojno izdeluje čas, vendar je vredno za junaške strelke.

SadTalker privzeto izdeluje pri 256 px. Preklopite na 512 px velikost za ostrejši izhod (počasnejši, višji VRAM) ali omogočite GFPGAN povečanje obraza podrobnosti. Za najboljše rezultate naložite visokokakovostno, dobro osvetljeno portretno fotografijo.

Da. Naložite MP4 ali WebM kot vhod obraza in bomo uporabili prvi okvir kot vozniško identiteto. Za celoten video ponavljanje (zamenjava ust na okvir), glej prihajajoč Dubbing Studio video cevovod.

Da. POST večdelni zahtevek za /api/v1/lipsync/ z obrazom in zvočnimi polji, nato anketa /api/v1/lipsync/result/?uuid= dokler status ni "dopolnjen". Odgovor vsebuje URL do prevedene MP4. API dostop zahteva plačan načrt.

SadTalker uporablja face-alignment za odkrivanje in pridelovanje najpomembnejšega obraza. Za najboljše rezultate, naložite portret z eno osebo središče, oči vidne, in minimalno okclusion. Skupinske fotografije lahko povzročijo nepredvidljive rezultate.
5.0/5 (1)

Kaj bi lahko izboljšali? Vaša povratna informacija nam pomaga rešiti vprašanja.

Pripravljeni za začetek?

Vpišite se brezplačno in dobite 15.000 znakov.