Zahtjev za greškom / osobinama

AI Lip Sync Video generator

Ubacite sliku lica i audio klip – dobiti razgovor-glava video s realističnom usne sinhronizacije, glavom poziranje, i trepće. Napaja SadTalker (MIT). Komercijalna upotreba OK.

Još nemamo TTS glasove na vašem jeziku. Pomozite nam dodati svoje! Prodaj svoj glas

Pošalji lice + zvuk

1000 znakova u sekundi

Dovucite i ispustite datoteku ovdje, ili pregledaj

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

datoteka. mp3

0 MB

Dovucite i ispustite datoteku ovdje, ili pregledaj

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

datoteka. mp3

0 MB

Obrada...

Snimanje vašeg videa. To obično traje 30 sekundi do 2 minute.

Vaš govorno-glavi video

Preuzmi

O SadTalkeru

SadTalker (CVPR 2023, Tencent ARC) je model otvorenog izvora razgovor-glava koji animira jednu sliku lica da govori bilo koji zvuk. Za razliku od Wav2Lip varijante, SadTalker također animira i pozu glave, trepće i izraz za prirodniji rezultat.

Šifra i težine su licencirani kraj do kraja — bez Llame, Gemme ili nekomercijalne kičme — tako da su snimci koje stvarate sigurni za komercijalnu upotrebu.

Savjeti za najbolje rezultate

  • Koristi kvalitetan, dobro osvijetljen portret – oči vidljive, usta zatvorena
  • Usredsređeno lice, kvadrat ili 4:5 omjer djeluje najbolje
  • Čisti govor zvuk (bez glazbe) daje čvršće usne sinhronizacija
  • Omogući GFPGAN za junačke snimke — dvostruko prikazivanje vremena, ali oštri detalj
  • Koristite i dalje predpostavljanje kada želite stalni avatar snimak

Lip Sync Video planovi

Započnite besplatno, nadogradnja kada trebate više

Slobodno
  • Ograničenje zvuka od 30 sekundi
  • 256 px izlaz
  • Samo "još" predefiniranje
  • Nema pojačavača lica
Najpopularnije
Besplatan korisnički račun
  • Ograničenje zvuka od 30 sekundi
  • I "pune" i "još uvijek" predpostavke
  • 256 / 512 px izlaz
  • GFPGAN pojačavač lica
Slobodno se prijavite
Profesionalno
  • 5-minutno ograničenje zvuka
  • Prioritet GPU reda
  • API pristup (multipartni upload)
  • Webhook povratni poziv
  • Komercijalna upotreba (dozvola MIT-a)
Nadogradi

Česta pitanja

Ubacite sliku lica i audio klip, a AI generira video tog lica govoreći audio s realističnim pokretima usana, pozom glave i trepće. Izgrađen na SadTalker (CVPR 2023), MIT-licenzirani razgovor-glava model koji animira izraz uz oblik usta.

Ulaz lica može biti JPG ili PNG slika (do 10 MB) ili kratak MP4/WebM vožnja video (koristimo prvi okvir). Vožnja zvuka može biti MP3, WAV, M4A, ili FLAC do 10 MB. Preuzoravamo zvuk na 16 kHz interno.

Besplatni računi: do 30 sekundi po klipu. Plaćanje korisnika: do 5 minuta po zahtjevu. Duži audio znači duže vrijeme prikazivanja i veće troškove karaktera.

Lip sinhronizacija video koristi 1.000 znakova u sekundi generiranog videa. 30-sekundni klip = 30.000 znakova. Trošak se plaća naprijed od vašeg karakter balansa i vraćena automatski ako generacija ne uspije.

Da — SadTalker kod i težine su licencirani MIT kraj do kraja (ne Llama, Gemma, ili nekomercijalna kičma). Snimci koje generirate su vaši za komercijalnu upotrebu. Vi ste odgovorni za pravo na izvornu sliku lica i zvuk koji šaljete.

Oko 30 sekundi za 5-sekundni klip na našem A100 poslužitelju, skaliranje otprilike linearno sa zvučnom dužinom. Omogućavanje GFPGAN pojačavača lica otprilike dvostruko prikazuje vrijeme, ali proizvodi oštrije, kvalitetnije izlazne.

Puna predefinacija (uobičajeno) animira pozu glave, trepće i izražavanje zajedno s usnama, stvarajući više prirodni razgovor-glava video. Još uvijek predefinira zaključavanje glave na mjestu i animira samo usta - korisno kada želite stalni avatar snimak.

GFPGAN je model restauracije lica koji oštri detalje lica nakon usne sinhroniziranog prikazivanja. Očisti artefakte i čini 256-piksela izlaz izgleda bliže do 512. To grubo duplira prikazivanje vremena, ali je vrijedno toga za herojske snimke.

SadTalker prikazuje na 256 px uobičajeno. Prebacite na 512 px veličina za oštriji izlaz (sporiji, viši VRAM) ili omogućite GFPGAN pojačavač da poveća detalje lica. Za najbolje rezultate, upload visoke kvalitete, dobro osvijetljena portret fotografija.

Da. Ubacite MP4 ili WebM kao ulaz za lice i mi ćemo koristiti prvi okvir kao vozački identitet. Za cijeli video re-dubbing (po okviru zamjena usta), pogledajte predstojeći Dubbing Studio video cjevovod.

Da. POST višedijelni zahtjev na /api/v1/lipsync/ s licem i zvučnim poljima, zatim anketa /api/v1/lipsync/result/?uuid= dok status nije "dovršen". Odgovor sadrži URL na nadopunjen MP4. API pristup zahtijeva plaćeni plan.

SadTalker koristi lice-alignment za otkrivanje i usjeda najpoznatije lice. Za najbolje rezultate, upload portret s jednom osobom centriran, oči vidljive, i minimalna okcluzija. Grupne fotografije mogu dovesti do nepredvidljivih rezultata.
5.0/5 (1)

Što možemo poboljšati? Vaša povratna informacija nam pomaže riješiti probleme.

Spreman za početak?

Prijavite se besplatno i dobiti 15.000 znakova. Nije potrebna kreditna kartica.