Zahtjev za greškom / osobinama

AI Lip Sync Video generator

Ubacite sliku lica i audio klip – dobiti razgovor-glava video s realističnom usne sinhronizacije, glavom poziranje, i trepće. Napaja SadTalker (MIT). Komercijalna upotreba OK.

Slobodno se prijavite

Još nemamo TTS glasove na vašem jeziku. Pomozite nam dodati svoje! Prodaj svoj glas

Pošalji lice + zvuk

1000 znakova u sekundi

1. Slika lica ili vožnja video

Dovucite i ispustite datoteku ovdje, ili pregledaj

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Vožnja zvuka

Dovucite i ispustite datoteku ovdje, ili pregledaj

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Način animacije

Veličina izlaza

Povećač lica

GFPGAN (sharper, sporije)

O SadTalkeru

SadTalker (CVPR 2023, Tencent ARC) je model otvorenog izvora razgovor-glava koji animira jednu sliku lica da govori bilo koji zvuk. Za razliku od Wav2Lip varijante, SadTalker također animira i pozu glave, trepće i izraz za prirodniji rezultat.

Šifra i težine su licencirani kraj do kraja — bez Llame, Gemme ili nekomercijalne kičme — tako da su snimci koje stvarate sigurni za komercijalnu upotrebu.

Savjeti za najbolje rezultate

Koristi kvalitetan, dobro osvijetljen portret – oči vidljive, usta zatvorena
Usredsređeno lice, kvadrat ili 4:5 omjer djeluje najbolje
Čisti govor zvuk (bez glazbe) daje čvršće usne sinhronizacija
Omogući GFPGAN za junačke snimke — dvostruko prikazivanje vremena, ali oštri detalj
Koristite i dalje predpostavljanje kada želite stalni avatar snimak

Lip Sync Video planovi

Započnite besplatno, nadogradnja kada trebate više

Slobodno

Ograničenje zvuka od 30 sekundi
256 px izlaz
Samo "još" predefiniranje
Nema pojačavača lica

Najpopularnije

Besplatan korisnički račun

Ograničenje zvuka od 30 sekundi
I "pune" i "još uvijek" predpostavke
256 / 512 px izlaz
GFPGAN pojačavač lica

Slobodno se prijavite

Profesionalno

5-minutno ograničenje zvuka
Prioritet GPU reda
API pristup (multipartni upload)
Webhook povratni poziv
Komercijalna upotreba (dozvola MIT-a)

Nadogradi

Česta pitanja

Ubacite sliku lica i audio klip, a AI generira video tog lica govoreći audio s realističnim pokretima usana, pozom glave i trepće. Izgrađen na SadTalker (CVPR 2023), MIT-licenzirani razgovor-glava model koji animira izraz uz oblik usta.

Ulaz lica može biti JPG ili PNG slika (do 10 MB) ili kratak MP4/WebM vožnja video (koristimo prvi okvir). Vožnja zvuka može biti MP3, WAV, M4A, ili FLAC do 10 MB. Preuzoravamo zvuk na 16 kHz interno.

Besplatni računi: do 30 sekundi po klipu. Plaćanje korisnika: do 5 minuta po zahtjevu. Duži audio znači duže vrijeme prikazivanja i veće troškove karaktera.

Lip sinhronizacija video koristi 1.000 znakova u sekundi generiranog videa. 30-sekundni klip = 30.000 znakova. Trošak se plaća naprijed od vašeg karakter balansa i vraćena automatski ako generacija ne uspije.

Da — SadTalker kod i težine su licencirani MIT kraj do kraja (ne Llama, Gemma, ili nekomercijalna kičma). Snimci koje generirate su vaši za komercijalnu upotrebu. Vi ste odgovorni za pravo na izvornu sliku lica i zvuk koji šaljete.

Oko 30 sekundi za 5-sekundni klip na našem A100 poslužitelju, skaliranje otprilike linearno sa zvučnom dužinom. Omogućavanje GFPGAN pojačavača lica otprilike dvostruko prikazuje vrijeme, ali proizvodi oštrije, kvalitetnije izlazne.

Puna predefinacija (uobičajeno) animira pozu glave, trepće i izražavanje zajedno s usnama, stvarajući više prirodni razgovor-glava video. Još uvijek predefinira zaključavanje glave na mjestu i animira samo usta - korisno kada želite stalni avatar snimak.

GFPGAN je model restauracije lica koji oštri detalje lica nakon usne sinhroniziranog prikazivanja. Očisti artefakte i čini 256-piksela izlaz izgleda bliže do 512. To grubo duplira prikazivanje vremena, ali je vrijedno toga za herojske snimke.

SadTalker prikazuje na 256 px uobičajeno. Prebacite na 512 px veličina za oštriji izlaz (sporiji, viši VRAM) ili omogućite GFPGAN pojačavač da poveća detalje lica. Za najbolje rezultate, upload visoke kvalitete, dobro osvijetljena portret fotografija.

Da. Ubacite MP4 ili WebM kao ulaz za lice i mi ćemo koristiti prvi okvir kao vozački identitet. Za cijeli video re-dubbing (po okviru zamjena usta), pogledajte predstojeći Dubbing Studio video cjevovod.

Da. POST višedijelni zahtjev na /api/v1/lipsync/ s licem i zvučnim poljima, zatim anketa /api/v1/lipsync/result/?uuid= dok status nije "dovršen". Odgovor sadrži URL na nadopunjen MP4. API pristup zahtijeva plaćeni plan.

SadTalker koristi lice-alignment za otkrivanje i usjeda najpoznatije lice. Za najbolje rezultate, upload portret s jednom osobom centriran, oči vidljive, i minimalna okcluzija. Grupne fotografije mogu dovesti do nepredvidljivih rezultata.

5.0/5 (1)

Spreman za početak?

Prijavite se besplatno i dobiti 15.000 znakova. Nije potrebna kreditna kartica.

Slobodno se prijavite Pogledaj cijene

AI Lip Sync Video generator

Pošalji lice + zvuk

Vaš govorno-glavi video

O SadTalkeru

Savjeti za najbolje rezultate

Lip Sync Video planovi

Česta pitanja

Što AI alat za sinhronizaciju usana radi?

Koji su formati ulaza podržani?

Koliko dugo može trajati zvuk?

Koliko košta?

Mogu li koristiti video komercijalno?

Koliko vremena treba generacija?

Koja je razlika između "pune" i "još uvijek" predpostavke?

Što je GFPGAN pojačavač?

Zašto moj izlaz izgleda nisko-rezolucijski?

Mogu li sinhronizirati video za novi zvuk?

Postoji li API?

Što ako moja slika lica ima više ljudi u njoj?

Spreman za početak?