Prijavi grešku / Zahtjev za značajkom

AI Lip Sync Video Generator

Učitaj fotografiju lica i audio isječak - dobij video-glavu koja priča sa realističnom sinkronizacijom usana, pozama glave i treperenjem. Pokrenuo SadTalker (MIT). Komercijalna upotreba OK.

Još nemamo TTS glasove na vašem jeziku. Pomozite nam da dodamo vaše! Prodaj svoj glas

_Učitaj

1000 znakova u sekundi

Povuci i ispusti datoteku ovdje, ili pregledaj

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

datoteka.mp3

0 MB

Povuci i ispusti datoteku ovdje, ili pregledaj

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

datoteka.mp3

0 MB

Obrađujem...

Renderiranje videa. Ovo obično traje 30 sekundi do 2 minute.

Vaš Talking-Head video

Preuzmi

O SadTalkeru

SadTalker (CVPR 2023, Tencent ARC) je model govorne glave otvorenog koda koji animira jednu sliku lica da bi izgovorio bilo koji zvuk.Za razliku od Wav2Lip varijanti, SadTalker također animira pozu glave, trepće i izraz za prirodniji rezultat.

Kod i težine su MIT-licencirani od kraja do kraja - nema Llama, Gemma ili nekomercijalne okosnice - tako da su videozapisi koje generirate sigurni za komercijalnu upotrebu.

Savjeti za najbolje rezultate

  • Koristite visokokvalitetan, dobro osvijetljen portret - oči su vidljive, usta zatvorena
  • Centrirano lice, kvadrat ili omjer 4:5 najbolje funkcionira
  • Čisti zvuk govora (bez muzike) daje čvršću sinkronizaciju usana
  • Omogući GFPGAN za snimke heroja — udvostručuje vrijeme renderiranja ali izoštrava detalje
  • Koristite prednastavu za mirno kad želite mirno snimanje avatara

Lip Sync Video Plans

Počnite besplatno, nadogradite kada vam treba više

Slobodan
  • 30-sekundino audio ograničenje
  • Izlaz
  • Samo "Still" unaprijed postavljen
  • Nema pojačavanja lica
Najpopularnije
Slobodan račun
  • 30-sekundino audio ograničenje
  • I "full" i "still" unaprijed postavke
  • Izlaz
  • GFPGAN poboljšavač lica
Prijavite se besplatno
Pro
  • 5-minutno audio ograničenje
  • Prioritet GPU reda
  • API pristup (višedijelni upload)
  • Povratni poziv za dovršavanje webhooka
  • Komercijalna upotreba (MIT licenca)
Nadogradi

Često postavljana pitanja

Učitaj fotografiju lica i audio isječak, i AI generira video tog lica koje govori audio sa realističnim pokretima usana, pozama glave i trepće. Izgrađeno na SadTalker (CVPR 2023), MIT-licenciranom modelu govorne glave koji animira izraz uz oblik usta.

Ulaz lica može biti JPG ili PNG slika (do 10 MB) ili kratak MP4/WebM video vozača (koristimo prvi okvir). Vozački zvuk može biti MP3, WAV, M4A, ili FLAC do 10 MB. Interno ponovno uzorkujemo zvuk na 16 kHz.

Besplatni računi: do 30 sekundi po isječku. Korisnici koji plaćaju: do 5 minuta po zahtjevu. Duži audio znači dulje vrijeme renderiranja i veću cijenu karaktera.

Sinkronizacija usana koristi 1000 znakova u sekundi generiranog videa. 30-sekundini isječak = 30.000 znakova. Trošak se naplaćuje unaprijed iz vašeg stanja znakova i automatski se vraća ako generiranje ne uspije.

Da — SadTalker kod i težine su MIT licencirani od kraja do kraja (nema Llama, Gemma, ili nekomercijalne okosnice). Videozapisi koje generirate su vaši za komercijalnu upotrebu. Vi ste odgovorni za prava na izvornu sliku lica i zvuk koji prenosite.

Oko 30 sekundi za 5 sekundni isječak na našem A100 serveru, skalirajući se otprilike linearno sa audio dužinom. Omogućavajući GFPGAN pojačivač lica otprilike udvostručuje vrijeme renderiranja ali proizvodi oštriji, kvalitetniji izlaz.

Potpuna unaprijed postavljena (uobičajena) animacija pomjeranja glave, treperenja i izraza lica zajedno s usnama, stvarajući prirodniji video s govorećim glavama. Nepomična unaprijed postavljena animacija zaključava glavu na mjestu i animira samo usta - korisno kada želite stabilan snimak avatara.

GFPGAN je model za obnavljanje lica koji izoštrava detalje lica nakon renderiranja sa sinkronizacijom usana. Čisti artefakte i čini da izlaz od 256 piksela izgleda bliže 512. Otprilike udvostručuje vrijeme renderiranja, ali vrijedi za snimke junaka.

SadTalker po zadanim postavkama renderuje na 256 px. Prebacite na 512 px za oštriji izlaz (sporiji, veći VRAM) ili omogućite GFPGAN pojačavač za povećanje detalja lica. Za najbolje rezultate, pošaljite visokokvalitetnu, dobro osvijetljenu portretnu fotografiju.

Da. Učitaj MP4 ili WebM kao ulaz lica i mi ćemo koristiti prvi okvir kao vozački identitet. Za potpuno ponovno sinkroniziranje videa (zamjena usta po kadru), pogledajte nadolazeći video kanal Dubbing Studio.

Da. POST-i višedijelni zahtjev na /api/v1/lipsync/ sa poljima lica i zvuka, zatim upiši /api/v1/lipsync/result/?uuid= dok status ne bude "dovršen". Odgovor sadrži URL do prikazanog MP4-a. API pristup zahtijeva plaćeni plan.

SadTalker koristi poravnavanje lica da otkrije i izreže najistaknutije lice. Za najbolje rezultate, pošaljite portret sa jednom osobom u centru, vidljivim očima i minimalnom okluzijom. Grupne fotografije mogu proizvesti nepredvidljive rezultate.
5.0/5 (1)

Šta možemo da poboljšamo? Vaše povratne informacije nam pomažu da riješimo probleme.

Spreman za početak?

Prijavite se besplatno i dobijte 15.000 znakova, bez kreditne kartice.