Prijavi grešku / Zahtjev za značajkom

AI Lip Sync Video Generator

Učitaj fotografiju lica i audio isječak - dobij video-glavu koja priča sa realističnom sinkronizacijom usana, pozama glave i treperenjem. Pokrenuo SadTalker (MIT). Komercijalna upotreba OK.

Prijavite se besplatno

Još nemamo TTS glasove na vašem jeziku. Pomozite nam da dodamo vaše! Prodaj svoj glas

_Učitaj

1000 znakova u sekundi

1. Slika lica ili videozapis vožnje

Povucispusti datoteku ovdje, ili pregledaj

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Vozeći zvuk

Povucispusti datoteku ovdje, ili pregledaj

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Animacija

Veličina izlaza

Poboljšavač lica

GFPGAN (oštrije, sporije)

O SadTalkeru

SadTalker (CVPR 2023, Tencent ARC) je model govorne glave otvorenog koda koji animira jednu sliku lica da bi izgovorio bilo koji zvuk.Za razliku od Wav2Lip varijanti, SadTalker također animira pozu glave, trepće i izraz za prirodniji rezultat.

Kod i težine su MIT-licencirani od kraja do kraja - nema Llama, Gemma ili nekomercijalne okosnice - tako da su videozapisi koje generirate sigurni za komercijalnu upotrebu.

Savjeti za najbolje rezultate

Koristite visokokvalitetan, dobro osvijetljen portret - oči su vidljive, usta zatvorena
Centrirano lice, kvadrat ili omjer 4:5 najbolje funkcionira
Čisti zvuk govora (bez muzike) daje čvršću sinkronizaciju usana
Omogući GFPGAN za snimke heroja — udvostručuje vrijeme renderiranja ali izoštrava detalje
Koristite prednastavu za mirno kad želite mirno snimanje avatara

Lip Sync Video Plans

Počnite besplatno, nadogradite kada vam treba više

Slobodan

30-sekundino audio ograničenje
Izlaz
Samo "Still" unaprijed postavljen
Nema pojačavanja lica

Najpopularnije

Slobodan račun

30-sekundino audio ograničenje
I "full" i "still" unaprijed postavke
Izlaz
GFPGAN poboljšavač lica

Prijavite se besplatno

Pro

5-minutno audio ograničenje
Prioritet GPU reda
API pristup (višedijelni upload)
Povratni poziv za dovršavanje webhooka
Komercijalna upotreba (MIT licenca)

Nadogradi

Često postavljana pitanja

Učitaj fotografiju lica i audio isječak, i AI generira video tog lica koje govori audio sa realističnim pokretima usana, pozama glave i trepće. Izgrađeno na SadTalker (CVPR 2023), MIT-licenciranom modelu govorne glave koji animira izraz uz oblik usta.

Ulaz lica može biti JPG ili PNG slika (do 10 MB) ili kratak MP4/WebM video vozača (koristimo prvi okvir). Vozački zvuk može biti MP3, WAV, M4A, ili FLAC do 10 MB. Interno ponovno uzorkujemo zvuk na 16 kHz.

Besplatni računi: do 30 sekundi po isječku. Korisnici koji plaćaju: do 5 minuta po zahtjevu. Duži audio znači dulje vrijeme renderiranja i veću cijenu karaktera.

Sinkronizacija usana koristi 1000 znakova u sekundi generiranog videa. 30-sekundini isječak = 30.000 znakova. Trošak se naplaćuje unaprijed iz vašeg stanja znakova i automatski se vraća ako generiranje ne uspije.

Da — SadTalker kod i težine su MIT licencirani od kraja do kraja (nema Llama, Gemma, ili nekomercijalne okosnice). Videozapisi koje generirate su vaši za komercijalnu upotrebu. Vi ste odgovorni za prava na izvornu sliku lica i zvuk koji prenosite.

Oko 30 sekundi za 5 sekundni isječak na našem A100 serveru, skalirajući se otprilike linearno sa audio dužinom. Omogućavajući GFPGAN pojačivač lica otprilike udvostručuje vrijeme renderiranja ali proizvodi oštriji, kvalitetniji izlaz.

Potpuna unaprijed postavljena (uobičajena) animacija pomjeranja glave, treperenja i izraza lica zajedno s usnama, stvarajući prirodniji video s govorećim glavama. Nepomična unaprijed postavljena animacija zaključava glavu na mjestu i animira samo usta - korisno kada želite stabilan snimak avatara.

GFPGAN je model za obnavljanje lica koji izoštrava detalje lica nakon renderiranja sa sinkronizacijom usana. Čisti artefakte i čini da izlaz od 256 piksela izgleda bliže 512. Otprilike udvostručuje vrijeme renderiranja, ali vrijedi za snimke junaka.

SadTalker po zadanim postavkama renderuje na 256 px. Prebacite na 512 px za oštriji izlaz (sporiji, veći VRAM) ili omogućite GFPGAN pojačavač za povećanje detalja lica. Za najbolje rezultate, pošaljite visokokvalitetnu, dobro osvijetljenu portretnu fotografiju.

Da. Učitaj MP4 ili WebM kao ulaz lica i mi ćemo koristiti prvi okvir kao vozački identitet. Za potpuno ponovno sinkroniziranje videa (zamjena usta po kadru), pogledajte nadolazeći video kanal Dubbing Studio.

Da. POST-i višedijelni zahtjev na /api/v1/lipsync/ sa poljima lica i zvuka, zatim upiši /api/v1/lipsync/result/?uuid= dok status ne bude "dovršen". Odgovor sadrži URL do prikazanog MP4-a. API pristup zahtijeva plaćeni plan.

SadTalker koristi poravnavanje lica da otkrije i izreže najistaknutije lice. Za najbolje rezultate, pošaljite portret sa jednom osobom u centru, vidljivim očima i minimalnom okluzijom. Grupne fotografije mogu proizvesti nepredvidljive rezultate.

5.0/5 (1)

Spreman za početak?

Prijavite se besplatno i dobijte 15.000 znakova, bez kreditne kartice.

Prijavite se besplatno Prikaži cijene

AI Lip Sync Video Generator

_Učitaj

Vaš Talking-Head video

O SadTalkeru

Savjeti za najbolje rezultate

Lip Sync Video Plans

Često postavljana pitanja

Šta radi AI alat za sinkronizaciju usana?

Koji su ulazni formati podržani?

Koliko dugo može trajati?

Koliko košta?

Mogu li koristiti video komercijalno?

Koliko dugo traje generacija?

Koja je razlika između "punih" i "neaktivnih" postavki?

Šta je GFPGAN pojačivač?

Zašto moj izlaz izgleda niske rezolucije?

Mogu li sinkronizirati video na novi zvuk?

Postoji li API?

Šta ako moja slika lica ima više ljudi na njoj?

Spreman za početak?