Teata veast / Omaduse päring

AI Lip sünkroniseerimine Video Generator

Lae üles näofoto ja heliklipp ~ saada rääkiv-head video realistlik huule sünkroniseerimine, pea poseerimine, ja pilgutab. Powered by SadTalker (MIT). Kommertskasutuse OK.

Registreeru tasuta

Meil pole veel TTS-hääli sinu keeles. Müü oma hääl

Lae nägu + heli

1000 märki sekundis

1. Nägu pilt või sõidu video

Lohista & fail siia või sirvimine

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Juhtimine heli

Lohista & fail siia või sirvimine

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Animatsioon valmis

Väljundi suurus

Näoparandaja

GFPGAN (sharper, aeglasem)

SadTalkerist

SadTalker (CVPR 2023, Tencent ARC) on avatud lähtekoodiga rääkiv-head mudel, mis animeerib ühe näo pilt rääkida tahes heli. Erinevalt Wav2Lip variandid, SadTalker ka animeerib pea poseerida, vilkub, ja väljendus rohkem loomulik tulemus.

Kood ja kaalud on MIT-litsentsiga lõpp ~ no Llama, Gemma, või mitte-äriline selgroog ~ nii videod genereerite on ohutu kaubanduslikuks kasutamiseks.

Parimate tulemuste nõuanded

Kasutage kvaliteetset hästivalgustatud portreed nähtavad silmad, suu kinni
Keskel nägu, ruudu või 4:5 kuvasuhe toimib kõige paremini
Puhta kõne heli (muusikata) annab tihedama huulesünkroonsuse
Luba GFPGAN kangelane shots ~ Doubles muuta aega, kuid teritab detaile
Kasutage ikka valmis, kui soovite kindlat avatari lööki

Lip Sünkroniseeri videoplaanid

Alusta tasuta, uuenda, kui vajad rohkem

Vaba

30-sekundiline audiopiirang
256 px väljund
Ainult eelseadistatud
Näotugevdajat pole

Kõige populaarsem

Vaba konto

30-sekundiline audiopiirang
Nii "täis" kui ka "veel" eelseadistused
256 / 512 px väljund
GFPGAN näotugevdaja

Registreeru tasuta

Pro

5-minutiline helipiirang
Prioriteetne GPU järjekord
API-juurdepääs (mitmeosaline üleslaadimine)
Veebikonksu lõpetamise tagasihelistamised
Kaubanduslik kasutamine (MIT-litsents)

Uuendamine

Korduma kippuvad küsimused

Lae üles näofoto ja heliklipp ja tehisintellekti genereerib video sellest näost rääkides heli realistlike huuleliigutuste, peapooside ja pilgutustega. Ehitatud SadTalkerile (CVPR 2023), MIT-litsentsiga rääkiva pea mudelile, mis animeerib väljenduse lisaks suu kujule.

Näosisendiks võib olla JPG või PNG pilt (kuni 10 MB) või lühike MP4/WebM sõiduvideo (me kasutame esimest raami). Sõiduheli võib olla MP3, WAV, M4A või FLAC kuni 10 MB. Me valime heli 16 kHz sees.

Tasuta kontod: kuni 30 sekundit klipi kohta. Maksavad kasutajad: kuni 5 minutit päringu kohta. Pikemad audio tähendab pikemat aja ja suurema tähemärgi maksumust.

Huule sünkroniseerimine video kasutab 1000 tähemärki sekundis loodud video. 30-sekundiline klipp = 30,000 tähemärki. Maksumus on tasutud ees oma iseloomu tasakaalu ja tagastatakse automaatselt, kui generatsioon ebaõnnestub.

Jah SadTalker kood ja kaalud on MIT litsentseeritud lõpuks (ei Llama, Gemma, või mitte-äriline selgroog). Videod, mida te genereerite, on teie kasutada kaubanduslikult. Te vastutate õiguse allika nägu pilt ja heli üles laadida.

Umbes 30 sekundit 5-sekundilise klipi jaoks meie A100 serveris, skaleerides umbes lineaarselt helipikkusega. GFPGAN näotugevdaja võimaldamine muudab aja umbes kahekordseks, kuid toodab teravamat, kvaliteetsemat väljundit.

Täielik eelseadistatud (vaikimisi) animaadid pea poseerib, pilgutab ja väljendus koos huultega, tekitades loomulikuma rääkiva peaga video. Ikka seadistatud lukustab pea paika ja animeerib ainult suu, mis on kasulik, kui soovid kindlat avatari lööki.

GFPGAN on näo restaureerimise mudel, mis teritab näo detaile pärast huulesünkroonimist. See puhastab artefaktid ja teeb 256 piksli väljundi vaata lähemale 512. See umbes kahekordistab aja, kuid on väärt seda kangelane kaadrid.

SadTalker muudab vaikimisi 256 px. Lülitub 512 px suurusele teravama väljundi jaoks (aeglasem, kõrgem VRAM) või võimaldab GFPGAN- i võimendajal näo üksikasju suurendada. Parimate tulemuste saamiseks laadige üles kvaliteetne, hästivalgustatud portreefoto.

Yes. Upload an MP4 or WebM as the face input and we will use the first frame as the driving identity. For full video re-dubbing (per-frame mouth replacement), see the upcoming Dubbing Studio video pipeline.

Jah. POST multipart palve /api/v1/lipsync / näo ja audio väljad, siis küsitlus /api/v1/lipsync/ result/? uudid= kuni staatus on lõpetatud. Vastus sisaldab URL teisendatud MP4. API juurdepääsu nõuab tasuline plaan.

SadTalker kasutab nägu-kõla avastada ja kärpida kõige silmatorkavam nägu. Parimate tulemuste, laadida portree ühe inimese keskel, silmad nähtavad ja minimaalne oklusioon. Grupi fotod võivad anda ettearvamatu tulemusi.

5.0/5 (1)

Oled valmis alustama?

Registreeru tasuta ja saada 50 krediiti.

Registreeru tasuta Vaade Hinnakujundus

AI Lip sünkroniseerimine Video Generator

Lae nägu + heli

Sinu kõnelev peavideo

SadTalkerist

Parimate tulemuste nõuanded

Lip Sünkroniseeri videoplaanid

Korduma kippuvad küsimused

Mida Al- huule sünkroniseerimise tööriist teeb?

Millised sisendvormingud on toetatud?

Kui kaua see heli võib olla?

Kui palju see maksab?

Kas ma saan videoid kaubanduslikult kasutada?

Kui kaua generatsioon aega võtab?

Mis vahe on "täis" ja "veel" eelseadistatud?

Mis on GFPGAN tugevdaja?

Miks mu väljund tundub madala resolutsiooniga?

Kas ma saaksin uue audio video?

Kas API on olemas?

Mis siis, kui mu näopildis on mitu inimest?

Oled valmis alustama?