Teata veast / Omaduse päring

AI Lip sünkroniseerimine Video Generator

Lae üles näofoto ja heliklipp ~ saada rääkiv-head video realistlik huule sünkroniseerimine, pea poseerimine, ja pilgutab. Powered by SadTalker (MIT). Kommertskasutuse OK.

Meil pole veel TTS-hääli sinu keeles. Müü oma hääl

Lae nägu + heli

1000 märki sekundis

Lohista & fail siia või sirvimine

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

fail.mp3

0 MB

Lohista & fail siia või sirvimine

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

fail.mp3

0 MB

Töötlemine...

Video renderdamine võtab tavaliselt 30 sekundit kuni 2 minutit.

Sinu kõnelev peavideo

Allalaadimine

SadTalkerist

SadTalker (CVPR 2023, Tencent ARC) on avatud lähtekoodiga rääkiv-head mudel, mis animeerib ühe näo pilt rääkida tahes heli. Erinevalt Wav2Lip variandid, SadTalker ka animeerib pea poseerida, vilkub, ja väljendus rohkem loomulik tulemus.

Kood ja kaalud on MIT-litsentsiga lõpp ~ no Llama, Gemma, või mitte-äriline selgroog ~ nii videod genereerite on ohutu kaubanduslikuks kasutamiseks.

Parimate tulemuste nõuanded

  • Kasutage kvaliteetset hästivalgustatud portreed nähtavad silmad, suu kinni
  • Keskel nägu, ruudu või 4:5 kuvasuhe toimib kõige paremini
  • Puhta kõne heli (muusikata) annab tihedama huulesünkroonsuse
  • Luba GFPGAN kangelane shots ~ Doubles muuta aega, kuid teritab detaile
  • Kasutage ikka valmis, kui soovite kindlat avatari lööki

Lip Sünkroniseeri videoplaanid

Alusta tasuta, uuenda, kui vajad rohkem

Vaba
  • 30-sekundiline audiopiirang
  • 256 px väljund
  • Ainult eelseadistatud
  • Näotugevdajat pole
Kõige populaarsem
Vaba konto
  • 30-sekundiline audiopiirang
  • Nii "täis" kui ka "veel" eelseadistused
  • 256 / 512 px väljund
  • GFPGAN näotugevdaja
Registreeru tasuta
Pro
  • 5-minutiline helipiirang
  • Prioriteetne GPU järjekord
  • API-juurdepääs (mitmeosaline üleslaadimine)
  • Veebikonksu lõpetamise tagasihelistamised
  • Kaubanduslik kasutamine (MIT-litsents)
Uuendamine

Korduma kippuvad küsimused

Lae üles näofoto ja heliklipp ja tehisintellekti genereerib video sellest näost rääkides heli realistlike huuleliigutuste, peapooside ja pilgutustega. Ehitatud SadTalkerile (CVPR 2023), MIT-litsentsiga rääkiva pea mudelile, mis animeerib väljenduse lisaks suu kujule.

Näosisendiks võib olla JPG või PNG pilt (kuni 10 MB) või lühike MP4/WebM sõiduvideo (me kasutame esimest raami). Sõiduheli võib olla MP3, WAV, M4A või FLAC kuni 10 MB. Me valime heli 16 kHz sees.

Tasuta kontod: kuni 30 sekundit klipi kohta. Maksavad kasutajad: kuni 5 minutit päringu kohta. Pikemad audio tähendab pikemat aja ja suurema tähemärgi maksumust.

Huule sünkroniseerimine video kasutab 1000 tähemärki sekundis loodud video. 30-sekundiline klipp = 30,000 tähemärki. Maksumus on tasutud ees oma iseloomu tasakaalu ja tagastatakse automaatselt, kui generatsioon ebaõnnestub.

Jah SadTalker kood ja kaalud on MIT litsentseeritud lõpuks (ei Llama, Gemma, või mitte-äriline selgroog). Videod, mida te genereerite, on teie kasutada kaubanduslikult. Te vastutate õiguse allika nägu pilt ja heli üles laadida.

Umbes 30 sekundit 5-sekundilise klipi jaoks meie A100 serveris, skaleerides umbes lineaarselt helipikkusega. GFPGAN näotugevdaja võimaldamine muudab aja umbes kahekordseks, kuid toodab teravamat, kvaliteetsemat väljundit.

Täielik eelseadistatud (vaikimisi) animaadid pea poseerib, pilgutab ja väljendus koos huultega, tekitades loomulikuma rääkiva peaga video. Ikka seadistatud lukustab pea paika ja animeerib ainult suu, mis on kasulik, kui soovid kindlat avatari lööki.

GFPGAN on näo restaureerimise mudel, mis teritab näo detaile pärast huulesünkroonimist. See puhastab artefaktid ja teeb 256 piksli väljundi vaata lähemale 512. See umbes kahekordistab aja, kuid on väärt seda kangelane kaadrid.

SadTalker muudab vaikimisi 256 px. Lülitub 512 px suurusele teravama väljundi jaoks (aeglasem, kõrgem VRAM) või võimaldab GFPGAN- i võimendajal näo üksikasju suurendada. Parimate tulemuste saamiseks laadige üles kvaliteetne, hästivalgustatud portreefoto.

Jah. Lae MP4 või WebM kui nägu sisend ja me kasutame esimest raami kui sõidu identiteedi. Täielik video uuesti-bbing (arvuti suu asendaja), vt tulemas Dubbbing Studio videojuhe.

Jah. POST multipart palve /api/v1/lipsync / näo ja audio väljad, siis küsitlus /api/v1/lipsync/ result/? uudid= kuni staatus on lõpetatud. Vastus sisaldab URL teisendatud MP4. API juurdepääsu nõuab tasuline plaan.

SadTalker kasutab nägu-kõla avastada ja kärpida kõige silmatorkavam nägu. Parimate tulemuste, laadida portree ühe inimese keskel, silmad nähtavad ja minimaalne oklusioon. Grupi fotod võivad anda ettearvamatu tulemusi.
5.0/5 (1)

Mida me võiks parandada? Teie tagasiside aitab meil lahendada küsimusi.

Oled valmis alustama?

Registreeru tasuta ja saada 50 krediiti.