Txostendu programa- errorea / Eskaera

AI ezpain-sinkronizazioko bideo-sortzailea

Igo aurpegiko argazki bat eta audio-klip bat — lortu buru hitz egiten duen bideo bat ezpain-sinkronizazio errealistarekin, buru-posizioarekin eta keinuekin. SadTalker (MIT)-ek garatua. Erabilera komertziala onartzen da.

Izena eman doan

-Bai, bai. Saldu zure ahotsa

Igo aurpegia + audioa

1.000 karaktere segundoko

1. Aurpegi-argazkia edo gidatzeko bideoa

Arrastatu eta jaregin zure fitxategia hemen, edo arakatu

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Audioa gidatzea

Arrastatu eta jaregin zure fitxategia hemen, edo arakatu

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Animazioaren aurrezarpena

Irteerako tamaina

Aurpegiaren hobetzailea

GFPGAN (zehatzagoa, motelagoa)

SadTalker-i buruz

SadTalker (CVPR 2023, Tencent ARC) aurpegi-irudiak animatzen dituen iturburu irekiko buru-hizketa-eredua da, edozein audio hitz egiteko. Wav2Lip aldaerak ez bezala, SadTalker-ek buru-jarrera, keinuak eta adierazpena ere animatzen ditu emaitza naturalagoa lortzeko.

Kodea eta pisua MIT-ren lizentziapean daude, Llama, Gemma edo backbone ez komertzialen bidez, beraz, sortzen dituzun bideoak erabilpen komertzialerako seguruak dira.

Emaitza onenak lortzeko aholkuak

Erabili kalitate handiko erretratu argiztatua — begiak ikusgai, ahoa itxita
Aurpegi zentratua, karratua edo 4:5 aspektu-erlazioa hobeto funtzionatzen du
Hitz egiteko audio garbiak (musikarik gabe) ezpain-sinkronizazio estuagoa ematen du
Gaitu GFPGAN heroi-argazkietarako — errendatze-denbora bikoiztu egiten du, baina xehetasunak zorroztu egiten ditu
Erabili Still aurrezarpena avatar argazki egonkor bat nahi duzunean

Ezpain- sinkronizazioko bideo-planak

Hasi doan, bertsio-berritu gehiago behar duzunean

Libre

30 segundoko audio-muga
256 px irteera
"Itxaron" aurrezarpena bakarrik
Aurpegi-hobetzailerik ez

Ospetsuenak

Kontu librea

30 segundoko audio-muga
"Osoa" eta "ixildua" aurrezarpenak
256 / 512 px irteera
GFPGAN aurpegi-hobetzailea

Izena eman doan

Pro

5 minutuko audio-muga
GPUaren lehentasun-ilara
API atzipena (zati anitzeko igoera)
Webhook osatzeko atzera-deiak
Erabilera komertziala (MIT lizentzia)

Berritu

Maiz egiten diren galderak

Igo aurpegiaren argazki bat eta audio-klip bat, eta AIk aurpegi horren bideoa sortuko du, audioa ezpain-mugimendu errealistaz, buru-posizioz eta keinuekin hitz egiten. SadTalker-en oinarrituta dago (CVPR 2023), MIT-ek lizentziatutako buru-hizketaren eredu bat, aho-formaz gain, adierazpena animatzen duena.

Aurpegiaren sarrera JPG edo PNG irudi bat izan daiteke (10 MB arte) edo MP4/WebM bideo labur bat (lehen fotograma erabiliko dugu). Audioa MP3, WAV, M4A edo FLAC izan daiteke, 10 MB arte. Audioa barnean 16 kHz-ra birlaginatzen dugu.

Doako kontuak: gehienez 30 segundo klip bakoitzeko. Ordainketa-erabiltzaileak: gehienez 5 minutu eskaera bakoitzeko. Audio luzeagoak errendatze-denbora luzeagoa eta karaktere-kostu handiagoa dakar.

Ezpain-sinkronizazioko bideoak 1.000 karaktere erabiltzen ditu segundoko sortutako bideoan. 30 segundoko klip batek = 30.000 karaktere. Kostua karaktere-balantzetatik fakturatzen da eta automatikoki itzultzen da sortzea huts egiten badu.

Bai — SadTalker-en kodea eta pisua MIT-en lizentziapean daude (Llama, Gemma edo backbone ez-merkatarikoak ez). Sortutako bideoak zureak dira, merkataritza-erabilerarako. Zure ardura da igotzen dituzun iturburu-aurpegiaren irudiaren eta audioaren eskubideak izatea.

30 segundo inguru 5 segundoko klip batentzat gure A100 zerbitzarian, gutxi gorabehera linealki eskalatzen audioaren luzerarekin. GFPGAN aurpegi-hobetzailea gaitzen bada, errendatze-denbora gutxi gorabehera bikoiztu egiten da, baina irteera zorrotzagoa eta kalitate handiagoa ematen du.

Aurrezarpen osoak (lehenetsia) buruaren posizioa, keinuak eta aurpegiera animatzen ditu ezpainekin batera, buru hizketalariaren bideo naturalagoa sortuz. Aurrezarpen geldiak burua bere lekuan blokeatzen du eta ahoa bakarrik animatzen du. Erabilgarria da avatar-argazki egonkorra nahi denean.

GFPGAN aurpegi-berritze-eredua da, ezpain-sinkronizazioa errendatu ondoren aurpegiaren xehetasunak zorrozten dituena. Artefaktuak garbitzen ditu eta 256 pixeleko irteera 512tik gertuago ikusten da. Errendatze-denbora gutxi gorabehera bikoiztu egiten du, baina merezi du heroien argazkietarako.

SadTalker-ek 256 px-tan errendatzen du lehenespenez. Aldatu 512 px-tara irteera zorrotzagoa lortzeko (motelagoa, VRAM handiagoa) edo gaitu GFPGAN hobetzailea aurpegiko xehetasunak eskalatzeko. Emaitza onenak lortzeko, igo kalitate handiko eta argitasun handiko erretratu-argazki bat.

Bai. Igo MP4 edo WebM bat aurpegiaren sarrera gisa, eta lehenengo fotograma erabiliko dugu gidatze-identitate gisa. Bideo osoa berriro dubtatzeko (fotograma bakoitzeko ahoa ordezkatzeko), ikusi Dubbing Studio bideo-kanala.

Bai. POST egin zati anitzeko eskaera bat /api/v1/lipsync/-i aurpegia eta audioa dituzten eremuekin, eta galdetu /api/v1/lipsync/result/?uuid= egoera "osaturik" dagoen arte. Erantzunak errendatutako MP4aren URLa du. APIa atzitzeko ordaindutako plana behar da.

SadTalker-ek aurpegi-lerroketa erabiltzen du aurpegi nabarmenena detektatzeko eta mozteko. Emaitza onenak lortzeko, igo erretratu bat pertsona bat zentratuta, begiak ikusgai eta okluzio minimoarekin. Talde-argazkiek emaitza aurreikusezinak eman ditzakete.

5.0/5 (1)

Prest hasteko?

Izena eman doan eta 15.000 karaktere lortu. Ez da kreditu txartelik behar.

Izena eman doan Ikusi prezioa

AI ezpain-sinkronizazioko bideo-sortzailea

Igo aurpegia + audioa

Zure Talking-Head bideoa

SadTalker-i buruz

Emaitza onenak lortzeko aholkuak

Ezpain- sinkronizazioko bideo-planak

Maiz egiten diren galderak

Zer egiten du AI ezpain-sinkronizazio-tresnak?

Zein sarrerako formatu onartzen dira?

Zenbat denbora izan dezake audioak?

Zenbat balio du?

Erabil ditzaket bideoak merkataritzarako?

Zenbat denbora behar da sortzeko?

Zein da "osoa" eta "itxaron" aurrezarpenen arteko aldea?

Zer da GFPGAN hobetzailea?

Zergatik dirudi nire irteerak bereizmen baxua duela?

Bideo bat ezpain-sinkronizatu dezaket audio berriarekin?

Ba al dago API bat?

Eta nire aurpegiko argazkian pertsona asko badaude?

Prest hasteko?