Txostendu programa- errorea / Eskaera

AI ezpain-sinkronizazioko bideo-sortzailea

Igo aurpegiko argazki bat eta audio-klip bat — lortu buru hitz egiten duen bideo bat ezpain-sinkronizazio errealistarekin, buru-posizioarekin eta keinuekin. SadTalker (MIT)-ek garatua. Erabilera komertziala onartzen da.

-Bai, bai. Saldu zure ahotsa

Igo aurpegia + audioa

1.000 karaktere segundoko

Arrastatu eta jaregin zure fitxategia hemen, edo arakatu

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

fitxategia.mp3

0 MB

Arrastatu eta jaregin zure fitxategia hemen, edo arakatu

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

fitxategia.mp3

0 MB

Prozesatzen...

Bideoa errendatzen. Normalean 30 segundotik 2 minutura bitartean irauten du.

Zure Talking-Head bideoa

Deskargatu

SadTalker-i buruz

SadTalker (CVPR 2023, Tencent ARC) aurpegi-irudiak animatzen dituen iturburu irekiko buru-hizketa-eredua da, edozein audio hitz egiteko. Wav2Lip aldaerak ez bezala, SadTalker-ek buru-jarrera, keinuak eta adierazpena ere animatzen ditu emaitza naturalagoa lortzeko.

Kodea eta pisua MIT-ren lizentziapean daude, Llama, Gemma edo backbone ez komertzialen bidez, beraz, sortzen dituzun bideoak erabilpen komertzialerako seguruak dira.

Emaitza onenak lortzeko aholkuak

  • Erabili kalitate handiko erretratu argiztatua — begiak ikusgai, ahoa itxita
  • Aurpegi zentratua, karratua edo 4:5 aspektu-erlazioa hobeto funtzionatzen du
  • Hitz egiteko audio garbiak (musikarik gabe) ezpain-sinkronizazio estuagoa ematen du
  • Gaitu GFPGAN heroi-argazkietarako — errendatze-denbora bikoiztu egiten du, baina xehetasunak zorroztu egiten ditu
  • Erabili Still aurrezarpena avatar argazki egonkor bat nahi duzunean

Ezpain- sinkronizazioko bideo-planak

Hasi doan, bertsio-berritu gehiago behar duzunean

Libre
  • 30 segundoko audio-muga
  • 256 px irteera
  • "Itxaron" aurrezarpena bakarrik
  • Aurpegi-hobetzailerik ez
Ospetsuenak
Kontu librea
  • 30 segundoko audio-muga
  • "Osoa" eta "ixildua" aurrezarpenak
  • 256 / 512 px irteera
  • GFPGAN aurpegi-hobetzailea
Izena eman doan
Pro
  • 5 minutuko audio-muga
  • GPUaren lehentasun-ilara
  • API atzipena (zati anitzeko igoera)
  • Webhook osatzeko atzera-deiak
  • Erabilera komertziala (MIT lizentzia)
Berritu

Maiz egiten diren galderak

Igo aurpegiaren argazki bat eta audio-klip bat, eta AIk aurpegi horren bideoa sortuko du, audioa ezpain-mugimendu errealistaz, buru-posizioz eta keinuekin hitz egiten. SadTalker-en oinarrituta dago (CVPR 2023), MIT-ek lizentziatutako buru-hizketaren eredu bat, aho-formaz gain, adierazpena animatzen duena.

Aurpegiaren sarrera JPG edo PNG irudi bat izan daiteke (10 MB arte) edo MP4/WebM bideo labur bat (lehen fotograma erabiliko dugu). Audioa MP3, WAV, M4A edo FLAC izan daiteke, 10 MB arte. Audioa barnean 16 kHz-ra birlaginatzen dugu.

Doako kontuak: gehienez 30 segundo klip bakoitzeko. Ordainketa-erabiltzaileak: gehienez 5 minutu eskaera bakoitzeko. Audio luzeagoak errendatze-denbora luzeagoa eta karaktere-kostu handiagoa dakar.

Ezpain-sinkronizazioko bideoak 1.000 karaktere erabiltzen ditu segundoko sortutako bideoan. 30 segundoko klip batek = 30.000 karaktere. Kostua karaktere-balantzetatik fakturatzen da eta automatikoki itzultzen da sortzea huts egiten badu.

Bai — SadTalker-en kodea eta pisua MIT-en lizentziapean daude (Llama, Gemma edo backbone ez-merkatarikoak ez). Sortutako bideoak zureak dira, merkataritza-erabilerarako. Zure ardura da igotzen dituzun iturburu-aurpegiaren irudiaren eta audioaren eskubideak izatea.

30 segundo inguru 5 segundoko klip batentzat gure A100 zerbitzarian, gutxi gorabehera linealki eskalatzen audioaren luzerarekin. GFPGAN aurpegi-hobetzailea gaitzen bada, errendatze-denbora gutxi gorabehera bikoiztu egiten da, baina irteera zorrotzagoa eta kalitate handiagoa ematen du.

Aurrezarpen osoak (lehenetsia) buruaren posizioa, keinuak eta aurpegiera animatzen ditu ezpainekin batera, buru hizketalariaren bideo naturalagoa sortuz. Aurrezarpen geldiak burua bere lekuan blokeatzen du eta ahoa bakarrik animatzen du. Erabilgarria da avatar-argazki egonkorra nahi denean.

GFPGAN aurpegi-berritze-eredua da, ezpain-sinkronizazioa errendatu ondoren aurpegiaren xehetasunak zorrozten dituena. Artefaktuak garbitzen ditu eta 256 pixeleko irteera 512tik gertuago ikusten da. Errendatze-denbora gutxi gorabehera bikoiztu egiten du, baina merezi du heroien argazkietarako.

SadTalker-ek 256 px-tan errendatzen du lehenespenez. Aldatu 512 px-tara irteera zorrotzagoa lortzeko (motelagoa, VRAM handiagoa) edo gaitu GFPGAN hobetzailea aurpegiko xehetasunak eskalatzeko. Emaitza onenak lortzeko, igo kalitate handiko eta argitasun handiko erretratu-argazki bat.

Bai. Igo MP4 edo WebM bat aurpegiaren sarrera gisa, eta lehenengo fotograma erabiliko dugu gidatze-identitate gisa. Bideo osoa berriro dubtatzeko (fotograma bakoitzeko ahoa ordezkatzeko), ikusi Dubbing Studio bideo-kanala.

Bai. POST egin zati anitzeko eskaera bat /api/v1/lipsync/-i aurpegia eta audioa dituzten eremuekin, eta galdetu /api/v1/lipsync/result/?uuid= egoera "osaturik" dagoen arte. Erantzunak errendatutako MP4aren URLa du. APIa atzitzeko ordaindutako plana behar da.

SadTalker-ek aurpegi-lerroketa erabiltzen du aurpegi nabarmenena detektatzeko eta mozteko. Emaitza onenak lortzeko, igo erretratu bat pertsona bat zentratuta, begiak ikusgai eta okluzio minimoarekin. Talde-argazkiek emaitza aurreikusezinak eman ditzakete.
5.0/5 (1)

Zer hobetu dezakegu? Zure iritziak arazoak konpontzen laguntzen digu.

Prest hasteko?

Izena eman doan eta 15.000 karaktere lortu. Ez da kreditu txartelik behar.