Irrapporta Bug / Feature Talba

Ġeneratur tal-Video Sync tal-LIP AI

Upload ritratt tal-wiċċ u awdjo clip — tikseb video jitkellmu-ras ma lip sinkronizzazzjoni realistiku, pose ras, u blinks. Powered by SadTalker (MIT).

Għad m'għandniex vuċijiet TTS fil-lingwa tiegħek. Għinna nżidu tiegħek! Biegħ il-vuċi tiegħek

Ittella' l-wiċċ + awdjo

1,000 karattru kull sekonda

Iddreggja u qiegħed il-fajl tiegħek hawn, jew browse

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

fajl.mp3

0 MB

Iddreggja u qiegħed il-fajl tiegħek hawn, jew browse

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

fajl.mp3

0 MB

Ħajja ta’ kuljum...

Ir-rendering tal-vidjo tiegħek. Dan tipikament jieħu 30 sekonda sa 2 minuti.

Il-vidjo tiegħek Talking-Head

Niżżel

Dwar SadTalker

SadTalker (CVPR 2023, Tencent ARC) huwa open-source mudell jitkellmu-ras li animates immaġni wiċċ wieħed biex jitkellmu kwalunkwe awdjo.B'differenza Wav2Lip varjanti, SadTalker wkoll animati pose ras, blinks, u l-espressjoni għal riżultat aktar naturali.

Kodiċi u l-piżijiet huma MIT-liċenzjati end-to-end — l-ebda Llama, Gemma, jew spina dorsali mhux kummerċjali — sabiex il-vidjos inti tiġġenera huma sikuri għall-użu kummerċjali.

Għajnuniet għall-aħjar riżultati

  • Uża ritratt ta’ kwalità għolja, imdawwal sew — l-għajnejn viżibbli, ħalq magħluq
  • Wiċċ iċċentrat, kwadru jew 4:5 proporzjon tax-xogħol aħjar
  • Naddaf l-awdjo tad-diskors (l-ebda mużika) jagħti sinkronizzazzjoni tax-xufftejn aktar stretta
  • Jippermettu GFPGAN għall-shots eroj - doubles render ħin iżda sharpens dettall
  • Uża l-Issettjat minn qabel Still meta trid shot avatar stabbli

Pjanijiet tal-vidjo Lip Sync

Ibda b'xejn, aġġorna meta jkollok bżonn aktar

Ħieles
  • Limitu ta’ 30 sekonda għall-awdjo
  • 256 px output
  • "Still" preset biss
  • L-ebda wiċċ enhancer
L-aktar popolari
Kont b'xejn
  • Limitu ta’ 30 sekonda għall-awdjo
  • Kemm "sħiħ" u "still" presets
  • 256 / 512 px output
  • GFPGAN wiċċ enhancer
Irreġistra b'xejn
Għal
  • Limitu tal-awdjo ta’ 5 minuti
  • Prijorità tal-kju tal-GPU
  • Aċċess għall-API (upload ta’ partijiet multipli)
  • Webhook tlestija callbacks
  • Użu kummerċjali (liċenzja MIT)
Aġġornament

Mistoqsijiet Frekwenti (FAQ)

Upload ritratt wiċċ u klipp awdjo, u l-AI jiġġenera vidjo ta'dak wiċċ jitkellem l-awdjo bil-movimenti tax-xofftejn realistiċi, pose ras, u blinks.Mibnija fuq SadTalker (CVPR 2023), mudell MIT-liċenzjati jitkellmu ras li animati espressjoni minbarra l-forma ħalq.

L-input tal-wiċċ jista’ jkun immaġni JPG jew PNG (sa 10 MB) jew vidjow qasir tas-sewqan MP4/WebM (nużaw l-ewwel qafas).L-awdjo tas-sewqan jista’ jkun MP3, WAV, M4A, jew FLAC sa 10 MB.Aħna nirrikampjunaw l-awdjo għal 16 kHz internament.

Kontijiet b'xejn: sa 30 sekonda għal kull klipp.Utenti li jħallsu: sa 5 minuti għal kull talba. Awdjo itwal ifisser ħin ta' rendering itwal u spejjeż ogħla tal-karattru.

Il-vidjo tas-sinkronizzazzjoni tax-xofftejn juża 1,000 karattru kull sekonda ta' vidjo ġġenerat.Klip ta' 30 sekonda = 30,000 karattru.L-ispiża tiġi ċċarġjata bil-quddiem mill-bilanċ tal-karattru tiegħek u tiġi rimborżata awtomatikament jekk il-ġenerazzjoni tfalli.

Iva — Il-kodiċi u l-piżijiet ta' SadTalker huma liċenzjati mill-MIT minn tarf sa tarf (l-ebda Llama, Gemma, jew backbone mhux kummerċjali). Il-vidjows li tiġġenera huma tiegħek biex tużahom kummerċjalment.

Madwar 30 sekonda għal klipp ta ’5 sekondi fuq is-server A100 tagħna, li jiskala bejn wieħed u ieħor linearment bit-tul tal-awdjo.L-abilitazzjoni tal-enhancer tal-wiċċ GFPGAN bejn wieħed u ieħor tirdoppja l-ħin tar-render iżda tipproduċi produzzjoni aktar qawwija u ta’ kwalità ogħla.

Sħiħa preset (default) animazzjonijiet ras pose, blinks, u l-espressjoni flimkien max-xofftejn, li jipproduċu a aktar naturali jitkellmu ras video.Still preset locks-ras fil-post u animazzjonijiet biss il-ħalq — utli meta inti tixtieq shot avatar stabbli.

GFPGAN huwa mudell ta’ restawr tal-wiċċ li jsaħħaħ id-dettalji tal-wiċċ wara r-rendering tax-xufftejn. Huwa jnaddaf l-artefatti u jagħmel l-output ta’ 256 pixel iħares eqreb lejn 512.

SadTalker jidher b’mod awtomatiku b’256 px. Aqleb għal daqs ta’ 512 px għal riżultat aktar qawwi (VRAM aktar bil-mod u ogħla) jew attiva l-GFPGAN enhancer biex ittejjeb id-dettalji tal-wiċċ. Għall-aħjar riżultati, ittella’ ritratt ta’ kwalità għolja, imdawwal sew.

Iva. Ittella’ MP4 jew WebM bħala l-input tal-wiċċ u aħna nużaw l-ewwel frejm bħala l-identità tas-sewqan. Għal re-dubbing sħiħ tal-vidjow (sostituzzjoni tal-ħalq għal kull frejm), ara l-pipeline tal-vidjow li jmiss ta’ Dubbing Studio.

Iva. POST talba multipart biex /api/v1/lipsync/ bl-oqsma wiċċ u awdjo, imbagħad poll /api/v1/lipsync/result/?uuid= sakemm l-istatus huwa "lest". Ir-risposta fiha URL għall-MP4 rendering. API aċċess jeħtieġ pjan imħallas.

SadTalker juża l-allinjament tal-wiċċ biex jiskopri u jaħsad il-wiċċ l-aktar prominenti. Għall-aħjar riżultati, ittella' ritratti b'persuna waħda ċċentrata, għajnejn viżibbli, u okklusion minima.
5.0/5 (1)

X'nistgħu ntejbu? Il-feedback tiegħek jgħinna nsolvu l-problemi.

Lest biex tibda?

Irreġistra b'xejn u ġġib 15,000 karattru. L-ebda karta ta' kreditu meħtieġa.