AI Lip Sync Video Generator

Ngarko një foto të fytyrës dhe një klip audio — merr një video me kokë që flet me sinkronizim realistik buzësh, pozicion kokë dhe shkëlqim sysh. Përdoret nga SadTalker (MIT). Përdorimi komercial është OK.

Ende nuk kemi zëra TTS në gjuhën tuaj. Na ndihmoni të shtojmë të tuajat! Shit zërin tënd

Shto Face + Audio

1,000 karakterë për sekondë

Tërhiq dhe lësho file këtu ose shfleto

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Tërhiq dhe lësho file këtu ose shfleto

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Duke përpunuar...

Duke shfaqur videon tuaj. Kjo zakonisht merr nga 30 sekonda deri në 2 minuta.

Videoja jote Talking-Head

Shkarko

SadTalker

SadTalker (CVPR 2023, Tencent ARC) është një model i kokës folëse me burim të hapur që animon një imazh të vetëm fytyre për të folur çdo tingull. Ndryshe nga variantet Wav2Lip, SadTalker gjithashtu animon pozicionin e kokës, shikimin e syve dhe shprehjen për një rezultat më natyror.

Kodi dhe peshat janë të licencuara nga MIT-i nga fundi në fund — jo Llama, Gemma, apo shtyllë jo-komerciale — kështu që videot që krijoni janë të sigurta për përdorim komercial.

Këshillat për rezultatet më të mira

  • Përdor një portret me cilësi të lartë dhe të ndriçuar mirë - sytë të dukshëm, goja e mbyllur
  • Fytyra e qendruar, katrore ose raporti i aspektit 4:5 funksionon më mirë
  • Zëri i pastër i foljes (pa muzikë) jep sinkronizim më të ngushtë buzësh
  • Aktivizo GFPGAN për goditjet heroike - dyfishon kohën e paraqitjes por mpreh detajet
  • Përdor paracaktimin e qëndrueshëm kur dëshiron një fotografi të qëndrueshme të avatar-it

Sync

Fillo falas, përmirëso kur të duash më shumë

I lirë
  • Kufiri audio 30 sekonda
  • 256 px output
  • Vetëm "Still" e paracaktuar
  • Pa përmirësim të fytyrës
Popullariteti
Profili i lirë
  • Kufiri audio 30 sekonda
  • Paracaktimi "full" dhe "still"
  • 256 / 512 px output
  • Përmirësues i fytyrës GFPGAN
Regjistrohu
Pro
  • Kufiri audio 5 minuta
  • Prioriteti i GPU
  • API access (multipart upload)
  • Përfundimi i thirrjeve të webhook
  • Përdorim komercial (liçenca MIT)
Përmirëso

Pyetje të shpeshta

Ngarko një foto të fytyrës dhe një klip audio, dhe AI gjeneron një video të asaj fytyre duke folur zërin me lëvizje realiste të buzëve, pozicion kokë dhe shkëlqim sysh. E ndërtuar mbi SadTalker (CVPR 2023), një model i kokës së folur me licensë MIT që animon shprehjen përveç formë gojës.

Input i fytyrës mund të jetë një figurë JPG ose PNG (deri në 10 MB) ose një video e shkurtër MP4/WebM e vozitjes (ne përdorim kornizën e parë). Zëri i vozitjes mund të jetë MP3, WAV, M4A, ose FLAC deri në 10 MB. Ne ri-shembullojmë audion në 16 kHz brenda.

Përdoruesit pa pagesë: deri në 5 minuta për kërkesë. Një audio më e gjatë do të thotë një kohë më e gjatë e interpretimit dhe një kosto më e lartë e karaktereve.

Video me sinkronizim buzësh përdor 1,000 karaktere për sekond të video së gjeneruar. Një klip 30 sekondash = 30,000 karaktere. Kostoja llogaritet paraprakisht nga balanca e karaktereve dhe kthehet automatikisht nëse gjenerimi dështon.

Po — Kodi dhe peshat e SadTalker janë të licencuara MIT nga fundi në fund (pa Llama, Gemma, apo backbone jo komercial). Videot që krijoni janë tuaja për përdorim komercial. Jeni përgjegjës për të drejtat e burimit të imazhit të fytyrës dhe audios që ngarkoni.

Rreth 30 sekonda për një klip 5 sekondash në serverin tonë A100, duke u shkallëzuar linearisht me gjatësinë e audios. Aktivizimi i përmirësuesit të fytyrës GFPGAN dyfishon kohën e paraqitjes por prodhon një dalje më të mprehtë, me cilësi më të lartë.

Paracaktimi i plotë (i prezgjedhur) animon pozicionin e kokës, shikimin e syve dhe shprehjen së bashku me buzët, duke prodhuar një video më natyrale me kokën që flet. Paracaktimi i mbetur bllokon kokën në vend dhe animon vetëm gojën - i dobishëm kur dëshiron një avatar të qëndrueshëm.

GFPGAN është një model restaurimi fytyre që mpreh hollësitë e fytyrës pas renderimit me sinkronizim buzësh. Pastron artefaktet dhe bën që rezultati me 256 piksela të duket më afër 512. Kjo pothuajse dyfishon kohën e renderimit, por ia vlen për fotot e herojve.

SadTalker paraqet në 256 px në mënyrë të prezgjedhur. Shko tek madhësia 512 px për një dalje më të mprehtë (më e ngadalshme, VRAM më e lartë) ose aktivizo përmirësuesin GFPGAN për të rritur detajet e fytyrës. Për rezultate më të mira, ngarko një foto portreti me cilësi të lartë dhe të ndriçuar mirë.

Po. Ngarko një MP4 ose WebM si hyrje të fytyrës dhe do të përdorim kornizën e parë si identitetin e drejtimit. Për ri-dublimin e plotë të video (zëvendësimi i gojës për kornizë), shiko videon e ardhshme Dubbing Studio.

Po. POST një kërkesë me shumë pjesë tek /api/v1/lipsync/ me fushat e fytyrës dhe audios, pastaj pyet /api/v1/lipsync/result/?uuid= derisa gjendja të jetë "e plotësuar". Përgjigjia përmban një URL të MP4 të renderuar. Hyrja në API kërkon një plan të paguar.

SadTalker përdor rregullimin e fytyrës për të zbuluar dhe prerë fytyrën më të dukshme. Për rezultate më të mira, ngarko një portret me një person në qendër, sytë e dukshëm dhe me një mbyllje minimale. Fotot e grupit mund të japin rezultate të paparashikuara.
5.0/5 (1)

Çfarë mund të përmirësojmë? Feedback-i juaj na ndihmon të zgjidhim problemet.

Gati për të filluar?

Regjistrohu falas dhe merr 15,000 karaktere.