Raporto një gabim / kërkesë për funksion

AI Lip Sync Video Generator

Ngarko një foto të fytyrës dhe një klip audio — merr një video me kokë që flet me sinkronizim realistik buzësh, pozicion kokë dhe shkëlqim sysh. Përdoret nga SadTalker (MIT). Përdorimi komercial është OK.

Regjistrohu pa pagesë

Ende nuk kemi zëra TTS në gjuhën tuaj. Na ndihmoni të shtojmë të tuajat! Shit zërin tënd

Shto Face + Audio

1,000 karakterë për sekondë

1. Fotografia e fytyrës ose video e vozitjes

Tërhiq dhe lësho file këtu ose shfleto

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Driving Audio

Tërhiq dhe lësho file këtu ose shfleto

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Paracaktimi i animacionit

Madhësia e daljes

Përmirësues i fytyrës

GFPGAN (më i mprehtë, më i ngadalshëm)

SadTalker

SadTalker (CVPR 2023, Tencent ARC) është një model i kokës folëse me burim të hapur që animon një imazh të vetëm fytyre për të folur çdo tingull. Ndryshe nga variantet Wav2Lip, SadTalker gjithashtu animon pozicionin e kokës, shikimin e syve dhe shprehjen për një rezultat më natyror.

Kodi dhe peshat janë të licencuara nga MIT-i nga fundi në fund — jo Llama, Gemma, apo shtyllë jo-komerciale — kështu që videot që krijoni janë të sigurta për përdorim komercial.

Këshillat për rezultatet më të mira

Përdor një portret me cilësi të lartë dhe të ndriçuar mirë - sytë të dukshëm, goja e mbyllur
Fytyra e qendruar, katrore ose raporti i aspektit 4:5 funksionon më mirë
Zëri i pastër i foljes (pa muzikë) jep sinkronizim më të ngushtë buzësh
Aktivizo GFPGAN për goditjet heroike - dyfishon kohën e paraqitjes por mpreh detajet
Përdor paracaktimin e qëndrueshëm kur dëshiron një fotografi të qëndrueshme të avatar-it

Sync

Fillo falas, përmirëso kur të duash më shumë

I lirë

Kufiri audio 30 sekonda
256 px output
Vetëm "Still" e paracaktuar
Pa përmirësim të fytyrës

Popullariteti

Profili i lirë

Kufiri audio 30 sekonda
Paracaktimi "full" dhe "still"
256 / 512 px output
Përmirësues i fytyrës GFPGAN

Regjistrohu

Pro

Kufiri audio 5 minuta
Prioriteti i GPU
API access (multipart upload)
Përfundimi i thirrjeve të webhook
Përdorim komercial (liçenca MIT)

Përmirëso

Pyetje të shpeshta

Ngarko një foto të fytyrës dhe një klip audio, dhe AI gjeneron një video të asaj fytyre duke folur zërin me lëvizje realiste të buzëve, pozicion kokë dhe shkëlqim sysh. E ndërtuar mbi SadTalker (CVPR 2023), një model i kokës së folur me licensë MIT që animon shprehjen përveç formë gojës.

Input i fytyrës mund të jetë një figurë JPG ose PNG (deri në 10 MB) ose një video e shkurtër MP4/WebM e vozitjes (ne përdorim kornizën e parë). Zëri i vozitjes mund të jetë MP3, WAV, M4A, ose FLAC deri në 10 MB. Ne ri-shembullojmë audion në 16 kHz brenda.

Përdoruesit pa pagesë: deri në 5 minuta për kërkesë. Një audio më e gjatë do të thotë një kohë më e gjatë e interpretimit dhe një kosto më e lartë e karaktereve.

Video me sinkronizim buzësh përdor 1,000 karaktere për sekond të video së gjeneruar. Një klip 30 sekondash = 30,000 karaktere. Kostoja llogaritet paraprakisht nga balanca e karaktereve dhe kthehet automatikisht nëse gjenerimi dështon.

Po — Kodi dhe peshat e SadTalker janë të licencuara MIT nga fundi në fund (pa Llama, Gemma, apo backbone jo komercial). Videot që krijoni janë tuaja për përdorim komercial. Jeni përgjegjës për të drejtat e burimit të imazhit të fytyrës dhe audios që ngarkoni.

Rreth 30 sekonda për një klip 5 sekondash në serverin tonë A100, duke u shkallëzuar linearisht me gjatësinë e audios. Aktivizimi i përmirësuesit të fytyrës GFPGAN dyfishon kohën e paraqitjes por prodhon një dalje më të mprehtë, me cilësi më të lartë.

Paracaktimi i plotë (i prezgjedhur) animon pozicionin e kokës, shikimin e syve dhe shprehjen së bashku me buzët, duke prodhuar një video më natyrale me kokën që flet. Paracaktimi i mbetur bllokon kokën në vend dhe animon vetëm gojën - i dobishëm kur dëshiron një avatar të qëndrueshëm.

GFPGAN është një model restaurimi fytyre që mpreh hollësitë e fytyrës pas renderimit me sinkronizim buzësh. Pastron artefaktet dhe bën që rezultati me 256 piksela të duket më afër 512. Kjo pothuajse dyfishon kohën e renderimit, por ia vlen për fotot e herojve.

SadTalker paraqet në 256 px në mënyrë të prezgjedhur. Shko tek madhësia 512 px për një dalje më të mprehtë (më e ngadalshme, VRAM më e lartë) ose aktivizo përmirësuesin GFPGAN për të rritur detajet e fytyrës. Për rezultate më të mira, ngarko një foto portreti me cilësi të lartë dhe të ndriçuar mirë.

Po. Ngarko një MP4 ose WebM si hyrje të fytyrës dhe do të përdorim kornizën e parë si identitetin e drejtimit. Për ri-dublimin e plotë të video (zëvendësimi i gojës për kornizë), shiko videon e ardhshme Dubbing Studio.

Po. POST një kërkesë me shumë pjesë tek /api/v1/lipsync/ me fushat e fytyrës dhe audios, pastaj pyet /api/v1/lipsync/result/?uuid= derisa gjendja të jetë "e plotësuar". Përgjigjia përmban një URL të MP4 të renderuar. Hyrja në API kërkon një plan të paguar.

SadTalker përdor rregullimin e fytyrës për të zbuluar dhe prerë fytyrën më të dukshme. Për rezultate më të mira, ngarko një portret me një person në qendër, sytë e dukshëm dhe me një mbyllje minimale. Fotot e grupit mund të japin rezultate të paparashikuara.

5.0/5 (1)

Gati për të filluar?

Regjistrohu falas dhe merr 15,000 karaktere.

Regjistrohu pa pagesë Shiko çmimin

AI Lip Sync Video Generator

Shto Face + Audio

Videoja jote Talking-Head

SadTalker

Këshillat për rezultatet më të mira

Sync

Pyetje të shpeshta

Çfarë bën instrumenti i sinkronizimit të buzëve?

Çfarë formatesh të hyrjes suportohen?

Sa mund të jetë audio?

Sa kushton?

Mund t'i përdor videot komercialisht?

Sa kohë merr gjenerata?

Cili është ndryshimi midis paracaktimit "full" dhe "still"?

Çfarë është përforcuesi GFPGAN?

Pse rezultati im duket me rezolucion të ulët?

Mund të sinkronizoj një video me një audio të re?

A ka ndonjë API?

Po sikur në fotografinë time të fytyrës të ketë shumë njerëz?

Gati për të filluar?