AI Lip Sync Video Generator Najnovšia verzia 1.0

Nahrajte fotografiu tváre a zvukový klip - získajte video s hovoriacou hlavou s realistickou synchronizáciou pier, pózou hlavy a žmurknutím. Powered by SadTalker (MIT).

Nahrať tvár + zvuk

1 000 znakov za sekundu

Presuňte svoj súbor sem, alebo prehliadať

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

súbor.mp3

0 MB

Presuňte svoj súbor sem, alebo prehliadať

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

súbor.mp3

0 MB

Spracovanie objednávky...

Vykreslenie videa. To zvyčajne trvá 30 sekúnd až 2 minúty.

Your Talking-Head na Pintereste

Stiahnuť

O spoločnosti SadTalker

SadTalker (CVPR 2023, Tencent ARC) je open-source model hovoriacej hlavy, ktorý animuje jediný obraz tváre, aby hovoril akýkoľvek zvuk.Na rozdiel od variantov Wav2Lip, SadTalker tiež animuje pozíciu hlavy, žmurknutie a výraz pre prirodzenejší výsledok.

Kód a váhy sú licencované MIT end-to-end - žiadne Llama, Gemma, alebo nekomerčné chrbtice - takže videá, ktoré vytvárate, sú bezpečné pre komerčné použitie.

Tipy pre najlepšie výsledky

  • Použite vysokokvalitný, dobre osvetlený portrét – oči viditeľné, ústa zatvorené
  • Najlepšie funguje stredová tvár, štvorec alebo pomer strán 4:5
  • Čistý zvuk reči (bez hudby) prináša lepšiu synchronizáciu perí
  • Povoliť GFPGAN pre zábery hrdinov — zdvojnásobuje čas vykreslenia, ale zostruje detaily
  • Ak chcete zachytiť stabilný záber avatara, použite predvoľbu Stály

Lip Sync Video plány

Začnite zdarma, inovujte, keď budete potrebovať viac

Voľný
  • 30-sekundový limit zvuku
  • Výstup 256 px
  • Iba prednastavenie "Still"
  • Žiadny zvýrazňovač tváre
Striptease Najobľúbenejší
Vytvoriť bezplatný účet
  • 30-sekundový limit zvuku
  • Predvoľby "full" a "still"
  • Výstup 256 / 512 px
  • GFPGAN face enhancer - recenzie
Zaregistrujte sa zdarma
Pre
  • 5-minútový limit zvuku
  • Prioritná fronta GPU
  • API prístup (multipart upload)
  • Spätné volania dokončenia webhooku
  • Komerčné použitie (licencie MIT)
Aktualizácia

Často kladené otázky

Nahrajte fotografiu tváre a zvukový klip a umelá inteligencia vygeneruje video tejto tváre, ktorá hovorí zvuk s realistickými pohybmi pier, pózou hlavy a žmurknutím.Postavený na SadTalker (CVPR 2023), model hovoriacej hlavy licencovaný MIT, ktorý okrem tvaru úst animuje aj výraz.

Vstupom môže byť obrázok vo formáte JPG alebo PNG (do 10 MB) alebo krátke video vo formáte MP4/WebM (používame prvý snímok). Audio môže byť vo formáte MP3, WAV, M4A alebo FLAC do 10 MB, ktoré interne prevzorkujeme na 16 kHz.

Bezplatné účty: až 30 sekúnd na klip, platené účty: až 5 minút na požiadavku. Dlhší zvuk znamená dlhší čas vykresľovania a vyššiu cenu za postavu.

Synchronizácia s ústami využíva 1 000 znakov za sekundu generovaného videa, čo znamená, že 30-sekundový klip = 30 000 znakov. Náklady sa účtujú vopred zo zostatku na postavy a v prípade zlyhania generovania sa automaticky vrátia.

Áno — SadTalker kód a váhy sú licencované MIT end-to-end (nie Llama, Gemma, alebo nekomerčné chrbtice). Videá, ktoré vygenerujete sú vaše na komerčné použitie.Ste zodpovední za to, že máte práva na zdrojový obrázok tváre a zvuk, ktorý nahráte.

Približne 30 sekúnd pre 5-sekundový klip na našom serveri A100, ktorý sa približne lineárne mení s dĺžkou zvuku.Povolenie vylepšenia tváre GFPGAN približne zdvojnásobuje čas vykresľovania, ale vytvára ostrejší výstup s vyššou kvalitou.

Úplné prednastavenie (predvolené) animuje pozíciu hlavy, žmurknutie a výraz spolu s perami, čím vytvára prirodzenejšie video s hovoriacou hlavou. Prednastavenie Stále uzamkne hlavu na mieste a animuje iba ústa. Je to užitočné, keď chcete stabilný záber avatara.

GFPGAN je model obnovy tváre, ktorý po vykreslení synchronizácie pier zostruje detaily tváre, vyčistí artefakty a výstup s 256 pixelmi bude vyzerať bližšie k 512. Zhruba zdvojnásobuje čas vykreslenia, ale stojí to za to pre zábery hrdinov.

SadTalker štandardne vykresľuje 256 px. Prepnite na veľkosť 512 px pre ostrejší výstup (pomalší, vyššia VRAM) alebo povolte GFPGAN enhancer pre zvýšenie detailov tváre. Pre najlepšie výsledky nahrajte vysokokvalitnú, dobre osvetlenú portrétovú fotografiu.

Nahrajte MP4 alebo WebM ako vstup tváre a my použijeme prvý snímok ako identitu vodiča. Ak chcete získať úplné opätovné dabingovanie videa (náhrada úst po snímkach), pozrite si pripravovaný kanál videa Dubbing Studio.

Áno. POST viacdielnu požiadavku na /api/v1/lipsync/ s tvárou a audio polia, potom poll /api/v1/lipsync/result/?uuid=, kým stav nie je "dokončené". Odpoveď obsahuje URL na vykreslený MP4. API prístup vyžaduje platený plán.

SadTalker používa zarovnanie tváre na detekciu a orezanie najvýraznejšej tváre. Pre dosiahnutie najlepších výsledkov nahrajte portrét s jednou osobou na stred, oči viditeľné a minimálnu oklúziu.Skupinové fotografie môžu produkovať nepredvídateľné výsledky.
5.0/5 (1)

Čo by sme mohli zlepšiť? Vaše pripomienky nám pomáhajú riešiť problémy.

Ste pripravení začať?

Zaregistrujte sa zdarma a získajte 15 000 znakov. Nie je potrebná kreditná karta.