Al Lip Sync Video Generator

Nahrajte fotku obličeje a audio klip a získejte video s mluvenou hlavou s realistickou synchronizací rtů, pózou hlavy a mrknutím. Powered by SadTalker (MIT). Komerční použití OK.

Odeslat obličej + Audio

1000 znaků za sekundu

Přetáhněte váš soubor sem, nebo Procházet

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

soubor.mp3

0 MB

Přetáhněte váš soubor sem, nebo Procházet

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

soubor.mp3

0 MB

Zpracovávám...

Tohle obvykle trvá 30 sekund až 2 minuty.

Vaše mluvící-hlava video

Stáhnout MP4

O SadTalkerovi

SadTalker (CVPR 2023, Tencent ARC) je open-source mluvící-hlava model, který animuje jeden obrázek obličeje mluvit jakýkoli zvuk. Na rozdíl od variant Wav2Lip, SadTalker také animuje hlavu pózovat, mrkne, a výraz pro přirozenější výsledek.

Kód a váhy jsou MIT-licensed konec do konce, žádné lama, Gemma, nebo non-commercial páteře, takže videa, které vytváříte, jsou bezpečné pro komerční použití.

Tipy pro nejlepší výsledky

  • Použijte kvalitní, dobře osvětlený portrét viditelné oči, ústa zavřená
  • Středová tvář, čtverec nebo 4:5 poměr stran funguje nejlépe
  • Čistý zvuk řeči (bez hudby) přináší těsnější synchronizaci rtů
  • Povolit GFPGAN pro hrdinské záběry Doubles vykresluje čas, ale ořezává detail
  • Použijte stále přednastavený, když chcete stabilní avatar záběr

Synchronizované videoplány Lip

Start zdarma, upgrade, když potřebujete více

Volné
  • 30-sekundový audio limit
  • 256 px výstup
  • "Still" pouze přednastaveno
  • Žádný zesilovač obličeje
Nejoblíbenější
Volný účet
  • 30-sekundový audio limit
  • Oba "plná" a "stále" předvolby
  • 256 / 512 px výstup
  • GFPGAN zesilovač obličeje
Zaregistrovat se zdarma
Pro
  • 5-minutový audio limit
  • Prioritní fronta GPU
  • API přístup (multipart upload)
  • Webhook dokončení volání zpět
  • Komerční použití (license MIT)
Upgrade

Často kladené otázky

Nahrát fotku obličeje a audio klip, a AI generuje video tohoto obličeje mluvící zvuk s realistickými pohyby rtů, póza hlavy, a mrkne. Postaven na SadTalker (CVPR 2023), MIT-licensed mluvící hlava model, který animuje výraz kromě tvaru úst.

Vstupem obličeje může být JPG nebo PNG obraz (až 10 MB) nebo krátké MP4/WebM driving video (používáme první snímek). Pohonný zvuk může být MP3, WAV, M4A, nebo FLAC až 10 MB. Přezkoušíme zvuk na 16 kHz interně.

Zdarma účty: až 30 sekund za klip. Platit uživatele: až 5 minut na vyžádání. Delší zvuk znamená delší dobu a vyšší cenu znaku.

Lip sync video používá 1000 znaků za sekundu generovaného videa. 30-sekundový klip = 30 000 znaků. Cena je fakturována předem z vašeho charakteru bilance a vrácen automaticky, pokud generace selže.

Ano SadTalker kód a váhy jsou MIT licencované konce (ne Llama, Gemma, nebo non-commercial páteř). Videa, které vytváříte, jsou vaše používat komerčně. Jste zodpovědní za to, že mají práva na zdrojový obraz obličeje a audio budete nahrávat.

Okolo 30 sekund pro 5-sekundový klip na našem A100 serveru, který se zhruba lineárně škáluje s délkou zvuku. Umožňuje zesilovač GFPGAN obličeje zhruba zdvojnásobí čas, ale produkuje ostřejší, vysoce kvalitní výstup.

Plný přednastavený (výchozí) animuje hlavy póza, mžiky, a výraz spolu se rty, produkovat přirozenější mluvící-hlava video. Stále přednastavený zamkne hlavu na místě a oživuje pouze ústa?? užitečné, pokud chcete stabilní avatar záběr.

GFPGAN je model restaurování obličeje, který ostřejší detaily obličeje po renderování lip-synchronizace. Vyčistí artefakty a umožňuje 256-pixel výstup vypadat blíže k 512. To zhruba zdvojnásobí, aby čas, ale stojí za to pro hrdinové záběry.

SadTalker renderuje na 256 px ve výchozím nastavení. Přepněte na 512 px velikost pro ostřejší výstup (pomaleji, vyšší VRAM) nebo povolte zesilovač GFPGAN pro upscale detaily obličeje. Pro nejlepší výsledky nahrajte kvalitní, dobře osvětlenou fotografii na portrétu.

Ano. Nahrajte MP4 nebo WebM jako lícní vstup a my použijeme první snímek jako hnací identitu. Pro kompletní re-dubing videa (per-frame výměna úst), viz nadcházející Dabing Studio video potrubí.

Ano. POST a multipart request to /api/v1/lipsync/ with face and audio fields, then anfle /api/v1/lipsync/result/?uuid= until status is "completed." The response contains a URL to the maded MP4. API access requires a paid plan.

SadTalker používá face-laignment k detekci a plodin nejvýraznější tvář. Pro nejlepší výsledky, nahrát portrét s jednou osobou soustředěný, oči viditelné, a minimální okluze. Skupinové fotografie mohou přinést nepředvídatelné výsledky.
5.0/5 (1)

Co bychom mohli zlepšit? Vaše zpětná vazba nám pomáhá řešit problémy.

Připraveni začít?

Zaregistrujte se zdarma a získejte 15,000 znaků. Není vyžadována kreditní karta.