Nahlásit chybu / žádost o funkci

Al Lip Sync Video Generator

Nahrajte fotku obličeje a audio klip a získejte video s mluvenou hlavou s realistickou synchronizací rtů, pózou hlavy a mrknutím. Powered by SadTalker (MIT). Komerční použití OK.

Zaregistrovat se zdarma

Odeslat obličej + Audio

1000 znaků za sekundu

1. Obličejový obrázek nebo řízení Video

Přetáhněte váš soubor sem, nebo Procházet

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Řízení Audio

Přetáhněte váš soubor sem, nebo Procházet

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Přednastavena animace

Velikost výstupu

Zvětšovač obličeje

GFPGAN (stříhač, pomaleji)

O SadTalkerovi

SadTalker (CVPR 2023, Tencent ARC) je open-source mluvící-hlava model, který animuje jeden obrázek obličeje mluvit jakýkoli zvuk. Na rozdíl od variant Wav2Lip, SadTalker také animuje hlavu pózovat, mrkne, a výraz pro přirozenější výsledek.

Kód a váhy jsou MIT-licensed konec do konce, žádné lama, Gemma, nebo non-commercial páteře, takže videa, které vytváříte, jsou bezpečné pro komerční použití.

Tipy pro nejlepší výsledky

Použijte kvalitní, dobře osvětlený portrét viditelné oči, ústa zavřená
Středová tvář, čtverec nebo 4:5 poměr stran funguje nejlépe
Čistý zvuk řeči (bez hudby) přináší těsnější synchronizaci rtů
Povolit GFPGAN pro hrdinské záběry Doubles vykresluje čas, ale ořezává detail
Použijte stále přednastavený, když chcete stabilní avatar záběr

Synchronizované videoplány Lip

Start zdarma, upgrade, když potřebujete více

Volné

30-sekundový audio limit
256 px výstup
"Still" pouze přednastaveno
Žádný zesilovač obličeje

Nejoblíbenější

Volný účet

30-sekundový audio limit
Oba "plná" a "stále" předvolby
256 / 512 px výstup
GFPGAN zesilovač obličeje

Zaregistrovat se zdarma

Pro

5-minutový audio limit
Prioritní fronta GPU
API přístup (multipart upload)
Webhook dokončení volání zpět
Komerční použití (license MIT)

Upgrade

Často kladené otázky

Nahrát fotku obličeje a audio klip, a AI generuje video tohoto obličeje mluvící zvuk s realistickými pohyby rtů, póza hlavy, a mrkne. Postaven na SadTalker (CVPR 2023), MIT-licensed mluvící hlava model, který animuje výraz kromě tvaru úst.

Vstupem obličeje může být JPG nebo PNG obraz (až 10 MB) nebo krátké MP4/WebM driving video (používáme první snímek). Pohonný zvuk může být MP3, WAV, M4A, nebo FLAC až 10 MB. Přezkoušíme zvuk na 16 kHz interně.

Zdarma účty: až 30 sekund za klip. Platit uživatele: až 5 minut na vyžádání. Delší zvuk znamená delší dobu a vyšší cenu znaku.

Lip sync video používá 1000 znaků za sekundu generovaného videa. 30-sekundový klip = 30 000 znaků. Cena je fakturována předem z vašeho charakteru bilance a vrácen automaticky, pokud generace selže.

Ano SadTalker kód a váhy jsou MIT licencované konce (ne Llama, Gemma, nebo non-commercial páteř). Videa, které vytváříte, jsou vaše používat komerčně. Jste zodpovědní za to, že mají práva na zdrojový obraz obličeje a audio budete nahrávat.

Okolo 30 sekund pro 5-sekundový klip na našem A100 serveru, který se zhruba lineárně škáluje s délkou zvuku. Umožňuje zesilovač GFPGAN obličeje zhruba zdvojnásobí čas, ale produkuje ostřejší, vysoce kvalitní výstup.

Plný přednastavený (výchozí) animuje hlavy póza, mžiky, a výraz spolu se rty, produkovat přirozenější mluvící-hlava video. Stále přednastavený zamkne hlavu na místě a oživuje pouze ústa?? užitečné, pokud chcete stabilní avatar záběr.

GFPGAN je model restaurování obličeje, který ostřejší detaily obličeje po renderování lip-synchronizace. Vyčistí artefakty a umožňuje 256-pixel výstup vypadat blíže k 512. To zhruba zdvojnásobí, aby čas, ale stojí za to pro hrdinové záběry.

SadTalker renderuje na 256 px ve výchozím nastavení. Přepněte na 512 px velikost pro ostřejší výstup (pomaleji, vyšší VRAM) nebo povolte zesilovač GFPGAN pro upscale detaily obličeje. Pro nejlepší výsledky nahrajte kvalitní, dobře osvětlenou fotografii na portrétu.

Ano. Nahrajte MP4 nebo WebM jako lícní vstup a my použijeme první snímek jako hnací identitu. Pro kompletní re-dubing videa (per-frame výměna úst), viz nadcházející Dabing Studio video potrubí.

Ano. POST a multipart request to /api/v1/lipsync/ with face and audio fields, then anfle /api/v1/lipsync/result/?uuid= until status is "completed." The response contains a URL to the maded MP4. API access requires a paid plan.

SadTalker používá face-laignment k detekci a plodin nejvýraznější tvář. Pro nejlepší výsledky, nahrát portrét s jednou osobou soustředěný, oči viditelné, a minimální okluze. Skupinové fotografie mohou přinést nepředvídatelné výsledky.

5.0/5 (1)

Připraveni začít?

Zaregistrujte se zdarma a získejte 15,000 znaků. Není vyžadována kreditní karta.

Zaregistrovat se zdarma Zobrazit ceny

Al Lip Sync Video Generator

Odeslat obličej + Audio

Vaše mluvící-hlava video

O SadTalkerovi

Tipy pro nejlepší výsledky

Synchronizované videoplány Lip

Často kladené otázky

Co dělá AI nástroj pro synchronizaci rtů?

Jaké vstupní formáty jsou podporovány?

Jak dlouho může zvuk trvat?

Kolik to stojí?

Můžu ta videa použít komerčně?

Jak dlouho trvá generace?

Jaký je rozdíl mezi "plnou" a "stále" předurčenou?

Co je GFPGAN zesilovač?

Proč můj výstup vypadá nenápadně?

Můžu natočit video na nový zvuk?

Je tam API?

Co když má fotka z obličeje má v sobě víc lidí?

Připraveni začít?