Rapporteer bug / feature request

AI Lip Sync Video Generator

Upload een gezicht foto en een audio-clip te krijgen een talking-head video met realistische lip sync, hoofd pose, en knippert. Aangedreven door SadTalker (MIT). Commercieel gebruik OK.

Gratis aanmelden

Face + Audio uploaden

1000 tekens per seconde

1. Gezicht afbeelding of rijden video

Sleep uw bestand hierheen, of Bladeren

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Autoriving Audio

Sleep uw bestand hierheen, of Bladeren

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Animatievoorinstelling

Uitvoergrootte

Gezichtsversterker

GFPGAN (scherper, langzamer)

Over SadTalker

SadTalker (CVPR 2023, Tencent ARC) is een open-source talking-head model dat een single face beeld animeert om te spreken elke audio. In tegenstelling tot Wav2Lip varianten, SadTalker ook animeert hoofd pose, knippert, en expressie voor een meer natuurlijk resultaat.

Code en gewichten zijn MIT-licenties end to end Geen Llama, Gemma, of niet-commerciële ruggengraat dus de video's die u genereert zijn veilig voor commercieel gebruik.

Tips voor de beste resultaten

Gebruik een hoogkwalitatieve, goed verlichte portret ogen zichtbaar, mond gesloten
Gecentreerd gezicht, vierkant of 4:5 aspect verhouding werkt het beste
Clean speech audio (geen muziek) geeft strakkere lip sync
GFPGAN inschakelen voor heldenfoto's Verdubbelt de tijd maar scherpt de details
Gebruik de Still preset wanneer u een stabiele avatar shot wilt

Lip Sync Video Plannen

Start gratis, upgrade wanneer je meer nodig hebt

Vrij

30-seconde audiolimiet
256 px-uitvoer
"Nog steeds" alleen ingesteld
Geen gezichtsbevorderaar

Meest populair

Gratis account

30-seconde audiolimiet
Zowel "full" als "still" voorinstellingen
256 / 512 px output
GFPGAN gezichtsbevorderaar

Gratis aanmelden

Pro

Audiolimiet van 5 minuten
Prioritaire GPU-wachtrij
API-toegang (multipart-upload)
Webhook voltooiing callbacks
Commercieel gebruik (MIT-licentie)

Upgrade

Veelgestelde vragen

Upload een gezichtsfoto en een audio-clip, en de AI genereert een video van dat gezicht spreken van de audio met realistische lipbewegingen, hoofd pose, en knippert. Gebouwd op SadTalker (CVPR 2023), een MIT-licensed talking-head model dat expressie animeert in aanvulling op mondvorm.

De ingang van het gezicht kan een JPG of PNG beeld (tot 10 MB) of een korte MP4/WebM rijden video (we gebruiken het eerste frame). Het rijden audio kan worden MP3, WAV, M4A, of FLAC tot 10 MB. We resample audio naar 16 kHz intern.

Gratis accounts: tot 30 seconden per clip. Gebruikers betalen: tot 5 minuten per aanvraag. Langere audio betekent langere tijd en hogere karakterkosten.

Lip sync video maakt gebruik van 1000 tekens per seconde van gegenereerde video. Een 30-seconde clip = 30.000 tekens. De kosten worden vooraf gefactureerd van uw karakterbalans en automatisch terugbetaald als de generatie mislukt.

Ja, SadTalker code en gewichten zijn MIT gelicentieerd end to end (geen Llama, Gemma, of niet-commerciële ruggengraat). De video's die u genereert zijn van u om commercieel te gebruiken. U bent verantwoordelijk voor het hebben van de rechten op de source face afbeelding en audio die u uploadt.

Ongeveer 30 seconden voor een 5-seconde clip op onze A100 server, ruwweg lineair schalen met audiolengte. Het inschakelen van de GFPGAN gezichtsversterker ongeveer verdubbelt de tijd, maar produceert scherpere, hogere kwaliteit output.

Volledige preset (standaard) animeert hoofd pose, knippert, en expressie samen met de lippen, het produceren van een meer natuurlijke talking-head video. Nog steeds vooraf ingesteld sluit het hoofd op zijn plaats en animeert alleen de mond nuttig wanneer u wilt een stabiele avatar shot.

GFPGAN is een gezicht restauratie model dat scherpt gezicht details na lip-sync rendering. Het reinigt artefacten en maakt 256-pixel output kijken dichter bij 512. Het ruwweg verdubbelt render tijd maar is het waard voor held shots.

SadTalker rendert standaard op 256 px. Schakel over op 512 px grootte voor een scherpere output (lager, hoger VRAM) of schakel de GFPGAN enhancer in op upscale gezichtsdetails. Voor het beste resultaat, upload een hoogkwalitatieve, goed verlichte portretfoto.

Ja. Upload een MP4 of WebM als de gezichtsinvoer en we zullen het eerste frame gebruiken als de rij-identiteit. Voor volledige video re-dubbing (per-frame mondvervanging), zie de komende Dubbing Studio video pijplijn.

Ja. POST een multipart verzoek naar /api/v1/lipsync/ met gezichts- en audiovelden, dan poll /api/v1/lipsync/result/?uuid= totdat status "voltooid" is. Het antwoord bevat een URL naar de weergegeven MP4. API toegang vereist een betaald plan.

SadTalker gebruikt gezichtsaanpassing om het meest prominente gezicht te detecteren en bij te snijden. Voor de beste resultaten, upload een portret met één persoon gecentreerd, ogen zichtbaar, en minimale occlusie. Groepsfoto's kunnen onvoorspelbare resultaten opleveren.

5.0/5 (1)

Klaar om te beginnen?

Gratis aanmelden en 15.000 tekens. Geen creditcard vereist.

Gratis aanmelden Prijzen bekijken

AI Lip Sync Video Generator

Face + Audio uploaden

Uw spraak-hoofd video

Over SadTalker

Tips voor de beste resultaten

Lip Sync Video Plannen

Veelgestelde vragen

Wat doet de AI lip sync tool?

Welke invoerformaten worden ondersteund?

Hoe lang kan het geluid duren?

Hoeveel kost het?

Kan ik de video's commercieel gebruiken?

Hoe lang duurt generatie?

Wat is het verschil tussen "full" en "still" preset?

Wat is de GFPGAN-versterker?

Waarom ziet mijn output eruit als een lage resolutie?

Kan ik lip-sync een video naar nieuwe audio?

Is er een API?

Wat als mijn gezichtsfoto meerdere mensen bevat?

Klaar om te beginnen?