AI Lip Sync Video Generator

Upload een gezicht foto en een audio-clip te krijgen een talking-head video met realistische lip sync, hoofd pose, en knippert. Aangedreven door SadTalker (MIT). Commercieel gebruik OK.

Face + Audio uploaden

1000 tekens per seconde

Sleep uw bestand hierheen, of Bladeren

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Sleep uw bestand hierheen, of Bladeren

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Bezig met verwerken...

Het renderen van uw video. Dit duurt meestal 30 seconden tot 2 minuten.

Uw spraak-hoofd video

MP4 downloaden

Over SadTalker

SadTalker (CVPR 2023, Tencent ARC) is een open-source talking-head model dat een single face beeld animeert om te spreken elke audio. In tegenstelling tot Wav2Lip varianten, SadTalker ook animeert hoofd pose, knippert, en expressie voor een meer natuurlijk resultaat.

Code en gewichten zijn MIT-licenties end to end Geen Llama, Gemma, of niet-commerciële ruggengraat dus de video's die u genereert zijn veilig voor commercieel gebruik.

Tips voor de beste resultaten

  • Gebruik een hoogkwalitatieve, goed verlichte portret ogen zichtbaar, mond gesloten
  • Gecentreerd gezicht, vierkant of 4:5 aspect verhouding werkt het beste
  • Clean speech audio (geen muziek) geeft strakkere lip sync
  • GFPGAN inschakelen voor heldenfoto's Verdubbelt de tijd maar scherpt de details
  • Gebruik de Still preset wanneer u een stabiele avatar shot wilt

Lip Sync Video Plannen

Start gratis, upgrade wanneer je meer nodig hebt

Vrij
  • 30-seconde audiolimiet
  • 256 px-uitvoer
  • "Nog steeds" alleen ingesteld
  • Geen gezichtsbevorderaar
Meest populair
Gratis account
  • 30-seconde audiolimiet
  • Zowel "full" als "still" voorinstellingen
  • 256 / 512 px output
  • GFPGAN gezichtsbevorderaar
Gratis aanmelden
Pro
  • Audiolimiet van 5 minuten
  • Prioritaire GPU-wachtrij
  • API-toegang (multipart-upload)
  • Webhook voltooiing callbacks
  • Commercieel gebruik (MIT-licentie)
Upgrade

Veelgestelde vragen

Upload een gezichtsfoto en een audio-clip, en de AI genereert een video van dat gezicht spreken van de audio met realistische lipbewegingen, hoofd pose, en knippert. Gebouwd op SadTalker (CVPR 2023), een MIT-licensed talking-head model dat expressie animeert in aanvulling op mondvorm.

De ingang van het gezicht kan een JPG of PNG beeld (tot 10 MB) of een korte MP4/WebM rijden video (we gebruiken het eerste frame). Het rijden audio kan worden MP3, WAV, M4A, of FLAC tot 10 MB. We resample audio naar 16 kHz intern.

Gratis accounts: tot 30 seconden per clip. Gebruikers betalen: tot 5 minuten per aanvraag. Langere audio betekent langere tijd en hogere karakterkosten.

Lip sync video maakt gebruik van 1000 tekens per seconde van gegenereerde video. Een 30-seconde clip = 30.000 tekens. De kosten worden vooraf gefactureerd van uw karakterbalans en automatisch terugbetaald als de generatie mislukt.

Ja, SadTalker code en gewichten zijn MIT gelicentieerd end to end (geen Llama, Gemma, of niet-commerciële ruggengraat). De video's die u genereert zijn van u om commercieel te gebruiken. U bent verantwoordelijk voor het hebben van de rechten op de source face afbeelding en audio die u uploadt.

Ongeveer 30 seconden voor een 5-seconde clip op onze A100 server, ruwweg lineair schalen met audiolengte. Het inschakelen van de GFPGAN gezichtsversterker ongeveer verdubbelt de tijd, maar produceert scherpere, hogere kwaliteit output.

Volledige preset (standaard) animeert hoofd pose, knippert, en expressie samen met de lippen, het produceren van een meer natuurlijke talking-head video. Nog steeds vooraf ingesteld sluit het hoofd op zijn plaats en animeert alleen de mond nuttig wanneer u wilt een stabiele avatar shot.

GFPGAN is een gezicht restauratie model dat scherpt gezicht details na lip-sync rendering. Het reinigt artefacten en maakt 256-pixel output kijken dichter bij 512. Het ruwweg verdubbelt render tijd maar is het waard voor held shots.

SadTalker rendert standaard op 256 px. Schakel over op 512 px grootte voor een scherpere output (lager, hoger VRAM) of schakel de GFPGAN enhancer in op upscale gezichtsdetails. Voor het beste resultaat, upload een hoogkwalitatieve, goed verlichte portretfoto.

Ja. Upload een MP4 of WebM als de gezichtsinvoer en we zullen het eerste frame gebruiken als de rij-identiteit. Voor volledige video re-dubbing (per-frame mondvervanging), zie de komende Dubbing Studio video pijplijn.

Ja. POST een multipart verzoek naar /api/v1/lipsync/ met gezichts- en audiovelden, dan poll /api/v1/lipsync/result/?uuid= totdat status "voltooid" is. Het antwoord bevat een URL naar de weergegeven MP4. API toegang vereist een betaald plan.

SadTalker gebruikt gezichtsaanpassing om het meest prominente gezicht te detecteren en bij te snijden. Voor de beste resultaten, upload een portret met één persoon gecentreerd, ogen zichtbaar, en minimale occlusie. Groepsfoto's kunnen onvoorspelbare resultaten opleveren.
5.0/5 (1)

Wat kunnen we verbeteren? Uw feedback helpt ons problemen op te lossen.

Klaar om te beginnen?

Gratis aanmelden en 15.000 tekens. Geen creditcard vereist.