Rapportera fel/funktionsförfrågan

AI Lip Sync Video Generator

Ladda upp ett ansikte foto och ett ljudklipp — få en talande-huvud video med realistisk läpp synkronisering, huvudpose, och blinkar. Drivs av SadTalker (MIT). Kommersiell användning OK.

Ladda upp ansikte + ljud

1000 tecken per sekund

Dra och släpp filen här, eller bläddra

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Dra och släpp filen här, eller bläddra

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Bearbetning...

Återgivning av din video. Detta tar normalt 30 sekunder till 2 minuter.

Din talande huvudvideo

Ladda ner MP4

Om SadTalker

SadTalker (CVPR 2023, Tencent ARC) är en öppen källkod prata-huvud modell som animerar en enda ansikte bild för att tala något ljud. Till skillnad från Wav2Lip varianter, SadTalker också animates huvudpose, blinkar, och uttryck för ett mer naturligt resultat.

Kod och vikter är MIT-licensierad slut — ingen Llama, Gemma, eller icke-kommersiell ryggrad — så de videor du genererar är säkra för kommersiell användning.

Tips för bästa resultat

  • Använd ett högkvalitativt, väl upplyst porträtt – ögonen synliga, munnen stängd
  • Centrerad yta, kvadrat eller 4:5 proportion fungerar bäst
  • Ren tal ljud (ingen musik) ger tätare läpp synkronisering
  • Aktivera GFPGAN för hjälte skott — dubblar ger tid men skärper detalj
  • Använd Still förinställd när du vill ha en stadig avatarbild

Lip Synkronisera videoplaner

Starta gratis, uppgradera när du behöver mer

Avgiftsfri
  • 30 sekunders ljudgräns
  • 256 px utgång
  • Endast "Still" förinställd
  • Ingen ansiktsförstärkare
Mest populära
Gratis konto
  • 30 sekunders ljudgräns
  • Både "full" och "fortfarande" förinställningar
  • 256 / 512 px utgång
  • GFPGAN ansiktsförstärkare
Registrera dig gratis
För
  • Ljudgräns på 5 minuter
  • Prioriterad GPU- kö
  • API-åtkomst (uppladdning av flera delar)
  • Webhook- kompletteringsåterkallningar
  • Kommersiell användning (MIT-licens)
Uppgradera

Vanliga frågor

Ladda upp ett ansikte foto och ett ljudklipp, och AI genererar en video av det ansiktet talar ljudet med realistiska läpprörelser, huvudpose, och blinkar. Byggd på SadTalker (CVPR 2023), en MIT-licensierad talande-huvud modell som animerar uttryck förutom munform.

Ansiktet indata kan vara en JPG eller PNG bild (upp till 10 MB) eller en kort MP4/WebM driving video (vi använder den första ramen). Driving audio kan vara MP3, WAV, M4A, eller FLAC upp till 10 MB. Vi samplar ljud till 16 kHz internt.

Gratis konton: upp till 30 sekunder per klipp. Betala användare: upp till 5 minuter per begäran. Längre ljud innebär längre renderingstid och högre teckenkostnad.

Lip sync video använder 1000 tecken per sekund av genererad video. En 30-sekunders klipp = 30 000 tecken. Kostnaden faktureras framifrån från din teckenbalans och återbetalas automatiskt om generationen misslyckas.

Ja — SadTalker-koden och vikterna är MIT-licensierade ända till slutet (ingen Llama, Gemma eller icke-kommersiell ryggrad). Videorna du genererar är dina att använda kommersiellt. Du ansvarar för att ha rättigheterna till källbilden och ljudet du laddar upp.

Om 30 sekunder för en 5-sekunders clip på vår A100-server, skalning ungefär linjärt med ljudlängd. Aktivera GFPGAN ansikte förstärkare ungefär fördubblar ger tid men producerar skarpare, högre kvalitet utgång.

Full förinställd (standard) animerar huvudet pose, blinkar och uttryck tillsammans med läpparna, producerar en mer naturlig talande-huvud video. Fortfarande förinställd låser huvudet på plats och animerar bara munnen — användbart när du vill ha en stadig avatar skott.

GFPGAN är en ansiktsrenoveringsmodell som vässar ansiktsdetaljer efter läppsynkronisering. Den rengör artefakter och gör 256-pixel utdata ser närmare till 512. Den fördubblar ungefär renderingstiden men är värt det för hjältebilder.

SadTalker ger normalt 256 px. Byt till 512 px storlek för skarpare utgång (slower, högre VRAM) eller aktivera GFPGAN förstärkare till exklusiva ansiktsdetaljer. För bästa resultat, ladda upp en högkvalitativ, väl upplyst porträttfoto.

Ja. Ladda upp en MP4 eller WebM som ansiktsinmatning och vi kommer att använda den första ramen som köridentitet. För full video re-dubbing (per-frame mun ersättning), se den kommande Dubbing Studio video pipeline.

Ja. POST en multipart begäran till /api/v1/lipsync/ med ansikte och ljudfält, sedan opinionsundersökning /api/v1/lipsync/resultat/?uuid= tills status är "fullbordad". Svaret innehåller en URL till den renderade MP4. API tillgång kräver en betald plan.

SadTalker använder ansiktsanpassning för att upptäcka och beskära det mest framträdande ansiktet. För bästa resultat, ladda upp ett porträtt med en person centrerad, ögonen synliga, och minimal ocklusion. Gruppfoton kan ge oförutsägbara resultat.
5.0/5 (1)

Vad kan vi förbättra? Din feedback hjälper oss att lösa problem.

Är du redo att sätta igång?

Registrera dig gratis och få 15.000 tecken. Inget kreditkort krävs.