AI Lip Sync Videogenerator

Last opp et ansiktsfoto og et lydklipp – få en snakkende video med realistisk leppesynkronisering, hodeposisjon og blink. Drivet av SadTalker (MIT). Kommersiell bruk OK.

Last opp ansikt + lyd

1000 tegn per sekund

Dra og slipp fila her, eller bla

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Dra og slipp fila her, eller bla

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Behandler...

Dette tar som regel 30 sekunder til 2 minutter.

Din opplesningsvideo

Last ned MP4

Om SadTalker

SadTalker (CVPR 2023, Tencent ARC) er en åpen kildekode- talehodemodell som animerer et enkelt ansiktsbilde for å snakke hvilken som helst lyd. I motsetning til Wav2Lip- varianter animerer SadTalker også hodepose, blinker og uttrykk for et mer naturlig resultat.

Kode og vekter er MIT-lisensert ende til ende - ingen Llama, Gemma, eller ikke-kommersiell ryggrad - så videoene du genererer er sikre for kommersiell bruk.

Tips for beste resultat

  • Bruk et godt belyst portrett av høy kvalitet — øynene er synlige, munnen lukket
  • Høyde/ bredde- forhold i midten, kvadrat eller 4: 5 virker best
  • Rensing av tale- lyd (ingen musikk) gir tettere leppesynkronisering
  • Slå på GFPGAN for helteskudd – fordobler visningstiden, men skjerper detaljene
  • Bruk stille- forhåndsinnstillinga når du vil ha et jevnt avatarbilde

Videoplaner med leppsynkronisering

Start ledig, oppgrader når du trenger mer

Ledig
  • 30-sekunders lydgrense
  • 256 px utdata
  • Bare « Fortsett » - forhåndsinnstilling
  • Ingen ansiktsforsterker
Mest populære
Fri konto
  • 30-sekunders lydgrense
  • Både « full » og « stille » - forhåndsinnstillinger
  • 256 / 512 px utdata
  • GFPGAN ansiktsforsterker
Registrer deg gratis
Pro
  • 5 minutters lydgrense
  • Prioritet GPU- kø
  • API- tilgang (opplasting med flere deler)
  • Webhook- fullføringsmeldinger
  • Kommersiell bruk (MIT-lisens)
Oppgradering

Ofte stilte spørsmål

Last opp et ansiktsfoto og et lydklipp, og AI- en lager en video av det ansiktet som snakker lyden med realistiske leppebevegelser, hodepose og blink. Byggt på SadTalker (CVPR 2023), en MIT- lisensiert talehodemodell som animerer uttrykk i tillegg til munnform.

Ansiktsinngang kan være et JPG - eller PNG- bilde (opptil 10 MB) eller en kort MP4/ WebM- kjørevideo (vi bruker den første ramma). Driverlyden kan være MP3, WAV, M4A eller FLAC opp til 10 MB. Vi tar om lyd til 16 kHz internt.

Ledige kontoer: inntil 30 sekunder per klipp. Betalende brukere: inntil 5 minutter per forespørsel. Lengere lyd betyr lengre oppvisningstid og høyere tegnkostnad.

Video med lupesynkronisering bruker 1000 tegn per sekund av laget video. Et 30- sekunds klipp = 30. 000 tegn. Kostnaden faktureres forover fra din tegnbalanse og tilbakebetales automatisk hvis generering mislykkes.

Ja – SadTalker- kode og vekter er MIT- lisensiert fra slutt til slutt (ingen Llama, Gemma eller ikke- kommersiell ryggrad). Videoene du lager er dine å bruke kommersielt. Du er ansvarlig for å ha rettigheter til kildebildet og lyden du laster opp.

Omtrent 30 sekunder for et 5- sekunds klipp på vår A100- tjener, som skalerer omtrent lineært med lydlengde. Slår på GFPGAN ansiktsforsterkeren grovt sett fordobler gjengivelsestiden, men gir skarpere utdata av høyere kvalitet.

Full forhåndsinnstilling (standard) animerer hodepose, blinker og uttrykk sammen med leppene, og gir en mer naturlig Talehode- video. Men forhåndsinnstilt låser hodet på plass og animerer bare munnen – nyttig når du vil ha et jevnt avatarbilde.

GFPGAN er en ansiktsgjenopprettelsesmodell som skjerper ansiktsdetaljene etter opptegning av leppsynk. Den rydder opp artefakter og gjør at 256- pikslers utgangsverdi ser nærmere 512. Den dobler nesten oppskriftstiden, men er verdt den for helteskudd.

SadTalker tegner som standard 256 px. Bytt til 512 px størrelse for skarpere utdata (lavere, høyere VRAM) eller slå på GFPGAN- forsterkeren til å gi høyere ansiktsdetaljer. Last opp et bilde av høy kvalitet, med godt belysning.

Ja. Last opp en MP4 eller WebM som ansiktsinngang og vi vil bruke den første ramma som kjøreidentitet. For full video- om- dubbing (per ramme munn- erstatning), se den kommende Dubbing Studio videorørledningen.

Ja. POST en forespørsel med flere deler til / api/ v1/ lipsync/ med ansikts- og lydfelt, og sjekk / api/ v1/ lipsync/ result /? uid= til statusen er « fullført ». Svaret inneholder en URL til MP4 som blir vist. API- tilgang krever en betalt plan.

SadTalker bruker ansiktsjustering for å oppdage og beskjære det mest framtredende ansiktet. For å gi best resultat laster du opp et portrett med én person sentrert, med synlige øyne og minimal ocklusion. Gruppebilder kan gi uforutsigbare resultater.
5.0/5 (1)

Hva kan vi forbedre? din tilbakemelding hjelper oss med å løse problemer.

Klar til å starte?

Registrer deg gratis og få 15 000 tegn. Ikke nødvendig med kredittkort.