Rapporter feil/ funksjonsforespørsel

AI Lip Sync Videogenerator

Last opp et ansiktsfoto og et lydklipp – få en snakkende video med realistisk leppesynkronisering, hodeposisjon og blink. Drivet av SadTalker (MIT). Kommersiell bruk OK.

Registrer deg gratis

Last opp ansikt + lyd

1000 tegn per sekund

1. Ansiktsbilde eller kjørevideo

Dra og slipp fila her, eller bla

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Kjører lyd

Dra og slipp fila her, eller bla

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Forhåndsinnstillinger for animasjon

Utdatastørrelse

Ansiktsforbedring

GFPGAN (skarpere, langsommere)

Om SadTalker

SadTalker (CVPR 2023, Tencent ARC) er en åpen kildekode- talehodemodell som animerer et enkelt ansiktsbilde for å snakke hvilken som helst lyd. I motsetning til Wav2Lip- varianter animerer SadTalker også hodepose, blinker og uttrykk for et mer naturlig resultat.

Kode og vekter er MIT-lisensert ende til ende - ingen Llama, Gemma, eller ikke-kommersiell ryggrad - så videoene du gener er sikre for kommersiell bruk.

Tips for beste resultat

Bruk et godt belyst portrett av høy kvalitet — øynene er synlige, munnen lukket
Høyde/ bredde- forhold i midten, kvadrat eller 4: 5 virker best
Rensing av tale- lyd (ingen musikk) gir tettere leppesynkronisering
Slå på GFPGAN for helteskudd – fordobler visningstiden, men skjerper detaljene
Bruk stille- forhåndsinnstillinga når du vil ha et jevnt avatarbilde

Videoplaner med leppsynkronisering

Start ledig, oppgrader når du trenger mer

Ledig

30-sekunders lydgrense
256 px utdata
Bare « Fortsett » - forhåndsinnstilling
Ingen ansiktsforsterker

Mest populære

Fri konto

30-sekunders lydgrense
Både « full » og « stille » - forhåndsinnstillinger
256 / 512 px utdata
GFPGAN ansiktsforsterker

Registrer deg gratis

Pro

5 minutters lydgrense
Prioritet GPU- kø
API- tilgang (opplasting med flere deler)
Webhook- fullføringsmeldinger
Kommersiell bruk (MIT-lisens)

Oppgradering

Ofte stilte spørsmål

Last opp et ansiktsfoto og et lydklipp, og AI- en lager en video av det ansiktet som snakker lyden med realistiske leppebevegelser, hodepose og blink. Byggt på SadTalker (CVPR 2023), en MIT- lisensiert talehodemodell som animerer uttrykk i tillegg til munnform.

Ansiktsinngang kan være et JPG - eller PNG- bilde (opptil 10 MB) eller en kort MP4/ WebM- kjørevideo (vi bruker den første ramma). Driverlyden kan være MP3, WAV, M4A eller FLAC opp til 10 MB. Vi tar om lyd til 16 kHz internt.

Ledige kontoer: inntil 30 sekunder per klipp. Betalende brukere: inntil 5 minutter per forespørsel. Lengere lyd betyr lengre oppvisningstid og høyere tegnkostnad.

Video med lupesynkronisering bruker 1000 tegn per sekund av laget video. Et 30- sekunds klipp = 30. 000 tegn. Kostnaden faktureres forover fra din tegnbalanse og tilbakebetales automatisk hvis generering mislykkes.

Ja – SadTalker- kode og vekter er MIT- lisensiert fra slutt til slutt (ingen Llama, Gemma eller ikke- kommersiell ryggrad). Videoene du lager er dine å bruke kommersielt. Du er ansvarlig for å ha rettigheter til kildebildet og lyden du laster opp.

Omtrent 30 sekunder for et 5- sekunds klipp på vår A100- tjener, som skalerer omtrent lineært med lydlengde. Slår på GFPGAN ansiktsforsterkeren grovt sett fordobler gjengivelsestiden, men gir skarpere utdata av høyere kvalitet.

Full forhåndsinnstilling (standard) animerer hodepose, blinker og uttrykk sammen med leppene, og gir en mer naturlig Talehode- video. Men forhåndsinnstilt låser hodet på plass og animerer bare munnen – nyttig når du vil ha et jevnt avatarbilde.

GFPGAN er en ansiktsgjenopprettelsesmodell som skjerper ansiktsdetaljene etter opptegning av leppsynk. Den rydder opp artefakter og gjør at 256- pikslers utgangsverdi ser nærmere 512. Den dobler nesten oppskriftstiden, men er verdt den for helteskudd.

SadTalker tegner som standard 256 px. Bytt til 512 px størrelse for skarpere utdata (lavere, høyere VRAM) eller slå på GFPGAN- forsterkeren til å gi høyere ansiktsdetaljer. Last opp et bilde av høy kvalitet, med godt belysning.

Ja. Last opp en MP4 eller WebM som ansiktsinngang og vi vil bruke den første ramma som kjøreidentitet. For full video- om- dubbing (per ramme munn- erstatning), se den kommende Dubbing Studio videorørledningen.

Ja. POST en forespørsel med flere deler til / api/ v1/ lipsync/ med ansikts- og lydfelt, og sjekk / api/ v1/ lipsync/ result /? uid= til statusen er « fullført ». Svaret inneholder en URL til MP4 som blir vist. API- tilgang krever en betalt plan.

SadTalker bruker ansiktsjustering for å oppdage og beskjære det mest framtredende ansiktet. For å gi best resultat laster du opp et portrett med én person sentrert, med synlige øyne og minimal ocklusion. Gruppebilder kan gi uforutsigbare resultater.

5.0/5 (1)

Klar til å starte?

Registrer deg gratis og få 15 000 tegn. Ikke nødvendig med kredittkort.

Registrer deg gratis Vis prisfastsettelse

AI Lip Sync Videogenerator

Last opp ansikt + lyd

Din opplesningsvideo

Om SadTalker

Tips for beste resultat

Videoplaner med leppsynkronisering

Ofte stilte spørsmål

Hva gjør verktøyet for synkronisering av AI- leppe?

Hvilke inndata- formater er støttet?

Hvor lenge kan lyden være?

Hvor mye koster det?

Kan jeg bruke videoene kommersielt?

Hvor lang tid tar generasjonen?

Hva er forskjellen mellom "full" og "still" forhåndsinnstilling?

Hva er GFPGAN-forsterkeren?

Hvorfor ser utdata min lav-oppløsning?

Kan jeg leppe-synkronisere en video til ny lyd?

Er det en API?

Hva om mitt ansiktsbilde har flere mennesker i seg?

Klar til å starte?