Rapportér fejl / funktionsanmodning

AI Lip Sync Video Generator

Upload et ansigtsbillede og et lydklip få en talende-head video med realistisk læbe sync, hoved pose, og blinker. Drevet af SadTalker (MIT). Kommerciel brug OK.

Tilmeld dig gratis

Upload ansigt + lyd

1.000 tegn pr. sekund

1. Ansigtsbillede eller Kørsel Video

Træk & slip din fil her, eller gennemse

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Kørsel Audio

Træk & slip din fil her, eller gennemse

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Animation forudindstillet

Outputstørrelse

Face Enhancer

GFPGAN (sharper, langsommere)

Om SadTalker

SadTalker (CVPR 2023, Tencent ARC) er en open source talking-head model, der animerer en enkelt ansigtsbillede til at tale enhver lyd. I modsætning til Wav2Lip varianter, SadTalker også animerer hovedet pose, blinker og udtryk for et mere naturligt resultat.

Kode og vægte er MIT-licenseret ende til ende! ingen Llama, Gemma, eller ikke-kommercielle rygrad! så de videoer, du gener er sikre til kommerciel brug.

Tips til bedste resultater

Brug en høj kvalitet, veloplyst portræt øjne synlige, mund lukket
Centreret ansigt, firkant eller 4:5 aspekt forhold fungerer bedst
Ren tale audio (ingen musik) giver strammere læbesynkronisering
Aktivér GFPGAN til heltebilleder! doubler gør tid, men skærper detaljerne
Brug Still preset når du vil have en stabil avatar skud

Lip- synkroniseringsvideoplaner

Start gratis, opgradere når du har brug for mere

Fri

30-sekunders lydgrænse
256 px output
"Still" kun forudindstillet
Ingen ansigtsforstærker

Mest populære

Gratis konto

30-sekunders lydgrænse
Både "fuld" og "stadig" forudindstillinger
256 / 512 px output
GFPGAN ansigtsforstærker

Tilmeld dig gratis

Pro

5-minutters lydgrænse
Prioriteret GPU-kø
API-adgang (flerdelt upload)
Webhook afslutning tilbagekald
Kommercielt brug (MIT-licens)

Opgradering

Ofte stillede spørgsmål

Upload et ansigt foto og et lydklip, og AI gener en video af, at ansigtet taler lyden med realistiske læbebevægelser, hoved pose, og blinker. Bygget på SadTalker (CVPR 2023), en MIT-licenseret tale-hoved model, der animere udtryk i tillæg til mund form.

Ansigtet input kan være en JPG eller PNG billede (op til 10 MB) eller en kort MP4/WebM kørsel video (vi bruger den første ramme). Den drivende lyd kan være MP3, WAV, M4A, eller FLAC op til 10 MB. Vi re sample lyd til 16 kHz internt.

Gratis konti: op til 30 sekunder pr klip. Betaler brugere: op til 5 minutter pr anmodning. Længere lyd betyder længere render tid og højere karakter omkostninger.

Lip sync- video bruger 1.000 tegn pr sekund i genereret video. Et 30 sekunders klip = 30.000 tegn. Omkostningerne faktureres op foran fra din karakterbalance og refunderes automatisk, hvis generation mislykkes.

Ja! SadTalker kode og vægte er MIT licenseret ende til ende (ingen Llama, Gemma, eller ikke-kommerciel rygrad). De videoer, du gener er dine til at bruge kommercielt. Du er ansvarlig for at have rettighederne til kilden ansigt billede og lyd, du uploade.

Om 30 sekunder for en 5-sekunders klip på vores A100 server, skalering omtrent lineært med lydlængde. Aktivering af GFPGAN ansigt forstærker groft fordobler renderer tid, men producerer skarpere, højere kvalitet output.

Fuld forudindstillede (standard) animerer hovedet pose, blinker og udtryk sammen med læberne, producerer en mere naturlig talende-head video. Stadig forudindstillede låser hovedet på plads og animerer kun munden nyttig, når du ønsker en stabil avatar skud.

GFPGAN er en ansigt restaurering model, der skærper ansigtsdetaljer efter læbesync rendering. Det rydder op artefakter og gør 256-pixel output ser tættere på 512. Det omtrent fordobler gøre tid, men er det værd for heltebilleder.

SadTalker gør som standard 256 px. Skift til 512 px størrelse for skarpere output (lavere, højere VRAM) eller aktivere GFPGAN forstærker til at opskalere ansigtsdetaljer. For bedste resultater, uploade en høj kvalitet, godt oplyst portræt foto.

Ja. Upload en MP4 eller WebM som ansigtet input, og vi vil bruge den første ramme som kørsel identitet. For fuld video re-dubbing (per-frame mund udskiftning), se den kommende Dubbing Studio video pipeline.

Ja. POST en flerdelt anmodning til /api/v1/lipsync/ med ansigts- og lydfelter, derefter poll /api/v1/lipsync/result/?uuid= indtil status er "fuldført." Svaret indeholder en URL til den afsatte MP4. API adgang kræver en betalt plan.

SadTalker bruger ansigtsjustering til at opdage og beskære den mest fremtrædende ansigt. For de bedste resultater, uploade et portræt med en person centreret, øjne synlige, og minimal okklusion. Gruppe fotos kan producere uforudsigelige resultater.

5.0/5 (1)

Klar til at komme i gang?

Tilmeld dig gratis og få 15.000 tegn. Ingen kreditkort påkrævet.

Tilmeld dig gratis Vis priser

AI Lip Sync Video Generator

Upload ansigt + lyd

Din talende video

Om SadTalker

Tips til bedste resultater

Lip- synkroniseringsvideoplaner

Ofte stillede spørgsmål

Hvad gør AI-læbesynkroniseringsværktøjet?

Hvilke inputformater understøttes?

Hvor længe kan lyden være?

Hvor meget koster det?

Kan jeg bruge videoerne kommercielt?

Hvor lang tid tager generationen?

Hvad er forskellen mellem "fuld" og "stadig" forudindstillet?

Hvad er GFPGAN forstærker?

Hvorfor ser min output lav opløsning ud?

Kan jeg lip-sync en video til ny lyd?

Er der en API?

Hvad hvis mit ansigt foto har flere mennesker i det?

Klar til at komme i gang?