Rapportér fejl / funktionsanmodning

AI Lip Sync Video Generator

Upload et ansigtsbillede og et lydklip få en talende-head video med realistisk læbe sync, hoved pose, og blinker. Drevet af SadTalker (MIT). Kommerciel brug OK.

Upload ansigt + lyd

1.000 tegn pr. sekund

Træk & slip din fil her, eller gennemse

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Træk & slip din fil her, eller gennemse

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Behandling...

Det tager typisk 30 sekunder til 2 minutter at sende din video.

Din talende video

Hent MP4

Om SadTalker

SadTalker (CVPR 2023, Tencent ARC) er en open source talking-head model, der animerer en enkelt ansigtsbillede til at tale enhver lyd. I modsætning til Wav2Lip varianter, SadTalker også animerer hovedet pose, blinker og udtryk for et mere naturligt resultat.

Kode og vægte er MIT-licenseret ende til ende! ingen Llama, Gemma, eller ikke-kommercielle rygrad! så de videoer, du genererer er sikre til kommerciel brug.

Tips til bedste resultater

  • Brug en høj kvalitet, veloplyst portræt øjne synlige, mund lukket
  • Centreret ansigt, firkant eller 4:5 aspekt forhold fungerer bedst
  • Ren tale audio (ingen musik) giver strammere læbesynkronisering
  • Aktivér GFPGAN til heltebilleder! doubler gør tid, men skærper detaljerne
  • Brug Still preset når du vil have en stabil avatar skud

Lip- synkroniseringsvideoplaner

Start gratis, opgradere når du har brug for mere

Fri
  • 30-sekunders lydgrænse
  • 256 px output
  • "Still" kun forudindstillet
  • Ingen ansigtsforstærker
Mest populære
Gratis konto
  • 30-sekunders lydgrænse
  • Både "fuld" og "stadig" forudindstillinger
  • 256 / 512 px output
  • GFPGAN ansigtsforstærker
Tilmeld dig gratis
Pro
  • 5-minutters lydgrænse
  • Prioriteret GPU-kø
  • API-adgang (flerdelt upload)
  • Webhook afslutning tilbagekald
  • Kommercielt brug (MIT-licens)
Opgradering

Ofte stillede spørgsmål

Upload et ansigt foto og et lydklip, og AI genererer en video af, at ansigtet taler lyden med realistiske læbebevægelser, hoved pose, og blinker. Bygget på SadTalker (CVPR 2023), en MIT-licenseret tale-hoved model, der animere udtryk i tillæg til mund form.

Ansigtet input kan være en JPG eller PNG billede (op til 10 MB) eller en kort MP4/WebM kørsel video (vi bruger den første ramme). Den drivende lyd kan være MP3, WAV, M4A, eller FLAC op til 10 MB. Vi re sample lyd til 16 kHz internt.

Gratis konti: op til 30 sekunder pr klip. Betaler brugere: op til 5 minutter pr anmodning. Længere lyd betyder længere render tid og højere karakter omkostninger.

Lip sync- video bruger 1.000 tegn pr sekund i genereret video. Et 30 sekunders klip = 30.000 tegn. Omkostningerne faktureres op foran fra din karakterbalance og refunderes automatisk, hvis generation mislykkes.

Ja! SadTalker kode og vægte er MIT licenseret ende til ende (ingen Llama, Gemma, eller ikke-kommerciel rygrad). De videoer, du genererer er dine til at bruge kommercielt. Du er ansvarlig for at have rettighederne til kilden ansigt billede og lyd, du uploade.

Om 30 sekunder for en 5-sekunders klip på vores A100 server, skalering omtrent lineært med lydlængde. Aktivering af GFPGAN ansigt forstærker groft fordobler renderer tid, men producerer skarpere, højere kvalitet output.

Fuld forudindstillede (standard) animerer hovedet pose, blinker og udtryk sammen med læberne, producerer en mere naturlig talende-head video. Stadig forudindstillede låser hovedet på plads og animerer kun munden nyttig, når du ønsker en stabil avatar skud.

GFPGAN er en ansigt restaurering model, der skærper ansigtsdetaljer efter læbesync rendering. Det rydder op artefakter og gør 256-pixel output ser tættere på 512. Det omtrent fordobler gøre tid, men er det værd for heltebilleder.

SadTalker gør som standard 256 px. Skift til 512 px størrelse for skarpere output (lavere, højere VRAM) eller aktivere GFPGAN forstærker til at opskalere ansigtsdetaljer. For bedste resultater, uploade en høj kvalitet, godt oplyst portræt foto.

Ja. Upload en MP4 eller WebM som ansigtet input, og vi vil bruge den første ramme som kørsel identitet. For fuld video re-dubbing (per-frame mund udskiftning), se den kommende Dubbing Studio video pipeline.

Ja. POST en flerdelt anmodning til /api/v1/lipsync/ med ansigts- og lydfelter, derefter poll /api/v1/lipsync/result/?uuid= indtil status er "fuldført." Svaret indeholder en URL til den afsatte MP4. API adgang kræver en betalt plan.

SadTalker bruger ansigtsjustering til at opdage og beskære den mest fremtrædende ansigt. For de bedste resultater, uploade et portræt med en person centreret, øjne synlige, og minimal okklusion. Gruppe fotos kan producere uforudsigelige resultater.
5.0/5 (1)

Hvad kan vi forbedre? Din feedback hjælper os med at løse problemer.

Klar til at komme i gang?

Tilmeld dig gratis og få 15.000 tegn. Ingen kreditkort påkrævet.