Bug / Feature Request mellen

AI Lip Sync Videogenerator

Laden eng Gesiichtsfoto an en Audioclip erop - kritt e Video mat engem schwätzenden Kopf mat realistischer Lippensynchroniséierung, Kopfpositioun a Bléckwiessel. Mat SadTalker (MIT). Kommerziell Benotzung OK.

Mir maachen dat D'Stëmm vum Mënsch

Audio

1000 Zeichen pro Sekonn

Ziehen a léisen Är Datei hei, oder Sich

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

Datei.mp3

0 MB

Ziehen a léisen Är Datei hei, oder Sich

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Datei.mp3

0 MB

Veraarbechtung...

Äert Video gëtt gerendert. Dat dauert normalerweis 30 Sekonnen bis 2 Minutten.

Websäit vum Video

Erofgelueden

Websäit vum Saarland

De SadTalker (CVPR 2023, Tencent ARC) ass en Open-Source-Modell, deen e Gesiicht animéiert fir all Audio ze schwätzen. Am Géigesaz zu Wav2Lip-Varianten animéiert SadTalker och Kopfpositiounen, Bléckwiessel an Ausdréck fir e méi natierlecht Resultat.

Et gëtt och e puer aner Aarte vu Videospiller, déi net op Video-CDen erauskommen, mä op DVDen, déi et och gëtt.

Tipps fir déi bescht Resultater

  • Benotzt e gutt beliichte Porträt mat héijer Qualitéit - Aen sichtbar, Mond geschloss
  • Zentréiert Gesiicht, Quadrat oder 4:5 Säitenverhältnes funktionnéiert am Beschten
  • D'Sprooch ass net méi am Gebrauch, d'Musek ass méi räich un Texter.
  • GFPGAN fir Helden-Schëss aktivéieren - verdoppelt d'Renderzäit, awer verschärft d'Detailer
  • Benotzt d'Standbild-Vireinstellung wann Dir e stännege Avatar-Schnappschuss wëllt

Websäit vu Syndicat National de l'Édition Phonographique

Gratis ufänken, aktualiséieren wann Dir méi braucht

Free
  • 30-Sekonnen-Audiolimit
  • 256 px Ausgab
  • Just "Still"-Vireinstellung
  • Keng Gesiichtsverbesserung
Déi populärst
Free Account
  • 30-Sekonnen-Audiolimit
  • Beide "voll" an "still" Vireinstellungen
  • 256 / 512 px Ausgab
  • GFPGAN Gesiichtsverbesserung
Gratis anmelden
Pro
  • 5 Minutten
  • Prioritéit GPU-Warteschlange
  • API-Access (Mehrfach-Upload)
  • Webhook-Vervollstännegung Callbacks
  • Kommerziell Benotzung (MIT Lizenz)
Aktualiséieren

Häufig gestallte Froen

Laden Si eng Gesiichtsfoto an en Audioclip erop, an d'KI generéiert e Video vun deem Gesiicht, dat den Audio mat realistische Lippenbewegungen, Kopfpositioun a Bléckwiessel schwätzt. Gebaut op SadTalker (CVPR 2023), engem MIT-lizenzéierte Modell, dat Ausdréck an der Muerform animéiert.

D'Gesiicht kann en JPG oder PNG Bild (bis zu 10 MB) oder e kuerz MP4/WebM Video (mir benotze den éischten Frame) sinn. Den Audio kann MP3, WAV, M4A oder FLAC bis zu 10 MB sinn. Mir huelen intern 16 kHz Audio.

Free Accounts: bis zu 30 Sekonnen pro Clip. Paying Users: bis zu 5 Minutten pro Ufro. Longer Audio means longer render time and higher character costs.

Lip Sync Video benotzt 1.000 Zeichen pro Sekonn vum generéierte Video. E 30-Sekonnen-Clip = 30.000 Zeichen. D'Käschte ginn Iech vun Ärem Zeichen-Geldbetrag ofgerechent an automatesch zréckbezuelt wann d'Generéierung fehlschléit.

Ja — SadTalker Code an Gewiicht sinn end-to-end MIT-lizenzéiert (keng Llama, Gemma oder net-kommerziell Backbone). D'Videoen déi Dir generéiert sinn Är fir kommerziell Benotzung. Dir sidd verantwortlech fir d'Rechter op d'Quell Gesiichtsbild an Audio ze hunn déi Dir erofgelueden hutt.

Ongeféier 30 Sekonnen fir e 5-Sekonnen-Clip op eisem A100-Server, mat enger linearer Skaléierung mat der Audiolängt. D'Aktivéierung vum GFPGAN-Face-Enhancer verdéngt ongeféier d'Renderzäit, awer produzéiert eng schärfer, méi qualitativ Ausgab.

Voll virgesat (Standard) animéiert Kopphaltung, Bléck a Gesiichtsausdrock zesumme mat de Lippen, fir e méi natierlecht Video mat engem schwätzenden Kopf ze produzéieren. Still virgesat blockéiert de Kopf op senger Plaz an animéiert nëmmen de Mond - nëtzlech wann Dir e stabilen Avatar-Shot wëllt.

GFPGAN ass e Gesiichtsreparaturmodell, dat Gesiichtsdetailer no der Lippensynchroniséierung verschärft. Et räumt Artefakten op an erlaabt eng 256-Pixel-Ausgab, déi méi no un 512 Pixelen ausgesäit. Et verdéngt ongeféier d'Duerchschnëttszäit, awer et ass et fir Heldenopnamen wäert.

SadTalker renderéiert standardméisseg mat 256 Pixel. Wechseln Sie zu 512 Pixelgröße für schärfere Ausgabe (langsamer, höherer VRAM) oder aktivieren Sie den GFPGAN-Verbesserer, um Gesichtsdetailer zu skalieren. Für beste Ergebnisse laden Sie ein qualitativ hochwertiges, gut beleuchtetes Porträtfoto hoch.

Ja. Laad en MP4 oder WebM als Gesiichts-Input erop an mir wäerten den éischten Frame als d'Féierungsidentitéit benotzen. Fir vollstänneg Video-Re-Dubbing (pro-Frame Muddersatz), kuckt d'Dubbing Studio Video-Pipeline.

Ja. POST eng méideeleg Ufro un /api/v1/lipsync/ mat Face- a Audiofelder, da frot /api/v1/lipsync/result/?uuid= of bis de Status "completed" ass. D'Äntwert enthält eng URL zum gerenderten MP4. API-Zugang erfuerdert e bezuelte Plang.

SadTalker benotzt Gesiichtsausriichtung fir d'prominentst Gesiicht ze erfannen an ze schneiden. Fir déi bescht Resultater, laadt e Portrait mat enger Persoun am Mëttelpunkt, Aen sichtbar an minimaler Okklusion erop. Gruppfotoe kënnen onvirsiichteg Resultater produzéieren.
5.0/5 (1)

Wat kéinte mir verbesseren? Äert Feedback hëlleft eis, Problemer ze léisen.

Wëllt Dir ufänken?

Eng Kreditkaart ass net néideg.