Raporteer Fout / eienskap Versoek

Aol Oombliklike Boodskapper KliÃ"ntName

Oplaai 'n gesig foto en' n klank clip ☞ kry 'n praat-kop video met realistiese lip sinkroniseer, kop poseer en kniptjies. Mag deur Sad Talker (MIT) krag verkry word. Kommer gebruik OK.

Ons het nog nie TTS-stemme in jou taal nie, help ons om joune by te voeg! Verkoop jou stem

Laaià ̄ng van K- sterre...

1 000 karakters per sekonde

Trek laat val jou lêer hier, of Deurblaai

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

lêer.mp3

0 MB

Trek laat val jou lêer hier, of Deurblaai

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

lêer.mp3

0 MB

Verwerking...

Dit neem gewoonlik 30 sekondes tot 2 minute.

Jou gesels- Head video

Aflaai hervat

Oor hartseer praatjies

Sad Talker (CVPR 2023, Tencent ARC) is 'n ope-onsorce praat-kop model wat 'n enkele beeld op 'n enkele gesig plaas om enige klank te praat. In teenstelling met Wav2Lip variante, Sad Talker ook die kop poseer, knip en uitdrukking vir 'n meer natuurlike resultaat.

code en gewigte is MIT-licensed einde te maak ← no Llama, Gemma, of nie-kommeriese ruggraat π sodat die video's wat jy genereer veilig is vir kommersiële gebruik.

Wenke vir die beste resultate

  • Gebruik 'n hoë-kwaliteit, goed-liter portret eyes sigbaar, mond toegesluit
  • Gesentreerde gesig, vierkant of 4:5 aspek verhouding werk die beste
  • Skoon toespraakklank (geen musiek) lewer strenger lipruisasie
  • Aktiveer GFPGAN vir heldinspuitings iums gee tyd weer, maar skerp besonderhede toe
  • Gebruik die nogsteeds vooraf gestel wanneer jy wil hê 'n konstante avatar geskiet

L Lip Sinkronisasie video Plans

Begin sonder, opgradering wanneer u meer nodig het

Beskikbaar
  • 30-second oudiogrens
  • 256 px uitset
  • "Stil" voorafgereeld slegs
  • Geen gesigsverbeterer nie
Die gewildste
Vry rekening
  • 30-second oudiogrens
  • Beide "vol" en "stil" vooraf gedefinieer
  • 256 / 512 px uitset
  • GFPGAN-gesigverbeterer
Meld aan om vry te wees
Pro
  • 5-minute oudiogrens
  • Prioriteit GPU wagtou
  • API toegang verkry (multipart oplaai)
  • Webversterking terugbele
  • Kommersiële gebruik (MIT-lisensie)
Gradeer op

Vrae wat dikwels gevra word

Oplaai 'n gesig foto en' n klank Clip, en die kunsmatige video van daardie gesig wek' n video van daardie gesig wat praat die oudio met realistiese lip bewegings, kop poseer en kniptjies. Gebou op Sad Talker (CVPR 2023), 'n MIT-gesenseerde praat-kop model wat die uitdrukking bo die mond vorm.

Die gesig invoer kan 'n JPG of PNG-beeld (van tot 10 mb) wees of 'n kort MP4/WBBM bestuur video (ons gebruik die eerste raam). Die bestuur oudio kan MP3, WAV, M4A, of VLOC tot 10 mb wees. Ons hersample klank na 16 kHz intern.

Vry rekeninge: tot 30 sekondes per clip. Betaal gebruikers: tot 5 minute per versoek. Langer oudio beteken langer tyd en hoër karakterkoste.

Lip sink video gebruik 1 000 karakters per sekonde van leesvideo. 'n 30-second clip = 30 000 karakters. Die koste word aan jou karakterbalans toegeken en outomaties hersirkuleer as geslag faal.

Ja ☞ Sad Speakerkode en gewigte is MIT gelisensieer om te eindig (geen Llama, Gemma of niekommeriese ruggraat). Die video's wat jy genereer is, is joune om kommersieel te gebruik. Jy is verantwoordelik vir die regte wat jy het na die bron beeld en oudio wat jy oplaai.

Ongeveer 30 sekondes vir 'n 5-second clip op ons A100 bediener,skalering naastenby lineêr met klanklengte. Deur die GFPGAN gesig te vergroot naastenby dubbels gee terug tyd maar vervaardig skerper, hoër-kwaliteit uitset.

Vol vooraf gestel (verstek) lewende kop poseer, knip en uitdrukking tesame met die lippe, wat 'n meer natuurlike praat-kop video vervaardig. Nog vooraf stel sluit die kop in plek en lewendes slegs die mond 0°) nuttig wanneer jy wil hê 'n bestendige avatar geskiet.

GFPGAN is 'n gesigherstelmodel wat geheuebesonderhede slyp na lip-sync vertaling. Dit maak artefakte op en maak 256-pixel uitset nader na 512. Dit gee ongeveer dubbels tyd terug, maar is die moeite werd vir heldeinspuiting.

Sad Talker gee by 256 px met verstek. Wissel na 512 px grootte vir skerper uitset (stadiger, hoër VRAM) of aktiveer die GFPGAN verhoginger na upskaalse gesig details. Vir beste resultate, oplaai 'n hoë-kwaliteit, goed-liter portretfoto.

Ja. Oplaai 'n MP4 of webm as die gesig invoer en ons sal gebruik die eerste raam as die bestuur identiteit. Vir volledige video reduping (per-frame mond plaasvervanger), sien die komende Dubing Studio-video-video-pyplyn.

Ja. DOOP 'n multipart versoek na /' npi/v1/lipsync/ met gesig en oudio velde, dan stem jy / api/v1/lipsync/result/?uuid= totdat status "volgewerk" is. Die antwoord bevat 'n Url van die vertaalde MP4.' nPI toegang benodig 'n betaalde plan.

Sad Talker gebruik gesiglyn om die prominentste gesig op te spoor en te oes. Vir die beste resultate, laai 'n portret op met een persoon wat gesentreer is, oë sigbaar en minimale akklusie. Groepfoto's kan onvoorspelbare resultate lewer.
5.0/5 (1)

U terugvoer help ons om geskille reg te stel.

Gereed om te begin?

Teken gratis op en kry 50 krediete, geen kredietkaart benodig nie