Raporteer Fout / eienskap Versoek

Aol Oombliklike Boodskapper KliÃ"ntName

Oplaai 'n gesig foto en' n klank clip ☞ kry 'n praat-kop video met realistiese lip sinkroniseer, kop poseer en kniptjies. Mag deur Sad Talker (MIT) krag verkry word. Kommer gebruik OK.

Meld aan om vry te wees

Ons het nog nie TTS-stemme in jou taal nie, help ons om joune by te voeg! Verkoop jou stem

LaaiÃ ̄ng van K- sterre...

1 000 karakters per sekonde

1. gesig beeld of bestuursvideo

Trek laat val jou lêer hier, of Deurblaai

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Bestuur oudio

Trek laat val jou lêer hier, of Deurblaai

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Animasie vooraf

Uitset Grootte

Gesig Verbeterer

GFPGAN (sharper, stadiger)

Oor hartseer praatjies

Sad Talker (CVPR 2023, Tencent ARC) is 'n ope-onsorce praat-kop model wat 'n enkele beeld op 'n enkele gesig plaas om enige klank te praat. In teenstelling met Wav2Lip variante, Sad Talker ook die kop poseer, knip en uitdrukking vir 'n meer natuurlike resultaat.

code en gewigte is MIT-licensed einde te maak ← no Llama, Gemma, of nie-kommeriese ruggraat π sodat die video's wat jy genereer veilig is vir kommersiële gebruik.

Wenke vir die beste resultate

Gebruik 'n hoë-kwaliteit, goed-liter portret eyes sigbaar, mond toegesluit
Gesentreerde gesig, vierkant of 4:5 aspek verhouding werk die beste
Skoon toespraakklank (geen musiek) lewer strenger lipruisasie
Aktiveer GFPGAN vir heldinspuitings iums gee tyd weer, maar skerp besonderhede toe
Gebruik die nogsteeds vooraf gestel wanneer jy wil hê 'n konstante avatar geskiet

L Lip Sinkronisasie video Plans

Begin sonder, opgradering wanneer u meer nodig het

Beskikbaar

30-second oudiogrens
256 px uitset
"Stil" voorafgereeld slegs
Geen gesigsverbeterer nie

Die gewildste

Vry rekening

30-second oudiogrens
Beide "vol" en "stil" vooraf gedefinieer
256 / 512 px uitset
GFPGAN-gesigverbeterer

Meld aan om vry te wees

Pro

5-minute oudiogrens
Prioriteit GPU wagtou
API toegang verkry (multipart oplaai)
Webversterking terugbele
Kommersiële gebruik (MIT-lisensie)

Gradeer op

Vrae wat dikwels gevra word

Oplaai 'n gesig foto en' n klank Clip, en die kunsmatige video van daardie gesig wek' n video van daardie gesig wat praat die oudio met realistiese lip bewegings, kop poseer en kniptjies. Gebou op Sad Talker (CVPR 2023), 'n MIT-gesenseerde praat-kop model wat die uitdrukking bo die mond vorm.

Die gesig invoer kan 'n JPG of PNG-beeld (van tot 10 mb) wees of 'n kort MP4/WBBM bestuur video (ons gebruik die eerste raam). Die bestuur oudio kan MP3, WAV, M4A, of VLOC tot 10 mb wees. Ons hersample klank na 16 kHz intern.

Vry rekeninge: tot 30 sekondes per clip. Betaal gebruikers: tot 5 minute per versoek. Langer oudio beteken langer tyd en hoër karakterkoste.

Lip sink video gebruik 1 000 karakters per sekonde van leesvideo. 'n 30-second clip = 30 000 karakters. Die koste word aan jou karakterbalans toegeken en outomaties hersirkuleer as geslag faal.

Ja ☞ Sad Speakerkode en gewigte is MIT gelisensieer om te eindig (geen Llama, Gemma of niekommeriese ruggraat). Die video's wat jy genereer is, is joune om kommersieel te gebruik. Jy is verantwoordelik vir die regte wat jy het na die bron beeld en oudio wat jy oplaai.

Ongeveer 30 sekondes vir 'n 5-second clip op ons A100 bediener,skalering naastenby lineêr met klanklengte. Deur die GFPGAN gesig te vergroot naastenby dubbels gee terug tyd maar vervaardig skerper, hoër-kwaliteit uitset.

Vol vooraf gestel (verstek) lewende kop poseer, knip en uitdrukking tesame met die lippe, wat 'n meer natuurlike praat-kop video vervaardig. Nog vooraf stel sluit die kop in plek en lewendes slegs die mond 0°) nuttig wanneer jy wil hê 'n bestendige avatar geskiet.

GFPGAN is 'n gesigherstelmodel wat geheuebesonderhede slyp na lip-sync vertaling. Dit maak artefakte op en maak 256-pixel uitset nader na 512. Dit gee ongeveer dubbels tyd terug, maar is die moeite werd vir heldeinspuiting.

Sad Talker gee by 256 px met verstek. Wissel na 512 px grootte vir skerper uitset (stadiger, hoër VRAM) of aktiveer die GFPGAN verhoginger na upskaalse gesig details. Vir beste resultate, oplaai 'n hoë-kwaliteit, goed-liter portretfoto.

Ja. Oplaai 'n MP4 of webm as die gesig invoer en ons sal gebruik die eerste raam as die bestuur identiteit. Vir volledige video reduping (per-frame mond plaasvervanger), sien die komende Dubing Studio-video-video-pyplyn.

Ja. DOOP 'n multipart versoek na /' npi/v1/lipsync/ met gesig en oudio velde, dan stem jy / api/v1/lipsync/result/?uuid= totdat status "volgewerk" is. Die antwoord bevat 'n Url van die vertaalde MP4.' nPI toegang benodig 'n betaalde plan.

Sad Talker gebruik gesiglyn om die prominentste gesig op te spoor en te oes. Vir die beste resultate, laai 'n portret op met een persoon wat gesentreer is, oë sigbaar en minimale akklusie. Groepfoto's kan onvoorspelbare resultate lewer.

5.0/5 (1)

Gereed om te begin?

Teken gratis op en kry 50 krediete, geen kredietkaart benodig nie

Meld aan om vry te wees Besigtig Pen Program

Aol Oombliklike Boodskapper KliÃ"ntName

LaaiÃ ̄ng van K- sterre...

Jou gesels- Head video

Oor hartseer praatjies

Wenke vir die beste resultate

L Lip Sinkronisasie video Plans

Vrae wat dikwels gevra word

Wat doen die KI-lip sinkroniseer?

Watter toevoerformaat word ondersteun?

Hoe lank kan die oudio wees?

Hoeveel kos dit?

Kan ek die video's kommersieel gebruik?

Hoe lank neem die geslag?

Wat is die verskil tussen "vol" en "stil" vooraf bepaal?

Wat is die GFPGAN - verbetering?

Waarom lyk my uitset laag-resolusie?

Kan ek 'n video na nuwe oudio?

Is daar'nPI?

Sê nou my foto het baie mense daarin?

Gereed om te begin?