Generator video de sincronizare a lipilor AI

Încărcaţi o poză în faţă şi un clip audio — obţineţi un videoclip cu lipuşă realistă sincronizarea, poziţia capului şi clipuri. Powered by SadTalker (MIT). Utilizare comercială OK.

Încarcă faceta + audio

1000 de caractere pe secundă

Aruncă și aruncă fișierul aici, sau navigați

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Aruncă și aruncă fișierul aici, sau navigați

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Prelucrarea...

Acest lucru durează de obicei 30 de secunde până la 2 minute.

Video-ul tău care vorbeşte

Descarcă MP4

Despre SadTalker

SadTalker (CVPR 2023, Tencent ARC) este un model de conversație open-source care anima o singură imagine față pentru a vorbi orice audio. Spre deosebire de variantele Wav2Lip, SadTalker, de asemenea, anima poziția capului, clipiește și expresia pentru un rezultat mai natural.

Codul și greutatea sunt licențiate MIT până la sfârșit — fără Llama, Gemma sau coloană vertebrală necomercială — astfel încât videoclipurile pe care le generezi sunt sigure pentru utilizare comercială.

Sfaturi pentru cele mai bune rezultate

  • Foloseşte un portret de înaltă calitate, bine luminat — ochii vizibile, gura închisă
  • Fața centrată, raportul de aspect pătrat sau 4:5 funcționează cel mai bine
  • Curățați audio de vorbire (nu muzica) produce o sincronizare mai strânsă a buzelor
  • Activează GFPGAN pentru focuri de eroi – dubluri rand timp, dar ascuți detalii
  • Folosește Preconfigurarea încă atunci când doriți o împușcare stabilă de avatar

Planuri video de sincronizare a lipilor

Pornește gratuit, upgrade atunci când aveți nevoie de mai mult

Gratuit
  • Limite audio de 30 de secunde
  • Ieșire 256 px
  • Numai predefinirea "Still"
  • Nici un amplificator de fată
Cel mai popular
Cont liber
  • Limite audio de 30 de secunde
  • Atât "full" cât și "inca" preconizate
  • 256 / 512 ieșire px
  • Îmbunătățitor de fața GFPGAN
Inscrie-te gratis
Pro
  • Limite audio de 5 minute
  • Coada GPU prioritară
  • Acces API (multipart încărcare)
  • Webhook apelback-uri de finalizare
  • Utilizare comercială (licență MIT)
Actualizează

Întrebări frecvente

Încărcaţi o poză a feţei şi un clip audio, iar AI generează un video al feţei care vorbeşte audio cu mişcări realiste ale buzelor, poziţie capului şi clipuri. Construit pe SadTalker (CVPR 2023), un model de conversaţie cu licenţă MIT care anime expresia în plus faţă de forma bucală.

Introducerea feței poate fi o imagine JPG sau PNG (până la 10 MB) sau un scurt video de conducere MP4/WebM (folosim primul cadru). Audio de conducere poate fi MP3, WAV, M4A sau FLAC până la 10 MB. Refigurăm audio la 16 kHz intern.

Conturi gratuite: până la 30 de secunde pe clip. Utilizatori plătitori: până la 5 minute pe cerere. Audio înseamnă mai mult timp și mai mare cost de caracter.

Lip sync video folosește 1000 de caractere pe secundă din video generat. Un clip de 30 de secunde = 30.000 de caractere. Costul este facturat în fața echilibrului de caracter și restituirea automată dacă generația eșuează.

Da — Codul SadTalker și greutatea sunt MIT licențiate sfârșit (nu Llama, Gemma, sau coloană vertebrală necomercială). Video-urile pe care le generați sunt ale dumneavoastră pentru a utiliza comercial. Sunteți responsabili pentru a avea drepturile la imaginea de sursă și audio pe care îl încărcați.

Aproximativ 30 de secunde pentru o clipă de 5 secunde pe serverul nostru A100, scalarea aproximativ liniară cu lungimea audio. Activarea amplificatorului feței GFPGAN are timp aproximativ dubluri, dar produce ieșire mai ascuțită, de înaltă calitate.

Preset complet (default) anima poziția capului, clipiește și expresie împreună cu buzele, producând un video mai natural-cap de conversație. Totuși presetează încuie capul în loc și animează doar gura - util atunci când doriți un foc de avatar stabil.

GFPGAN este un model de restaurare a feței care ascuți detaliile faciale după randamentul bib-sync. Se curăță artefacte și face ieșirea de 256-pixel arata mai aproape de 512. Aproape dublure rand timp, dar este în valoare de erou focuri.

SadTalker rendes la 256 px prin predefinit. Schimba la 512 px pentru ieșire mai ascuțită (mai lent, mai mare VRAM) sau permiți amplificatorul GFPGAN pentru a ridica detalii faciale. Pentru cele mai bune rezultate, încărcați o fotografie de portrait de înaltă calitate, bine iluminat.

Da. Încarcă un MP4 sau WebM ca intrare în fața și vom folosi primul cadru ca identitate de conducere. Pentru re-dubbing video complet (per-frame gura înlocuitor), a se vedea următoarea conducte video Dubbing Studio.

Da. POST o cerere multipart la /api/v1/lipsync/ cu câmpurile fața și audio, apoi sondaj /api/v1/lipsync/result/?uuuid= până când starea este "completată". Răspunsul conține o URL la MP4 randat. Accesul API necesită un plan plătit.

SadTalker foloseşte alinierea faţălui pentru a detecta şi cultiva faţa cea mai proeminentă. Pentru cele mai bune rezultate, încarcă un portret cu o persoană centrată, ochii vizibile şi ocludere minimă. Fotografiile grupului pot produce rezultate imprevizibile.
5.0/5 (1)

Feedback-ul vostru ne ajută să rezolvăm problemele.

Gata pentru a începe?

Inscrie-te gratis si primeste 15.000 de personaje. Nu este nevoie de card de credit.