Raportează cererea de eroare / caracteristică

Generator video de sincronizare a lipilor AI

Încărcaţi o poză în faţă şi un clip audio — obţineţi un videoclip cu lipuşă realistă sincronizarea, poziţia capului şi clipuri. Powered by SadTalker (MIT). Utilizare comercială OK.

Inscrie-te gratis

Încarcă faceta + audio

1000 de caractere pe secundă

1. Faţă de imagine sau de filmare video

Aruncă și aruncă fișierul aici, sau navigați

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Conducerea audio

Aruncă și aruncă fișierul aici, sau navigați

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Preset de animație

Dimensiunea ieșirii

Îmbunătățitor de fața

GFPGAN (mai ascuțit, mai lent)

Despre SadTalker

SadTalker (CVPR 2023, Tencent ARC) este un model de conversație open-source care anima o singură imagine față pentru a vorbi orice audio. Spre deosebire de variantele Wav2Lip, SadTalker, de asemenea, anima poziția capului, clipiește și expresia pentru un rezultat mai natural.

Codul și greutatea sunt licențiate MIT până la sfârșit — fără Llama, Gemma sau coloană vertebrală necomercială — astfel încât videoclipurile pe care le generezi sunt sigure pentru utilizare comercială.

Sfaturi pentru cele mai bune rezultate

Foloseşte un portret de înaltă calitate, bine luminat — ochii vizibile, gura închisă
Fața centrată, raportul de aspect pătrat sau 4:5 funcționează cel mai bine
Curățați audio de vorbire (nu muzica) produce o sincronizare mai strânsă a buzelor
Activează GFPGAN pentru focuri de eroi – dubluri rand timp, dar ascuți detalii
Folosește Preconfigurarea încă atunci când doriți o împușcare stabilă de avatar

Planuri video de sincronizare a lipilor

Pornește gratuit, upgrade atunci când aveți nevoie de mai mult

Gratuit

Limite audio de 30 de secunde
Ieșire 256 px
Numai predefinirea "Still"
Nici un amplificator de fată

Cel mai popular

Cont liber

Limite audio de 30 de secunde
Atât "full" cât și "inca" preconizate
256 / 512 ieșire px
Îmbunătățitor de fața GFPGAN

Inscrie-te gratis

Pro

Limite audio de 5 minute
Coada GPU prioritară
Acces API (multipart încărcare)
Webhook apelback-uri de finalizare
Utilizare comercială (licență MIT)

Actualizează

Întrebări frecvente

Încărcaţi o poză a feţei şi un clip audio, iar AI generează un video al feţei care vorbeşte audio cu mişcări realiste ale buzelor, poziţie capului şi clipuri. Construit pe SadTalker (CVPR 2023), un model de conversaţie cu licenţă MIT care anime expresia în plus faţă de forma bucală.

Introducerea feței poate fi o imagine JPG sau PNG (până la 10 MB) sau un scurt video de conducere MP4/WebM (folosim primul cadru). Audio de conducere poate fi MP3, WAV, M4A sau FLAC până la 10 MB. Refigurăm audio la 16 kHz intern.

Conturi gratuite: până la 30 de secunde pe clip. Utilizatori plătitori: până la 5 minute pe cerere. Audio înseamnă mai mult timp și mai mare cost de caracter.

Lip sync video folosește 1000 de caractere pe secundă din video generat. Un clip de 30 de secunde = 30.000 de caractere. Costul este facturat în fața echilibrului de caracter și restituirea automată dacă generația eșuează.

Da — Codul SadTalker și greutatea sunt MIT licențiate sfârșit (nu Llama, Gemma, sau coloană vertebrală necomercială). Video-urile pe care le generați sunt ale dumneavoastră pentru a utiliza comercial. Sunteți responsabili pentru a avea drepturile la imaginea de sursă și audio pe care îl încărcați.

Aproximativ 30 de secunde pentru o clipă de 5 secunde pe serverul nostru A100, scalarea aproximativ liniară cu lungimea audio. Activarea amplificatorului feței GFPGAN are timp aproximativ dubluri, dar produce ieșire mai ascuțită, de înaltă calitate.

Preset complet (default) anima poziția capului, clipiește și expresie împreună cu buzele, producând un video mai natural-cap de conversație. Totuși presetează încuie capul în loc și animează doar gura - util atunci când doriți un foc de avatar stabil.

GFPGAN este un model de restaurare a feței care ascuți detaliile faciale după randamentul bib-sync. Se curăță artefacte și face ieșirea de 256-pixel arata mai aproape de 512. Aproape dublure rand timp, dar este în valoare de erou focuri.

SadTalker rendes la 256 px prin predefinit. Schimba la 512 px pentru ieșire mai ascuțită (mai lent, mai mare VRAM) sau permiți amplificatorul GFPGAN pentru a ridica detalii faciale. Pentru cele mai bune rezultate, încărcați o fotografie de portrait de înaltă calitate, bine iluminat.

Da. Încarcă un MP4 sau WebM ca intrare în fața și vom folosi primul cadru ca identitate de conducere. Pentru re-dubbing video complet (per-frame gura înlocuitor), a se vedea următoarea conducte video Dubbing Studio.

Yes. POST a multipart request to /api/v1/lipsync/ with face and audio fields, then poll /api/v1/lipsync/result/?uuid= until status is "completed". The response contains a URL to the rendered MP4. API access requires a paid plan.

SadTalker foloseşte alinierea faţălui pentru a detecta şi cultiva faţa cea mai proeminentă. Pentru cele mai bune rezultate, încarcă un portret cu o persoană centrată, ochii vizibile şi ocludere minimă. Fotografiile grupului pot produce rezultate imprevizibile.

5.0/5 (1)

Gata pentru a începe?

Inscrie-te gratis si primeste 15.000 de personaje. Nu este nevoie de card de credit.

Inscrie-te gratis Vizualizare preţuri

Generator video de sincronizare a lipilor AI

Încarcă faceta + audio

Video-ul tău care vorbeşte

Despre SadTalker

Sfaturi pentru cele mai bune rezultate

Planuri video de sincronizare a lipilor

Întrebări frecvente

Ce face instrumentul de sincronizare a buzelor IA?

Ce formate de intrare sunt susţinute?

Cât timp poate fi audio?

Cât costă?

Pot folosi videoclipurile comerciale?

Cât durează generaţia?

Care este diferenţa dintre "complet" şi "înca" predefinit?

Ce este amplificatorul GFPGAN?

De ce ieșirea mea arata de rezoluție scăzută?

Pot să sincronizez un video pe un nou audio?

Există o API?

Dacă poza mea are mai multe persoane în ea?

Gata pentru a începe?