Ziņot par kļūdu / funkciju pieprasījumu

AI Lip sinhronizēt video ģeneratoru

Augšupielādēt sejas foto un audio klipu — iegūt runā-galvas video ar reālistisku lūpu sinhronizāciju, galvas pozicionēšanu un mirgošanu. Powered by SadTalker (MIT). Komerclietojums OK.

Pierakstīties brīvībā

Mums vēl nav TTS balsis jūsu valodā. Palīdziet mums pievienot savu! Pārdod savu balsi

Augšupielādēt seju + audio

1000 rakstzīmju sekundē

1. Face Image vai braukšanas video

Velciet un nometiet failu šeit, vai pārlūkot

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Braucot audio

Velciet un nometiet failu šeit, vai pārlūkot

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Animācijas priekšstats

Izvades izmērs

Sejas pastiprinātājs

GFPGAN (ātrāks, lēnāks)

Par SadTalker

SadTalker (CVPR 2023, Tencent ARC) ir atvērtā pirmkoda runāšanas-galvas modelis, kas animē vienu sejas attēlu runāt jebkuru audio. Atšķirībā no Wav2Lip variantiem, SadTalker arī animē galvu pozicionēt, mirgot, un izteiksmi vairāk dabas rezultātu.

Kods un svars ir MIT licencēts beigu beigās — nav Llama, Gemma, vai nekomerciāls mugurkauls — tāpēc jūsu radītie video ir droši komerciālai lietošanai.

Labāko rezultātu padomi

Izmantojiet augstas kvalitātes labi apgaismotu portretu — redzamas acis, aizvērta mute
Vislabāk darbojas centra seja, kvadrāts vai 4:5 dimensiju attiecība
Tīra runas audio (bez mūzikas) rada stingrāku lūpu sinhronizāciju
Ieslēgt GFPGAN varoņa šāvieniem — dubulto veikt laiku, bet asinā detaļas
Izmantojiet vēl regulējumu, kad vēlaties vienmērīgu avatara šāvienu

Lip sinhronizēt video plānus

Sākt bezmaksas, uzlabot, kad jums ir nepieciešams vairāk

Bezmaksas

30 sekunžu audioierobežojums
256 px izvade
Tikai "Stils" iepriekš uzstādīts
Nav sejas pastiprinātāja

Populārākais

Bezmaksas konts

30 sekunžu audioierobežojums
Gan "pilnas", gan "vienkāršās" iepriekš uzstādītas
256 / 512 px izvade
GFPGAN sejas pastiprinātājs

Pierakstīties brīvībā

Pro

5 minūšu audioierobežojums
Prioritārais GPU rinda
API piekļuve (vairāku daļu augšupielāde)
Webhook pabeigšanas zvani
Komerclietojums (MIT licence)

Atjaunināt

Bieži uzdoti jautājumi

Augšupielādēt sejas foto un audio klipu, un AI rada video no šīs sejas runājot audio ar reālistisku lūpu kustības, galvas pozicionēt, un mirgot. Built uz SadTalker (CVPR 2023), ar MIT licencētu runā-galvas modelis, kas animē izteiksmi papildus mutes formas.

Sejas ieeja var būt JPG vai PNG attēls (līdz 10 MB) vai īss MP4/WebM braukšanas video (mēs izmantojam pirmo kadru). Braukšanas audio var būt MP3, WAV, M4A vai FLAC līdz 10 MB. Mēs pārņemam audio līdz 16 kHz iekšēji.

Bezmaksas konti: līdz 30 sekundēm uz vienu klipu. Maksājumu lietotāji: līdz 5 minūtēm par pieprasījumu. Ilgāks audio nozīmē ilgāk padarīt laiku un augstākas rakstzīmes izmaksas.

Lip sinhronizācijas video izmanto 1000 rakstzīmes sekundē ģenerētā video. 30-sekunde klipa = 30,000 rakstzīmes. Izmaksas tiek apmaksātas uz priekšu no jūsu rakstzīmju bilances un atmaksātas automātiski, ja paaudze neizdodas.

Jā — SadTalker kods un svars ir MIT licencēta beigas līdz beigām (nav Llama, Gemma, vai nekomerciāls mugurkauls). Video, ko jūs radāt, ir jūsu izmantot komerciāli. Jūs esat atbildīgs par tiesībām uz avotu sejas attēlu un audio jūs augšupielādēt.

Apmēram 30 sekundes, lai 5 sekundes uz mūsu A100 servera, mērogojot aptuveni lineāri ar audio garumu. Iespēja GFPGAN sejas pastiprinātājs aptuveni dubulto laiku, bet rada asāku, kvalitatīvāku izvadi.

Pilna priekšiestate (noklusējuma) animāts galvas pozicionēt, mirgot, un izteiksme kopā ar lūpām, radot vairāk dabas runāt-galvas video. Joprojām iepriekš iestatīts bloķē galvu vietā un animē tikai muti — noder, ja vēlaties vienmērīgu avatara šāvienu.

GFPGAN ir sejas restaurācijas modelis, kas saasina sejas detaļas pēc lūpu sync renderēšanas. Tas attīra artefaktus un padara 256 pikseļu izeja izskatās tuvāk 512. Tas aptuveni dubulto renderēšanas laiku, bet ir vērts varoņu šāvieniem.

SadTalker pēc noklusējuma veido 256 px. Pārslēdziet uz 512 px izmēru asākai izvadei (zemāk, augstāks VRAM) vai ļauj GFPGAN pastiprinātājam papildināt sejas detaļas. Labākajiem rezultātiem augšupielādējiet augstas kvalitātes, labi apgaismotu portreta fotoattēlu.

Jā. Ielādējiet MP4 vai WebM kā sejas ievadi, un mēs izmantosim pirmo kadru kā braukšanas identitāti. Pilna video pārdubbēšana (per kadru mutes nomaiņa), skatiet gaidāmo Dubbing Studio video cauruļvadu.

Jā. Ielādējiet vairāku daļu pieprasījumu /api/v1/lipsync/ ar sejas un audio laukiem, tad aptaujājiet /api/v1/lipsync/results/?uid= līdz statusam ir "pabeigts". Atbilde satur URL attēlotajai MP4. API piekļuvei nepieciešams apmaksāts plāns.

SadTalker izmanto sejas novirzīšanu, lai atklātu un apcirst redzamāko seju. Lai iegūtu labākos rezultātus, augšupielādējiet portretu ar vienu cilvēku centrā, acīm redzamu un minimālu oklūzija. Grupas fotogrāfijas var radīt neprognozējamus rezultātus.

5.0/5 (1)

Gatavs sākt?

Pierakstīties bez maksas un saņemt 50 kredītus. Nav kredītkarte nepieciešama.

Pierakstīties brīvībā Skatīt cenu

AI Lip sinhronizēt video ģeneratoru

Augšupielādēt seju + audio

Jūsu sarunu galvas video

Par SadTalker

Labāko rezultātu padomi

Lip sinhronizēt video plānus

Bieži uzdoti jautājumi

Ko dara AI lūpu sinhronizācijas rīks?

Kādi ievades formāti tiek atbalstīti?

Cik ilgi var būt audio?

Cik tas maksā?

Vai es varu izmantot video komerciāli?

Cik ilgs laiks paaudzei?

Kāda ir atšķirība starp "pilnīgu" un "turpināmu" iepriekš iestatīšanu?

Kas ir GFPGAN pastiprinātājs?

Kāpēc mana izlaide izskatās zema izšķirtspēja?

Vai es varu sync video uz jaunu audio?

Vai ir kāda API?

Ja nu manai sejas fotogrāfijai tajā ir vairāki cilvēki?

Gatavs sākt?