AI Lip sinhronizēt video ģeneratoru

Augšupielādēt sejas foto un audio klipu — iegūt runā-galvas video ar reālistisku lūpu sinhronizāciju, galvas pozicionēšanu un mirgošanu. Powered by SadTalker (MIT). Komerclietojums OK.

Mums vēl nav TTS balsis jūsu valodā. Palīdziet mums pievienot savu! Pārdod savu balsi

Augšupielādēt seju + audio

1000 rakstzīmju sekundē

Velciet un nometiet failu šeit, vai pārlūkot

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Velciet un nometiet failu šeit, vai pārlūkot

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Apstrādā...

Ielādē videoklipu. Tas parasti aizņem 30 sekundes līdz 2 minūtēm.

Jūsu sarunu galvas video

Lejupielādēt

Par SadTalker

SadTalker (CVPR 2023, Tencent ARC) ir atvērtā pirmkoda runāšanas-galvas modelis, kas animē vienu sejas attēlu runāt jebkuru audio. Atšķirībā no Wav2Lip variantiem, SadTalker arī animē galvu pozicionēt, mirgot, un izteiksmi vairāk dabas rezultātu.

Kods un svars ir MIT licencēts beigu beigās — nav Llama, Gemma, vai nekomerciāls mugurkauls — tāpēc jūsu radītie video ir droši komerciālai lietošanai.

Labāko rezultātu padomi

  • Izmantojiet augstas kvalitātes labi apgaismotu portretu — redzamas acis, aizvērta mute
  • Vislabāk darbojas centra seja, kvadrāts vai 4:5 dimensiju attiecība
  • Tīra runas audio (bez mūzikas) rada stingrāku lūpu sinhronizāciju
  • Ieslēgt GFPGAN varoņa šāvieniem — dubulto veikt laiku, bet asinā detaļas
  • Izmantojiet vēl regulējumu, kad vēlaties vienmērīgu avatara šāvienu

Lip sinhronizēt video plānus

Sākt bezmaksas, uzlabot, kad jums ir nepieciešams vairāk

Bezmaksas
  • 30 sekunžu audioierobežojums
  • 256 px izvade
  • Tikai "Stils" iepriekš uzstādīts
  • Nav sejas pastiprinātāja
Populārākais
Bezmaksas konts
  • 30 sekunžu audioierobežojums
  • Gan "pilnas", gan "vienkāršās" iepriekš uzstādītas
  • 256 / 512 px izvade
  • GFPGAN sejas pastiprinātājs
Pierakstīties brīvībā
Pro
  • 5 minūšu audioierobežojums
  • Prioritārais GPU rinda
  • API piekļuve (vairāku daļu augšupielāde)
  • Webhook pabeigšanas zvani
  • Komerclietojums (MIT licence)
Atjaunināt

Bieži uzdoti jautājumi

Augšupielādēt sejas foto un audio klipu, un AI rada video no šīs sejas runājot audio ar reālistisku lūpu kustības, galvas pozicionēt, un mirgot. Built uz SadTalker (CVPR 2023), ar MIT licencētu runā-galvas modelis, kas animē izteiksmi papildus mutes formas.

Sejas ieeja var būt JPG vai PNG attēls (līdz 10 MB) vai īss MP4/WebM braukšanas video (mēs izmantojam pirmo kadru). Braukšanas audio var būt MP3, WAV, M4A vai FLAC līdz 10 MB. Mēs pārņemam audio līdz 16 kHz iekšēji.

Bezmaksas konti: līdz 30 sekundēm uz vienu klipu. Maksājumu lietotāji: līdz 5 minūtēm par pieprasījumu. Ilgāks audio nozīmē ilgāk padarīt laiku un augstākas rakstzīmes izmaksas.

Lip sinhronizācijas video izmanto 1000 rakstzīmes sekundē ģenerētā video. 30-sekunde klipa = 30,000 rakstzīmes. Izmaksas tiek apmaksātas uz priekšu no jūsu rakstzīmju bilances un atmaksātas automātiski, ja paaudze neizdodas.

Jā — SadTalker kods un svars ir MIT licencēta beigas līdz beigām (nav Llama, Gemma, vai nekomerciāls mugurkauls). Video, ko jūs radāt, ir jūsu izmantot komerciāli. Jūs esat atbildīgs par tiesībām uz avotu sejas attēlu un audio jūs augšupielādēt.

Apmēram 30 sekundes, lai 5 sekundes uz mūsu A100 servera, mērogojot aptuveni lineāri ar audio garumu. Iespēja GFPGAN sejas pastiprinātājs aptuveni dubulto laiku, bet rada asāku, kvalitatīvāku izvadi.

Pilna priekšiestate (noklusējuma) animāts galvas pozicionēt, mirgot, un izteiksme kopā ar lūpām, radot vairāk dabas runāt-galvas video. Joprojām iepriekš iestatīts bloķē galvu vietā un animē tikai muti — noder, ja vēlaties vienmērīgu avatara šāvienu.

GFPGAN ir sejas restaurācijas modelis, kas saasina sejas detaļas pēc lūpu sync renderēšanas. Tas attīra artefaktus un padara 256 pikseļu izeja izskatās tuvāk 512. Tas aptuveni dubulto renderēšanas laiku, bet ir vērts varoņu šāvieniem.

SadTalker pēc noklusējuma veido 256 px. Pārslēdziet uz 512 px izmēru asākai izvadei (zemāk, augstāks VRAM) vai ļauj GFPGAN pastiprinātājam papildināt sejas detaļas. Labākajiem rezultātiem augšupielādējiet augstas kvalitātes, labi apgaismotu portreta fotoattēlu.

Jā. Ielādējiet MP4 vai WebM kā sejas ievadi, un mēs izmantosim pirmo kadru kā braukšanas identitāti. Pilna video pārdubbēšana (per kadru mutes nomaiņa), skatiet gaidāmo Dubbing Studio video cauruļvadu.

Jā. Ielādējiet vairāku daļu pieprasījumu /api/v1/lipsync/ ar sejas un audio laukiem, tad aptaujājiet /api/v1/lipsync/results/?uid= līdz statusam ir "pabeigts". Atbilde satur URL attēlotajai MP4. API piekļuvei nepieciešams apmaksāts plāns.

SadTalker izmanto sejas novirzīšanu, lai atklātu un apcirst redzamāko seju. Lai iegūtu labākos rezultātus, augšupielādējiet portretu ar vienu cilvēku centrā, acīm redzamu un minimālu oklūzija. Grupas fotogrāfijas var radīt neprognozējamus rezultātus.
5.0/5 (1)

Ko mēs varam uzlabot? Jūsu atgriezeniskā saite palīdz mums atrisināt problēmas.

Gatavs sākt?

Pierakstīties bez maksas un saņemt 50 kredītus. Nav kredītkarte nepieciešama.