AI Lip Sync Video Generator

Alŝutu vizaĝfoton kaj sondosieron - ricevu videon de parolanta kapo kun realisma lip- sinkronigo, kapo- pozicio kaj okulfrapado. Propulsita de SadTalker (MIT). Komerca uzo estas permesita.

Alŝuti vizaĝon kaj aŭdon

1000 signoj po sekundo

Ŝovu vian dosieron ĉi tien, aŭ foliumi

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

dosiero.mp3

0 MB

Ŝovu vian dosieron ĉi tien, aŭ foliumi

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

dosiero.mp3

0 MB

Prilaborante...

Renderigas vian videon. Tio kutime daŭras 30 sekundojn ĝis 2 minutojn.

Via parolanta videoName

Elŝuti

Pri SadTalker

SadTalker (CVPR 2023, Tencent ARC) estas malfermkoda parolanta-kapo modelo kiu animas ununuran vizaĝbildon por paroli ajnan sonon. Malsame al Wav2Lip variantoj, SadTalker ankaŭ animas kapopozon, palpebrumon, kaj esprimon por pli natura rezulto.

La kodo kaj la pezoj estas licencitaj de MIT de fino al fino — ne ekzistas Lama, Gemma aŭ nekomercaj dorso — do la videoj kiujn vi kreas estas sekura por komerca uzo.

Konsiloj por plej bonaj rezultoj

  • Uzi altkvalitan, bone lumigitan portreton - okuloj videblaj, buŝo fermita
  • Centra vizaĝo, kvadrato aŭ 4:5 aspekto estas plej bona
  • Pura parola aŭdo (sen muziko) donas pli striktan lip- sinkronigon
  • Ebligi GFPGAN por heroaj pafoj - duobligas la rendertempon sed akrigas detalojn
  • Uzi la antaŭdifinitan bildon por stabila avatara foto

Lipoj- sinkronigaj video- planoj

Komencu senpage, ĝisdatigu kiam vi bezonas pli

Libera
  • 30-sekunda aŭda limo
  • 256 px eligo
  • Nur "Still" antaŭagordo
  • Neniu vizaĝplibonigo
Plej populara
Libera konto
  • 30-sekunda aŭda limo
  • Ambaŭ "plena" kaj "malplena" antaŭagordoj
  • 256 / 512 px eligo
  • GFPGAN vizaĝ-plibonigilo
Aliĝi senpage
Pro
  • 5-minuta aŭdlimito
  • GPU- prioritata vico
  • API- aliro (multparta alŝuto)
  • Revoko de kompletigo de TTT-hokoj
  • Komerca uzo (MIT-permesilo)
Ĝisdatigi

Oftaj demandoj

Alŝutu vizaĝfoton kaj sondosieron, kaj la AI kreas videon de tiu vizaĝo parolanta la sonon kun realismaj lipmovoj, kappozoj, kaj okulfrapoj. Konstruita sur SadTalker (CVPR 2023), MIT-licencita parolanta-kapo-modelo kiu animas esprimon krom buŝformo.

La vizaĝa enigo povas esti JPG aŭ PNG bildo (ĝis 10 MB) aŭ mallonga MP4/WebM video (ni uzas la unuan kadron). La sono povas esti MP3, WAV, M4A, aŭ FLAC ĝis 10 MB. Ni respecimelu la sonon interne al 16 kHz.

Senpagaj kontoj: ĝis 30 sekundoj por unu eltiraĵo. Pagaj uzantoj: ĝis 5 minutoj por unu peto. Pli longa sono signifas pli longan rendertempon kaj pli altan karakterkoston.

Lip-sinkrona video uzas 1000 signojn po sekundo de generita video. 30-sekunda filmeto = 30,000 signoj. La kosto estas fakturata antaŭe de via signo-saldo kaj aŭtomate repagita se la generado malsukcesas.

Jes — la kodo kaj la pezoj de SadTalker estas licencitaj de MIT (ne de Llama, Gemma aŭ nekomerca dorso). La videoj kiujn vi kreas estas viaj por komerca uzo. Vi estas respondeca pri la rajtoj de la fonta vizaĝbildo kaj la sono kiun vi alŝutas.

Ĉirkaŭ 30 sekundoj por 5-sekunda filmeto sur nia A100-servilo, skalante proksimume lineare kun la sonlongo. Ebligi la GFPGAN-an vizaĝplibonigilon proksimume duobligas la rendertempon sed produktas pli akran, pli altkvalitan eligon.

Plena antaŭagordo (default) animas la kapon, la okulojn kaj la vizaĝon kune kun la lipoj, produktante pli naturan videon de parolanta kapo. La antaŭagordo Still fiksas la kapon kaj animas nur la buŝon - utila kiam vi volas stabilan avataran bildon.

GFPGAN estas vizaĝrekonstrua modelo kiu akrigas vizaĝajn detalojn post lip-sinkroniga renderaĵo. Ĝi forigas artefaktojn kaj faras 256-pikselan eliron pli proksima al 512. Ĝi proksimume duobligas rendertempon sed valoras por heroaj fotoj.

SadTalker apriore prezentas je 256 rastrumeroj. Ŝanĝu al 512 rastrumeroj por pli akra eligo (pli malrapida, pli granda VRAM) aŭ ebligu la GFPGAN-plibonigilon por pligrandigi vizaĝajn detalojn. Por plej bonaj rezultoj, alŝutu altkvalitan, bone lumigitan portretan foton.

Jes. Alŝutu MP4 aŭ WebM kiel vizaĝan enigo kaj ni uzos la unuan kadron kiel la kondukan identecon. Por plena video- re- dublado (per- kadra buŝo- anstataŭigo), vidu la venontan video- kanalon de Dublado- Studio.

Jes. POST plurpartan peton al /api/v1/lipsync/ kun vizaĝaj kaj aŭdaj kampoj, poste enketu /api/v1/lipsync/result/?uuid= ĝis la stato estas "finita". La respondo enhavas URLon al la prezentita MP4. API-aliro postulas pagan planon.

SadTalker uzas vizaĝ-alĝustigon por detekti kaj elkroĉi la plej videblan vizaĝon. Por plej bonaj rezultoj, alŝutu portreton kun unu persono centre, okuloj videblaj, kaj minimuma okludo. Grupaj fotoj povas produkti neantaŭvideblajn rezultojn.
5.0/5 (1)

Kion ni povus plibonigi? Via reago helpas nin solvi problemojn.

Ĉu vi pretas komenci?

Aliĝi senpage kaj ricevi 15,000 signojn. Neniu kreditkarto necesas.