Raporti cimon / funkcipeton

AI Lip Sync Video Generator

Alŝutu vizaĝfoton kaj sondosieron - ricevu videon de parolanta kapo kun realisma lip- sinkronigo, kapo- pozicio kaj okulfrapado. Propulsita de SadTalker (MIT). Komerca uzo estas permesita.

Aliĝi senpage

Ni faris Vendu vian voĉon

Alŝuti vizaĝon kaj aŭdon

1000 signoj po sekundo

1. Vizaĝa bildo aŭ ŝoforovideo

Ŝovu vian dosieron ĉi tien, aŭ foliumi

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Ŝarĝante aŭdon

Ŝovu vian dosieron ĉi tien, aŭ foliumi

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Antaŭagordo de animacio

Eligrapido

Vizaĝa plibonigilo

GFPGAN (pli akra, pli malrapida)

Pri SadTalker

SadTalker (CVPR 2023, Tencent ARC) estas malfermkoda parolanta-kapo modelo kiu animas ununuran vizaĝbildon por paroli ajnan sonon. Malsame al Wav2Lip variantoj, SadTalker ankaŭ animas kapopozon, palpebrumon, kaj esprimon por pli natura rezulto.

La kodo kaj la pezoj estas licencitaj de MIT de fino al fino — ne ekzistas Lama, Gemma aŭ nekomercaj dorso — do la videoj kiujn vi kreas estas sekura por komerca uzo.

Konsiloj por plej bonaj rezultoj

Uzi altkvalitan, bone lumigitan portreton - okuloj videblaj, buŝo fermita
Centra vizaĝo, kvadrato aŭ 4:5 aspekto estas plej bona
Pura parola aŭdo (sen muziko) donas pli striktan lip- sinkronigon
Ebligi GFPGAN por heroaj pafoj - duobligas la rendertempon sed akrigas detalojn
Uzi la antaŭdifinitan bildon por stabila avatara foto

Lipoj- sinkronigaj video- planoj

Komencu senpage, ĝisdatigu kiam vi bezonas pli

Libera

30-sekunda aŭda limo
256 px eligo
Nur "Still" antaŭagordo
Neniu vizaĝplibonigo

Plej populara

Libera konto

30-sekunda aŭda limo
Ambaŭ "plena" kaj "malplena" antaŭagordoj
256 / 512 px eligo
GFPGAN vizaĝ-plibonigilo

Aliĝi senpage

Pro

5-minuta aŭdlimito
GPU- prioritata vico
API- aliro (multparta alŝuto)
Revoko de kompletigo de TTT-hokoj
Komerca uzo (MIT-permesilo)

Ĝisdatigi

Oftaj demandoj

Alŝutu vizaĝfoton kaj sondosieron, kaj la AI kreas videon de tiu vizaĝo parolanta la sonon kun realismaj lipmovoj, kappozoj, kaj okulfrapoj. Konstruita sur SadTalker (CVPR 2023), MIT-licencita parolanta-kapo-modelo kiu animas esprimon krom buŝformo.

La vizaĝa enigo povas esti JPG aŭ PNG bildo (ĝis 10 MB) aŭ mallonga MP4/WebM video (ni uzas la unuan kadron). La sono povas esti MP3, WAV, M4A, aŭ FLAC ĝis 10 MB. Ni respecimelu la sonon interne al 16 kHz.

Senpagaj kontoj: ĝis 30 sekundoj por unu eltiraĵo. Pagaj uzantoj: ĝis 5 minutoj por unu peto. Pli longa sono signifas pli longan rendertempon kaj pli altan karakterkoston.

Lip-sinkrona video uzas 1000 signojn po sekundo de generita video. 30-sekunda filmeto = 30,000 signoj. La kosto estas fakturata antaŭe de via signo-saldo kaj aŭtomate repagita se la generado malsukcesas.

Jes — la kodo kaj la pezoj de SadTalker estas licencitaj de MIT (ne de Llama, Gemma aŭ nekomerca dorso). La videoj kiujn vi kreas estas viaj por komerca uzo. Vi estas respondeca pri la rajtoj de la fonta vizaĝbildo kaj la sono kiun vi alŝutas.

Ĉirkaŭ 30 sekundoj por 5-sekunda filmeto sur nia A100-servilo, skalante proksimume lineare kun la sonlongo. Ebligi la GFPGAN-an vizaĝplibonigilon proksimume duobligas la rendertempon sed produktas pli akran, pli altkvalitan eligon.

Plena antaŭagordo (default) animas la kapon, la okulojn kaj la vizaĝon kune kun la lipoj, produktante pli naturan videon de parolanta kapo. La antaŭagordo Still fiksas la kapon kaj animas nur la buŝon - utila kiam vi volas stabilan avataran bildon.

GFPGAN estas vizaĝrekonstrua modelo kiu akrigas vizaĝajn detalojn post lip-sinkroniga renderaĵo. Ĝi forigas artefaktojn kaj faras 256-pikselan eliron pli proksima al 512. Ĝi proksimume duobligas rendertempon sed valoras por heroaj fotoj.

SadTalker apriore prezentas je 256 rastrumeroj. Ŝanĝu al 512 rastrumeroj por pli akra eligo (pli malrapida, pli granda VRAM) aŭ ebligu la GFPGAN-plibonigilon por pligrandigi vizaĝajn detalojn. Por plej bonaj rezultoj, alŝutu altkvalitan, bone lumigitan portretan foton.

Jes. Alŝutu MP4 aŭ WebM kiel vizaĝan enigo kaj ni uzos la unuan kadron kiel la kondukan identecon. Por plena video- re- dublado (per- kadra buŝo- anstataŭigo), vidu la venontan video- kanalon de Dublado- Studio.

Jes. POST plurpartan peton al /api/v1/lipsync/ kun vizaĝaj kaj aŭdaj kampoj, poste enketu /api/v1/lipsync/result/?uuid= ĝis la stato estas "finita". La respondo enhavas URLon al la prezentita MP4. API-aliro postulas pagan planon.

SadTalker uzas vizaĝ-alĝustigon por detekti kaj elkroĉi la plej videblan vizaĝon. Por plej bonaj rezultoj, alŝutu portreton kun unu persono centre, okuloj videblaj, kaj minimuma okludo. Grupaj fotoj povas produkti neantaŭvideblajn rezultojn.

5.0/5 (1)

Ĉu vi pretas komenci?

Aliĝi senpage kaj ricevi 15,000 signojn. Neniu kreditkarto necesas.

Aliĝi senpage Rigardi prezojn

AI Lip Sync Video Generator

Alŝuti vizaĝon kaj aŭdon

Via parolanta videoName

Pri SadTalker

Konsiloj por plej bonaj rezultoj

Lipoj- sinkronigaj video- planoj

Oftaj demandoj

Kion faras la AI lip-sinkroniga ilo?

Kiuj enigaj formatoj estas subtenataj?

Kiom longe povas daŭri la aŭdo?

Kiom ĝi kostas?

Ĉu mi povas uzi la filmojn komerce?

Kiom da tempo daŭras generado?

Kio estas la diferenco inter "plena" kaj "nemovebla" antaŭagordo?

Kio estas la GFPGAN-plifortigilo?

Kial mia eligo aspektas malalta-difino?

Ĉu mi povas lip-sinkronigi videon al nova sono?

Ĉu ekzistas API?

Kio se mia vizaĝa foto havas plurajn homojn en ĝi?

Ĉu vi pretas komenci?