Pranešti apie klaidą / funkcijų užklausą

AI Lip sinchronizuoti vaizdo generatorių

Įkelkite veido nuotrauką ir garso klipą — gaukite kalbėjimo galvutę su realiu lūpų sinchronizavimu, galvos pozicionavimu ir mirksėjimu. Powered by SadTalker (MIT). Komercinis naudojimas OK.

Užsiregistruoti nemokamai

Mes dar neturime TTS balsų jūsų kalba. Padėk mums pridėti savo! Parduoti savo balsą

Išsiųsti veidą + garsą

1000 ženklų per sekundę

1. Veido vaizdas arba vairavimo vaizdo

Vilkite ir meskite failą čia, arba naršyti

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Vairuoti garsą

Vilkite ir meskite failą čia, arba naršyti

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Animacija

Išvedimo dydis

Veido stiprintuvas

GFPGAN (šarvas, lėtesnis)

Apie SadTalker

SadTalker (CVPR 2023, Tencent ARC) yra atviro šaltinio kalbėjimo-galvos modelis, kuris animuoja vieną veido vaizdą kalbėti bet kokį garsą. Skirtingai nuo Wav2Lip variantų, SadTalker taip pat animuoja galvą kelia, mirksi, ir išraiška labiau natūralus rezultatas.

Kodas ir svoris yra MIT licencijuotas pabaigos — ne Llama, Gemma, ar nekomercinis stuburas — todėl jūsų kuriami vaizdo įrašai yra saugūs komerciniam naudojimui.

Patarimai geriausiems rezultatams

Naudokite aukštos kokybės gerai apšviestą portretą — matomas akis, užkimštas burnas
Centruotas veidas, kvadratas arba 4:5 matmenų santykis veikia geriausiai
Švarios kalbos garso (be muzikos) duoda griežtesnės lūpų sinchronizacija
Įjungti GFPGAN herojų kadrams — dvigubos piešimo laiką, bet aštrina detales
Naudoti vis dar iš anksto nustatytą, kai norite pastovaus avataro kadrą

Lip sinchronizuoti vaizdo įrašus

Pradėti nemokamai, atnaujinti, kai jums reikia daugiau

Neapmuitinama

30 sekundžių garso riba
256 px išvestis
Tik „Still“ iš anksto nustatyta
Nėra veido stiprintuvo

Populiariausi

Nemokama paskyra

30 sekundžių garso riba
Tiek „visiškas“, tiek „vis dar“ iš anksto nustatytas
256 / 512 px išvestis
GFPGAN veido stiprintuvas

Užsiregistruoti nemokamai

Pro

5 minučių garso riba
Prioritetinis GPU eilė
API prieiga (daugiadalis įkeltas)
Webhook skambučiai
Komercinis naudojimas (MIT licencija)

Atnaujinti

Dažnai užduodami klausimai

Įkelkite veido nuotrauką ir garso klipą, ir AI sukuria vaizdo, kad veido kalba garso su realiais lūpų judesiais, galvos pozicionuoti, ir mirksi. Pastatytas pagal SadTalker (CVPR 2023), MIT licencijuotas kalbėjimo-galvos modelis, kuris animuoja išraišką be burnos formos.

Veido įvestis gali būti JPG arba PNG atvaizdas (iki 10 MB) arba trumpas MP4/WebM vairavimo vaizdo (mes naudojame pirmąjį kadrą). Vairavimo audio gali būti MP3, WAV, M4A arba FLAC iki 10 MB. Mes iš naujo imame garsą į 16 kHz viduje.

Nemokamos sąskaitos: iki 30 sekundžių vienam klipui. Mokėjimas vartotojams: iki 5 minučių už užklausą. Ilgesnis garsas reiškia, kad ilgiau atvaizduoti laiką ir didesnė simbolių kaina.

Lip sinchronizuoti vaizdo naudoja 1000 simbolių per sekundę generuojamo vaizdo. 30 sekundžių klipas = 30.000 simbolių. Sąnaudos yra apskaitomos iki priekio iš savo simbolių balanso ir kompensuojama automatiškai, jei generacija nepavyksta.

Taip — SadTalker kodas ir svoris yra licencijuotas MIT pabaigos (ne Llama, Gemma, ar nekomercinis stuburas). Vaizdo įrašai, kuriuos kuriate yra jūsų naudoti komerciniais tikslais. Jūs turite teisę į šaltinio veido atvaizdą ir garso įkeltą.

Apie 30 sekundžių 5 sekundžių pertraukai mūsų A100 serveryje, maždaug tiesiškai didėjant garso ilgiui. GFPGAN veido stiprintuvas suteikia maždaug dvigubai laiko, bet sukuria aštresnę, kokybiškesnę išvestį.

Visą iš anksto nustatytą (numatytą) animatus galva kelia, mirksi ir išraiškos kartu su lūpomis, sukuriant natūralų kalbėjimo galvutę. Vis dar iš anksto užrakina galvą vietoje ir animuoja tik burną — naudinga, kai norite pastovaus avataro kadrą.

GFPGAN yra veido restauravimo modelis, kuris atpalaiduoja veido detales po lūpų sintezės. Jis valo artefaktus ir priverčia 256 pikselių išvestį ieškoti arčiau 512. Jis maždaug dvigubai atvaizduoja laiką, bet yra verta herojus kadrų.

SadTalker atvaizduoja 256 px pagal nutylėjimą. Perjunkite į 512 px dydžio asesnei išvestiai (mažesnė, aukštesnė VRAM) arba įjunkite GFPGAN stiprintuvą prie mastelio veido detalių. Norėdami gauti geriausius rezultatus, įkelkite aukštos kokybės, gerai apšviestą portreto nuotrauką.

Taip. Įkelkite MP4 arba WebM kaip veido įvesties, ir mes naudojame pirmąjį kadrą kaip vairavimo identitetą. Dėl pilno vaizdo perdubliavimas (per kadrą burnos pakeitimas), žiūrėkite artėjantį Dubbing Studio video vamzdyną.

Taip. Padėkite daugiadalį užklausą /api/v1/lipsync/ su veido ir garso laukais, tada apklauskite /api/v1/lipsync/results/?uid= kol būsena bus "užbaigta". Atsakyme pateikiamas MP4 URL. API prieigai reikalingas apmokamas planas.

SadTalker naudoja veido sureguliavimas aptikti ir pasėlių labiausiai pastebimą veidą. Dėl geriausių rezultatų, įkelti portretą su vienu asmeniu centre, akių matomas, ir minimalus užsikimšimas. Grupės nuotraukos gali sukelti nenuspėjamus rezultatus.

5.0/5 (1)

Pasiruošęs pradėti?

Užsiregistruoti nemokamai ir gauti 15,000 simbolių. Nereikia kredito kortelės.

Užsiregistruoti nemokamai Rodymo kaina

AI Lip sinchronizuoti vaizdo generatorių

Išsiųsti veidą + garsą

Jūsų kalbėjimo viršūnės vaizdo įrašas

Apie SadTalker

Patarimai geriausiems rezultatams

Lip sinchronizuoti vaizdo įrašus

Dažnai užduodami klausimai

Ką veikia AI lūpų sinchronizavimo įrankis?

Kokie įvesties formatai yra palaikomi?

Kiek laiko gali būti garsas?

Kiek tai kainuoja?

Ar galima naudoti vaizdo įrašus komerciniais tikslais?

Kiek laiko užtrunka karta?

Koks skirtumas tarp „visiško“ ir „vis dar“ iš anksto nustatyto?

Kas yra GFPGAN stiprintuvas?

Kodėl mano produkcija atrodo maža raiška?

Ar galiu perteikti vaizdo įrašą į naują garsą?

Ar yra API?

O jei mano veido nuotrauka turi daug žmonių?

Pasiruošęs pradėti?