Pranešti apie klaidą / funkcijų užklausą

AI Lip sinchronizuoti vaizdo generatorių

Įkelkite veido nuotrauką ir garso klipą — gaukite kalbėjimo galvutę su realiu lūpų sinchronizavimu, galvos pozicionavimu ir mirksėjimu. Powered by SadTalker (MIT). Komercinis naudojimas OK.

Mes dar neturime TTS balsų jūsų kalba. Padėk mums pridėti savo! Parduoti savo balsą

Išsiųsti veidą + garsą

1000 ženklų per sekundę

Vilkite ir meskite failą čia, arba naršyti

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Vilkite ir meskite failą čia, arba naršyti

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Apdorojama...

Vaizdo siuntimas. Paprastai tai trunka nuo 30 sekundžių iki 2 minučių.

Jūsų kalbėjimo viršūnės vaizdo įrašas

Atsiųsti

Apie SadTalker

SadTalker (CVPR 2023, Tencent ARC) yra atviro šaltinio kalbėjimo-galvos modelis, kuris animuoja vieną veido vaizdą kalbėti bet kokį garsą. Skirtingai nuo Wav2Lip variantų, SadTalker taip pat animuoja galvą kelia, mirksi, ir išraiška labiau natūralus rezultatas.

Kodas ir svoris yra MIT licencijuotas pabaigos — ne Llama, Gemma, ar nekomercinis stuburas — todėl jūsų kuriami vaizdo įrašai yra saugūs komerciniam naudojimui.

Patarimai geriausiems rezultatams

  • Naudokite aukštos kokybės gerai apšviestą portretą — matomas akis, užkimštas burnas
  • Centruotas veidas, kvadratas arba 4:5 matmenų santykis veikia geriausiai
  • Švarios kalbos garso (be muzikos) duoda griežtesnės lūpų sinchronizacija
  • Įjungti GFPGAN herojų kadrams — dvigubos piešimo laiką, bet aštrina detales
  • Naudoti vis dar iš anksto nustatytą, kai norite pastovaus avataro kadrą

Lip sinchronizuoti vaizdo įrašus

Pradėti nemokamai, atnaujinti, kai jums reikia daugiau

Neapmuitinama
  • 30 sekundžių garso riba
  • 256 px išvestis
  • Tik „Still“ iš anksto nustatyta
  • Nėra veido stiprintuvo
Populiariausi
Nemokama paskyra
  • 30 sekundžių garso riba
  • Tiek „visiškas“, tiek „vis dar“ iš anksto nustatytas
  • 256 / 512 px išvestis
  • GFPGAN veido stiprintuvas
Užsiregistruoti nemokamai
Pro
  • 5 minučių garso riba
  • Prioritetinis GPU eilė
  • API prieiga (daugiadalis įkeltas)
  • Webhook skambučiai
  • Komercinis naudojimas (MIT licencija)
Atnaujinti

Dažnai užduodami klausimai

Įkelkite veido nuotrauką ir garso klipą, ir AI sukuria vaizdo, kad veido kalba garso su realiais lūpų judesiais, galvos pozicionuoti, ir mirksi. Pastatytas pagal SadTalker (CVPR 2023), MIT licencijuotas kalbėjimo-galvos modelis, kuris animuoja išraišką be burnos formos.

Veido įvestis gali būti JPG arba PNG atvaizdas (iki 10 MB) arba trumpas MP4/WebM vairavimo vaizdo (mes naudojame pirmąjį kadrą). Vairavimo audio gali būti MP3, WAV, M4A arba FLAC iki 10 MB. Mes iš naujo imame garsą į 16 kHz viduje.

Nemokamos sąskaitos: iki 30 sekundžių vienam klipui. Mokėjimas vartotojams: iki 5 minučių už užklausą. Ilgesnis garsas reiškia, kad ilgiau atvaizduoti laiką ir didesnė simbolių kaina.

Lip sinchronizuoti vaizdo naudoja 1000 simbolių per sekundę generuojamo vaizdo. 30 sekundžių klipas = 30.000 simbolių. Sąnaudos yra apskaitomos iki priekio iš savo simbolių balanso ir kompensuojama automatiškai, jei generacija nepavyksta.

Taip — SadTalker kodas ir svoris yra licencijuotas MIT pabaigos (ne Llama, Gemma, ar nekomercinis stuburas). Vaizdo įrašai, kuriuos kuriate yra jūsų naudoti komerciniais tikslais. Jūs turite teisę į šaltinio veido atvaizdą ir garso įkeltą.

Apie 30 sekundžių 5 sekundžių pertraukai mūsų A100 serveryje, maždaug tiesiškai didėjant garso ilgiui. GFPGAN veido stiprintuvas suteikia maždaug dvigubai laiko, bet sukuria aštresnę, kokybiškesnę išvestį.

Visą iš anksto nustatytą (numatytą) animatus galva kelia, mirksi ir išraiškos kartu su lūpomis, sukuriant natūralų kalbėjimo galvutę. Vis dar iš anksto užrakina galvą vietoje ir animuoja tik burną — naudinga, kai norite pastovaus avataro kadrą.

GFPGAN yra veido restauravimo modelis, kuris atpalaiduoja veido detales po lūpų sintezės. Jis valo artefaktus ir priverčia 256 pikselių išvestį ieškoti arčiau 512. Jis maždaug dvigubai atvaizduoja laiką, bet yra verta herojus kadrų.

SadTalker atvaizduoja 256 px pagal nutylėjimą. Perjunkite į 512 px dydžio asesnei išvestiai (mažesnė, aukštesnė VRAM) arba įjunkite GFPGAN stiprintuvą prie mastelio veido detalių. Norėdami gauti geriausius rezultatus, įkelkite aukštos kokybės, gerai apšviestą portreto nuotrauką.

Taip. Įkelkite MP4 arba WebM kaip veido įvesties, ir mes naudojame pirmąjį kadrą kaip vairavimo identitetą. Dėl pilno vaizdo perdubliavimas (per kadrą burnos pakeitimas), žiūrėkite artėjantį Dubbing Studio video vamzdyną.

Taip. Padėkite daugiadalį užklausą /api/v1/lipsync/ su veido ir garso laukais, tada apklauskite /api/v1/lipsync/results/?uid= kol būsena bus "užbaigta". Atsakyme pateikiamas MP4 URL. API prieigai reikalingas apmokamas planas.

SadTalker naudoja veido sureguliavimas aptikti ir pasėlių labiausiai pastebimą veidą. Dėl geriausių rezultatų, įkelti portretą su vienu asmeniu centre, akių matomas, ir minimalus užsikimšimas. Grupės nuotraukos gali sukelti nenuspėjamus rezultatus.
5.0/5 (1)

Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.

Pasiruošęs pradėti?

Užsiregistruoti nemokamai ir gauti 15,000 simbolių. Nereikia kredito kortelės.