Hibajelentés / feladatkérés

AI Lip Sync Video Generator

Tölts fel egy arcképet és egy audio klipet, hogy egy beszélő-head videó realisztikus ajak szinkronizálás, fej póz, és pislogás. Powered by SadTalker (MIT). Kereskedelmi használat OK.

Regisztráció Ingyenes

Feltöltés Face + Audio

1000 karakter másodpercenként

1. Arckép vagy vezető videó

Itt húzza le a fájlt, vagy böngészés

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Vezető hang

Itt húzza le a fájlt, vagy böngészés

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Animáció beállítása

Kimeneti méret

Arcjavító

GFPGAN (élesebb, lassabb)

A SadTalkerről

SadTalker (CVPR 2023, Tencent ARC) egy nyílt forráskódú beszélő-fej modell, amely animálja az egyetlen arcképet, hogy bármilyen audio. Ellentétben a Wav2Lip változatok, SadTalker is animáció fej póz, pislogás, és kifejezés egy természetes eredmény.

A kód és a súlyok az MIT-engedélyezett vége: a Llama, a Gemma vagy a nem kereskedelmi gerinc, így az általad készített videók kereskedelmi használatra biztonságosak.

Tippek a legjobb eredményekért

Használjon kiváló minőségű, jól megvilágított portrét, látható szemek, száj zárva
Koncentrált arc, négyzet vagy 4:5 méretarány működik a legjobban
Tiszta beszéd hang (nem zene) ad feszesebb ajak szinkronizálás
A GFPGAN engedélyezése hős lövésekhez A páros időt ad, de részleteket élesít.
Használd a Still preset-et, amikor állandó avatar lövést akarsz.

Lip Szinkron video tervek

Ingyenes indítás, frissítés, ha többre van szükséged

Ingyenes

30 másodperces audio limit
256 px kimenet
"Még mindig" csak előre beállított
Nincs arcerősítő

Legnépszerűbb

Ingyenes számla

30 másodperces audio limit
Mind a "teljes" mind a "még" előre beállított
256 / 512 px kimenet
GFPGAN arcerősítő

Regisztráció Ingyenes

Pro

5 perces audio limit
Prioritású GPU sor
API-hozzáférés (többrészes feltöltés)
Webhook befejezési visszahívások
Kereskedelmi felhasználás (MIT-engedély)

Frissítés

Gyakran ismételt kérdések

Töltsön fel egy arcképet és egy audio klipet, és az MI készít egy videót arról az arcról, amely realisztikus ajakmozgásokkal, fejpózzal és pislogással beszél az arcról. A SadTalker (CVPR 2023), egy MIT-licensed talk-head modell, amely a szájformán kívül animálja a kifejezést.

Az arcbemenet lehet JPG vagy PNG kép (legfeljebb 10 MB) vagy egy rövid MP4/WebM vezetési videó (az első képkockát használjuk). A meghajtó audió lehet MP3, WAV, M4A, vagy FLAC akár 10 MB. Újraminta audió 16 kHz belső.

Ingyenes számlák: klipenként legfeljebb 30 másodperc. Fizető felhasználók: akár 5 perc kérésre. Hosszabb audió azt jelenti, hosszabb idő és magasabb karakter költség.

Lip sync videó használ 1000 karakter másodpercenként generált videó. Egy 30 másodperces klip = 30,000 karakter. A költség előre számlázzák a karakter egyensúly és automatikusan visszatérítik, ha a generáció sikertelen.

Igen SadTalker kód és súlyok MIT licensed end to end to end (no Llama, Gemma, or non-commercial gerince). A videók, amelyeket generálsz, a tiéd, hogy kereskedelmileg használd. Te vagy a felelős a jogokért, hogy a forrás arckép és audió feltöltése.

Körülbelül 30 másodperc egy 5 másodperces klip A100 szerverünkön, nagyjából lineárisan méretezve az audió hosszával. A GFPGAN arcerősítő nagyjából duplán teszi az időt, de élesebb, magasabb minőségű kimenetet eredményez.

Teljes preset (alapértelmezett) animáció fej póz, pislog, és a kifejezés mellett az ajkak, egy természetesebb beszélő-head videó. Még mindig előre beállított zár a fej a helyén, és animáció csak a száj · hasznos, ha azt szeretnénk, hogy egy állandó avatar lövés.

GFPGAN egy arc restauráló modell, amely élesíti az arc részleteit a száj-szinkron renderelés után. Megtisztítja az ereklyéket és 256 pixeles kimenetet néz közelebb 512-hez. Durván duplán ad időt, de megéri a hősi lövésekért.

A SadTalker alapértelmezés szerint 256 px-et ad vissza. Váltás 512 px méretre az élesebb kimenethez (lassabb, magasabb VRAM), vagy engedélyezze a GFPGAN fokozót az arcfelismerésre. A legjobb eredmény érdekében tölts fel egy kiváló minőségű, jól megvilágított portréképet.

Igen. Töltsön fel egy MP4 vagy WebM-et az arc bemeneteként, és az első képkockát fogjuk használni, mint a vezetési identitást. A teljes videó újradubbing (per-frame száj csere), lásd a közelgő Dubbing Studio videovezetéket.

Yes. POST a multipart request to /api/v1/lipsync/ with face and audio fields, then poll /api/v1/lipsync/result/?uuid= until status is "completed". The response contains a URL to the rendered MP4. API access requires a paid plan.

A SadTalker arc-összehangolást használ a legkiemelkedőbb arc felismerésére és megvetésére. A legjobb eredmény érdekében tölts fel egy portrét egy személyre, látható szemekkel és minimális elzáródással. A csoportos fotók kiszámíthatatlan eredményeket eredményezhetnek.

5.0/5 (1)

Készen állsz?

Jelentkezz ingyen és szerezz 15.000 karaktert. Nincs szükség hitelkártyára.

Regisztráció Ingyenes Tekintse meg az árakat

AI Lip Sync Video Generator

Feltöltés Face + Audio

A beszédfejes videód

A SadTalkerről

Tippek a legjobb eredményekért

Lip Szinkron video tervek

Gyakran ismételt kérdések

Mit csinál az MI ajak szinkronizálás eszköz?

Milyen bemeneti formátumok támogatottak?

Meddig tarthat a hang?

Mennyibe kerül?

Használhatom a videókat kereskedelmileg?

Mennyi ideig tart a generáció?

Mi a különbség a "teljes" és a "még mindig" beállítás között?

Mi az a GFPGAN erősítő?

Miért néz ki a kimenetem alacsony felbontásúnak?

Csinálhatok egy videót az új hangra?

Van API?

Mi van, ha az arcképemen több ember van?

Készen állsz?