AI Lip Sync Video Generator

Tölts fel egy arcképet és egy audio klipet, hogy egy beszélő-head videó realisztikus ajak szinkronizálás, fej póz, és pislogás. Powered by SadTalker (MIT). Kereskedelmi használat OK.

Feltöltés Face + Audio

1000 karakter másodpercenként

Itt húzza le a fájlt, vagy böngészés

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Itt húzza le a fájlt, vagy böngészés

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Feldolgozás...

Ez általában 30 másodperc 2 percig tart.

A beszédfejes videód

MP4 letöltése

A SadTalkerről

SadTalker (CVPR 2023, Tencent ARC) egy nyílt forráskódú beszélő-fej modell, amely animálja az egyetlen arcképet, hogy bármilyen audio. Ellentétben a Wav2Lip változatok, SadTalker is animáció fej póz, pislogás, és kifejezés egy természetes eredmény.

A kód és a súlyok az MIT-engedélyezett vége: a Llama, a Gemma vagy a nem kereskedelmi gerinc, így az általad készített videók kereskedelmi használatra biztonságosak.

Tippek a legjobb eredményekért

  • Használjon kiváló minőségű, jól megvilágított portrét, látható szemek, száj zárva
  • Koncentrált arc, négyzet vagy 4:5 méretarány működik a legjobban
  • Tiszta beszéd hang (nem zene) ad feszesebb ajak szinkronizálás
  • A GFPGAN engedélyezése hős lövésekhez A páros időt ad, de részleteket élesít.
  • Használd a Still preset-et, amikor állandó avatar lövést akarsz.

Lip Szinkron video tervek

Ingyenes indítás, frissítés, ha többre van szükséged

Ingyenes
  • 30 másodperces audio limit
  • 256 px kimenet
  • "Még mindig" csak előre beállított
  • Nincs arcerősítő
Legnépszerűbb
Ingyenes számla
  • 30 másodperces audio limit
  • Mind a "teljes" mind a "még" előre beállított
  • 256 / 512 px kimenet
  • GFPGAN arcerősítő
Regisztráció Ingyenes
Pro
  • 5 perces audio limit
  • Prioritású GPU sor
  • API-hozzáférés (többrészes feltöltés)
  • Webhook befejezési visszahívások
  • Kereskedelmi felhasználás (MIT-engedély)
Frissítés

Gyakran ismételt kérdések

Töltsön fel egy arcképet és egy audio klipet, és az MI készít egy videót arról az arcról, amely realisztikus ajakmozgásokkal, fejpózzal és pislogással beszél az arcról. A SadTalker (CVPR 2023), egy MIT-licensed talk-head modell, amely a szájformán kívül animálja a kifejezést.

Az arcbemenet lehet JPG vagy PNG kép (legfeljebb 10 MB) vagy egy rövid MP4/WebM vezetési videó (az első képkockát használjuk). A meghajtó audió lehet MP3, WAV, M4A, vagy FLAC akár 10 MB. Újraminta audió 16 kHz belső.

Ingyenes számlák: klipenként legfeljebb 30 másodperc. Fizető felhasználók: akár 5 perc kérésre. Hosszabb audió azt jelenti, hosszabb idő és magasabb karakter költség.

Lip sync videó használ 1000 karakter másodpercenként generált videó. Egy 30 másodperces klip = 30,000 karakter. A költség előre számlázzák a karakter egyensúly és automatikusan visszatérítik, ha a generáció sikertelen.

Igen SadTalker kód és súlyok MIT licensed end to end to end (no Llama, Gemma, or non-commercial gerince). A videók, amelyeket generálsz, a tiéd, hogy kereskedelmileg használd. Te vagy a felelős a jogokért, hogy a forrás arckép és audió feltöltése.

Körülbelül 30 másodperc egy 5 másodperces klip A100 szerverünkön, nagyjából lineárisan méretezve az audió hosszával. A GFPGAN arcerősítő nagyjából duplán teszi az időt, de élesebb, magasabb minőségű kimenetet eredményez.

Teljes preset (alapértelmezett) animáció fej póz, pislog, és a kifejezés mellett az ajkak, egy természetesebb beszélő-head videó. Még mindig előre beállított zár a fej a helyén, és animáció csak a száj · hasznos, ha azt szeretnénk, hogy egy állandó avatar lövés.

GFPGAN egy arc restauráló modell, amely élesíti az arc részleteit a száj-szinkron renderelés után. Megtisztítja az ereklyéket és 256 pixeles kimenetet néz közelebb 512-hez. Durván duplán ad időt, de megéri a hősi lövésekért.

A SadTalker alapértelmezés szerint 256 px-et ad vissza. Váltás 512 px méretre az élesebb kimenethez (lassabb, magasabb VRAM), vagy engedélyezze a GFPGAN fokozót az arcfelismerésre. A legjobb eredmény érdekében tölts fel egy kiváló minőségű, jól megvilágított portréképet.

Igen. Töltsön fel egy MP4 vagy WebM-et az arc bemeneteként, és az első képkockát fogjuk használni, mint a vezetési identitást. A teljes videó újradubbing (per-frame száj csere), lásd a közelgő Dubbing Studio videovezetéket.

Igen. Az /api/v1/lipsync/ arc- és audiómezőkre vonatkozó többrészes kérés elküldése, majd az /api/v1/lipsync/result/?uuuid= szavazás, amíg az állapot "teljes" lesz. A válasz URL-t tartalmaz a fordított MP4-re. Az API hozzáférése fizetős tervet igényel.

A SadTalker arc-összehangolást használ a legkiemelkedőbb arc felismerésére és megvetésére. A legjobb eredmény érdekében tölts fel egy portrét egy személyre, látható szemekkel és minimális elzáródással. A csoportos fotók kiszámíthatatlan eredményeket eredményezhetnek.
5.0/5 (1)

Mit lehetne javítani? A visszajelzés segít megoldani a problémákat.

Készen állsz?

Jelentkezz ingyen és szerezz 15.000 karaktert. Nincs szükség hitelkártyára.