AI Lip -synkronointivideogeneraattori

Lataa kasvokuva ja ääninauha – hanki puhepäävideo, jossa on realistinen huulisynkronointi, pääposeeraus ja räpyttely. Powered by SadTaker (MIT). Kaupallinen käyttö OK.

Lataa kasvot ja ääni

1 000 merkkiä sekunnissa

Vedä & pudota tiedostosi tähän, tai selaa

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Vedä & pudota tiedostosi tähän, tai selaa

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Käsitellään...

Videon renderointi vie yleensä 30 sekunnista 2 minuuttiin.

Puhuva päävideosi

Lataa MP4

Surullisesta puhujasta

SadTalker (CVPR 2023, Tencent ARC) on avoimen lähdekoodin puhe- ja päämalli, joka elävöittää yhden ainoan kasvokuvan puhuakseen mitä tahansa ääntä. Toisin kuin Wav2Lip -versiot, SadTalker myös animoi pään poseerausta, räpyttelyä ja ilmettä luontevasti.

Koodit ja painot ovat MIT-lisenssejä – ei Llamaa, Gemmaa tai ei-kaupallista selkärankaa – joten tuottamasi videot ovat turvallisia kaupalliseen käyttöön.

Vinkkejä parhaisiin tuloksiin

  • Käytä laadukasta, hyvin valaistua muotokuvaa – silmät näkyvissä, suu kiinni
  • Keskitetty kasvot, neliö tai 4:5 kuvasuhde toimii parhaiten
  • Puhdas puheääni (ei musiikkia) saa aikaan tiukempaa huulisynkronointia
  • Ota GFPGAN käyttöön sankarilaukausten varalta – tuplaa ajan mutta terävöittää yksityiskohtia
  • Käytä Still-asetinta, kun haluat tasaisen avatar-osuman

Lip-synkronointivideoiden piirustukset

Aloita ilmaiseksi, päivitä kun tarvitset lisää

Vapaa
  • 30 sekunnin ääniraja
  • 256 px:n ulostulo
  • Vain "vielä" esiaseteltuna
  • Ei kasvonvahvistinta
Suosituin
Vapaa tili
  • 30 sekunnin ääniraja
  • Sekä "täyttöiset" että "jäljellä olevat" esiasetukset
  • 256 / 512 px ulostulo
  • GFPGAN-face-tehosteaine
Rekisteröidy ilmaiseksi
Pro
  • 5 minuutin ääniraja
  • Ensisijainen GPU-jono
  • API-yhteys (moniosainen lataus)
  • Verkkokoukkujen takaisinkutsut
  • Kaupallinen käyttö (MIT-lisenssi)
Päivitys

Usein kysyttyjä kysymyksiä

Lataa kasvokuva ja ääninauha, ja tekoäly luo videon siitä, että kasvot puhuvat ääntä realistisin huuliliikkein, pää poseeraa ja räpäyttää silmiä. Se on rakennettu SadTalkerille (CVPR 2023), MIT-lisensoidulle puhepäämallille, joka animoidaan suunmuodon lisäksi ilmaisua.

Kasvosyöte voi olla JPG- tai PNG-kuva (enintään 10 MB) tai lyhyt MP4/WebM-ajovideo (käytämme ensimmäistä ruutua). Ajoääni voi olla MP3-, WAV-, M4A- tai FLAC-ääni enintään 10 MB. Otamme ääninäytteen 16 kHz:n sisäisesti.

Ilmaiset tilit: jopa 30 sekuntia per klippi. Maksavat käyttäjät: jopa 5 minuuttia per pyyntö. Pidempi ääni tarkoittaa pidempää aikaa ja korkeampi luonne maksaa.

Lipin synkronointivideossa käytetään 1 000 merkkiä sekunnissa tuotettua videota. 30 sekunnin klippi = 30 000 merkkiä. Kustannukset laskutetaan etukäteen hahmon tasapainosta ja korvataan automaattisesti, jos sukupolvi epäonnistuu.

Kyllä – SadTalkerin koodi ja painot ovat MIT:n luvanvaraisia päätepysäkkiä (ei Llamaa, Gemmaa tai ei-kaupallista selkärankaa). Luomasi videot ovat kaupallisessa käytössäsi. Olet vastuussa siitä, että sinulla on oikeudet lataamaasi lähdekasvokuvaan ja -ääneen.

A100-palvelimellamme on noin 30 sekuntia 5 sekunnin klippiä, joka skaalautuu suurin piirtein suoraviivaisesti äänenpituudella. GFPGAN-face-tehosteen mahdollistaminen karkeasti ottaen tuplaa ajan, mutta tuottaa terävämpää ja laadukkaampaa ulostuloa.

Täysi esiaseteltu (oletus) animoidaan pää poseeraamaan, räpyttelemään ja ilmaisemaan yhdessä huulten kanssa, jolloin syntyy luonnollisempi puhe-päävideo. Silti esiaseteltu lukitsee pään paikoilleen ja animoi vain suuta, mikä on hyödyllistä, kun haluat tasaisen avatar-laukauksen.

GFPGAN on kasvojen restaurointimalli, joka hioo kasvonpiirteitä huulisynkronisen renderoinnin jälkeen. Se puhdistaa artefaktit ja tekee 256-pikselin ulostulosta lähemmäs 512:ta. Se tekee noin kaksinkertaiseksi aikaa, mutta on sankarin laukausten arvoinen.

SadTalker tekee oletuksena 256 px. Vaihda 512 px:n kokoon terävämmälle ulostulolle (himmeämpi, korkeampi VRAM) tai anna GFPGAN-tehosteaineen nostaa kasvojen yksityiskohtia. Parhaiden tulosten saavuttamiseksi lataa laadukas, hyvin valaistu muotokuva.

Kyllä. Lataa kasvosyötteeksi MP4 tai WebM, ja käytämme ajoidentiteettinä ensimmäistä ruutua. Koko videon uudelleenjakoon (per-frame-suun vaihtoon) katso tulevaa Dubbing Studio -videoputkea.

Kyllä. POST a multipart request to /api/v1/lipsync/ with face and audio fields, then gallup /api/v1/lipsync/result/?uid=, kunnes status on " valmis". Vastaus sisältää URL-osoitteen renderoituun MP4:ään. API-yhteys vaatii maksullisen suunnitelman.

SadTalker käyttää kasvonpiirteitä tunnistaakseen ja kasvattaakseen näkyvimmät kasvot. Parhaiden tulosten saavuttamiseksi lataa muotokuva, jossa on yksi henkilö keskittyneenä, silmät näkyvillä ja minimaalinen tukos. Ryhmäkuvat saattavat tuottaa arvaamattomia tuloksia.
5.0/5 (1)

Mitä voisimme parantaa? Palautteesi auttaa meitä korjaamaan ongelmia.

Oletko valmis aloittamaan?

Rekisteröidy ilmaiseksi ja saat 50 opintopistettä. Luottokorttia ei tarvita.