Ilmoita vika / Ominaisuuspyyntö

AI Lip -synkronointivideogeneraattori

Lataa kasvokuva ja ääninauha – hanki puhepäävideo, jossa on realistinen huulisynkronointi, pääposeeraus ja räpyttely. Powered by SadTaker (MIT). Kaupallinen käyttö OK.

Rekisteröidy ilmaiseksi

Lataa kasvot ja ääni

1 000 merkkiä sekunnissa

1. Face Image tai Driving Video

Vedä & pudota tiedostosi tähän, tai selaa

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Driving Audio

Vedä & pudota tiedostosi tähän, tai selaa

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Animaatio preseted

Tulostekoko

Kasvojen parantaja

GFPGAN (hitaampi, hitaampi)

Surullisesta puhujasta

SadTalker (CVPR 2023, Tencent ARC) on avoimen lähdekoodin puhe- ja päämalli, joka elävöittää yhden ainoan kasvokuvan puhuakseen mitä tahansa ääntä. Toisin kuin Wav2Lip -versiot, SadTalker myös animoi pään poseerausta, räpyttelyä ja ilmettä luontevasti.

Koodit ja painot ovat MIT-lisenssejä – ei Llamaa, Gemmaa tai ei-kaupallista selkärankaa – joten tuottamasi videot ovat turvallisia kaupalliseen käyttöön.

Vinkkejä parhaisiin tuloksiin

Käytä laadukasta, hyvin valaistua muotokuvaa – silmät näkyvissä, suu kiinni
Keskitetty kasvot, neliö tai 4:5 kuvasuhde toimii parhaiten
Puhdas puheääni (ei musiikkia) saa aikaan tiukempaa huulisynkronointia
Ota GFPGAN käyttöön sankarilaukausten varalta – tuplaa ajan mutta terävöittää yksityiskohtia
Käytä Still-asetinta, kun haluat tasaisen avatar-osuman

Lip-synkronointivideoiden piirustukset

Aloita ilmaiseksi, päivitä kun tarvitset lisää

Vapaa

30 sekunnin ääniraja
256 px:n ulostulo
Vain "vielä" esiaseteltuna
Ei kasvonvahvistinta

Suosituin

Vapaa tili

30 sekunnin ääniraja
Sekä "täyttöiset" että "jäljellä olevat" esiasetukset
256 / 512 px ulostulo
GFPGAN-face-tehosteaine

Rekisteröidy ilmaiseksi

Pro

5 minuutin ääniraja
Ensisijainen GPU-jono
API-yhteys (moniosainen lataus)
Verkkokoukkujen takaisinkutsut
Kaupallinen käyttö (MIT-lisenssi)

Päivitys

Usein kysyttyjä kysymyksiä

Lataa kasvokuva ja ääninauha, ja tekoäly luo videon siitä, että kasvot puhuvat ääntä realistisin huuliliikkein, pää poseeraa ja räpäyttää silmiä. Se on rakennettu SadTalkerille (CVPR 2023), MIT-lisensoidulle puhepäämallille, joka animoidaan suunmuodon lisäksi ilmaisua.

Kasvosyöte voi olla JPG- tai PNG-kuva (enintään 10 MB) tai lyhyt MP4/WebM-ajovideo (käytämme ensimmäistä ruutua). Ajoääni voi olla MP3-, WAV-, M4A- tai FLAC-ääni enintään 10 MB. Otamme ääninäytteen 16 kHz:n sisäisesti.

Ilmaiset tilit: jopa 30 sekuntia per klippi. Maksavat käyttäjät: jopa 5 minuuttia per pyyntö. Pidempi ääni tarkoittaa pidempää aikaa ja korkeampi luonne maksaa.

Lipin synkronointivideossa käytetään 1 000 merkkiä sekunnissa tuotettua videota. 30 sekunnin klippi = 30 000 merkkiä. Kustannukset laskutetaan etukäteen hahmon tasapainosta ja korvataan automaattisesti, jos sukupolvi epäonnistuu.

Kyllä – SadTalkerin koodi ja painot ovat MIT:n luvanvaraisia päätepysäkkiä (ei Llamaa, Gemmaa tai ei-kaupallista selkärankaa). Luomasi videot ovat kaupallisessa käytössäsi. Olet vastuussa siitä, että sinulla on oikeudet lataamaasi lähdekasvokuvaan ja -ääneen.

A100-palvelimellamme on noin 30 sekuntia 5 sekunnin klippiä, joka skaalautuu suurin piirtein suoraviivaisesti äänenpituudella. GFPGAN-face-tehosteen mahdollistaminen karkeasti ottaen tuplaa ajan, mutta tuottaa terävämpää ja laadukkaampaa ulostuloa.

Täysi esiaseteltu (oletus) animoidaan pää poseeraamaan, räpyttelemään ja ilmaisemaan yhdessä huulten kanssa, jolloin syntyy luonnollisempi puhe-päävideo. Silti esiaseteltu lukitsee pään paikoilleen ja animoi vain suuta, mikä on hyödyllistä, kun haluat tasaisen avatar-laukauksen.

GFPGAN on kasvojen restaurointimalli, joka hioo kasvonpiirteitä huulisynkronisen renderoinnin jälkeen. Se puhdistaa artefaktit ja tekee 256-pikselin ulostulosta lähemmäs 512:ta. Se tekee noin kaksinkertaiseksi aikaa, mutta on sankarin laukausten arvoinen.

SadTalker tekee oletuksena 256 px. Vaihda 512 px:n kokoon terävämmälle ulostulolle (himmeämpi, korkeampi VRAM) tai anna GFPGAN-tehosteaineen nostaa kasvojen yksityiskohtia. Parhaiden tulosten saavuttamiseksi lataa laadukas, hyvin valaistu muotokuva.

Kyllä. Lataa kasvosyötteeksi MP4 tai WebM, ja käytämme ajoidentiteettinä ensimmäistä ruutua. Koko videon uudelleenjakoon (per-frame-suun vaihtoon) katso tulevaa Dubbing Studio -videoputkea.

Kyllä. POST a multipart request to /api/v1/lipsync/ with face and audio fields, then gallup /api/v1/lipsync/result/?uid=, kunnes status on " valmis". Vastaus sisältää URL-osoitteen renderoituun MP4:ään. API-yhteys vaatii maksullisen suunnitelman.

SadTalker käyttää kasvonpiirteitä tunnistaakseen ja kasvattaakseen näkyvimmät kasvot. Parhaiden tulosten saavuttamiseksi lataa muotokuva, jossa on yksi henkilö keskittyneenä, silmät näkyvillä ja minimaalinen tukos. Ryhmäkuvat saattavat tuottaa arvaamattomia tuloksia.

5.0/5 (1)

Oletko valmis aloittamaan?

Rekisteröidy ilmaiseksi ja saat 50 opintopistettä. Luottokorttia ei tarvita.

Rekisteröidy ilmaiseksi Näkymän hinnoittelu

AI Lip -synkronointivideogeneraattori

Lataa kasvot ja ääni

Puhuva päävideosi

Surullisesta puhujasta

Vinkkejä parhaisiin tuloksiin

Lip-synkronointivideoiden piirustukset

Usein kysyttyjä kysymyksiä

Mitä tekoälyn huulien synkronointityökalu tekee?

Mitä syöttöformaatteja tuetaan?

Kuinka kauan ääni voi kestää?

Paljonko se maksaa?

Voinko käyttää videoita kaupallisesti?

Kuinka kauan sukupolvi kestää?

Mitä eroa on "täydellisellä" ja "täydellisellä" presetillä?

Mikä on GFPGAN-tehosteaine?

Miksi tuotokseni näyttää alhaiselta resoluutiolta?

Saanko ääninauhan uuteen äänentoistoon?

Onko olemassa API:tä?

Entä jos kasvokuvassani on useita ihmisiä?

Oletko valmis aloittamaan?