Informa d' errors / Petició de característiques

Generador de vídeo IA Lip, que sincronitza la sincronització de vídeo

Envia una foto de cara i un clip d'àudio obté un vídeo de punta de parla amb una sincronització realista de llavis, posa el cap i parpelleja. El poder de Sadekker (MIT). Actús OK.

Signa lliure

Nosaltres no Ven la vostra veu

Puja la cara a més d' àudio

1.000 caràcters per segon

1. Imatge de Cara o vídeo d'influència

Arrossegueu i deixeu anar el vostre fitxer aquí, o Navega

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. S' està conduint l'àudio

Arrossegueu i deixeu anar el vostre fitxer aquí, o Navega

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Predefinament per a l' animació

Mida de la sortida

Cara Millora

GFPGAN (harper, més lent)

Quant a Sadeker

Sadeker (CVPR 2023, Tencent ARC) és un model de codi obert que parla amb un codi obert que anima una imatge cara única a parlar qualsevol so. A diferència de les variants Wav2Lip, l' anima el cap, parpelleja i l' expressió per a un resultat més natural.

El codi i les pess són el final de l'any MIT- license per acabar llama no, Gemma, o no comercials backboncson, de manera que els vídeos que generen són segurs per a l'ús comercial.

Consells pels millors resultats

Usa una qualitat d' alta qualitat, bé- li vertical visible els ulls Martha, la boca tancada
Centrat cara, quadrat o relació d' aspecte 4: 5 funciona millor
Neteja l' àudio de veu (no música) dóna una sincronització de llavis ajustats
Habilita el GFPGAN pels trets d' herois per a renderitzar el temps però es mostren els detalls de definició
Usa l' ambient encara quan voleu una foto avatar constant

Sincronitzeu plans de vídeo

Inicia lliure, actualització quan necessiteu més

Lliure

Límit d' àudio de 30 segons
Sortida 256 px
Només ambient "lill"
No millora cap cara

El més popular

Compte lliure

Límit d' àudio de 30 segons
Els ambients "grans" i "still"
256 / 512 px Sortida
millorador de cares GFPGAN

Signa lliure

Pro

Límit d' àudio de 5 minuts
Cua de la GPU de prioritat
Accés a l' API (multipart pujada)
Trucades de compleció de l' estructura Web
Ús de l' IPER (versió MIT)

Actualitza

Preguntes més freqüents

Publica una foto de cara i un clip d'àudio, i l'AI genera un vídeo d'aquesta cara parlant d'àudio amb moviments de llavis realistes, posa't al cap i parpelleja. Es construeix a més d' una conversada (CVPR 2023), un model de cap a la llicència del MIT que anima l'expressió a més d' una boca.

L' entrada de cara pot ser una imatge JPG o PNG (fins a 10 MB) o un curt vídeo MP4/WebM (úsem el primer marc). El dispositiu d' àudio pot ser MP3, WAV, M4A, o FLAC fins a 10 MB. Hem tornat a mostrejar l' àudio a 16 kHz internament.

Comptes lliures: fins a 30 segons per clip. Paying users: amunt i cinc minuts per petició. L' àudio Longer vol dir que el temps i el cost més elevat dels caràcters.

El vídeo de la sincronització de Lip, fa servir 1.000 caràcters per segon de vídeo generat. Un clip de 30 segons = 30.000 caràcters. El cost s' ha carregat per davant del balanç de caràcters i ha reemplaçat automàticament si la generació falla.

Sí, el codi i els pesos de l'Ebliç del MIT són finals de la llicència per acabar (no Llama, Gemma, o no comercials). Els vídeos que genereu són vostres per usar comercialment. Sou responsables de tenir els drets de la imatge del codi font i de l' àudio que pugeu.

Uns 30 segons per a un clip de 5 segons en el nostre servidor A100, escalat al voltant de linealment amb longitud d' àudio. Activant la cara GFPGAN millorarà més o menys el doble de temps, però produeix una sortida més afiladora i més alta.

Completa l' ambient (per defecte) anima la posició del cap, parpelleja, i expressió juntament amb els llavis, produint un vídeo més natural de conversa. Tot i que està predefinit tanca el cap en el lloc i anima només la boca si voleu un tret avatar constant.

GFPGAN és un model de restauració de cara que s' amola els detalls facials després de la representació de la sincronització dels llavis. Neteja defectes i fa que 256 xpíxel sembli més proper a 512. Això representa més o menys el temps, però val la pena per als trets d' heroi.

Per omissió, el Dr. Sadekker representa a 256 px. Canvieu a 512 mida de la sortida afilada (més lent, més alta VRAM) o habiliteu el GFPGAN per millorar els detalls facials a escala. Per a millors resultats, pugeu una foto de retrat d' alta qualitat, ben ajustat.

Sí. Pugeu un MP4 o WebM com a entrada de la cara i utilitzarem el primer marc com a identitat de conduir. Per a una repulsió de vídeo completa (per a la llista de la boca), mireu la continuació de la canonada de vídeo Studio Dubbing.

Sí. POST una petició multipart a / appi/ v1/ lipsync / amb camps d' àudio i àudio, després l' enquesta / ap/v1/ lipsync/reult /? uuid= fins que l' estat sigui "completa". La resposta conté un URL al MP4 renderitzat. L' accés de l' API requereix d' un pla pagat.

Sadeker utilitza la resistència cara a detectar i escapçar la cara més prominent. Per obtenir millors resultats, pujar un retrat amb una persona centrada, ulls visibles i mínims oclusió. Les fotos de grup poden produir resultats impredictibles.

5.0/5 (1)

A punt per començar?

Signa't i aconsegueix 50 crèdits.

Signa lliure Visualitza Pricing

Generador de vídeo IA Lip, que sincronitza la sincronització de vídeo

Puja la cara a més d' àudio

El teu vídeo de conversa-Head

Quant a Sadeker

Consells pels millors resultats

Sincronitzeu plans de vídeo

Preguntes més freqüents

Què fa l'eina de sincronització dels llavis de l'AI?

Quins formats d' entrada estan permesos?

Quant de temps pot ser l'àudio?

Quant costa?

Puc utilitzar els vídeos comercialment?

Quant de temps triga la generació?

Quina diferència hi ha entre "ple" i "till" ambient?

¿Quin és el millorador del GFPGA?

Per què la meva sortida sembla baixa resolució?

Puc parlar amb els llavis un vídeo per a un nou àudio?

Hi ha una API?

I si la meva foto de cara té múltiples persones en ella?

A punt per començar?