Generador de vídeo IA Lip, que sincronitza la sincronització de vídeo

Envia una foto de cara i un clip d'àudio obté un vídeo de punta de parla amb una sincronització realista de llavis, posa el cap i parpelleja. El poder de Sadekker (MIT). Actús OK.

Nosaltres no Ven la vostra veu

Puja la cara a més d' àudio

1.000 caràcters per segon

Arrossegueu i deixeu anar el vostre fitxer aquí, o Navega

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

fitxer.mp3

0 MB

Arrossegueu i deixeu anar el vostre fitxer aquí, o Navega

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

fitxer.mp3

0 MB

S' està processant...

Això sol trigar 30 segons a 2 minuts.

El teu vídeo de conversa-Head

Descarrega

Quant a Sadeker

Sadeker (CVPR 2023, Tencent ARC) és un model de codi obert que parla amb un codi obert que anima una imatge cara única a parlar qualsevol so. A diferència de les variants Wav2Lip, l' anima el cap, parpelleja i l' expressió per a un resultat més natural.

El codi i les pess són el final de l'any MIT- license per acabar llama no, Gemma, o no comercials backboncson, de manera que els vídeos que generen són segurs per a l'ús comercial.

Consells pels millors resultats

  • Usa una qualitat d' alta qualitat, bé- li vertical visible els ulls Martha, la boca tancada
  • Centrat cara, quadrat o relació d' aspecte 4: 5 funciona millor
  • Neteja l' àudio de veu (no música) dóna una sincronització de llavis ajustats
  • Habilita el GFPGAN pels trets d' herois per a renderitzar el temps però es mostren els detalls de definició
  • Usa l' ambient encara quan voleu una foto avatar constant

Sincronitzeu plans de vídeo

Inicia lliure, actualització quan necessiteu més

Lliure
  • Límit d' àudio de 30 segons
  • Sortida 256 px
  • Només ambient "lill"
  • No millora cap cara
El més popular
Compte lliure
  • Límit d' àudio de 30 segons
  • Els ambients "grans" i "still"
  • 256 / 512 px Sortida
  • millorador de cares GFPGAN
Signa lliure
Pro
  • Límit d' àudio de 5 minuts
  • Cua de la GPU de prioritat
  • Accés a l' API (multipart pujada)
  • Trucades de compleció de l' estructura Web
  • Ús de l' IPER (versió MIT)
Actualitza

Preguntes més freqüents

Publica una foto de cara i un clip d'àudio, i l'AI genera un vídeo d'aquesta cara parlant d'àudio amb moviments de llavis realistes, posa't al cap i parpelleja. Es construeix a més d' una conversada (CVPR 2023), un model de cap a la llicència del MIT que anima l'expressió a més d' una boca.

L' entrada de cara pot ser una imatge JPG o PNG (fins a 10 MB) o un curt vídeo MP4/WebM (úsem el primer marc). El dispositiu d' àudio pot ser MP3, WAV, M4A, o FLAC fins a 10 MB. Hem tornat a mostrejar l' àudio a 16 kHz internament.

Comptes lliures: fins a 30 segons per clip. Paying users: amunt i cinc minuts per petició. L' àudio Longer vol dir que el temps i el cost més elevat dels caràcters.

El vídeo de la sincronització de Lip, fa servir 1.000 caràcters per segon de vídeo generat. Un clip de 30 segons = 30.000 caràcters. El cost s' ha carregat per davant del balanç de caràcters i ha reemplaçat automàticament si la generació falla.

Sí, el codi i els pesos de l'Ebliç del MIT són finals de la llicència per acabar (no Llama, Gemma, o no comercials). Els vídeos que genereu són vostres per usar comercialment. Sou responsables de tenir els drets de la imatge del codi font i de l' àudio que pugeu.

Uns 30 segons per a un clip de 5 segons en el nostre servidor A100, escalat al voltant de linealment amb longitud d' àudio. Activant la cara GFPGAN millorarà més o menys el doble de temps, però produeix una sortida més afiladora i més alta.

Completa l' ambient (per defecte) anima la posició del cap, parpelleja, i expressió juntament amb els llavis, produint un vídeo més natural de conversa. Tot i que està predefinit tanca el cap en el lloc i anima només la boca si voleu un tret avatar constant.

GFPGAN és un model de restauració de cara que s' amola els detalls facials després de la representació de la sincronització dels llavis. Neteja defectes i fa que 256 xpíxel sembli més proper a 512. Això representa més o menys el temps, però val la pena per als trets d' heroi.

Per omissió, el Dr. Sadekker representa a 256 px. Canvieu a 512 mida de la sortida afilada (més lent, més alta VRAM) o habiliteu el GFPGAN per millorar els detalls facials a escala. Per a millors resultats, pugeu una foto de retrat d' alta qualitat, ben ajustat.

Sí. Pugeu un MP4 o WebM com a entrada de la cara i utilitzarem el primer marc com a identitat de conduir. Per a una repulsió de vídeo completa (per a la llista de la boca), mireu la continuació de la canonada de vídeo Studio Dubbing.

Sí. POST una petició multipart a / appi/ v1/ lipsync / amb camps d' àudio i àudio, després l' enquesta / ap/v1/ lipsync/reult /? uuid= fins que l' estat sigui "completa". La resposta conté un URL al MP4 renderitzat. L' accés de l' API requereix d' un pla pagat.

Sadeker utilitza la resistència cara a detectar i escapçar la cara més prominent. Per obtenir millors resultats, pujar un retrat amb una persona centrada, ulls visibles i mínims oclusió. Les fotos de grup poden produir resultats impredictibles.
5.0/5 (1)

Les teves reaccions ens ajuden a solucionar problemes.

A punt per començar?

Signa't i aconsegueix 50 crèdits.