Informar de fallo / Petición de características

AI Lip Sincronizar generador de vídeo

Cargar una foto facial y un clip de audio — obtener un video de cabeza parlante con sincronización de labios realista, pose de cabeza y parpadeos. Powered by SadTalker (MIT). Uso comercial OK.

Regístrate gratis

Subir cara + audio

1.000 caracteres por segundo

1. Imagen facial o video de conducción

Arrastre y suelte su archivo aquí, o navegar

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Conducción de audio

Arrastre y suelte su archivo aquí, o navegar

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Animación preestablecida

Tamaño de la salida

Mejorador facial

GFPGAN (afilador, más lento)

Acerca de SadTalker

SadTalker (CVPR 2023, Tencent ARC) es un modelo de código abierto que anima una imagen de una sola cara para hablar cualquier audio. A diferencia de las variantes de Wav2Lip, SadTalker también anima la pose de la cabeza, los pestañeos y la expresión para obtener un resultado más natural.

Los códigos y pesos son licenciados de extremo a extremo por el MIT —sin Llama, Gemma o columna vertebral no comercial— por lo que los videos que generas son seguros para su uso comercial.

Consejos para obtener mejores resultados

Utilice un retrato de alta calidad y bien iluminado: ojos visibles, boca cerrada
La relación de aspecto de la cara central, cuadrada o 4:5 funciona mejor
El audio de voz limpio (sin música) produce una sincronización labial más estrecha
Habilitar GFPGAN para tiros de héroe — duplica el tiempo de ejecución pero agudiza el detalle
Utilice el preset Still cuando desee una toma de avatar constante

Labios Sincronizar planes de vídeo

Comience gratis, actualice cuando necesite más

Libre

Límite de audio de 30 segundos
256 px de salida
Sólo preestablecido "todavía"
Sin potenciador facial

Preguntas frecuentes

Sube una foto facial y un clip de audio, y la IA genera un video de esa cara hablando el audio con movimientos de labios realistas, pose de cabeza y parpadeos. Construido en SadTalker (CVPR 2023), un modelo de cabeza parlante con licencia del MIT que anima la expresión además de la forma de la boca.

La entrada facial puede ser una imagen JPG o PNG (hasta 10 MB) o un vídeo de conducción MP4/WebM corto (utilizamos el primer marco). El audio de conducción puede ser MP3, WAV, M4A o FLAC de hasta 10 MB. Remuestramos audio a 16 kHz internamente.

Cuentas gratuitas: hasta 30 segundos por clip. Pagar a los usuarios: hasta 5 minutos por petición. Audio más largo significa más tiempo de renderizado y mayor costo de carácter.

El video de sincronización de labios utiliza 1.000 caracteres por segundo de vídeo generado. Un clip de 30 segundos = 30.000 caracteres. El costo se factura por adelantado de su saldo de caracteres y se reembolsa automáticamente si la generación falla.

Sí — Los códigos y pesos de SadTalker son licenciados de extremo a extremo (sin Llama, Gemma o columna vertebral no comercial). Los videos que generas son tuyos para usar comercialmente. Eres responsable de tener los derechos sobre la imagen de la fuente y el audio que subes.

Unos 30 segundos para un clip de 5 segundos en nuestro servidor A100, escalando aproximadamente linealmente con la longitud de audio. Habilitando el potenciador facial GFPGAN aproximadamente duplica el tiempo de renderización pero produce una salida más nítida y de mayor calidad.

Completamente preestablecido (predeterminado) anima la postura de la cabeza, parpadea, y la expresión junto con los labios, produciendo un video más natural de cabeza parlante. Todavía preestablecido bloquea la cabeza en su lugar y anima sólo la boca — útil cuando se desea una toma de avatar constante.

GFPGAN es un modelo de restauración facial que aguza los detalles faciales después de la representación de lip-sync. Limpia los artefactos y hace que la salida de 256 píxeles se vea más cerca de 512.

SadTalker se renderiza a 256 px por defecto. Cambie a 512 px para obtener una salida más nítida (leve, alta VRAM) o active el potenciador GFPGAN para aumentar los detalles faciales. Para obtener los mejores resultados, cargue una foto de retrato de alta calidad y bien iluminada.

Sí. Cargue un MP4 o WebM como la entrada de la cara y utilizaremos el primer marco como la identidad de conducción. Para volver a doblar el vídeo completo (reemplazo de boca por marco), vea la próxima tubería de vídeo de Dubbing Studio.

Sí. Enviar una solicitud multiparte a /api/v1/lipsync/ con campos faciales y de audio, luego encuestar /api/v1/lipsync/result/?uuid= hasta que el estado esté "completado". La respuesta contiene una URL al acceso API MP4. Requiere un plan de pago.

SadTalker utiliza la alineación facial para detectar y recortar la cara más prominente. Para obtener mejores resultados, suba un retrato con una persona centrada, ojos visibles y oclusión mínima. Las fotos de grupo pueden producir resultados impredecibles.

5.0/5 (1)

¿Listo para empezar?

Regístrese gratis y obtenga 15.000 caracteres. No se requiere tarjeta de crédito.

Regístrate gratis Ver precios

AI Lip Sincronizar generador de vídeo

Subir cara + audio

Tu video de la cabeza de conversación

Acerca de SadTalker

Consejos para obtener mejores resultados

Labios Sincronizar planes de vídeo

Preguntas frecuentes

¿Qué hace la herramienta de sincronización de labios de IA?

¿Qué formatos de entrada son compatibles?

¿Cuánto tiempo puede ser el audio?

¿Cuánto cuesta?

¿Puedo usar los videos comercialmente?

¿Cuánto tiempo tarda la generación?

¿Cuál es la diferencia entre "pleno" y "aún" preestablecido?

¿Qué es el potenciador GFPGAN?

¿Por qué mi salida parece de baja resolución?

¿Puedo sincronizar un vídeo con un nuevo audio?

¿Hay una API?

¿Qué pasa si mi foto de cara tiene varias personas en ella?

¿Listo para empezar?