Informar de fallo / Petición de características

AI Lip Sincronizar generador de vídeo

Cargar una foto facial y un clip de audio — obtener un video de cabeza parlante con sincronización de labios realista, pose de cabeza y parpadeos. Powered by SadTalker (MIT). Uso comercial OK.

Subir cara + audio

1.000 caracteres por segundo

Arrastre y suelte su archivo aquí, o navegar

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Arrastre y suelte su archivo aquí, o navegar

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

Procesando...

Renderizar el vídeo. Esto suele tomar de 30 segundos a 2 minutos.

Tu video de la cabeza de conversación

Descargar MP4

Acerca de SadTalker

SadTalker (CVPR 2023, Tencent ARC) es un modelo de código abierto que anima una imagen de una sola cara para hablar cualquier audio. A diferencia de las variantes de Wav2Lip, SadTalker también anima la pose de la cabeza, los pestañeos y la expresión para obtener un resultado más natural.

Los códigos y pesos son licenciados de extremo a extremo por el MIT —sin Llama, Gemma o columna vertebral no comercial— por lo que los videos que generas son seguros para su uso comercial.

Consejos para obtener mejores resultados

  • Utilice un retrato de alta calidad y bien iluminado: ojos visibles, boca cerrada
  • La relación de aspecto de la cara central, cuadrada o 4:5 funciona mejor
  • El audio de voz limpio (sin música) produce una sincronización labial más estrecha
  • Habilitar GFPGAN para tiros de héroe — duplica el tiempo de ejecución pero agudiza el detalle
  • Utilice el preset Still cuando desee una toma de avatar constante

Labios Sincronizar planes de vídeo

Comience gratis, actualice cuando necesite más

Libre
  • Límite de audio de 30 segundos
  • 256 px de salida
  • Sólo preestablecido "todavía"
  • Sin potenciador facial
Más populares
Cuenta gratuita
  • Límite de audio de 30 segundos
  • Ambos presets "completos" y "aún"
  • 256 / 512 px salida
  • Potenciador facial GFPGAN
Regístrate gratis
Pro
  • Límite de audio de 5 minutos
  • Cola de GPU prioritaria
  • Acceso API (carga multiparte)
  • Callbacks de terminación de Webhook
  • Uso comercial (licencia MIT)
Actualizar

Preguntas frecuentes

Sube una foto facial y un clip de audio, y la IA genera un video de esa cara hablando el audio con movimientos de labios realistas, pose de cabeza y parpadeos. Construido en SadTalker (CVPR 2023), un modelo de cabeza parlante con licencia del MIT que anima la expresión además de la forma de la boca.

La entrada facial puede ser una imagen JPG o PNG (hasta 10 MB) o un vídeo de conducción MP4/WebM corto (utilizamos el primer marco). El audio de conducción puede ser MP3, WAV, M4A o FLAC de hasta 10 MB. Remuestramos audio a 16 kHz internamente.

Cuentas gratuitas: hasta 30 segundos por clip. Pagar a los usuarios: hasta 5 minutos por petición. Audio más largo significa más tiempo de renderizado y mayor costo de carácter.

El video de sincronización de labios utiliza 1.000 caracteres por segundo de vídeo generado. Un clip de 30 segundos = 30.000 caracteres. El costo se factura por adelantado de su saldo de caracteres y se reembolsa automáticamente si la generación falla.

Sí — Los códigos y pesos de SadTalker son licenciados de extremo a extremo (sin Llama, Gemma o columna vertebral no comercial). Los videos que generas son tuyos para usar comercialmente. Eres responsable de tener los derechos sobre la imagen de la fuente y el audio que subes.

Unos 30 segundos para un clip de 5 segundos en nuestro servidor A100, escalando aproximadamente linealmente con la longitud de audio. Habilitando el potenciador facial GFPGAN aproximadamente duplica el tiempo de renderización pero produce una salida más nítida y de mayor calidad.

Completamente preestablecido (predeterminado) anima la postura de la cabeza, parpadea, y la expresión junto con los labios, produciendo un video más natural de cabeza parlante. Todavía preestablecido bloquea la cabeza en su lugar y anima sólo la boca — útil cuando se desea una toma de avatar constante.

GFPGAN es un modelo de restauración facial que aguza los detalles faciales después de la representación de lip-sync. Limpia los artefactos y hace que la salida de 256 píxeles se vea más cerca de 512.

SadTalker se renderiza a 256 px por defecto. Cambie a 512 px para obtener una salida más nítida (leve, alta VRAM) o active el potenciador GFPGAN para aumentar los detalles faciales. Para obtener los mejores resultados, cargue una foto de retrato de alta calidad y bien iluminada.

Sí. Cargue un MP4 o WebM como la entrada de la cara y utilizaremos el primer marco como la identidad de conducción. Para volver a doblar el vídeo completo (reemplazo de boca por marco), vea la próxima tubería de vídeo de Dubbing Studio.

Sí. Enviar una solicitud multiparte a /api/v1/lipsync/ con campos faciales y de audio, luego encuestar /api/v1/lipsync/result/?uuid= hasta que el estado esté "completado". La respuesta contiene una URL al acceso API MP4. Requiere un plan de pago.

SadTalker utiliza la alineación facial para detectar y recortar la cara más prominente. Para obtener mejores resultados, suba un retrato con una persona centrada, ojos visibles y oclusión mínima. Las fotos de grupo pueden producir resultados impredecibles.
5.0/5 (1)

¿Qué podríamos mejorar? Sus comentarios nos ayudan a solucionar problemas.

¿Listo para empezar?

Regístrese gratis y obtenga 15.000 caracteres. No se requiere tarjeta de crédito.