Informar dun erro / Solicitar unha funcionalidade

Xerador de vídeos de sincronización labial de IA

Envíe unha foto da cara e un clip de son — obtén un vídeo da cabeza falando con sincronización labial realista, pose da cabeza e pestanexa. Desenvolvido por SadTalker (MIT). Uso comercial aceptado.

Non o facemos. Vender a túa voz

Enviar cara + son

1. 000 caracteres por segundo

Arrastre e solte o ficheiro aquí, ou navegar

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

ficheiro.mp3

0 MB

Arrastre e solte o ficheiro aquí, ou navegar

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

ficheiro.mp3

0 MB

A procesar...

A procesar o vídeo. Isto normalmente leva entre 30 segundos e 2 minutos.

O seu vídeo Talking- Head

Obter

Acerca de SadTalker

SadTalker (CVPR 2023, Tencent ARC) é un modelo de cabeza falante de código aberto que anima unha soa imaxe facial para falar calquera son. A diferenza das variantes de Wav2Lip, SadTalker tamén anima a postura da cabeza, as pestanas e a expresión para un resultado máis natural.

O código e os pesos están licenciados MIT de principio a fin — sen Llama, Gemma ou backbone non comercial — polo que os vídeos que xere son seguros para uso comercial.

Consellos para obter os mellores resultados

  • Usar un retrato de alta calidade e ben iluminado - ollos visíbeis, boca pechada
  • A cara centrada, cadrada ou a proporción 4: 5 funcionan mellor
  • O son de fala limpo (sen música) produce unha sincronización labial máis precisa
  • Activar GFPGAN para disparos heroicos - dobra o tempo de representación pero afia os detalles
  • Empregar a preconfiguración Estática cando se queira unha imaxe do avatar estable

Plans de vídeo de sincronización labial

Comece de balde, actualice cando precise máis

Libre
  • Límite de son de 30 segundos
  • Saída de 256 px
  • Só predefinicións "Still"
  • Sen realzado de caras
Máis popular
Conta libre
  • Límite de son de 30 segundos
  • Predefinicións « completa » e « inmóbil »
  • Saída de 256 / 512 px
  • Mellorador de caras GFPGAN
Inscríbete gratis
Pro
  • Límite de son de 5 minutos
  • Fila de prioridade da GPU
  • Acceso á API (envío de varias partes)
  • Retorna de chamadas de completación de webhook
  • Uso comercial (licenza MIT)
Actualizar

Preguntas frecuentes

Envíe unha foto dunha cara e un clip de son, e a IA xera un vídeo desa cara falando o son con movementos labiais realistas, postura da cabeza e pestanexos. Está baseado en SadTalker (CVPR 2023), un modelo de cabeza falante con licenza MIT que anima a expresión ademais da forma da boca.

A entrada de cara pode ser unha imaxe JPG ou PNG (ata 10 MB) ou un vídeo de condución MP4/ WebM curto (empregamos o primeiro fotograma). O son de condución pode ser MP3, WAV, M4A ou FLAC ata 10 MB. Remuestramos o son internamente a 16 kHz.

Contas gratuítas: ata 30 segundos por clip. Usuarios de pago: ata 5 minutos por petición. Un son máis longo significa un tempo de representación máis longo e un custo de caracteres máis alto.

O vídeo de sincronización labial emprega 1000 caracteres por segundo de vídeo xerado. Un clip de 30 segundos = 30. 000 caracteres. O custo facturarase por diante do saldo de caracteres e reembolsarase automaticamente se falla a xeración.

Si, o código e os pesos de SadTalker están baixo licenza MIT de principio a fin (sen Llama, Gemma ou backbone non comercial). Os vídeos que xere son seus para uso comercial. É responsable de ter os dereitos da imaxe da cara e do son que envíe.

Aproximadamente 30 segundos para un clip de 5 segundos no noso servidor A100, escalando aproximadamente linearmente coa lonxitude do son. Activar o realzador de caras GFPGAN duplica aproximadamente o tempo de representación pero produce unha saída máis nítida e de maior calidade.

A predefinición completa (predeterminada) anima a postura da cabeza, as pestanas e a expresión xunto cos beizos, producindo un vídeo máis natural da cabeza falando. A predefinición fixa a cabeza no lugar e anima só a boca, útil cando se quere unha imaxe do avatar estable.

GFPGAN é un modelo de restauración de caras que afia os detalles faciais despois da renderización de sincronización labial. Limpa os artefactos e fai que a saída de 256 píxeles pareza máis próxima a 512. Máis ou menos duplica o tempo de renderización, pero paga a pena para as tomas de heroes.

SadTalker renderiza a 256 px por omisión. Mude para un tamaño de 512 px para unha saída máis nítida (máis lento, maior VRAM) ou active o mellorador GFPGAN para aumentar os detalles faciais. Para obter os mellores resultados, envíe unha foto de retrato de alta calidade e ben iluminada.

Si. Envíe un MP4 ou WebM como entrada de cara e usaremos o primeiro fotograma como identidade de condución. Para a dobraxe completa do vídeo (substitución da boca por fotograma), consulte o próximo canal de vídeo de Dubbing Studio.

Si. Envia unha solicitude multiparte a /api/v1/lipsync/ con campos de cara e son, entón consulta /api/v1/lipsync/result/?uuid= ata que o estado sexa «completado». A resposta contén un URL ao MP4 renderizado. O acceso á API require un plan de pago.

SadTalker emprega o aliñamento de caras para detectar e recortar a cara máis prominente. Para obter os mellores resultados, envíe un retrato cunha persoa centrada, ollos visíbeis e oclusión mínima. As fotos de grupo poden producir resultados imprevisibles.
5.0/5 (1)

Que podemos mellorar? Os seus comentarios axúdannos a corrixir os problemas.

Listo para comezar?

Inscríbase de balde e obtén 15.000 caracteres. Non se require tarxeta de crédito.