Informar dun erro / Solicitar unha funcionalidade

Xerador de vídeos de sincronización labial de IA

Envíe unha foto da cara e un clip de son — obtén un vídeo da cabeza falando con sincronización labial realista, pose da cabeza e pestanexa. Desenvolvido por SadTalker (MIT). Uso comercial aceptado.

Inscríbete gratis

Non o facemos. Vender a túa voz

Enviar cara + son

1. 000 caracteres por segundo

1. Imaxe do rostro ou vídeo de condución

Arrastre e solte o ficheiro aquí, ou navegar

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Condución de son

Arrastre e solte o ficheiro aquí, ou navegar

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Predefinición de animación

Tamaño da saída

Mellorador de caras

GFPGAN (máis nítido, máis lento)

Acerca de SadTalker

SadTalker (CVPR 2023, Tencent ARC) é un modelo de cabeza falante de código aberto que anima unha soa imaxe facial para falar calquera son. A diferenza das variantes de Wav2Lip, SadTalker tamén anima a postura da cabeza, as pestanas e a expresión para un resultado máis natural.

O código e os pesos están licenciados MIT de principio a fin — sen Llama, Gemma ou backbone non comercial — polo que os vídeos que xere son seguros para uso comercial.

Consellos para obter os mellores resultados

Usar un retrato de alta calidade e ben iluminado - ollos visíbeis, boca pechada
A cara centrada, cadrada ou a proporción 4: 5 funcionan mellor
O son de fala limpo (sen música) produce unha sincronización labial máis precisa
Activar GFPGAN para disparos heroicos - dobra o tempo de representación pero afia os detalles
Empregar a preconfiguración Estática cando se queira unha imaxe do avatar estable

Plans de vídeo de sincronización labial

Comece de balde, actualice cando precise máis

Libre

Límite de son de 30 segundos
Saída de 256 px
Só predefinicións "Still"
Sen realzado de caras

Máis popular

Conta libre

Límite de son de 30 segundos
Predefinicións « completa » e « inmóbil »
Saída de 256 / 512 px
Mellorador de caras GFPGAN

Inscríbete gratis

Pro

Límite de son de 5 minutos
Fila de prioridade da GPU
Acceso á API (envío de varias partes)
Retorna de chamadas de completación de webhook
Uso comercial (licenza MIT)

Actualizar

Preguntas frecuentes

Envíe unha foto dunha cara e un clip de son, e a IA xera un vídeo desa cara falando o son con movementos labiais realistas, postura da cabeza e pestanexos. Está baseado en SadTalker (CVPR 2023), un modelo de cabeza falante con licenza MIT que anima a expresión ademais da forma da boca.

A entrada de cara pode ser unha imaxe JPG ou PNG (ata 10 MB) ou un vídeo de condución MP4/ WebM curto (empregamos o primeiro fotograma). O son de condución pode ser MP3, WAV, M4A ou FLAC ata 10 MB. Remuestramos o son internamente a 16 kHz.

Contas gratuítas: ata 30 segundos por clip. Usuarios de pago: ata 5 minutos por petición. Un son máis longo significa un tempo de representación máis longo e un custo de caracteres máis alto.

O vídeo de sincronización labial emprega 1000 caracteres por segundo de vídeo xerado. Un clip de 30 segundos = 30. 000 caracteres. O custo facturarase por diante do saldo de caracteres e reembolsarase automaticamente se falla a xeración.

Si, o código e os pesos de SadTalker están baixo licenza MIT de principio a fin (sen Llama, Gemma ou backbone non comercial). Os vídeos que xere son seus para uso comercial. É responsable de ter os dereitos da imaxe da cara e do son que envíe.

Aproximadamente 30 segundos para un clip de 5 segundos no noso servidor A100, escalando aproximadamente linearmente coa lonxitude do son. Activar o realzador de caras GFPGAN duplica aproximadamente o tempo de representación pero produce unha saída máis nítida e de maior calidade.

A predefinición completa (predeterminada) anima a postura da cabeza, as pestanas e a expresión xunto cos beizos, producindo un vídeo máis natural da cabeza falando. A predefinición fixa a cabeza no lugar e anima só a boca, útil cando se quere unha imaxe do avatar estable.

GFPGAN é un modelo de restauración de caras que afia os detalles faciais despois da renderización de sincronización labial. Limpa os artefactos e fai que a saída de 256 píxeles pareza máis próxima a 512. Máis ou menos duplica o tempo de renderización, pero paga a pena para as tomas de heroes.

SadTalker renderiza a 256 px por omisión. Mude para un tamaño de 512 px para unha saída máis nítida (máis lento, maior VRAM) ou active o mellorador GFPGAN para aumentar os detalles faciais. Para obter os mellores resultados, envíe unha foto de retrato de alta calidade e ben iluminada.

Si. Envíe un MP4 ou WebM como entrada de cara e usaremos o primeiro fotograma como identidade de condución. Para a dobraxe completa do vídeo (substitución da boca por fotograma), consulte o próximo canal de vídeo de Dubbing Studio.

Si. Envia unha solicitude multiparte a /api/v1/lipsync/ con campos de cara e son, entón consulta /api/v1/lipsync/result/?uuid= ata que o estado sexa «completado». A resposta contén un URL ao MP4 renderizado. O acceso á API require un plan de pago.

SadTalker emprega o aliñamento de caras para detectar e recortar a cara máis prominente. Para obter os mellores resultados, envíe un retrato cunha persoa centrada, ollos visíbeis e oclusión mínima. As fotos de grupo poden producir resultados imprevisibles.

5.0/5 (1)

Listo para comezar?

Inscríbase de balde e obtén 15.000 caracteres. Non se require tarxeta de crédito.

Inscríbete gratis Ver os prezos

Xerador de vídeos de sincronización labial de IA

Enviar cara + son

O seu vídeo Talking- Head

Acerca de SadTalker

Consellos para obter os mellores resultados

Plans de vídeo de sincronización labial

Preguntas frecuentes

Que fai a ferramenta de sincronización labial da IA?

Que formatos de entrada están soportados?

Canto tempo pode durar o son?

Canto custa?

Podo usar os vídeos comercialmente?

Canto tempo tarda a xeración?

Cal é a diferenza entre os valores predefinidos "cheo" e "inmóbil"?

Que é o potenciador GFPGAN?

Por que a miña saída parece de baixa resolución?

Podo sincronizar un vídeo co novo son?

Hai unha API?

E se a miña foto de rostro ten varias persoas?

Listo para comezar?