Informar de Bug / Pedido de Feature

Gerador de vídeo de sincronização de lipos da AI

Carregue uma foto facial e um clipe de áudio — obtenha um vídeo de cabeça de conversa com sincronização de lábios realista, posição de cabeça e piscamentos. Powered by SadTalker (MIT). Utilização comercial OK.

Inscreva-se gratuitamente

Carregar face + áudio

1.000 caracteres por segundo

1. Imagem de rosto ou vídeo de condução

Arraste e largue o seu arquivo aqui, ou navegar

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

2. Condução de áudio

Arraste e largue o seu arquivo aqui, ou navegar

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

Predefinição de Animação

Tamanho de saída

Enhancedor de faces

GFPGAN (afiado, mais lento)

Sobre SadTalker

SadTalker (CVPR 2023, Tencent ARC) é um modelo de palestra de código aberto que anima uma única imagem face para falar qualquer áudio. Ao contrário das variantes Wav2Lip, SadTalker também anima a pose da cabeça, blinks e expressão para um resultado mais natural.

Os códigos e pesos são terminados com licença MIT — sem Llama, Gemma ou espinha dorsal não comercial — por isso os vídeos que você gera são seguros para uso comercial.

Dicas para os melhores resultados

Use um retrato de alta qualidade, bem iluminado — olhos visíveis, boca fechada
O rosto centrado, quadrado ou 4:5 rácio de aspecto funciona melhor
Limpo áudio de fala (sem música) produz uma sincronização de lábios mais apertada
Activar o GFPGAN para tiros de herói — duplos render tempo, mas afia detalhe
Use o Predefinido ainda quando quiser uma injeção de avatar constante

Lip Sincronização de Planos de Vídeo

Comece livre, atualização quando você precisa mais

Grátis

Limite de áudio de 30 segundos
Saída de 256 px
"Permanecer" apenas predefinido
Sem potenciador facial

Mais Popular

Conta Livre

Limite de áudio de 30 segundos
Ambos os predefinidos "completos" e "ainda"
256 / 512 saída px
Melhorador de face GFPGAN

Inscreva-se gratuitamente

Pro

Limite de áudio de 5 minutos
Fila GPU prioritária
Acesso à API (multipart upload)
Webhook callbacks de conclusão
Utilização comercial (Licença MIT)

Actualização

Perguntas Frequentes

Carregue uma foto facial e um clipe de áudio, e a IA gera um vídeo desse rosto falando o áudio com movimentos realistas de lábios, posição da cabeça e clipes. Construído em SadTalker (CVPR 2023), um modelo de cabeça de conversa licenciada MIT que anima a expressão além da forma da boca.

A entrada facial pode ser uma imagem JPG ou PNG (até 10 MB) ou um curto vídeo de condução MP4/WebM (usamos a primeira moldura). O áudio de condução pode ser MP3, WAV, M4A ou FLAC até 10 MB. Reamostramos áudio a 16 kHz internamente.

Contas gratuitas: até 30 segundos por clipe. Utilizadores pagos: até 5 minutos por pedido. áudio mais longo significa tempo de renderização e custo de caráter maior.

O vídeo da sincronização de lipos usa 1.000 caracteres por segundo do vídeo gerado. Um clipe de 30 segundos = 30.000 caracteres. O custo é facturado em frente a partir do seu balanço de caracteres e reembolsado automaticamente se a geração falhar.

Sim — O código SadTalker e os pesos são o MIT final licenciado para terminar (não Llama, Gemma ou espinha dorsal não comercial). Os vídeos que você gera são seus para usar comercialmente. Você é responsável por ter os direitos para a imagem face fonte e áudio que você upload.

Cerca de 30 segundos por um clipe de 5 segundos no nosso servidor A100, escalando aproximadamente linearmente com comprimento de áudio. Ativando o potenciador de face GFPGAN torna aproximadamente duplos tempo, mas produz saída mais nitida e de alta qualidade.

A predefinição completa (por defeito) anima a posição da cabeça, pisca e expressão junto com os lábios, produzindo um vídeo de cabeça de conversa mais natural. Ainda a predefinição fecha a cabeça no lugar e anima apenas a boca — útil quando você quer um tiro de avatar constante.

GFPGAN é um modelo de restauração facial que afia os detalhes faciais após a renderização do labio-sincronismo. Ele limpa artefatos e faz a saída de 256-píxel olhar mais perto de 512. Ele aproximadamente duplos rende o tempo, mas vale a pena para os tiros de herói.

SadTalker rende a 256 px por padrão. Mudar para 512 px tamanho para saída mais afiada (lento, mais alto VRAM) ou permitir que o potenciador GFPGAN ultrapasse os detalhes faciais. Para os melhores resultados, upload uma foto de retrato de alta qualidade e bem iluminado.

Sim. Carregue um MP4 ou WebM como a entrada do rosto e vamos usar o primeiro quadro como a identidade de condução. Para re-dubbing de vídeo completo (por-frame substituição da boca), consulte o próximo Dubbing Studio vídeo oleoducte.

Sim. POST um pedido multiparte para /api/v1/lipsync/ com campos de rosto e áudio, em seguida poll /api/v1/lipsync/result/?uuid= até que o estado seja "completado". A resposta contém uma URL para o MP4 rended. O acesso API requer um plano pago.

SadTalker usa o alinhamento facial para detectar e cultivar o rosto mais proeminente. Para melhores resultados, upload um retrato com uma pessoa centrada, olhos visíveis e oclusão mínima. Fotos de grupo podem produzir resultados imprevisíveis.

5.0/5 (1)

Pronto para começar?

Inscreva-se gratuitamente e receba 15.000 caracteres. Não é necessário cartão de crédito.

Inscreva-se gratuitamente Ver Preços

Gerador de vídeo de sincronização de lipos da AI

Carregar face + áudio

O seu vídeo falando-auditório

Sobre SadTalker

Dicas para os melhores resultados

Lip Sincronização de Planos de Vídeo

Perguntas Frequentes

O que faz a ferramenta de sincronização de lábios da IA?

Que formatos de entrada são suportados?

Quanto tempo pode durar o áudio?

Quanto custa?

Posso usar os vídeos comercialmente?

Quanto tempo demora a geração?

Qual é a diferença entre a predefinição "completa" e "ainda"?

O que é o potenciador do GFPGAN?

Por que a minha saída parece baixa resolução?

Posso sincronizar um vídeo para um novo áudio?

Existe uma API?

E se a minha foto rosto tiver várias pessoas nela?

Pronto para começar?