Informar de Bug / Pedido de Feature

Gerador de vídeo de sincronização de lipos da AI

Carregue uma foto facial e um clipe de áudio — obtenha um vídeo de cabeça de conversa com sincronização de lábios realista, posição de cabeça e piscamentos. Powered by SadTalker (MIT). Utilização comercial OK.

Carregar face + áudio

1.000 caracteres por segundo

Arraste e largue o seu arquivo aqui, ou navegar

JPG, PNG, or short MP4/WebM. Max 10MB. One clear, well-lit face works best.

file.mp3

0 MB

Arraste e largue o seu arquivo aqui, ou navegar

MP3, WAV, M4A, or FLAC. Max 10MB. Free: up to 30 sec. Pro: up to 5 min.

file.mp3

0 MB

A processar...

Renderização de seu vídeo. Isto geralmente leva 30 segundos a 2 minutos.

O seu vídeo falando-auditório

Baixar MP4

Sobre SadTalker

SadTalker (CVPR 2023, Tencent ARC) é um modelo de palestra de código aberto que anima uma única imagem face para falar qualquer áudio. Ao contrário das variantes Wav2Lip, SadTalker também anima a pose da cabeça, blinks e expressão para um resultado mais natural.

Os códigos e pesos são terminados com licença MIT — sem Llama, Gemma ou espinha dorsal não comercial — por isso os vídeos que você gera são seguros para uso comercial.

Dicas para os melhores resultados

  • Use um retrato de alta qualidade, bem iluminado — olhos visíveis, boca fechada
  • O rosto centrado, quadrado ou 4:5 rácio de aspecto funciona melhor
  • Limpo áudio de fala (sem música) produz uma sincronização de lábios mais apertada
  • Activar o GFPGAN para tiros de herói — duplos render tempo, mas afia detalhe
  • Use o Predefinido ainda quando quiser uma injeção de avatar constante

Lip Sincronização de Planos de Vídeo

Comece livre, atualização quando você precisa mais

Grátis
  • Limite de áudio de 30 segundos
  • Saída de 256 px
  • "Permanecer" apenas predefinido
  • Sem potenciador facial
Mais Popular
Conta Livre
  • Limite de áudio de 30 segundos
  • Ambos os predefinidos "completos" e "ainda"
  • 256 / 512 saída px
  • Melhorador de face GFPGAN
Inscreva-se gratuitamente
Pro
  • Limite de áudio de 5 minutos
  • Fila GPU prioritária
  • Acesso à API (multipart upload)
  • Webhook callbacks de conclusão
  • Utilização comercial (Licença MIT)
Actualização

Perguntas Frequentes

Carregue uma foto facial e um clipe de áudio, e a IA gera um vídeo desse rosto falando o áudio com movimentos realistas de lábios, posição da cabeça e clipes. Construído em SadTalker (CVPR 2023), um modelo de cabeça de conversa licenciada MIT que anima a expressão além da forma da boca.

A entrada facial pode ser uma imagem JPG ou PNG (até 10 MB) ou um curto vídeo de condução MP4/WebM (usamos a primeira moldura). O áudio de condução pode ser MP3, WAV, M4A ou FLAC até 10 MB. Reamostramos áudio a 16 kHz internamente.

Contas gratuitas: até 30 segundos por clipe. Utilizadores pagos: até 5 minutos por pedido. áudio mais longo significa tempo de renderização e custo de caráter maior.

O vídeo da sincronização de lipos usa 1.000 caracteres por segundo do vídeo gerado. Um clipe de 30 segundos = 30.000 caracteres. O custo é facturado em frente a partir do seu balanço de caracteres e reembolsado automaticamente se a geração falhar.

Sim — O código SadTalker e os pesos são o MIT final licenciado para terminar (não Llama, Gemma ou espinha dorsal não comercial). Os vídeos que você gera são seus para usar comercialmente. Você é responsável por ter os direitos para a imagem face fonte e áudio que você upload.

Cerca de 30 segundos por um clipe de 5 segundos no nosso servidor A100, escalando aproximadamente linearmente com comprimento de áudio. Ativando o potenciador de face GFPGAN torna aproximadamente duplos tempo, mas produz saída mais nitida e de alta qualidade.

A predefinição completa (por defeito) anima a posição da cabeça, pisca e expressão junto com os lábios, produzindo um vídeo de cabeça de conversa mais natural. Ainda a predefinição fecha a cabeça no lugar e anima apenas a boca — útil quando você quer um tiro de avatar constante.

GFPGAN é um modelo de restauração facial que afia os detalhes faciais após a renderização do labio-sincronismo. Ele limpa artefatos e faz a saída de 256-píxel olhar mais perto de 512. Ele aproximadamente duplos rende o tempo, mas vale a pena para os tiros de herói.

SadTalker rende a 256 px por padrão. Mudar para 512 px tamanho para saída mais afiada (lento, mais alto VRAM) ou permitir que o potenciador GFPGAN ultrapasse os detalhes faciais. Para os melhores resultados, upload uma foto de retrato de alta qualidade e bem iluminado.

Sim. Carregue um MP4 ou WebM como a entrada do rosto e vamos usar o primeiro quadro como a identidade de condução. Para re-dubbing de vídeo completo (por-frame substituição da boca), consulte o próximo Dubbing Studio vídeo oleoducte.

Sim. POST um pedido multiparte para /api/v1/lipsync/ com campos de rosto e áudio, em seguida poll /api/v1/lipsync/result/?uuid= até que o estado seja "completado". A resposta contém uma URL para o MP4 rended. O acesso API requer um plano pago.

SadTalker usa o alinhamento facial para detectar e cultivar o rosto mais proeminente. Para melhores resultados, upload um retrato com uma pessoa centrada, olhos visíveis e oclusão mínima. Fotos de grupo podem produzir resultados imprevisíveis.
5.0/5 (1)

O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.

Pronto para começar?

Inscreva-se gratuitamente e receba 15.000 caracteres. Não é necessário cartão de crédito.