Pintura de áudio da IA

Substitua uma seção de áudio com fala sintetizada por IA que corresponda à voz circundante. Corrija uma má tomada sem re-gravar a coisa toda.

Carregar áudio para Inpaint

500 caracteres por segundo de áudio substituídos

Arraste e largue o seu arquivo aqui, ou navegar

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

file.mp3

0 MB

áudio de origem — esfregar para encontrar a má tomada

0.00s / 0.00s

Configurações de Pintura

0 / 500 caracteres
Quanto tempo para misturar os pontos de splice. 80ms é o padrão — match-cuts se sentir natural, sem audibilidade duplo-trigger.
Inscreva-se gratuitamente para usar áudio inpainting
Repintando áudio...

A clonar a voz e a sintetizar a substituição...

Divisão → clonagem de voz → splicing com crossfade
Seu resultado aparecerá em seu história da geração quando pronto.
Está pronto áudio pintado

Antes (Original)

Depois (Inpetrado)

Baixe áudio pintado

Como funciona a pintura de áudio

A pintura é o equivalente áudio do preenchimento de conteúdo-consciente da Photoshop. clonamos a voz do áudio que circunda a sua seleção, sintetizamos a nova linha nessa voz, e alastramo-la de volta com um corte crosssfade.

Melhores resultados: deixe pelo menos 3 segundos de discurso limpo imediatamente antes do ponto de edição para que o clonador tenha bom material de referência.

Dicas para os melhores resultados

  • Manter o intervalo marcado o mais apertado possível — apenas a má tomada
  • O texto de substituição deve ser aproximadamente o mesmo comprimento que o que substitui
  • Definir a linguagem para corresponder ao áudio de origem para a melhor correspondência de voz
  • 80ms crossfade é geralmente invisível; buck a 150ms se você ouvir um clique
  • Para editações longas (>10s), considere re-gravar a passagem inteira em vez disso

Como funciona a pintura de áudio da IA

Edições cirúrgicas, combinadas com voz, sem sessão de re-gravação.

Passo 1

Subir + Rango de Marcas

Envie o seu áudio e use o scrubber para marcar o início/fim da seção que deseja substituir. Digite o texto de substituição.

Passo 2

Clone de voz + Sintetização

Extraímos até 12 segundos de áudio de referência limpo em torno da sua seleção, clonamos a voz do alto-falante e sintetizamos a nova linha nessa voz.

Passo 3

Espuma cruzada

O clipe sintetizado é disperso na gravação original com um cruzamento de igual potência em ambos os pontos de edição. Os limites são inauditíveis.

Planos de pintura de áudio

Comece livre, atualização quando você precisa mais

Grátis
  • Arquivos de fonte até 10 minutos
  • Texto de substituição de 500 caracteres
  • Pintura de 4 segundos por pedido
  • 80ms de espessura cruzada
  • Motores OpenVoice + CosyVoice 2
Mais Popular
Conta Livre
  • Arquivos de fonte até 10 minutos
  • Texto de substituição de 5000 caracteres
  • Fadas cruzadas tuníveis (0-250ms)
  • Override do modelo de voz
  • Histórico de geração + re-edição
Inscreva-se gratuitamente
Pro
  • Arquivos de fontes até 30 minutos
  • Texto de substituição de 100.000 caracteres
  • Fila GPU prioritária
  • Acesso à API (/v1/audio-inpaint/)
  • Pintura em lote (plaços múltiplos)
Actualização

Perguntas Frequentes

Retrato de áudio (também chamado preenchimento de áudio ou fala overdub) permite substituir uma seção de uma gravação de áudio existente por uma nova voz sintetizada pela IA que corresponde à voz original. É o equivalente de áudio do preenchimento de conteúdo da Photoshop - pintar sobre a parte que você não quer, digite o que deve estar lá em vez, e a IA gera uma substituição sem costura.

Marque o intervalo de tempo para substituir, digite a nova linha de diálogo, e clique em Inpaint. Nossa IA clona a voz do áudio que envolve sua seleção, sintetiza a nova linha nessa voz, e a afunda de volta em sua gravação com um pequeno crossfade para que a edição seja inaudível.

Use-o quando você tem uma única palavra má, pronúncia errada, deslizamento de nome, palavra jurar ou erro de fato em uma tomada de outra forma-boa. Re-gravar toda a passagem muitas vezes introduz desajuste tonal com o resto do projeto — a pintura corrige apenas o que precisa fixar, mantendo toda a outra sílaba intacta.

Os usuários livres podem pintar arquivos de até 10 minutos. Os subscritores podem pintar arquivos de até 30 minutos. O texto de substituição em si está reduzido a 500 caracteres para usuários livres, 5.000 para contas gratuitas e 100.000 para planos pagos.

Muito perto. A IA usa até 12 segundos de áudio envolvendo a edição como referência de voz, o que é suficiente para qualquer um dos nossos modelos de clonagem-capáveis (OpenVoice, CosyVoice 2) para capturar o timbre, o lançamento e o estilo de fala do alto-falante. Para os melhores resultados, deixe pelo menos 3 segundos de fala limpa imediatamente antes do ponto de edição.

Nós aplicamos um cruzamento de 80ms de igual potência em ambos os pontos splices (head→replacement e substituição→tail) por padrão. Você pode sintonizar isso de 0ms (cortar duro) até 250ms através do cursor Crossfade. Os cruzados mais longos escondem a edição mais minuciosamente, mas podem misturar audivelmente palavras sobreposição na fronteira.

A pintura de áudio segue a mesma cobertura linguística que a clonagem de voz. Nós escolhemos automaticamente OpenVoice para a maioria das línguas e CosyVoice 2 para chinês, japonês e coreano. Você pode substituir o modelo em configurações avançadas.

Você é cobrado 500 caracteres por segundo de áudio substituído. Uma correção de 4 segundos custa 2.000 caracteres. O custo é independente de quanto tempo o texto de substituição é, uma vez que a síntese clone subjacente é fechada pelo tempo de execução do novo clipe, não pelo comprimento do texto.

Por nossos Termos de Serviço, você só pode pintar áudio que você possui ou tem permissão explícita para editar. Gerar citações falsas, conteúdo enganoso ou imitações é proibido. Nós marca de água gerado áudio e login todos os trabalhos de pintura para revisão de abuso.

Cortar um clipe deixa um lacuna notável em andar e respirar; cross-fading dois toma um desajuste tonal. Pintura enche o lacuna com fala que corresponde à voz circundante, para que os ouvintes ouçam áudio contínuo e natural-sonante.

Sim — POST to /v1/audio-inpaint/ com o arquivo de áudio, start_sec, end_sec e substitut_text. O endpoint devolve um trabalho UUID; sondagem /v1/speech/results/?uuuid= para recuperar o áudio inpaintado quando pronto. Consulte os documentos da API para mais detalhes.

OnzeLabs Fonoaudiologia regenera toda a linha de voz desde o zero em uma voz alvo. Nossa pintura de áudio é cirúrgica: edita apenas a faixa marcada, mantém todos os outros bytes da sua gravação original intocada, e corresponde ao novo clipe para a voz circundante em vez de uma biblioteca de voz separada.
5.0/5 (1)

O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.

Corrigir seu áudio em segundos

Substitua qualquer parte de qualquer gravação com voz sintetizada IA que coincida com a voz original. Inscreva-se livre para começar.