Informar de Bug / Pedido de Feature

Pintura de áudio da IA

Substitua uma seção de áudio com fala sintetizada por IA que corresponda à voz circundante. Corrija uma má tomada sem re-gravar a coisa toda.

Inscreva-se gratuitamente

Carregar áudio para Inpaint

500 caracteres por segundo de áudio substituídos

Arraste e largue o seu arquivo aqui, ou navegar

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

Configurações de Pintura

Iniciar (segundos)

Fim (segundos)

Texto de substituição — o que deve ser dito na lacuna 0 / 500 caracteres

Língua

Deformação cruzada 80 ms Quanto tempo para misturar os pontos de splice. 80ms é o padrão — match-cuts se sentir natural, sem audibilidade duplo-trigger.

Inscreva-se gratuitamente para usar áudio inpainting

Como funciona a pintura de áudio

A pintura é o equivalente áudio do preenchimento de conteúdo-consciente da Photoshop. clonamos a voz do áudio que envolve a sua seleção, sintetizamos a nova linha nessa voz e alastramos de volta com uma curta ruptura.

Melhores resultados: deixe pelo menos 3 segundos de discurso limpo imediatamente antes do ponto de edição para que o clonador tenha bom material de referência.

Dicas para os melhores resultados

Manter o intervalo marcado o mais apertado possível — apenas a má tomada
O texto de substituição deve ser aproximadamente o mesmo comprimento que o que substitui
Definir a linguagem para corresponder ao áudio de origem para a melhor correspondência de voz
80ms crossfade é geralmente invisível; buck a 150ms se você ouvir um clique
Para editações longas (>10s), considere re-gravar a passagem inteira em vez disso

Como funciona a pintura de áudio da IA

Edições cirúrgicas, combinadas com voz, sem sessão de re-gravação.

Passo 1

Subir + Rango de Marcas

Envie o seu áudio e use o scrubber para marcar o início/fim da seção que deseja substituir. Digite o texto de substituição.

Passo 2

Clone de voz + Sintetização

Extraímos até 12 segundos de áudio de referência limpo em torno da sua seleção, clonamos a voz do alto-falante e sintetizamos a nova linha nessa voz.

Passo 3

Espuma cruzada

O clipe sintetizado é disperso na gravação original com um cruzamento de igual potência em ambos os pontos de edição. Os limites são inauditíveis.

Planos de pintura de áudio

Comece livre, atualização quando você precisa mais

Grátis

Arquivos de fonte até 10 minutos
Texto de substituição de 500 caracteres
Pintura de 4 segundos por pedido
80ms de espessura cruzada
Motores OpenVoice + CosyVoice 2

Mais Popular

Conta Livre

Arquivos de fonte até 10 minutos
Texto de substituição de 5000 caracteres
Fadas cruzadas tuníveis (0-250ms)
Override do modelo de voz
Histórico de geração + re-edição

Inscreva-se gratuitamente

Pro

Arquivos de fontes até 30 minutos
Texto de substituição de 100.000 caracteres
Fila GPU prioritária
Acesso à API (/v1/audio-inpaint/)
Pintura em lote (plaços múltiplos)

Actualização

Perguntas Frequentes

Retrato de áudio (também chamado preenchimento de áudio ou fala overdub) permite substituir uma seção de uma gravação de áudio existente por uma nova voz sintetizada pela IA que corresponde à voz original. É o equivalente de áudio do preenchimento de conteúdo da Photoshop - pintar sobre a parte que você não quer, digite o que deve estar lá em vez, e a IA gera uma substituição sem costura.

Marque o intervalo de tempo para substituir, digite a nova linha de diálogo, e clique em Inpaint. Nossa IA clona a voz do áudio que envolve sua seleção, sintetiza a nova linha nessa voz, e a afunda de volta em sua gravação com um pequeno crossfade para que a edição seja inaudível.

Use-o quando você tem uma única palavra má, pronúncia errada, deslizamento de nome, palavra jurar ou erro de fato em uma tomada de outra forma-boa. Re-gravar toda a passagem muitas vezes introduz desajuste tonal com o resto do projeto — a pintura corrige apenas o que precisa fixar, mantendo toda a outra sílaba intacta.

Os usuários livres podem pintar arquivos de até 10 minutos. Os subscritores podem pintar arquivos de até 30 minutos. O texto de substituição em si está reduzido a 500 caracteres para usuários livres, 5.000 para contas gratuitas e 100.000 para planos pagos.

Muito perto. A IA usa até 12 segundos de áudio envolvendo a edição como referência de voz, o que é suficiente para qualquer um dos nossos modelos de clonagem-capáveis (OpenVoice, CosyVoice 2) para capturar o timbre, o lançamento e o estilo de fala do alto-falante. Para os melhores resultados, deixe pelo menos 3 segundos de fala limpa imediatamente antes do ponto de edição.

Nós aplicamos um cruzamento de 80ms de igual potência em ambos os pontos splices (head→replacement e substituição→tail) por padrão. Você pode sintonizar isso de 0ms (cortar duro) até 250ms através do cursor Crossfade. Os cruzados mais longos escondem a edição mais minuciosamente, mas podem misturar audivelmente palavras sobreposição na fronteira.

A pintura de áudio segue a mesma cobertura linguística que a clonagem de voz. Nós escolhemos automaticamente OpenVoice para a maioria das línguas e CosyVoice 2 para chinês, japonês e coreano. Você pode substituir o modelo em configurações avançadas.

Você é cobrado 500 caracteres por segundo de áudio substituído. Uma correção de 4 segundos custa 2.000 caracteres. O custo é independente de quanto tempo o texto de substituição é, uma vez que a síntese clone subjacente é fechada pelo tempo de execução do novo clipe, não pelo comprimento do texto.

Por nossos Termos de Serviço, você só pode pintar áudio que você possui ou tem permissão explícita para editar. Gerar citações falsas, conteúdo enganoso ou imitações é proibido. Nós marca de água gerado áudio e login todos os trabalhos de pintura para revisão de abuso.

Cortar um clipe deixa um lacuna notável em andar e respirar; cross-fading dois toma um desajuste tonal. Pintura enche o lacuna com fala que corresponde à voz circundante, para que os ouvintes ouçam áudio contínuo e natural-sonante.

Yes — POST to /v1/audio-inpaint/ with the audio file, start_sec, end_sec, and replacement_text. The endpoint returns a job UUID; poll /v1/speech/results/?uuid= to retrieve the inpainted audio when ready. See API docs for details.

OnzeLabs Fonoaudiologia regenera toda a linha de voz desde o zero em uma voz alvo. Nossa pintura de áudio é cirúrgica: edita apenas a faixa marcada, mantém todos os outros bytes da sua gravação original intocada, e corresponde ao novo clipe para a voz circundante em vez de uma biblioteca de voz separada.

5.0/5 (1)

Corrigir seu áudio em segundos

Substitua qualquer parte de qualquer gravação com voz sintetizada IA que coincida com a voz original. Inscreva-se livre para começar.

Inscreva-se gratuitamente Ver Preços

Pintura de áudio da IA

Carregar áudio para Inpaint

áudio de origem — esfregar para encontrar a má tomada

Configurações de Pintura

Antes (Original)

Depois (Inpetrado)

Como funciona a pintura de áudio

Dicas para os melhores resultados

Como funciona a pintura de áudio da IA

Subir + Rango de Marcas

Clone de voz + Sintetização

Espuma cruzada

Planos de pintura de áudio

Perguntas Frequentes

Corrigir seu áudio em segundos

Pintura de áudio da IA

Carregar áudio para Inpaint

áudio de origem — esfregar para encontrar a má tomada

Configurações de Pintura

Antes (Original)

Depois (Inpetrado)

Como funciona a pintura de áudio

Dicas para os melhores resultados

Como funciona a pintura de áudio da IA

Subir + Rango de Marcas

Clone de voz + Sintetização

Espuma cruzada

Planos de pintura de áudio

Perguntas Frequentes

O que é a pintura de áudio?

Como é que funciona?

Quando devo usar a pintura de áudio em vez de re-gravar?

Quanto tempo pode durar a fonte de áudio?

O discurso pintado soará exatamente como o falante original?

O que acontece nos limites de edição?

Que línguas são apoiadas?

Quanto custa a repintação de áudio?

Posso usar isto para pôr palavras na boca de alguém que nunca disseram?

Por que usar a pintura em vez de apenas apagar a seção má?

A API de retrato de áudio está disponível?

Como isso se compara com o Fonoaudiologia de Onze Labs?

Corrigir seu áudio em segundos