Pintura de audio AI

Reemplazar una sección de audio con un sonido sintetizado por IA que coincida con la voz circundante. Arreglar una mala toma sin volver a grabar todo el asunto.

Subir audio a Inpaint

500 caracteres por segundo de audio reemplazado

Arrastre y suelte su archivo aquí, o navegar

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

file.mp3

0 MB

Audio de origen — borrar para encontrar la mala toma

0.00s / 0.00s

Configuración de la pintura

0 / 500 caracteres
Cuánto tiempo para mezclar los puntos de empalme. 80ms es el valor predeterminado — los cortes de coincidencia se sienten naturales, no son de doble activación audible.
Regístrate gratis para usar pintura de audio
Pintar audio...

Clonando la voz y sintetizando el reemplazo...

Cortar → clonar la voz circundante → empalmar con crossfade
¿Tomando un tiempo? Su resultado aparecerá en su historia de la generación cuando esté listo.
Listo el audio pintado

Antes (Original)

Después (pintado)

Descargar el audio pintado

Cómo funciona la pintura de audio

La pintura es el equivalente de audio del relleno de Photoshop. clonamos la voz del audio que rodea su selección, sintetizamos la nueva línea en esa voz y la empalmamos con un crossfade corto.

Mejores resultados: dejar al menos 3 segundos de voz limpia inmediatamente antes del punto de edición para que el clonador tenga un buen material de referencia.

Consejos para obtener mejores resultados

  • Mantenga el rango marcado lo más apretado posible — sólo la mala toma
  • El texto de reemplazo debe ser aproximadamente la misma longitud que lo que sustituye
  • Establecer el idioma para que coincida con el audio de origen para la mejor coincidencia de voz
  • El crossfade de 80 ms es generalmente invisible; golpe a 150 ms si escuchas un clic
  • Para ediciones largas (>10s), considere la posibilidad de regrabar todo el pasaje en su lugar

Cómo funciona la pintura de audio AI

Ediciones quirúrgicas, con voz igualada, sin sesión de regrabación.

Medida 1

Cargar + Marcar rango

Sube el audio y usa el depurador para marcar el inicio/final de la sección que deseas reemplazar. Escribe el texto de reemplazo.

Medida 2

Clon de voz + Sintetizado

Extraemos hasta 12 segundos de audio de referencia limpio alrededor de su selección, clonamos la voz del altavoz y sintetizamos la nueva línea en esa voz.

Medida 3

Empalme de crossfade

El clip sintetizado se une a la grabación original con un crossfade de igual poder en ambos puntos de edición. Los límites son inaudibles.

Planes de pintura de audio

Comience gratis, actualice cuando necesite más

Libre
  • Archivos fuente de hasta 10 minutos
  • Texto de reemplazo de 500 caracteres
  • Pintura de 4 segundos por solicitud
  • Empalme cruzado de 80 ms
  • OpenVoice + CosyVoice 2 backends
Más populares
Cuenta gratuita
  • Archivos fuente de hasta 10 minutos
  • Texto de reemplazo de 5.000 caracteres
  • Transfado sintonizable (0-250ms)
  • Desactivación del modelo de voz
  • Historia de la generación + reeditar
Regístrate gratis
Pro
  • Archivos fuente de hasta 30 minutos
  • Texto de reemplazo de 100.000 caracteres
  • Cola de GPU prioritaria
  • Acceso API (/v1/audio-inpaint/)
  • Pintura por lotes (intervalos múltiples)
Actualizar

Preguntas frecuentes

La pintura de audio (también llamada relleno de audio o overdub de voz) le permite reemplazar una sección de una grabación de audio existente con un nuevo sonido sintetizado con IA que coincide con la voz original. Es el equivalente de audio del relleno de contenido de Photoshop — pintura sobre la parte que no desea, escriba lo que debería estar allí en su lugar, y la IA genera un reemplazo sin fisuras.

Marque el rango de tiempo para reemplazar, escriba la nueva línea de diálogo y haga clic en Inpaint. Nuestra IA clona la voz del audio que rodea su selección, sintetiza la nueva línea en esa voz y la empalma de nuevo en su grabación con un crossfade corto para que la edición sea inaudible.

Úselo cuando tenga una sola mala palabra, mala pronunciación, desliz de nombre, palabra jurada o error de hecho en una toma de otra manera buena. La re-grabación de todo el pasaje a menudo introduce desajuste tonal con el resto del proyecto — pintar fija sólo lo que necesita arreglar mientras mantiene intactas todas las otras sílabas.

Los usuarios libres pueden pintar archivos de hasta 10 minutos de duración. Los suscriptores pueden pintar archivos de hasta 30 minutos. El texto de reemplazo en sí se limita a 500 caracteres para los usuarios gratuitos, 5.000 para las cuentas gratuitas y 100.000 para los planes de pago.

Muy cerca. La IA utiliza hasta 12 segundos de audio alrededor de la edición como referencia de voz, lo que es suficiente para cualquiera de nuestros modelos con capacidad de clonación (OpenVoice, CosyVoice 2) para capturar el timbre, tono y estilo de habla del altavoz. Para obtener los mejores resultados, deje al menos 3 segundos de voz limpia inmediatamente antes del punto de edición.

Aplicamos un crossfade de 80ms de igual potencia en ambos puntos de empalme (head→replacement and replacement→tail) por defecto. Puede sintonizar esto desde 0ms (corte duro) hasta 250ms a través del control deslizante Crossfade. Las crossfades más largas ocultan la edición más a fondo, pero pueden combinar audiblemente palabras superpuestas en el límite.

La pintura de audio sigue la misma cobertura de idioma que la clonación de voz. Elegimos automáticamente OpenVoice para la mayoría de los idiomas y CosyVoice 2 para chino, japonés y coreano.

Se le cargan 500 caracteres por segundo de audio reemplazado. Una corrección de 4 segundos cuesta 2.000 caracteres. El costo es independiente de cuánto tiempo es el texto de reemplazo, ya que la síntesis de clones subyacente está cerrada por el tiempo de ejecución del nuevo clip, no la longitud del texto.

Según nuestros Términos de servicio, sólo puede pintar audio que posee o tener permiso explícito para editar. Está prohibido generar citas falsas, contenido engañoso o suplantaciones. Generamos audio y registramos todos los trabajos de pintura para revisar el abuso.

Cortar un clip deja un espacio notable en la estimulación y la respiración; dos desfase cruzada toma un desajuste tonal. Pintar llena el espacio con el habla que coincide con la voz circundante, por lo que los oyentes oyen audio continuo, sonando natural.

Sí — Mensaje a /v1/audio-inpaint/ con el archivo de audio, start_sec, end_sec, y replacement_text. El endpoint devuelve un trabajo UUID; encuesta /v1/habla/resultados/?uuid= para recuperar el audio pintado cuando esté listo. Vea documentos API para más detalles.

ElevenLabs Speech-to-Speech regenera toda la línea de voz desde cero en una voz de destino. Nuestra pintura de audio es quirúrgica: edita sólo el rango marcado, mantiene sin tocar cualquier otro byte de su grabación original, y coincide con el nuevo clip de la voz circundante en lugar de una biblioteca de voz separada.
5.0/5 (1)

¿Qué podríamos mejorar? Sus comentarios nos ayudan a solucionar problemas.

Arregla tu audio en segundos

Reemplazar cualquier parte de cualquier grabación con un discurso sintetizado por IA que coincida con la voz original. Inscríbete gratis para empezar.