Informar de fallo / Petición de características

Pintura de audio AI

Reemplazar una sección de audio con un sonido sintetizado por IA que coincida con la voz circundante. Arreglar una mala toma sin volver a grabar todo el asunto.

Regístrate gratis

Subir audio a Inpaint

500 caracteres por segundo de audio reemplazado

Arrastre y suelte su archivo aquí, o navegar

Supports MP3, WAV, FLAC, OGG, M4A. Max 500 MB (2 GB on paid plans). Up to 10 minutes.

Configuración de la pintura

Inicio (segundos)

Fin (segundos)

Texto de sustitución: lo que debe decirse en el vacío 0 / 500 caracteres

Idioma

Crossfade 80 ms Cuánto tiempo para mezclar los puntos de empalme. 80ms es el valor predeterminado — los cortes de coincidencia se sienten naturales, no son de doble activación audible.

Regístrate gratis para usar pintura de audio

Cómo funciona la pintura de audio

La pintura es el equivalente de audio del relleno de Photoshop. clonamos la voz del audio que rodea su selección, sintetizamos la nueva línea en esa voz y la empalmamos con un crossfade corto.

Mejores resultados: dejar al menos 3 segundos de voz limpia inmediatamente antes del punto de edición para que el clonador tenga un buen material de referencia.

Consejos para obtener mejores resultados

Mantenga el rango marcado lo más apretado posible — sólo la mala toma
El texto de reemplazo debe ser aproximadamente la misma longitud que lo que sustituye
Establecer el idioma para que coincida con el audio de origen para la mejor coincidencia de voz
El crossfade de 80 ms es generalmente invisible; golpe a 150 ms si escuchas un clic
Para ediciones largas (>10s), considere la posibilidad de regrabar todo el pasaje en su lugar

Cómo funciona la pintura de audio AI

Ediciones quirúrgicas, con voz igualada, sin sesión de regrabación.

Medida 1

Cargar + Marcar rango

Sube el audio y usa el depurador para marcar el inicio/final de la sección que deseas reemplazar. Escribe el texto de reemplazo.

Medida 2

Clon de voz + Sintetizado

Extraemos hasta 12 segundos de audio de referencia limpio alrededor de su selección, clonamos la voz del altavoz y sintetizamos la nueva línea en esa voz.

Medida 3

Empalme de crossfade

El clip sintetizado se une a la grabación original con un crossfade de igual poder en ambos puntos de edición. Los límites son inaudibles.

Planes de pintura de audio

Comience gratis, actualice cuando necesite más

Libre

Archivos fuente de hasta 10 minutos
Texto de reemplazo de 500 caracteres
Pintura de 4 segundos por solicitud
Empalme cruzado de 80 ms
OpenVoice + CosyVoice 2 backends

Preguntas frecuentes

La pintura de audio (también llamada relleno de audioverdub de voz) le permite reemplazar una sección de una grabación de audio existente con un nuevo sonido sintetizado con IA que coincide con la voz original. Es el equivalente de audio del relleno de contenido de Photoshop — pintura sobre la parte que no desea, escriba lo que debería estar allí en su lugar, y la IA genera un reemplazo sin fisuras.

Marque el rango de tiempo para reemplazar, escriba la nueva línea de diálogo y haga clic en Inpaint. Nuestra IA clona la voz del audio que rodea su selección, sintetiza la nueva línea en esa voz y la empalma de nuevo en su grabación con un crossfade corto para que la edición sea inaudible.

Úselo cuando tenga una sola mala palabra, mala pronunciación, desliz de nombre, palabra jurada o error de hecho en una toma de otra manera buena. La re-grabación de todo el pasaje a menudo introduce desajuste tonal con el resto del proyecto — pintar fija sólo lo que necesita arreglar mientras mantiene intactas todas las otras sílabas.

Los usuarios libres pueden pintar archivos de hasta 10 minutos de duración. Los suscriptores pueden pintar archivos de hasta 30 minutos. El texto de reemplazo en sí se limita a 500 caracteres para los usuarios gratuitos, 5.000 para las cuentas gratuitas y 100.000 para los planes de pago.

Muy cerca. La IA utiliza hasta 12 segundos de audio alrededor de la edición como referencia de voz, lo que es suficiente para cualquiera de nuestros modelos con capacidad de clonación (OpenVoice, CosyVoice 2) para capturar el timbre, tono y estilo de habla del altavoz. Para obtener los mejores resultados, deje al menos 3 segundos de voz limpia inmediatamente antes del punto de edición.

Aplicamos un crossfade de 80ms de igual potencia en ambos puntos de empalme (head→replacement and replacement→tail) por defecto. Puede sintonizar esto desde 0ms (corte duro) hasta 250ms a través del control deslizante Crossfade. Las crossfades más largas ocultan la edición más a fondo, pero pueden combinar audiblemente palabras superpuestas en el límite.

La pintura de audio sigue la misma cobertura de idioma que la clonación de voz. Elegimos automáticamente OpenVoice para la mayoría de los idiomas y CosyVoice 2 para chino, japonés y coreano.

Se le cargan 500 caracteres por segundo de audio reemplazado. Una corrección de 4 segundos cuesta 2.000 caracteres. El costo es independiente de cuánto tiempo es el texto de reemplazo, ya que la síntesis de clones subyacente está cerrada por el tiempo de ejecución del nuevo clip, no la longitud del texto.

Según nuestros Términos de servicio, sólo puede pintar audio que posee o tener permiso explícito para editar. Está prohibido generar citas falsas, contenido engañoso o suplantaciones. Generamos audio y registramos todos los trabajos de pintura para revisar el abuso.

Cortar un clip deja un espacio notable en la estimulación y la respiración; dos desfase cruzada toma un desajuste tonal. Pintar llena el espacio con el habla que coincide con la voz circundante, por lo que los oyentes oyen audio continuo, sonando natural.

Sí — Mensaje a /v1/audio-inpaint/ con el archivo de audio, start_sec, end_sec, y replacement_text. El endpoint devuelve un trabajo UUID; encuesta /v1/habla/resultados/?uuid= para recuperar el audio pintado cuando esté listo. Vea documentos API para más detalles.

ElevenLabs Speech-to-Speech regenera toda la línea de voz desde cero en una voz de destino. Nuestra pintura de audio es quirúrgica: edita sólo el rango marcado, mantiene sin tocar cualquier otro byte de su grabación original, y coincide con el nuevo clip de la voz circundante en lugar de una biblioteca de voz separada.

5.0/5 (1)

Arregla tu audio en segundos

Reemplazar cualquier parte de cualquier grabación con un discurso sintetizado por IA que coincida con la voz original. Inscríbete gratis para empezar.

Regístrate gratis Ver precios

Pintura de audio AI

Subir audio a Inpaint

Audio de origen — borrar para encontrar la mala toma

Configuración de la pintura

Antes (Original)

Después (pintado)

Cómo funciona la pintura de audio

Consejos para obtener mejores resultados

Cómo funciona la pintura de audio AI

Cargar + Marcar rango

Clon de voz + Sintetizado

Empalme de crossfade

Planes de pintura de audio

Preguntas frecuentes

Arregla tu audio en segundos

Pintura de audio AI

Subir audio a Inpaint

Audio de origen — borrar para encontrar la mala toma

Configuración de la pintura

Antes (Original)

Después (pintado)

Cómo funciona la pintura de audio

Consejos para obtener mejores resultados

Cómo funciona la pintura de audio AI

Cargar + Marcar rango

Clon de voz + Sintetizado

Empalme de crossfade

Planes de pintura de audio

Preguntas frecuentes

¿Qué es la pintura de audio?

¿Cómo funciona?

¿Cuándo debo usar la pintura de audio en lugar de la regrabación?

¿Cuánto tiempo puede ser el audio fuente?

¿El discurso pintado sonará exactamente como el orador original?

¿Qué sucede en los límites de edición?

¿Qué idiomas son compatibles?

¿Cuánto cuesta la pintura de audio?

¿Puedo usar esto para poner palabras en la boca de alguien que nunca dijeron?

¿Por qué usar pintura en lugar de simplemente borrar la sección mala?

¿Está disponible la API de pintura de audio?

¿Cómo se compara esto con ElevenLabs Speech-to-Speech?

Arregla tu audio en segundos