Report Bug / Feature Request

Clonación de voz en tiempo real: clonar cualquier voz en segundos

Clonar cualquier voz con solo 5 segundos de audio de referencia. 9 modelos de clonación de voz de código abierto, incluyendo Chatterbox, CosyVoice 2, GPT-SoVITS y OpenVoice. Clonación de fotos cero sin necesidad de entrenamiento: suba una muestra y genere voz al instante. Todos los modelos tienen licencia comercial.

En tiempo real 5-Segundas muestras 9 modelos de clonación Código abierto 17+ Idiomas Control de emociones

Características de Clonación de Voz en Tiempo Real

Voces clonadas al instante con IA de última generación — sin entrenamiento, sin conjuntos de datos, sin espera

Clonación cero-caliente

Sin entrenamiento, sin ajuste, sin recopilación de datos. Sube 5 segundos de audio y obtén una voz clonada inmediatamente. La IA extrae las características del altavoz en tiempo real.

9 modelos de clonación

Elija entre Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS y Tortuga. Cada modelo tiene diferentes fortalezas para la calidad, la velocidad y el lenguaje.

Clonación cruzada lingüística

Clonar una voz en inglés y generar un discurso en chino, japonés, coreano y más. CosyVoice 2 y Qwen3-TTS preservar la identidad de voz en más de 17 idiomas.

Control de emociones

Chatterbox, OpenVoice y GLM-TTS apoyan la generación condicionada por emociones. Genere el mismo texto con diferentes emociones — felices, tristes, enojadas, susurrando — mientras mantiene la voz clonada.

Open Source & Commercial

Cada modelo de clonación es de código abierto bajo licencias MIT o Apache 2.0. Utilice voces clonadas comercialmente para contenido, productos y aplicaciones sin regalías.

API de clonación

API REST para clonación de voz programática. Cargue audio de referencia, especifique texto y reciba voz clonada. SDKs para Python y JavaScript. Clonación por lotes para flujos de trabajo de alto volumen.

Modelos de clonación de voz

9 modelos de código abierto para cada caso de uso de clonación

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Clonación de voz

Lo mejor para: Mejor calidad general — muestras de 5 segundos, control de emociones, licencia MIT

Intente Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonación de voz

Lo mejor para: La mejor clonación multilingüe: preserva la voz en chino, inglés, japonés, coreano

Intente CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Clonación de voz

Lo mejor para: Conversión de color de tono rápido con emoción y transferencia de estilo

Intente OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 Clonación de voz

Lo mejor para: Modelo de clonación más rápido - resultados en ~12 segundos

Intente Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 Clonación de voz

Lo mejor para: Excelente clonación chino-inglés con alta similitud de altavoz

Intente IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Clonación de voz

Lo mejor para: Resultados de calidad de estudio: lo mejor para audiolibros y narración premium

Intente Tortoise TTS

Cómo funciona la clonación de voz en tiempo real

De una breve muestra de audio a un discurso clonado ilimitado

1

Audio de referencia de envío

Grabe o cargue 5-30 segundos de voz clara desde la voz que desee clonar. WAV, MP3, o grabe directamente en su navegador.

2

Elija un modelo de clonación

Elige el modelo que se ajuste a tus necesidades: Chatterbox para la calidad, Spark para la velocidad, CosyVoice 2 para el multilingüe.

3

Introduzca su texto

Escriba o pegue el texto que desee que se hable en la voz clonada. Cualquier idioma soportado por el modelo funciona.

4

Generar y descargar

Haga clic en generar y escuchar su voz clonada en 10-25 segundos. Descargue como WAV o MP3 para su uso inmediato.

Cómo funciona la Clonación de Voz Cero-Shot

Sin ajuste fino, sin recopilación de datos — sólo cargar y clonar

Extracción de empotrado de altavoz

La IA analiza su audio de referencia para extraer un altavoz incrustado — una representación matemática compacta de las características únicas de la voz, incluyendo tono, timbre, ritmo de habla y textura vocal. Esto sucede en menos de 1 segundo.

  • Funciona con tan sólo 5 segundos de audio
  • Captura el tono, el timbre y el estilo de hablar
  • No se requiere entrenamiento ni ajuste.
  • El audio nunca se almacena permanentemente

Síntesis condicional del discurso

El modelo TTS genera un nuevo discurso condicionado a la inserción del altavoz.El resultado suena como el altavoz de referencia que dice su texto, con prosodia natural, énfasis apropiado, y el carácter de la voz original preservado en cualquier idioma o contenido.

  • Generar un discurso ilimitado a partir de una sola muestra
  • Clonación multilingüe (habla en idiomas que la referencia no hizo)
  • Emoción y transferencia de estilo
  • Resultados en 10-25 segundos

Comparación de modelos de clonación de voz

Elija el modelo adecuado para su caso de uso de clonación

Modelo Mínimo de referencia Velocidad Calidad Idiomas Emoción Licencia
Chatterbox 5s ~21s Mejor EN MIT
CosyVoice 2 5s ~20s Excelente CN, EN, JP, KO+ Apache 2.0
GPT-SoVITS 5s ~16s Excelente CN, EN, JP, KO MIT
OpenVoice 5s ~15s Bien. EN, CN, ES, FR+ MIT
Spark TTS 5s ~12s Bien. CN, EN Apache 2.0
IndexTTS-2 5s ~18s Excelente CN, EN Apache 2.0
GLM-TTS 5s ~25s Excelente CN, EN Apache 2.0
Qwen3-TTS 5s ~16s Excelente CN, EN, JP, KO+ Apache 2.0
Tortoise 15s ~60s Estudio EN Apache 2.0

Para lo que la gente usa la clonación de voz en tiempo real

Desde la creación de contenido hasta la accesibilidad — la clonación de voz tiene aplicaciones infinitas

Narración de audiolibros

Los autores clonan su propia voz y generan audiolibros enteros sin pasar horas en una cabina de grabación. Edite errores al regenerar frases individuales en lugar de regrabar.

Doblaje de vídeo

Dub videos en otros idiomas mientras mantiene la voz del orador original. Modelos cross-linguales como CosyVoice 2 y Qwen3-TTS preservan la identidad de voz en chino, inglés, japonés y coreano.

Creación de contenido

YouTubers, podcasters y creadores de TikTok clonan su voz para una marca consistente. Generan voz en offs para nuevos contenidos sin grabar, o crean versiones en lenguaje alternativo de videos existentes.

Accesibilidad

Las personas que han perdido su voz debido a una enfermedad o una cirugía pueden preservarla mediante la clonación de grabaciones antiguas.La voz clonada les permite comunicarse en su propia voz a través de texto a voz.

Desarrollo de juegos

Clonar a los actores de voz y generar variaciones de diálogo ilimitadas sin programar el tiempo del estudio. Perfecto para juegos indie, mods y prototipos donde no es posible regrabar cada línea.

Sistemas telefónicos y IVR

Clone la voz de su portavoz de la compañía para los menús telefónicos y las respuestas automatizadas.Actualice las preguntas de IVR al instante sin reservar un actor de voz, simplemente escriba texto nuevo y genere.

TTS.ai vs otras soluciones de clonación de voz

Por qué 9 modelos supera a un único proyecto de código abierto

Característica TTS.ai SV2TTS ElevenLabs Resemble AI
Modelos de clonación 9 1 1 1
Min. Audio de referencia 5 sec 5 sec 30 sec 3 min
Capacitación requerida No No No
Calidad de audio (2025) Grado en estudios Fechado Excelente Excelente
Control de emociones
Clonación cruzada lingüística
Código abierto
Se requiere GPU Nube Nube Nube
Acceso API
Nivel libre 15.000 caracteres Self-host Limitado

API de clonación de voz

Clonar voces programáticamente con nuestra API REST

Python — Clonación de voz REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL — Clonación de voz REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

Consejos para obtener los mejores resultados de clonación de voz

Obtenga el clon de voz más preciso con estas pautas de grabación

Entorno tranquilo

Grabar en una habitación tranquila con mínimo ruido de fondo. La IA extrae la voz con más precisión de audio limpio.

10 a 30 segundos

Mientras que 5 segundos funciona, 10-30 segundos da resultados significativamente mejores. Cuanto más natural habla la IA oye, más preciso es el clon.

Discurso natural

Habla naturalmente, no en un monótono. Incluye variada entonación y estimulación. La IA captura tu estilo de hablar natural, incluyendo pausas y énfasis.

Altavoz único

Use una muestra con una sola persona hablando. Múltiples voces confunden al altavoz incrustando y producen resultados mezclados.

Empieza a clonar voces hoy

Sube 5 segundos de audio y escucha tu voz clonada en menos de 30 segundos. Gratis para intentarlo.

Clonar una voz ahora Documentación API

Preguntas frecuentes

Preguntas comunes sobre clonación de voz en tiempo real

La clonación de voz en tiempo real es una tecnología de IA que puede replicar la voz de una persona desde una breve muestra de audio — tan solo 5 segundos — sin ningún entrenamiento o ajuste. Subes una muestra, y la IA genera un nuevo discurso que suena como esa persona. TTS.ai ofrece 9 modelos de clonación de voz diferentes, cada uno con diferentes fortalezas para la calidad, velocidad y soporte de lenguaje.

Tan sólo 5 segundos funciona con la mayoría de los modelos (Chatterbox, CosyVoice 2, Spark, GPT-SoVITS, OpenVoice). Tortuga requiere 15+ segundos para obtener los mejores resultados. Para una calidad óptima en todos los modelos, se recomienda 10-30 segundos de audio transparente y de un solo altavoz. El audio debe estar libre de ruido de fondo y música.

Voice cloning technology itself is legal. However, you should only clone voices you have permission to use — your own voice, voices you have explicit consent for, or voices in the public domain. Using voice cloning to impersonate someone without consent, commit fraud, or create misleading content is illegal in most jurisdictions. TTS.ai's terms require you to have rights to any voice you clone.

Depende de su caso de uso. Chatterbox produce clones ingleses de la más alta calidad con control de emociones. CosyVoice 2 es mejor para la clonación multilingüe (chino, inglés, japonés, coreano). Spark es el más rápido en ~12 segundos. Tortoise produce resultados de calidad de estudio, pero es más lento. GPT-SoVITS sobresale en clonación de voz china. Pruebe varios modelos para encontrar la mejor combinación para su voz.

Sí, esto se llama clonación de voz multilingüe. CosyVoice 2, Qwen3-TTS y OpenVoice lo soportan. Por ejemplo, puede subir una muestra de voz en inglés y generar voz en chino, japonés o coreano preservando las características vocales del orador. La calidad varía según el modelo y el par de idiomas.

El proyecto CorentinJ/Real-Time-Voice-Cloning GitHub (60K+ estrellas) utiliza SV2TTS, una arquitectura de 2019. Aunque innovadores en ese momento, los modelos modernos como Chatterbox, CosyVoice 2 y GPT-SoVITS producen una calidad de audio significativamente mejor con una mejor similitud de altavoz. TTS.ai ejecuta 9 modelos de última generación (el de SV2TTS) y no requiere ninguna configuración de GPU, solo carga y clona.

Sí. TTS.ai proporciona una API REST para la clonación de voz. Sube audio y texto de referencia, elige un modelo y recibe voz clonada. Disponible a través de Python SDK (`pip install ttsai`), JavaScript SDK (`npm install @ttsainpm/ttsai`), o peticiones HTTP directas. Soporta clonación por lotes para procesar múltiples textos con la misma voz clonada.

Sí. Después de clonar, guarde la voz en su cuenta y reutilícela a través de generaciones ilimitadas sin volver a cargar el audio de referencia. Las voces guardadas aparecen en su biblioteca de voz en la página de clonación de voz y son accesibles a través de la API.

WAV, MP3, OGG, FLAC, y WebM son compatibles. También puede grabar directamente en su navegador utilizando el grabador de micrófono integrado. Para obtener los mejores resultados, utilice el formato WAV sin pérdidas a 16kHz o superior. La IA procesa automáticamente el audio (remuestreo, filtrado de ruido) independientemente del formato de entrada.

El tiempo de generación varía según el modelo: Spark es más rápido a ~12 segundos, OpenVoice a ~15 segundos, GPT-SoVITS a ~16 segundos, CosyVoice 2 a ~20 segundos, Chatterbox a ~21 segundos y Tortuga a ~60 segundos. Estos tiempos son para el texto típico de longitud de oración. Los textos más largos toman proporcionalmente más tiempo.

Sí. Todos los 9 modelos de clonación de TTS.ai utilizan licencias de código abierto (MIT o Apache 2.0) que permiten el uso comercial. Puede utilizar audio clonado en vídeos de YouTube, podcasts, audiolibros, aplicaciones, juegos, sistemas telefónicos y cualquier otra aplicación comercial, siempre que tenga derechos sobre la voz fuente.

Sí. Cada modelo que ejecutamos es de código abierto y está disponible en GitHub/HuggingFace. Puede auto-anfitrionar Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS o Tortoise en su propio servidor GPU. La mayoría de los modelos requieren una GPU NVIDIA con 4-24GB VRAM dependiendo del modelo. TTS.ai maneja toda la infraestructura para que no tenga que hacerlo.
5.0/5 (1)

¿Qué podríamos mejorar? Sus comentarios nos ayudan a solucionar problemas.

Clonar cualquier voz en segundos

9 modelos de clonación de voz de código abierto. Muestras de 5 segundos. No se requiere entrenamiento. Pruébelo gratis: cargue su audio y escuche el clon al instante.