IA libre Texto a hablar
31+ modelos de código abierto, 231+ voces, 34+ idiomas. No se requiere ninguna cuenta.
Todo lo que necesitas para la voz IA
30+ herramientas alimentadas por modelos de IA de código abierto
31+ Modelos de voz AI
La colección más completa de modelos TTS de código abierto en una sola plataforma
Kokoro Libre
Kokoro es un modelo de texto a voz de 82 millones de parámetros que golpea muy por encima de su clase de peso. A pesar de su pequeño tamaño, produce un discurso notablemente natural y expresivo. Kokoro soporta múltiples idiomas, incluyendo inglés, japonés, chino y coreano con una variedad de voces expresivas. Funciona increíblemente rápido, generando audio casi 100 veces más rápido que en tiempo real en una GPU.
Lo mejor para: TTS de alta calidad con una latencia mínima, aplicaciones de streaming
Probar gratis
Piper Libre
Piper es un ligero motor de texto a voz desarrollado por Rhasspy que utiliza arquitecturas VITS y larynx. Funciona completamente en CPU, por lo que es ideal para dispositivos de borde, domótica y aplicaciones que requieren TTS sin conexión. Con más de 100 voces en más de 30 idiomas, Piper ofrece un sonido natural a velocidades en tiempo real incluso en un Raspberry Pi 4.
Lo mejor para: Previsualizaciones rápidas, accesibilidad y aplicaciones integradas
Probar gratis
VITS Libre
VITS (Inferencia Variacional con aprendizaje contradictorio para texto a voz de extremo a extremo) es un método TTS paralelo de extremo a extremo que genera audio sonoro más natural que los modelos actuales de dos etapas. Adopta inferencia variacional aumentada con flujos normalizadores y un proceso de entrenamiento contradictorio, logrando una mejora significativa en la naturalidad.
Lo mejor para: Texto a voz de uso general con prosodia natural
Probar gratis
MeloTTS Libre
MeloTTS by MyShell.ai es una biblioteca multilingüe de TTS que soporta inglés (estadounidense, británico, indio, australiano), español, francés, chino, japonés y coreano. Es extremadamente rápido, procesando texto a una velocidad casi en tiempo real solo en la CPU. MeloTTS está diseñado para su uso en la producción y soporta la inferencia de CPU y GPU.
Lo mejor para: Aplicaciones de producción que necesitan TTS rápido y multilingüe
Probar gratis
OuteTTS Libre
OuteTTS extiende grandes modelos de lenguaje con capacidades de texto a voz mientras preserva la arquitectura original. Soporta múltiples backends incluyendo llamas.cpp (CPU/GPU), Transformers de cara de Hugging, ExLlamaV2, VLLM, e incluso inferencia del navegador a través de Transformers.js.
Lo mejor para: Implementación del borde, TTS basado en el navegador, entornos de bajo recurso
Probar gratis
Pocket TTS Libre
Pocket TTS de Kyutai (creadores de Moshi) es un modelo compacto de texto a voz de 100M que golpea muy por encima de su peso. Funciona eficientemente en la CPU, soporta la clonación de voz de cero disparos de una sola muestra de audio y produce un sonido natural. El tamaño pequeño del modelo lo hace ideal para el despliegue de borde y entornos de bajo recurso.
Lo mejor para: Implementación ligera, entornos exclusivos para CPU, clonación rápida de voz
Probar gratis
Kitten TTS Libre
Kitten TTS by KittenML es un modelo de texto a voz ultraligero construido en ONNX. Con variantes de parámetros de 15M a 80M (25-80 MB en disco), ofrece una síntesis de voz de alta calidad en la CPU sin necesidad de una GPU. Cuenta con 8 voces incorporadas, velocidad de voz ajustable y preprocesamiento de texto integrado para números, monedas y unidades. Ideal para aplicaciones de implementación de borde y baja latencia.
Lo mejor para: Rápido ligero TTS, despliegue de borde, aplicaciones de baja latencia
Probar gratis
Bark Estándar
Modelo de texto a audio basado en transformadores que genera efectos de voz, música y sonido realistas.
Desarrollador: Suno · Licencia: MIT
Pruébalo.
Bark Small Estándar
Versión más ligera de Bark con una inferencia más rápida y un menor uso de memoria.
Desarrollador: Suno · Licencia: MIT
Pruébalo.
CosyVoice 2 Estándar
La escalable transmisión TTS de Alibaba con naturalidad de paridad humana y latencia casi cero.
Desarrollador: Alibaba (Tongyi Lab) · Licencia: Apache 2.0
Pruébalo.
Dia TTS Estándar
Modelo de generación de diálogos multi-parlantes que crea conversaciones naturales entre altavoces.
Desarrollador: Nari Labs · Licencia: Apache 2.0
Pruébalo.
Parler TTS Estándar
Describa la voz que desea en lenguaje natural y Parler genera el discurso correspondiente.
Desarrollador: Hugging Face · Licencia: Apache 2.0
Pruébalo.
GLM-TTS Estándar
Alcanza la tasa de error de carácter más baja entre los modelos TTS de código abierto.
Desarrollador: Zhipu AI · Licencia: GLM-4 License
Pruébalo.
IndexTTS-2 Estándar
TTS de tiro cero con control emocional de grano fino y alta expresividad.
Desarrollador: Index Team · Licencia: Bilibili Model License
Pruébalo.
Spark TTS Estándar
Clonación de voz TTS con emoción controlable y estilo de habla a través de avisos.
Desarrollador: SparkAudio · Licencia: CC BY-NC-SA 4.0
Pruébalo.
GPT-SoVITS Estándar
Pocas imágenes de clonación de voz TTS que replica cualquier voz de sólo 5 segundos de audio.
Desarrollador: RVC-Boss · Licencia: MIT
Pruébalo.
Orpheus Estándar
Modelo de TTS emocional a nivel humano entrenado en datos de 100K horas de habla.
Desarrollador: Canopy Labs · Licencia: Llama 3.2 Community
Pruébalo.
Qwen3 TTS Estándar
TTS multilingüe de Alibaba con clonación de voz, voces preestablecidas y diseño de voz a partir de texto.
Desarrollador: Alibaba (Qwen) · Licencia: Apache 2.0
Pruébalo.
Chatterbox Turbo Estándar
Chatterbox más rápido con latencia sub-200ms y etiquetas paralingüísticas para risas, tos y más.
Desarrollador: Resemble AI · Licencia: MIT
Pruébalo.
Dia 2 Estándar
Transmitiendo TTS de primera conversación con diálogos multi-parlantes y señales paralingüísticas.
Desarrollador: Nari Labs · Licencia: Apache 2.0
Pruébalo.
VoxCPM Estándar
TTS sin tokenizador que produce audio de 44.1kHz con consistencia de párrafo consciente del contexto.
Desarrollador: OpenBMB · Licencia: Apache 2.0
Pruébalo.
TADA Estándar
TTS de alucinación cero con alineación dual texto-acústica, 5 veces más rápido que el TTS LLM comparable.
Desarrollador: Hume AI · Licencia: MIT
Pruébalo.
VibeVoice Estándar
Modelo de Microsoft para contenido multi-parlante de forma larga como podcasts y audiolibros.
Desarrollador: Microsoft · Licencia: MIT
Pruébalo.
CosyVoice3 Estándar
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Desarrollador: Alibaba (FunAudioLLM) · Licencia: Apache 2.0
Pruébalo.
CosyVoice 2
La escalable transmisión TTS de Alibaba con naturalidad de paridad humana y latencia casi cero.
Idiomas: en, zh, ja, ko, fr, de, it, es
Voz clonada
GLM-TTS
Alcanza la tasa de error de carácter más baja entre los modelos TTS de código abierto.
Idiomas: en, zh
Voz clonada
IndexTTS-2
TTS de tiro cero con control emocional de grano fino y alta expresividad.
Idiomas: en, zh
Voz clonada
Spark TTS
Clonación de voz TTS con emoción controlable y estilo de habla a través de avisos.
Idiomas: en, zh
Voz clonada
GPT-SoVITS
Pocas imágenes de clonación de voz TTS que replica cualquier voz de sólo 5 segundos de audio.
Idiomas: en, zh, ja, ko
Voz clonada
Chatterbox
La clonación de voz de última generación con cero disparos con control de emociones de Resemble AI.
Idiomas: en
Voz clonada
Tortoise TTS
Texto a voz multi-voz centrado en la calidad con arquitectura autorregresiva.
Idiomas: en
Voz clonada
OpenVoice
Clonación instantánea de voz con control granular sobre el estilo, la emoción y el acento.
Idiomas: en, zh, ja, ko, fr, de, es, it
Voz clonada
Qwen3 TTS
TTS multilingüe de Alibaba con clonación de voz, voces preestablecidas y diseño de voz a partir de texto.
Idiomas: en, zh, ja, ko, de, fr, ru, pt, es, it
Voz clonada
Chatterbox Turbo
Chatterbox más rápido con latencia sub-200ms y etiquetas paralingüísticas para risas, tos y más.
Idiomas: en
Voz clonada
VoxCPM
TTS sin tokenizador que produce audio de 44.1kHz con consistencia de párrafo consciente del contexto.
Idiomas: en, zh
Voz clonada
OuteTTS
TTS basado en LLM que se ejecuta en CPU, GPU o navegador a través de llama.cpp y Transformers.js.
Idiomas: en
Voz clonada
Pocket TTS
Modelo de parámetro ligero 100M de Kyutai con clonación de voz de una sola muestra.
Idiomas: en, fr
Voz clonada
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Idiomas: en, zh, ja, ko, de, es, fr, it, ru
Voz clonada
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Idiomas: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Voz clonada
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Idiomas: en, zh
Voz clonadaAPI de desarrollador-primero
API REST compatible con OpenAI. Un punto final, más de 22 modelos. Soporte de transmisión para aplicaciones en tiempo real.
- Formato compatible con OpenAI
- Streaming TTS para aplicaciones en tiempo real
- Procesamiento por lotes para grandes puestos de trabajo
- Notificaciones de Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Precios simples y transparentes
Empieza gratis. Escala a medida que creces.
Libre
15.000 caracteres
- Kokoro, Piper, VITS, MeloTTS
- Límite de 500 caracteres
- 3 gen/hora (sin cuenta)
Iniciador
500 créditos/mes
- Todos los 22+ modelos
- 100.000 caracteres por generación
- Clonación de voz
Pro
2.000 créditos/mes
- Todo en Starter
- Acceso a la API
- Tratamiento prioritario
Preguntas frecuentes
¿Qué podríamos mejorar? Sus comentarios nos ayudan a solucionar problemas.
Comience a usar la voz de IA hoy
Únase a creadores, desarrolladores y empresas que utilizan TTS.ai