IA libre Texto a hablar
33+ modelos de código abierto, 273+ voces, 33+ idiomas. No se requiere ninguna cuenta.
Todo lo que necesitas para la voz IA
30+ herramientas alimentadas por modelos de IA de código abierto
33+ Modelos de voz AI
La colección más completa de modelos TTS de código abierto en una sola plataforma
Kokoro Libre
Kokoro es un modelo de texto a voz de 82 millones de parámetros que golpea muy por encima de su clase de peso. A pesar de su pequeño tamaño, produce un discurso notablemente natural y expresivo. Kokoro soporta múltiples idiomas, incluyendo inglés, japonés, chino y coreano con una variedad de voces expresivas. Funciona increíblemente rápido, generando audio casi 100 veces más rápido que en tiempo real en una GPU.
Lo mejor para: TTS de alta calidad con una latencia mínima, aplicaciones de streaming
Probar gratis
Piper Libre
Piper es un ligero motor de texto a voz desarrollado por Rhasspy que utiliza arquitecturas VITS y larynx. Funciona completamente en CPU, por lo que es ideal para dispositivos de borde, domótica y aplicaciones que requieren TTS sin conexión. Con más de 100 voces en más de 30 idiomas, Piper ofrece un sonido natural a velocidades en tiempo real incluso en un Raspberry Pi 4.
Lo mejor para: Previsualizaciones rápidas, accesibilidad y aplicaciones integradas
Probar gratis
VITS Libre
VITS (Inferencia Variacional con aprendizaje contradictorio para texto a voz de extremo a extremo) es un método TTS paralelo de extremo a extremo que genera audio sonoro más natural que los modelos actuales de dos etapas. Adopta inferencia variacional aumentada con flujos normalizadores y un proceso de entrenamiento contradictorio, logrando una mejora significativa en la naturalidad.
Lo mejor para: Texto a voz de uso general con prosodia natural
Probar gratis
MeloTTS Libre
MeloTTS by MyShell.ai es una biblioteca multilingüe de TTS que soporta inglés (estadounidense, británico, indio, australiano), español, francés, chino, japonés y coreano. Es extremadamente rápido, procesando texto a una velocidad casi en tiempo real solo en la CPU. MeloTTS está diseñado para su uso en la producción y soporta la inferencia de CPU y GPU.
Lo mejor para: Aplicaciones de producción que necesitan TTS rápido y multilingüe
Probar gratis
Kani TTS 2 Libre
Kani-TTS-2 de NineNineSix es un modelo de parámetro de 400M ultraligero construido sobre una columna vertebral LFM2 de AI líquida con NVIDIA NanoCodec. Funciona en sólo 3GB VRAM y produce ~10 segundos de habla en ~2 segundos en una A100 (RTF 0.2). La versión pública actual envía un puesto de control `kani-tts-2-en` solo en inglés y no expone el gancho de inserción de altavoz necesario para la clonación de voz — use Chatterbox / IndexTTS2 / F5-TTS para la clonación, o Kokoro / MeloTTS para no inglés.
Lo mejor para: Generación rápida en inglés en hardware de baja VRAM, previsualizaciones rápidas
Probar gratis
OuteTTS Libre
OuteTTS extiende grandes modelos de lenguaje con capacidades de texto a voz mientras preserva la arquitectura original. Soporta múltiples backends incluyendo llamas.cpp (CPU/GPU), Transformers de cara de Hugging, ExLlamaV2, VLLM, e incluso inferencia del navegador a través de Transformers.js.
Lo mejor para: Implementación del borde, TTS basado en el navegador, entornos de bajo recurso
Probar gratis
Pocket TTS Libre
Pocket TTS de Kyutai (creadores de Moshi) es un modelo compacto de texto a voz de 100M que golpea muy por encima de su peso. Funciona eficientemente en la CPU, soporta la clonación de voz de cero disparos de una sola muestra de audio y produce un sonido natural. El tamaño pequeño del modelo lo hace ideal para el despliegue de borde y entornos de bajo recurso.
Lo mejor para: Implementación ligera, entornos exclusivos para CPU, clonación rápida de voz
Probar gratis
Kitten TTS Libre
Kitten TTS by KittenML es un modelo de texto a voz ultraligero construido en ONNX. Con variantes de parámetros de 15M a 80M (25-80 MB en disco), ofrece una síntesis de voz de alta calidad en la CPU sin necesidad de una GPU. Cuenta con 8 voces incorporadas, velocidad de voz ajustable y preprocesamiento de texto integrado para números, monedas y unidades. Ideal para aplicaciones de implementación de borde y baja latencia.
Lo mejor para: Rápido ligero TTS, despliegue de borde, aplicaciones de baja latencia
Probar gratis
Ming-Omni TTS Libre
Ming-omni-tts-0.5B por inclusiónAI es un modelo compacto de habla omnimodal construido sobre la espina dorsal de BailingMM con un decodificador de flujo de Patch-by-Patch. Ofrece una salida de 44.1kHz (calidad de CD cercana), soporta la clonación de voz de imagen cero a partir de una segunda referencia de 3+ e incluye el control de emoción / dialecto / BGM integrado a través de instrucciones JSON. Excelente estabilidad — 0,83% WER en puntos de referencia chinos.
Lo mejor para: Alta fidelidad narración bilingüe, acción de voz controlada por emociones, contenido de audiolibro chino
Probar gratis
MOSS-TTS Nano Libre
MOSS-TTS-Nano-100M es la variante compacta de 100M-parametro de OpenMOSS de la familia MOSS-TTS, compartiendo la arquitectura de retardo-transformador. Comercializa la máxima calidad del modelo 8B por ~80x pesos más pequeños y dramáticamente menor por petición VRAM, por lo que es adecuado para implementaciones de nivel libre y de alto rendimiento.
Lo mejor para: TTS de nivel libre, producción de alto volumen, uso interactivo de baja latencia
Probar gratis
Bark Estándar
Modelo de texto a audio basado en transformadores que genera efectos de voz, música y sonido realistas.
Desarrollador: Suno · Licencia: MIT
Pruébalo.
Bark Small Estándar
Versión más ligera de Bark con una inferencia más rápida y un menor uso de memoria.
Desarrollador: Suno · Licencia: MIT
Pruébalo.
CosyVoice 2 Estándar
La escalable transmisión TTS de Alibaba con naturalidad de paridad humana y latencia casi cero.
Desarrollador: Alibaba (Tongyi Lab) · Licencia: Apache 2.0
Pruébalo.
Dia TTS Estándar
Modelo de generación de diálogos multi-parlantes que crea conversaciones naturales entre altavoces.
Desarrollador: Nari Labs · Licencia: Apache 2.0
Pruébalo.
Parler TTS Estándar
Describa la voz que desea en lenguaje natural y Parler genera el discurso correspondiente.
Desarrollador: Hugging Face · Licencia: Apache 2.0
Pruébalo.
IndexTTS-2 Estándar
TTS de tiro cero con control emocional de grano fino y alta expresividad.
Desarrollador: Index Team · Licencia: Bilibili Model License
Pruébalo.
Spark TTS Estándar
Clonación de voz TTS con emoción controlable y estilo de habla a través de avisos.
Desarrollador: SparkAudio · Licencia: CC BY-NC-SA 4.0
Pruébalo.
GPT-SoVITS Estándar
Pocas imágenes de clonación de voz TTS que replica cualquier voz de sólo 5 segundos de audio.
Desarrollador: RVC-Boss · Licencia: MIT
Pruébalo.
Orpheus Estándar
Modelo de TTS emocional a nivel humano entrenado en datos de 100K horas de habla.
Desarrollador: Canopy Labs · Licencia: Llama 3.2 Community
Pruébalo.
Qwen3 TTS Estándar
TTS multilingüe de Alibaba con voces preestablecidas y diseño de voz a partir de texto.
Desarrollador: Alibaba (Qwen) · Licencia: Apache 2.0
Pruébalo.
VieNeu-TTS-v2 Estándar
Vietnamita + Inglés conmutador de código TTS con 7 voces preestablecidas y clonación de voz de cero disparos. Sólo CPU, no se requiere GPU.
Desarrollador: Phạm Nguyễn Ngọc Bảo · Licencia: Apache 2.0
Pruébalo.
Chatterbox Turbo Estándar
Chatterbox más rápido con latencia sub-200ms y etiquetas paralingüísticas para risas, tos y más.
Desarrollador: Resemble AI · Licencia: MIT
Pruébalo.
VoxCPM Estándar
TTS sin tokenizador que produce audio de 44.1kHz con consistencia de párrafo consciente del contexto.
Desarrollador: OpenBMB · Licencia: Apache 2.0
Pruébalo.
VibeVoice Estándar
Modelo de Microsoft para contenido multi-parlante de forma larga como podcasts y audiolibros.
Desarrollador: Microsoft · Licencia: MIT
Pruébalo.
CosyVoice3 Estándar
TTS multilingüe de próxima generación con bi-streaming, control de emociones y clonación de voz de tiro cero.
Desarrollador: Alibaba (FunAudioLLM) · Licencia: Apache 2.0
Pruébalo.
NAMAA Saudi TTS Estándar
Primer TTS abierto saudí-árabe. Dialéctico nativo saudí con clonación de voz de calidad Chatterbox.
Desarrollador: NAMAA Space · Licencia: MIT
Pruébalo.
Darwin TTS Estándar
Variante transmodal Qwen3-TTS con pesos FFN mezclados con el modelo de lenguaje Qwen3-1.7B para una clonación multilingüe más aguda.
Desarrollador: FINAL-Bench · Licencia: Apache 2.0
Pruébalo.
MOSS-TTSD Estándar
Modelo de continuación del diálogo multi-parlante: generar conversaciones al estilo de podcast con hasta 5 altavoces y 60 minutos de audio coherente.
Desarrollador: OpenMOSS · Licencia: Apache 2.0
Pruébalo.
CosyVoice 2
La escalable transmisión TTS de Alibaba con naturalidad de paridad humana y latencia casi cero.
Idiomas: en, zh, ja, ko, fr, de, it, es
Voz clonada
IndexTTS-2
TTS de tiro cero con control emocional de grano fino y alta expresividad.
Idiomas: en, zh
Voz clonada
Spark TTS
Clonación de voz TTS con emoción controlable y estilo de habla a través de avisos.
Idiomas: en, zh
Voz clonada
GPT-SoVITS
Pocas imágenes de clonación de voz TTS que replica cualquier voz de sólo 5 segundos de audio.
Idiomas: en, zh, ja, ko
Voz clonada
Chatterbox
La clonación de voz de última generación con cero disparos con control de emociones de Resemble AI.
Idiomas: en
Voz clonada
Tortoise TTS
Texto a voz multi-voz centrado en la calidad con arquitectura autorregresiva.
Idiomas: en
Voz clonada
OpenVoice
Clonación instantánea de voz con control granular sobre el estilo, la emoción y el acento.
Idiomas: en, zh, ja, ko, fr, es
Voz clonada
VieNeu-TTS-v2
Vietnamita + Inglés conmutador de código TTS con 7 voces preestablecidas y clonación de voz de cero disparos. Sólo CPU, no se requiere GPU.
Idiomas: vi, en
Voz clonada
Chatterbox Turbo
Chatterbox más rápido con latencia sub-200ms y etiquetas paralingüísticas para risas, tos y más.
Idiomas: en
Voz clonada
VoxCPM
TTS sin tokenizador que produce audio de 44.1kHz con consistencia de párrafo consciente del contexto.
Idiomas: en, zh
Voz clonada
OuteTTS
TTS basado en LLM que se ejecuta en CPU, GPU o navegador a través de llama.cpp y Transformers.js.
Idiomas: en
Voz clonada
Pocket TTS
Modelo de parámetro ligero 100M de Kyutai con clonación de voz de una sola muestra.
Idiomas: en, fr
Voz clonada
CosyVoice3
TTS multilingüe de próxima generación con bi-streaming, control de emociones y clonación de voz de tiro cero.
Idiomas: en, zh, ja, ko, de, es, fr, it, ru
Voz clonada
NAMAA Saudi TTS
Primer TTS abierto saudí-árabe. Dialéctico nativo saudí con clonación de voz de calidad Chatterbox.
Idiomas: ar
Voz clonada
Darwin TTS
Variante transmodal Qwen3-TTS con pesos FFN mezclados con el modelo de lenguaje Qwen3-1.7B para una clonación multilingüe más aguda.
Idiomas: en, ko, ja, zh
Voz clonada
MOSS-TTSD
Modelo de continuación del diálogo multi-parlante: generar conversaciones al estilo de podcast con hasta 5 altavoces y 60 minutos de audio coherente.
Idiomas: en, zh
Voz clonada
Ming-Omni TTS
Modelo compacto de habla omnimodal 0.5B de inclusionAI con salida de 44.1kHz de alta fidelidad y clonación de voz de cero disparos.
Idiomas: en, zh
Voz clonada
MOSS-TTS Nano
Tiny 100M MOSS-TTS variante — la misma arquitectura, 80 veces más pequeña, latencia de nivel libre.
Idiomas: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Voz clonadaAPI de desarrollador-primero
API REST compatible con OpenAI. Un punto final, más de 22 modelos. Soporte de transmisión para aplicaciones en tiempo real.
- Formato compatible con OpenAI
- Streaming TTS para aplicaciones en tiempo real
- Procesamiento por lotes para grandes puestos de trabajo
- Notificaciones de Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Precios simples y transparentes
Empieza gratis. Escala a medida que creces.
Libre
15.000 caracteres + 5.000/día
- 7 modelos libres incluyendo Kokoro
- 5.000 caracteres por generación
- Acceso API incluido
Iniciador
500 créditos/mes
- Todos los 22+ modelos
- 100.000 caracteres por generación
- Clonación de voz
Pro
2.000 créditos/mes
- Todo en Starter
- Acceso a la API
- Tratamiento prioritario
Preguntas frecuentes
¿Qué podríamos mejorar? Sus comentarios nos ayudan a solucionar problemas.
Comience a usar la voz de IA hoy
Únase a creadores, desarrolladores y empresas que utilizan TTS.ai