IA libre Texto a hablar

33+ modelos de código abierto, 273+ voces, 33+ idiomas. No se requiere ninguna cuenta.

17K+
creadores
70K+
generaciones
33+
Modelos de IA
273+
voces
0/500 caracteres · Inscríbase para 5.000 por generación → Libre
¿Te gusta TTS.ai? ¡Cuéntaselo a tus amigos!

Todo lo que necesitas para la voz IA

30+ herramientas alimentadas por modelos de IA de código abierto

33+ Modelos de voz AI

La colección más completa de modelos TTS de código abierto en una sola plataforma

KokoroKokoro Libre

Kokoro es un modelo de texto a voz de 82 millones de parámetros que golpea muy por encima de su clase de peso. A pesar de su pequeño tamaño, produce un discurso notablemente natural y expresivo. Kokoro soporta múltiples idiomas, incluyendo inglés, japonés, chino y coreano con una variedad de voces expresivas. Funciona increíblemente rápido, generando audio casi 100 veces más rápido que en tiempo real en una GPU.

Lo mejor para: TTS de alta calidad con una latencia mínima, aplicaciones de streaming

Probar gratis

PiperPiper Libre

Piper es un ligero motor de texto a voz desarrollado por Rhasspy que utiliza arquitecturas VITS y larynx. Funciona completamente en CPU, por lo que es ideal para dispositivos de borde, domótica y aplicaciones que requieren TTS sin conexión. Con más de 100 voces en más de 30 idiomas, Piper ofrece un sonido natural a velocidades en tiempo real incluso en un Raspberry Pi 4.

Lo mejor para: Previsualizaciones rápidas, accesibilidad y aplicaciones integradas

Probar gratis

VITSVITS Libre

VITS (Inferencia Variacional con aprendizaje contradictorio para texto a voz de extremo a extremo) es un método TTS paralelo de extremo a extremo que genera audio sonoro más natural que los modelos actuales de dos etapas. Adopta inferencia variacional aumentada con flujos normalizadores y un proceso de entrenamiento contradictorio, logrando una mejora significativa en la naturalidad.

Lo mejor para: Texto a voz de uso general con prosodia natural

Probar gratis

MeloTTSMeloTTS Libre

MeloTTS by MyShell.ai es una biblioteca multilingüe de TTS que soporta inglés (estadounidense, británico, indio, australiano), español, francés, chino, japonés y coreano. Es extremadamente rápido, procesando texto a una velocidad casi en tiempo real solo en la CPU. MeloTTS está diseñado para su uso en la producción y soporta la inferencia de CPU y GPU.

Lo mejor para: Aplicaciones de producción que necesitan TTS rápido y multilingüe

Probar gratis

Kani TTS 2Kani TTS 2 Libre

Kani-TTS-2 de NineNineSix es un modelo de parámetro de 400M ultraligero construido sobre una columna vertebral LFM2 de AI líquida con NVIDIA NanoCodec. Funciona en sólo 3GB VRAM y produce ~10 segundos de habla en ~2 segundos en una A100 (RTF 0.2). La versión pública actual envía un puesto de control `kani-tts-2-en` solo en inglés y no expone el gancho de inserción de altavoz necesario para la clonación de voz — use Chatterbox / IndexTTS2 / F5-TTS para la clonación, o Kokoro / MeloTTS para no inglés.

Lo mejor para: Generación rápida en inglés en hardware de baja VRAM, previsualizaciones rápidas

Probar gratis

OuteTTSOuteTTS Libre

OuteTTS extiende grandes modelos de lenguaje con capacidades de texto a voz mientras preserva la arquitectura original. Soporta múltiples backends incluyendo llamas.cpp (CPU/GPU), Transformers de cara de Hugging, ExLlamaV2, VLLM, e incluso inferencia del navegador a través de Transformers.js.

Lo mejor para: Implementación del borde, TTS basado en el navegador, entornos de bajo recurso

Probar gratis

Pocket TTSPocket TTS Libre

Pocket TTS de Kyutai (creadores de Moshi) es un modelo compacto de texto a voz de 100M que golpea muy por encima de su peso. Funciona eficientemente en la CPU, soporta la clonación de voz de cero disparos de una sola muestra de audio y produce un sonido natural. El tamaño pequeño del modelo lo hace ideal para el despliegue de borde y entornos de bajo recurso.

Lo mejor para: Implementación ligera, entornos exclusivos para CPU, clonación rápida de voz

Probar gratis

Kitten TTSKitten TTS Libre

Kitten TTS by KittenML es un modelo de texto a voz ultraligero construido en ONNX. Con variantes de parámetros de 15M a 80M (25-80 MB en disco), ofrece una síntesis de voz de alta calidad en la CPU sin necesidad de una GPU. Cuenta con 8 voces incorporadas, velocidad de voz ajustable y preprocesamiento de texto integrado para números, monedas y unidades. Ideal para aplicaciones de implementación de borde y baja latencia.

Lo mejor para: Rápido ligero TTS, despliegue de borde, aplicaciones de baja latencia

Probar gratis

Ming-Omni TTSMing-Omni TTS Libre

Ming-omni-tts-0.5B por inclusiónAI es un modelo compacto de habla omnimodal construido sobre la espina dorsal de BailingMM con un decodificador de flujo de Patch-by-Patch. Ofrece una salida de 44.1kHz (calidad de CD cercana), soporta la clonación de voz de imagen cero a partir de una segunda referencia de 3+ e incluye el control de emoción / dialecto / BGM integrado a través de instrucciones JSON. Excelente estabilidad — 0,83% WER en puntos de referencia chinos.

Lo mejor para: Alta fidelidad narración bilingüe, acción de voz controlada por emociones, contenido de audiolibro chino

Probar gratis

MOSS-TTS NanoMOSS-TTS Nano Libre

MOSS-TTS-Nano-100M es la variante compacta de 100M-parametro de OpenMOSS de la familia MOSS-TTS, compartiendo la arquitectura de retardo-transformador. Comercializa la máxima calidad del modelo 8B por ~80x pesos más pequeños y dramáticamente menor por petición VRAM, por lo que es adecuado para implementaciones de nivel libre y de alto rendimiento.

Lo mejor para: TTS de nivel libre, producción de alto volumen, uso interactivo de baja latencia

Probar gratis

BarkBark Estándar

Modelo de texto a audio basado en transformadores que genera efectos de voz, música y sonido realistas.

Desarrollador: Suno · Licencia: MIT

Pruébalo.

Bark SmallBark Small Estándar

Versión más ligera de Bark con una inferencia más rápida y un menor uso de memoria.

Desarrollador: Suno · Licencia: MIT

Pruébalo.

CosyVoice 2CosyVoice 2 Estándar

La escalable transmisión TTS de Alibaba con naturalidad de paridad humana y latencia casi cero.

Desarrollador: Alibaba (Tongyi Lab) · Licencia: Apache 2.0

Pruébalo.

Dia TTSDia TTS Estándar

Modelo de generación de diálogos multi-parlantes que crea conversaciones naturales entre altavoces.

Desarrollador: Nari Labs · Licencia: Apache 2.0

Pruébalo.

Parler TTSParler TTS Estándar

Describa la voz que desea en lenguaje natural y Parler genera el discurso correspondiente.

Desarrollador: Hugging Face · Licencia: Apache 2.0

Pruébalo.

IndexTTS-2IndexTTS-2 Estándar

TTS de tiro cero con control emocional de grano fino y alta expresividad.

Desarrollador: Index Team · Licencia: Bilibili Model License

Pruébalo.

Spark TTSSpark TTS Estándar

Clonación de voz TTS con emoción controlable y estilo de habla a través de avisos.

Desarrollador: SparkAudio · Licencia: CC BY-NC-SA 4.0

Pruébalo.

GPT-SoVITSGPT-SoVITS Estándar

Pocas imágenes de clonación de voz TTS que replica cualquier voz de sólo 5 segundos de audio.

Desarrollador: RVC-Boss · Licencia: MIT

Pruébalo.

OrpheusOrpheus Estándar

Modelo de TTS emocional a nivel humano entrenado en datos de 100K horas de habla.

Desarrollador: Canopy Labs · Licencia: Llama 3.2 Community

Pruébalo.

Qwen3 TTSQwen3 TTS Estándar

TTS multilingüe de Alibaba con voces preestablecidas y diseño de voz a partir de texto.

Desarrollador: Alibaba (Qwen) · Licencia: Apache 2.0

Pruébalo.

VieNeu-TTS-v2VieNeu-TTS-v2 Estándar

Vietnamita + Inglés conmutador de código TTS con 7 voces preestablecidas y clonación de voz de cero disparos. Sólo CPU, no se requiere GPU.

Desarrollador: Phạm Nguyễn Ngọc Bảo · Licencia: Apache 2.0

Pruébalo.

Chatterbox TurboChatterbox Turbo Estándar

Chatterbox más rápido con latencia sub-200ms y etiquetas paralingüísticas para risas, tos y más.

Desarrollador: Resemble AI · Licencia: MIT

Pruébalo.

VoxCPMVoxCPM Estándar

TTS sin tokenizador que produce audio de 44.1kHz con consistencia de párrafo consciente del contexto.

Desarrollador: OpenBMB · Licencia: Apache 2.0

Pruébalo.

VibeVoiceVibeVoice Estándar

Modelo de Microsoft para contenido multi-parlante de forma larga como podcasts y audiolibros.

Desarrollador: Microsoft · Licencia: MIT

Pruébalo.

CosyVoice3CosyVoice3 Estándar

TTS multilingüe de próxima generación con bi-streaming, control de emociones y clonación de voz de tiro cero.

Desarrollador: Alibaba (FunAudioLLM) · Licencia: Apache 2.0

Pruébalo.

NAMAA Saudi TTSNAMAA Saudi TTS Estándar

Primer TTS abierto saudí-árabe. Dialéctico nativo saudí con clonación de voz de calidad Chatterbox.

Desarrollador: NAMAA Space · Licencia: MIT

Pruébalo.

Darwin TTSDarwin TTS Estándar

Variante transmodal Qwen3-TTS con pesos FFN mezclados con el modelo de lenguaje Qwen3-1.7B para una clonación multilingüe más aguda.

Desarrollador: FINAL-Bench · Licencia: Apache 2.0

Pruébalo.

MOSS-TTSDMOSS-TTSD Estándar

Modelo de continuación del diálogo multi-parlante: generar conversaciones al estilo de podcast con hasta 5 altavoces y 60 minutos de audio coherente.

Desarrollador: OpenMOSS · Licencia: Apache 2.0

Pruébalo.

ChatterboxChatterbox Prima

La clonación de voz de última generación con cero disparos con control de emociones de Resemble AI.

Calidad:

Pruébalo.

Tortoise TTSTortoise TTS Prima

Texto a voz multi-voz centrado en la calidad con arquitectura autorregresiva.

Calidad:

Pruébalo.

StyleTTS 2StyleTTS 2 Prima

Texto a voz a nivel humano a través de la difusión de estilos y la formación contradictoria.

Calidad:

Pruébalo.

OpenVoiceOpenVoice Prima

Clonación instantánea de voz con control granular sobre el estilo, la emoción y el acento.

Calidad:

Pruébalo.

Sesame CSMSesame CSM Prima

Modelo de habla conversacional que genera diálogo natural con el momento y la emoción adecuados.

Calidad:

Pruébalo.

CosyVoice 2CosyVoice 2

La escalable transmisión TTS de Alibaba con naturalidad de paridad humana y latencia casi cero.

Idiomas: en, zh, ja, ko, fr, de, it, es

Voz clonada

IndexTTS-2IndexTTS-2

TTS de tiro cero con control emocional de grano fino y alta expresividad.

Idiomas: en, zh

Voz clonada

Spark TTSSpark TTS

Clonación de voz TTS con emoción controlable y estilo de habla a través de avisos.

Idiomas: en, zh

Voz clonada

GPT-SoVITSGPT-SoVITS

Pocas imágenes de clonación de voz TTS que replica cualquier voz de sólo 5 segundos de audio.

Idiomas: en, zh, ja, ko

Voz clonada

ChatterboxChatterbox

La clonación de voz de última generación con cero disparos con control de emociones de Resemble AI.

Idiomas: en

Voz clonada

Tortoise TTSTortoise TTS

Texto a voz multi-voz centrado en la calidad con arquitectura autorregresiva.

Idiomas: en

Voz clonada

OpenVoiceOpenVoice

Clonación instantánea de voz con control granular sobre el estilo, la emoción y el acento.

Idiomas: en, zh, ja, ko, fr, es

Voz clonada

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnamita + Inglés conmutador de código TTS con 7 voces preestablecidas y clonación de voz de cero disparos. Sólo CPU, no se requiere GPU.

Idiomas: vi, en

Voz clonada

Chatterbox TurboChatterbox Turbo

Chatterbox más rápido con latencia sub-200ms y etiquetas paralingüísticas para risas, tos y más.

Idiomas: en

Voz clonada

VoxCPMVoxCPM

TTS sin tokenizador que produce audio de 44.1kHz con consistencia de párrafo consciente del contexto.

Idiomas: en, zh

Voz clonada

OuteTTSOuteTTS

TTS basado en LLM que se ejecuta en CPU, GPU o navegador a través de llama.cpp y Transformers.js.

Idiomas: en

Voz clonada

Pocket TTSPocket TTS

Modelo de parámetro ligero 100M de Kyutai con clonación de voz de una sola muestra.

Idiomas: en, fr

Voz clonada

CosyVoice3CosyVoice3

TTS multilingüe de próxima generación con bi-streaming, control de emociones y clonación de voz de tiro cero.

Idiomas: en, zh, ja, ko, de, es, fr, it, ru

Voz clonada

NAMAA Saudi TTSNAMAA Saudi TTS

Primer TTS abierto saudí-árabe. Dialéctico nativo saudí con clonación de voz de calidad Chatterbox.

Idiomas: ar

Voz clonada

Darwin TTSDarwin TTS

Variante transmodal Qwen3-TTS con pesos FFN mezclados con el modelo de lenguaje Qwen3-1.7B para una clonación multilingüe más aguda.

Idiomas: en, ko, ja, zh

Voz clonada

MOSS-TTSDMOSS-TTSD

Modelo de continuación del diálogo multi-parlante: generar conversaciones al estilo de podcast con hasta 5 altavoces y 60 minutos de audio coherente.

Idiomas: en, zh

Voz clonada

Ming-Omni TTSMing-Omni TTS

Modelo compacto de habla omnimodal 0.5B de inclusionAI con salida de 44.1kHz de alta fidelidad y clonación de voz de cero disparos.

Idiomas: en, zh

Voz clonada

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M MOSS-TTS variante — la misma arquitectura, 80 veces más pequeña, latencia de nivel libre.

Idiomas: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Voz clonada

API de desarrollador-primero

API REST compatible con OpenAI. Un punto final, más de 22 modelos. Soporte de transmisión para aplicaciones en tiempo real.

  • Formato compatible con OpenAI
  • Streaming TTS para aplicaciones en tiempo real
  • Procesamiento por lotes para grandes puestos de trabajo
  • Notificaciones de Webhook
Ver los documentos de API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Precios simples y transparentes

Empieza gratis. Escala a medida que creces.

Libre

$0

15.000 caracteres + 5.000/día

  • 7 modelos libres incluyendo Kokoro
  • 5.000 caracteres por generación
  • Acceso API incluido
Regístrate gratis

Iniciador

$9/mo

500 créditos/mes

  • Todos los 22+ modelos
  • 100.000 caracteres por generación
  • Clonación de voz
Empezar
Más populares

Pro

$29/mo

2.000 créditos/mes

  • Todo en Starter
  • Acceso a la API
  • Tratamiento prioritario
Obtener Pro

Negocios

$99/mo

10.000 créditos/mes

  • Todo en Pro
  • API a granel
  • Cola de prioridades
Obtener negocios

Ver todos los planes incluyendo paquetes de caracteres →

Preguntas frecuentes

TTS.ai es la plataforma de voz de IA más completa, que ofrece más de 22 modelos de texto a voz, clonación de voz, voz a texto y herramientas de audio. Todos los modelos son de código abierto sin bloqueo de proveedores.

¡Sí! TTS.ai ofrece texto a voz gratis con los modelos Kokoro, Piper, VITS y MeloTTS. No se requiere cuenta. Regístrese para obtener 15.000 caracteres gratis y acceder a todos los modelos. Los planes de pago comienzan desde $9/mes.

Para la velocidad, use Kokoro o Piper. Para la calidad, pruebe CosyVoice 2 o StyleTTS 2. Para la clonación de voz, utilice Chatterbox o GPT-SoVITS. Para el diálogo, utilice Dia TTS. Pruebe varios modelos en el mismo texto para comparar.

Sí. API REST compatible con OpenAI para TTS, STT, clonación de voz y herramientas de audio. Incluido en cada plan, incluyendo gratis, con límites de velocidad que escalan por nivel (Gratis: 10 req/min, Lite: 20, Inicio: 30, Pro: 60, Negocios: 300). Ver documentación en tts.ai/api/.

La calidad de voz varía según el modelo. Modelos premium como CosyVoice 2, StyleTTS 2, y Chatterbox producen habla de calidad casi humana con entonación natural y emoción. Modelos libres como Kokoro ofrecen una excelente calidad para la mayoría de los casos de uso.

TTS.ai admite más de 30 idiomas en su biblioteca modelo. El inglés tiene el soporte más amplio del modelo, pero modelos como CosyVoice 2 cubren chino, japonés y coreano; GPT-SoVITS maneja chino, japonés, coreano e inglés; y MeloTTS admite inglés, español, francés, chino, japonés y coreano.

Sí. Todo el procesamiento ocurre en nuestros servidores GPU dedicados. No almacenamos su entrada de texto o audio generado después de la entrega. Las muestras de voz cargadas para clonación se utilizan sólo para la sesión actual y no se conservan. Nunca compartimos sus datos con terceros ni los usamos para entrenar modelos.

Sí. Todo el audio generado en TTS.ai es suyo para usar comercialmente, incluyendo videos de YouTube, podcasts, audiolibros, aplicaciones, anuncios y productos. Nuestros modelos son de código abierto bajo licencias permisivas (MIT, Apache 2.0). No se requieren regalías ni atribución.

TTS.ai genera audio en formato WAV de forma predeterminada para obtener la máxima calidad. Puede convertir a MP3, FLAC, OGG o M4A utilizando nuestra herramienta gratuita Audio Converter. La API admite especificar su formato de salida preferido directamente en la solicitud.

Sube una muestra de audio corta (como 5 segundos) de la voz que quieres clonar, luego escribe cualquier texto para generar voz en esa voz. Modelos como Chatterbox, GPT-SoVITS y CosyVoice 2 admiten clonación de voz. La voz clonada captura el tono, el acento y el estilo de hablar.

Los modelos gratuitos (Kokoro, Piper, VITS, MeloTTS) no requieren ninguna cuenta y costo cero caracteres. Los modelos estándar (2.000 caracteres/1K de entrada) incluyen Bark, CosyVoice 2, F5-TTS y Dia. Los modelos premium (4.000 caracteres/1K de entrada) incluyen OpenVoice, Chatterbox, StyleTTS 2 y Tortoise. Los modelos pagados generalmente ofrecen mayor calidad, más voces y funciones adicionales como clonación de voz.

Sí. La API es compatible con el procesamiento por lotes para convertir grandes volúmenes de texto a voz. Envíe múltiples solicitudes y recupere resultados de forma asíncrona utilizando trabajos UUIDs. El plan de negocio ($99/mes) y superior incluyen acceso prioritario a la cola para un procesamiento por lotes más rápido. Ideal para la producción de audiolibros, contenido del curso y proyectos de voz en off a gran escala.
4.1/5 (42)

¿Qué podríamos mejorar? Sus comentarios nos ayudan a solucionar problemas.

Comience a usar la voz de IA hoy

Únase a creadores, desarrolladores y empresas que utilizan TTS.ai