IA libre Texto a hablar

31+ modelos de código abierto, 231+ voces, 34+ idiomas. No se requiere ninguna cuenta.

8K+
creadores
30K+
generaciones
31+
Modelos de IA
231+
voces
0/500 caracteres · Sign up for 5,000 per generation → Libre
¿Te gusta TTS.ai? ¡Cuéntaselo a tus amigos!

Todo lo que necesitas para la voz IA

30+ herramientas alimentadas por modelos de IA de código abierto

31+ Modelos de voz AI

La colección más completa de modelos TTS de código abierto en una sola plataforma

KokoroKokoro Libre

Kokoro es un modelo de texto a voz de 82 millones de parámetros que golpea muy por encima de su clase de peso. A pesar de su pequeño tamaño, produce un discurso notablemente natural y expresivo. Kokoro soporta múltiples idiomas, incluyendo inglés, japonés, chino y coreano con una variedad de voces expresivas. Funciona increíblemente rápido, generando audio casi 100 veces más rápido que en tiempo real en una GPU.

Lo mejor para: TTS de alta calidad con una latencia mínima, aplicaciones de streaming

Probar gratis

PiperPiper Libre

Piper es un ligero motor de texto a voz desarrollado por Rhasspy que utiliza arquitecturas VITS y larynx. Funciona completamente en CPU, por lo que es ideal para dispositivos de borde, domótica y aplicaciones que requieren TTS sin conexión. Con más de 100 voces en más de 30 idiomas, Piper ofrece un sonido natural a velocidades en tiempo real incluso en un Raspberry Pi 4.

Lo mejor para: Previsualizaciones rápidas, accesibilidad y aplicaciones integradas

Probar gratis

VITSVITS Libre

VITS (Inferencia Variacional con aprendizaje contradictorio para texto a voz de extremo a extremo) es un método TTS paralelo de extremo a extremo que genera audio sonoro más natural que los modelos actuales de dos etapas. Adopta inferencia variacional aumentada con flujos normalizadores y un proceso de entrenamiento contradictorio, logrando una mejora significativa en la naturalidad.

Lo mejor para: Texto a voz de uso general con prosodia natural

Probar gratis

MeloTTSMeloTTS Libre

MeloTTS by MyShell.ai es una biblioteca multilingüe de TTS que soporta inglés (estadounidense, británico, indio, australiano), español, francés, chino, japonés y coreano. Es extremadamente rápido, procesando texto a una velocidad casi en tiempo real solo en la CPU. MeloTTS está diseñado para su uso en la producción y soporta la inferencia de CPU y GPU.

Lo mejor para: Aplicaciones de producción que necesitan TTS rápido y multilingüe

Probar gratis

OuteTTSOuteTTS Libre

OuteTTS extiende grandes modelos de lenguaje con capacidades de texto a voz mientras preserva la arquitectura original. Soporta múltiples backends incluyendo llamas.cpp (CPU/GPU), Transformers de cara de Hugging, ExLlamaV2, VLLM, e incluso inferencia del navegador a través de Transformers.js.

Lo mejor para: Implementación del borde, TTS basado en el navegador, entornos de bajo recurso

Probar gratis

Pocket TTSPocket TTS Libre

Pocket TTS de Kyutai (creadores de Moshi) es un modelo compacto de texto a voz de 100M que golpea muy por encima de su peso. Funciona eficientemente en la CPU, soporta la clonación de voz de cero disparos de una sola muestra de audio y produce un sonido natural. El tamaño pequeño del modelo lo hace ideal para el despliegue de borde y entornos de bajo recurso.

Lo mejor para: Implementación ligera, entornos exclusivos para CPU, clonación rápida de voz

Probar gratis

Kitten TTSKitten TTS Libre

Kitten TTS by KittenML es un modelo de texto a voz ultraligero construido en ONNX. Con variantes de parámetros de 15M a 80M (25-80 MB en disco), ofrece una síntesis de voz de alta calidad en la CPU sin necesidad de una GPU. Cuenta con 8 voces incorporadas, velocidad de voz ajustable y preprocesamiento de texto integrado para números, monedas y unidades. Ideal para aplicaciones de implementación de borde y baja latencia.

Lo mejor para: Rápido ligero TTS, despliegue de borde, aplicaciones de baja latencia

Probar gratis

BarkBark Estándar

Modelo de texto a audio basado en transformadores que genera efectos de voz, música y sonido realistas.

Desarrollador: Suno · Licencia: MIT

Pruébalo.

Bark SmallBark Small Estándar

Versión más ligera de Bark con una inferencia más rápida y un menor uso de memoria.

Desarrollador: Suno · Licencia: MIT

Pruébalo.

CosyVoice 2CosyVoice 2 Estándar

La escalable transmisión TTS de Alibaba con naturalidad de paridad humana y latencia casi cero.

Desarrollador: Alibaba (Tongyi Lab) · Licencia: Apache 2.0

Pruébalo.

Dia TTSDia TTS Estándar

Modelo de generación de diálogos multi-parlantes que crea conversaciones naturales entre altavoces.

Desarrollador: Nari Labs · Licencia: Apache 2.0

Pruébalo.

Parler TTSParler TTS Estándar

Describa la voz que desea en lenguaje natural y Parler genera el discurso correspondiente.

Desarrollador: Hugging Face · Licencia: Apache 2.0

Pruébalo.

GLM-TTSGLM-TTS Estándar

Alcanza la tasa de error de carácter más baja entre los modelos TTS de código abierto.

Desarrollador: Zhipu AI · Licencia: GLM-4 License

Pruébalo.

IndexTTS-2IndexTTS-2 Estándar

TTS de tiro cero con control emocional de grano fino y alta expresividad.

Desarrollador: Index Team · Licencia: Bilibili Model License

Pruébalo.

Spark TTSSpark TTS Estándar

Clonación de voz TTS con emoción controlable y estilo de habla a través de avisos.

Desarrollador: SparkAudio · Licencia: CC BY-NC-SA 4.0

Pruébalo.

GPT-SoVITSGPT-SoVITS Estándar

Pocas imágenes de clonación de voz TTS que replica cualquier voz de sólo 5 segundos de audio.

Desarrollador: RVC-Boss · Licencia: MIT

Pruébalo.

OrpheusOrpheus Estándar

Modelo de TTS emocional a nivel humano entrenado en datos de 100K horas de habla.

Desarrollador: Canopy Labs · Licencia: Llama 3.2 Community

Pruébalo.

Qwen3 TTSQwen3 TTS Estándar

TTS multilingüe de Alibaba con clonación de voz, voces preestablecidas y diseño de voz a partir de texto.

Desarrollador: Alibaba (Qwen) · Licencia: Apache 2.0

Pruébalo.

Chatterbox TurboChatterbox Turbo Estándar

Chatterbox más rápido con latencia sub-200ms y etiquetas paralingüísticas para risas, tos y más.

Desarrollador: Resemble AI · Licencia: MIT

Pruébalo.

Dia 2Dia 2 Estándar

Transmitiendo TTS de primera conversación con diálogos multi-parlantes y señales paralingüísticas.

Desarrollador: Nari Labs · Licencia: Apache 2.0

Pruébalo.

VoxCPMVoxCPM Estándar

TTS sin tokenizador que produce audio de 44.1kHz con consistencia de párrafo consciente del contexto.

Desarrollador: OpenBMB · Licencia: Apache 2.0

Pruébalo.

TADATADA Estándar

TTS de alucinación cero con alineación dual texto-acústica, 5 veces más rápido que el TTS LLM comparable.

Desarrollador: Hume AI · Licencia: MIT

Pruébalo.

VibeVoiceVibeVoice Estándar

Modelo de Microsoft para contenido multi-parlante de forma larga como podcasts y audiolibros.

Desarrollador: Microsoft · Licencia: MIT

Pruébalo.

CosyVoice3CosyVoice3 Estándar

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Desarrollador: Alibaba (FunAudioLLM) · Licencia: Apache 2.0

Pruébalo.

ChatterboxChatterbox Prima

La clonación de voz de última generación con cero disparos con control de emociones de Resemble AI.

Calidad:

Pruébalo.

Tortoise TTSTortoise TTS Prima

Texto a voz multi-voz centrado en la calidad con arquitectura autorregresiva.

Calidad:

Pruébalo.

StyleTTS 2StyleTTS 2 Prima

Texto a voz a nivel humano a través de la difusión de estilos y la formación contradictoria.

Calidad:

Pruébalo.

OpenVoiceOpenVoice Prima

Clonación instantánea de voz con control granular sobre el estilo, la emoción y el acento.

Calidad:

Pruébalo.

Sesame CSMSesame CSM Prima

Modelo de habla conversacional que genera diálogo natural con el momento y la emoción adecuados.

Calidad:

Pruébalo.

MOSS-TTSMOSS-TTS Prima

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Calidad:

Pruébalo.

MegaTTS3MegaTTS3 Prima

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Calidad:

Pruébalo.

CosyVoice 2CosyVoice 2

La escalable transmisión TTS de Alibaba con naturalidad de paridad humana y latencia casi cero.

Idiomas: en, zh, ja, ko, fr, de, it, es

Voz clonada

GLM-TTSGLM-TTS

Alcanza la tasa de error de carácter más baja entre los modelos TTS de código abierto.

Idiomas: en, zh

Voz clonada

IndexTTS-2IndexTTS-2

TTS de tiro cero con control emocional de grano fino y alta expresividad.

Idiomas: en, zh

Voz clonada

Spark TTSSpark TTS

Clonación de voz TTS con emoción controlable y estilo de habla a través de avisos.

Idiomas: en, zh

Voz clonada

GPT-SoVITSGPT-SoVITS

Pocas imágenes de clonación de voz TTS que replica cualquier voz de sólo 5 segundos de audio.

Idiomas: en, zh, ja, ko

Voz clonada

ChatterboxChatterbox

La clonación de voz de última generación con cero disparos con control de emociones de Resemble AI.

Idiomas: en

Voz clonada

Tortoise TTSTortoise TTS

Texto a voz multi-voz centrado en la calidad con arquitectura autorregresiva.

Idiomas: en

Voz clonada

OpenVoiceOpenVoice

Clonación instantánea de voz con control granular sobre el estilo, la emoción y el acento.

Idiomas: en, zh, ja, ko, fr, de, es, it

Voz clonada

Qwen3 TTSQwen3 TTS

TTS multilingüe de Alibaba con clonación de voz, voces preestablecidas y diseño de voz a partir de texto.

Idiomas: en, zh, ja, ko, de, fr, ru, pt, es, it

Voz clonada

Chatterbox TurboChatterbox Turbo

Chatterbox más rápido con latencia sub-200ms y etiquetas paralingüísticas para risas, tos y más.

Idiomas: en

Voz clonada

VoxCPMVoxCPM

TTS sin tokenizador que produce audio de 44.1kHz con consistencia de párrafo consciente del contexto.

Idiomas: en, zh

Voz clonada

OuteTTSOuteTTS

TTS basado en LLM que se ejecuta en CPU, GPU o navegador a través de llama.cpp y Transformers.js.

Idiomas: en

Voz clonada

Pocket TTSPocket TTS

Modelo de parámetro ligero 100M de Kyutai con clonación de voz de una sola muestra.

Idiomas: en, fr

Voz clonada

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Idiomas: en, zh, ja, ko, de, es, fr, it, ru

Voz clonada

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Idiomas: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Voz clonada

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Idiomas: en, zh

Voz clonada

API de desarrollador-primero

API REST compatible con OpenAI. Un punto final, más de 22 modelos. Soporte de transmisión para aplicaciones en tiempo real.

  • Formato compatible con OpenAI
  • Streaming TTS para aplicaciones en tiempo real
  • Procesamiento por lotes para grandes puestos de trabajo
  • Notificaciones de Webhook
Ver los documentos de API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Precios simples y transparentes

Empieza gratis. Escala a medida que creces.

Libre

$0

15.000 caracteres

  • Kokoro, Piper, VITS, MeloTTS
  • Límite de 500 caracteres
  • 3 gen/hora (sin cuenta)
Regístrate gratis

Iniciador

$9/mo

500 créditos/mes

  • Todos los 22+ modelos
  • 100.000 caracteres por generación
  • Clonación de voz
Empezar
Más populares

Pro

$29/mo

2.000 créditos/mes

  • Todo en Starter
  • Acceso a la API
  • Tratamiento prioritario
Obtener Pro

Negocios

$99/mo

10.000 créditos/mes

  • Todo en Pro
  • API a granel
  • Cola de prioridades
Obtener negocios

Ver todos los planes incluyendo paquetes de caracteres →

Preguntas frecuentes

TTS.ai es la plataforma de voz de IA más completa, que ofrece más de 22 modelos de texto a voz, clonación de voz, voz a texto y herramientas de audio. Todos los modelos son de código abierto sin bloqueo de proveedores.

¡Sí! TTS.ai ofrece texto a voz gratis con los modelos Kokoro, Piper, VITS y MeloTTS. No se requiere cuenta. Regístrese para obtener 15.000 caracteres gratis y acceder a todos los modelos. Los planes de pago comienzan desde $9/mes.

Para la velocidad, use Kokoro o Piper. Para la calidad, pruebe CosyVoice 2 o StyleTTS 2. Para la clonación de voz, utilice Chatterbox o GPT-SoVITS. Para el diálogo, utilice Dia TTS. Pruebe varios modelos en el mismo texto para comparar.

Sí. API REST compatible con OpenAI para herramientas de TTS, STT, clonación de voz y audio. Disponible en los planes Pro ($29/mo) y Enterprise ($99/mo). Vea la documentación en tts.ai/api/.

La calidad de voz varía según el modelo. Modelos premium como CosyVoice 2, StyleTTS 2, y Chatterbox producen habla de calidad casi humana con entonación natural y emoción. Modelos libres como Kokoro ofrecen una excelente calidad para la mayoría de los casos de uso.

TTS.ai admite más de 30 idiomas en su biblioteca modelo. El inglés tiene el soporte más amplio del modelo, pero modelos como CosyVoice 2 cubren chino, japonés y coreano; GPT-SoVITS maneja chino, japonés, coreano e inglés; y MeloTTS admite inglés, español, francés, chino, japonés y coreano.

Sí. Todo el procesamiento ocurre en nuestros servidores GPU dedicados. No almacenamos su entrada de texto o audio generado después de la entrega. Las muestras de voz cargadas para clonación se utilizan sólo para la sesión actual y no se conservan. Nunca compartimos sus datos con terceros ni los usamos para entrenar modelos.

Sí. Todo el audio generado en TTS.ai es suyo para usar comercialmente, incluyendo videos de YouTube, podcasts, audiolibros, aplicaciones, anuncios y productos. Nuestros modelos son de código abierto bajo licencias permisivas (MIT, Apache 2.0). No se requieren regalías ni atribución.

TTS.ai genera audio en formato WAV de forma predeterminada para obtener la máxima calidad. Puede convertir a MP3, FLAC, OGG o M4A utilizando nuestra herramienta gratuita Audio Converter. La API admite especificar su formato de salida preferido directamente en la solicitud.

Sube una muestra de audio corta (como 5 segundos) de la voz que quieres clonar, luego escribe cualquier texto para generar voz en esa voz. Modelos como Chatterbox, GPT-SoVITS y CosyVoice 2 admiten clonación de voz. La voz clonada captura el tono, el acento y el estilo de hablar.

Los modelos gratuitos (Kokoro, Piper, VITS, MeloTTS) no requieren ninguna cuenta y costo cero caracteres. Los modelos estándar (2.000 caracteres/1K de entrada) incluyen Bark, CosyVoice 2, F5-TTS y Dia. Los modelos premium (4.000 caracteres/1K de entrada) incluyen OpenVoice, Chatterbox, StyleTTS 2 y Tortoise. Los modelos pagados generalmente ofrecen mayor calidad, más voces y funciones adicionales como clonación de voz.

Sí. La API es compatible con el procesamiento por lotes para convertir grandes volúmenes de texto a voz. Envíe múltiples solicitudes y recupere resultados asíncronamente utilizando los UUIDs de trabajo. Los planes empresariales ($99/mo) incluyen acceso prioritario a la cola para un procesamiento por lotes más rápido. Ideal para la producción de audiolibros, contenido de curso y proyectos de voz en off a gran escala.
4.1/5 (21)

¿Qué podríamos mejorar? Sus comentarios nos ayudan a solucionar problemas.

Comience a usar la voz de IA hoy

Únase a creadores, desarrolladores y empresas que utilizan TTS.ai