IA libre Texto a hablar

20+ modelos de código abierto, 107+ voces, 32+ idiomas. No se requiere ninguna cuenta.

1K+
creadores
2K+
generaciones
20+
Modelos de IA
107+
voces
0/500 caracteres Libre
¿Como TTS.ai? ¡Diselo a tus amigos!

Todo lo que necesitas para la voz IA

30+ herramientas alimentadas por modelos de IA de código abierto

20+ Modelos de voz AI

La colección más completa de modelos TTS de código abierto en una sola plataforma

KokoroKokoro Free

Kokoro es un modelo de texto a voz de 82 millones de parámetros que golpea muy por encima de su clase de peso. A pesar de su pequeño tamaño, produce un discurso notablemente natural y expresivo. Kokoro soporta múltiples idiomas, incluyendo inglés, japonés, chino y coreano con una variedad de voces expresivas. Funciona increíblemente rápido, generando audio casi 100 veces más rápido que en tiempo real en una GPU.

Lo mejor para: TTS de alta calidad con una latencia mínima, aplicaciones de streaming

Probar gratis

PiperPiper Free

Piper es un ligero motor de texto a voz desarrollado por Rhasspy que utiliza arquitecturas VITS y larynx. Funciona completamente en CPU, por lo que es ideal para dispositivos de borde, domótica y aplicaciones que requieren TTS sin conexión. Con más de 100 voces en más de 30 idiomas, Piper ofrece un sonido natural a velocidades en tiempo real incluso en un Raspberry Pi 4.

Lo mejor para: Previsualizaciones rápidas, accesibilidad y aplicaciones integradas

Probar gratis

VITSVITS Free

VITS (Inferencia Variacional con aprendizaje contradictorio para texto a voz de extremo a extremo) es un método TTS paralelo de extremo a extremo que genera audio sonoro más natural que los modelos actuales de dos etapas. Adopta inferencia variacional aumentada con flujos normalizadores y un proceso de entrenamiento contradictorio, logrando una mejora significativa en la naturalidad.

Lo mejor para: Texto a voz de uso general con prosodia natural

Probar gratis

MeloTTSMeloTTS Free

MeloTTS by MyShell.ai es una biblioteca multilingüe de TTS que soporta inglés (estadounidense, británico, indio, australiano), español, francés, chino, japonés y coreano. Es extremadamente rápido, procesando texto a una velocidad casi en tiempo real solo en la CPU. MeloTTS está diseñado para su uso en la producción y soporta la inferencia de CPU y GPU.

Lo mejor para: Aplicaciones de producción que necesitan TTS rápido y multilingüe

Probar gratis

BarkBark Standard

Modelo de texto a audio basado en transformadores que genera efectos de voz, música y sonido realistas.

Desarrollador: Suno · Licencia: MIT

Pruébalo.

Bark SmallBark Small Standard

Versión más ligera de Bark con una inferencia más rápida y un menor uso de memoria.

Desarrollador: Suno · Licencia: MIT

Pruébalo.

CosyVoice 2CosyVoice 2 Standard

La escalable transmisión TTS de Alibaba con naturalidad de paridad humana y latencia casi cero.

Desarrollador: Alibaba (Tongyi Lab) · Licencia: Apache 2.0

Pruébalo.

Dia TTSDia TTS Standard

Modelo de generación de diálogos multi-parlantes que crea conversaciones naturales entre altavoces.

Desarrollador: Nari Labs · Licencia: Apache 2.0

Pruébalo.

Parler TTSParler TTS Standard

Describa la voz que desea en lenguaje natural y Parler genera el discurso correspondiente.

Desarrollador: Hugging Face · Licencia: Apache 2.0

Pruébalo.

GLM-TTSGLM-TTS Standard

Alcanza la tasa de error de carácter más baja entre los modelos TTS de código abierto.

Desarrollador: Zhipu AI · Licencia: GLM-4 License

Pruébalo.

IndexTTS-2IndexTTS-2 Standard

TTS de tiro cero con control emocional de grano fino y alta expresividad.

Desarrollador: Index Team · Licencia: Bilibili Model License

Pruébalo.

Spark TTSSpark TTS Standard

Clonación de voz TTS con emoción controlable y estilo de habla a través de avisos.

Desarrollador: SparkAudio · Licencia: CC BY-NC-SA 4.0

Pruébalo.

GPT-SoVITSGPT-SoVITS Standard

Pocas imágenes de clonación de voz TTS que replica cualquier voz de sólo 5 segundos de audio.

Desarrollador: RVC-Boss · Licencia: MIT

Pruébalo.

OrpheusOrpheus Standard

Modelo de TTS emocional a nivel humano entrenado en datos de 100K horas de habla.

Desarrollador: Canopy Labs · Licencia: Llama 3.2 Community

Pruébalo.

Qwen3 TTSQwen3 TTS Standard

TTS multilingüe de Alibaba con clonación de voz, voces preestablecidas y diseño de voz a partir de texto.

Desarrollador: Alibaba (Qwen) · Licencia: Apache 2.0

Pruébalo.

ChatterboxChatterbox Premium

La clonación de voz de última generación con cero disparos con control de emociones de Resemble AI.

Calidad:

Pruébalo.

Tortoise TTSTortoise TTS Premium

Texto a voz multi-voz centrado en la calidad con arquitectura autorregresiva.

Calidad:

Pruébalo.

StyleTTS 2StyleTTS 2 Premium

Texto a voz a nivel humano a través de la difusión de estilos y la formación contradictoria.

Calidad:

Pruébalo.

OpenVoiceOpenVoice Premium

Clonación instantánea de voz con control granular sobre el estilo, la emoción y el acento.

Calidad:

Pruébalo.

Sesame CSMSesame CSM Premium

Modelo de habla conversacional que genera diálogo natural con el momento y la emoción adecuados.

Calidad:

Pruébalo.

CosyVoice 2CosyVoice 2

La escalable transmisión TTS de Alibaba con naturalidad de paridad humana y latencia casi cero.

Idiomas: en, zh, ja, ko, fr, de, it, es

Voz clonada

GLM-TTSGLM-TTS

Alcanza la tasa de error de carácter más baja entre los modelos TTS de código abierto.

Idiomas: en, zh

Voz clonada

IndexTTS-2IndexTTS-2

TTS de tiro cero con control emocional de grano fino y alta expresividad.

Idiomas: en, zh

Voz clonada

Spark TTSSpark TTS

Clonación de voz TTS con emoción controlable y estilo de habla a través de avisos.

Idiomas: en, zh

Voz clonada

GPT-SoVITSGPT-SoVITS

Pocas imágenes de clonación de voz TTS que replica cualquier voz de sólo 5 segundos de audio.

Idiomas: en, zh, ja, ko

Voz clonada

ChatterboxChatterbox

La clonación de voz de última generación con cero disparos con control de emociones de Resemble AI.

Idiomas: en

Voz clonada

Tortoise TTSTortoise TTS

Texto a voz multi-voz centrado en la calidad con arquitectura autorregresiva.

Idiomas: en

Voz clonada

OpenVoiceOpenVoice

Clonación instantánea de voz con control granular sobre el estilo, la emoción y el acento.

Idiomas: en, zh, ja, ko, fr, de, es, it

Voz clonada

Qwen3 TTSQwen3 TTS

TTS multilingüe de Alibaba con clonación de voz, voces preestablecidas y diseño de voz a partir de texto.

Idiomas: en, zh, ja, ko, de, fr, ru, pt, es, it

Voz clonada

API de desarrollador-primero

API REST compatible con OpenAI. Un punto final, más de 22 modelos. Soporte de transmisión para aplicaciones en tiempo real.

  • Formato compatible con OpenAI
  • Streaming TTS para aplicaciones en tiempo real
  • Procesamiento por lotes para grandes puestos de trabajo
  • Notificaciones de Webhook
Ver los documentos de API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Precios simples y transparentes

Empieza gratis. Escala a medida que creces.

Libre

$0

15.000 caracteres

  • Kokoro, Piper, VITS, MeloTTS
  • Límite de 500 caracteres
  • 3 gen/hora (sin cuenta)
Regístrate gratis

Iniciador

$9/mo

500 créditos/mes

  • Todos los 22+ modelos
  • 100.000 caracteres por generación
  • Clonación de voz
Empezar
Más populares

Pro

$29/mo

2.000 créditos/mes

  • Todo en Starter
  • Acceso a la API
  • Tratamiento prioritario
Obtener Pro

Negocios

$99/mo

10.000 créditos/mes

  • Todo en Pro
  • API a granel
  • Cola de prioridades
Obtener negocios

Ver todos los planes incluyendo paquetes de caracteres →

Preguntas frecuentes

TTS.ai es la plataforma de voz de IA más completa, que ofrece más de 22 modelos de texto a voz, clonación de voz, voz a texto y herramientas de audio. Todos los modelos son de código abierto sin bloqueo del proveedor.

¡Sí! TTS.ai ofrece texto a voz gratis con los modelos Kokoro, Piper, VITS y MeloTTS. No se requiere cuenta. Regístrese para obtener 15.000 caracteres gratis y acceder a todos los modelos. Los planes de pago comienzan desde $9/mes.

Para la velocidad, use Kokoro o Piper. Para la calidad, pruebe CosyVoice 2 o StyleTTS 2. Para la clonación de voz, utilice Chatterbox o GPT-SoVITS. Para el diálogo, utilice Dia TTS. Pruebe varios modelos en el mismo texto para comparar.

Sí. API REST compatible con OpenAI para herramientas de TTS, STT, clonación de voz y audio. Disponible en los planes Pro ($29/mo) y Enterprise ($99/mo). Vea la documentación en tts.ai/api/.

La calidad de voz varía según el modelo. Modelos premium como CosyVoice 2, StyleTTS 2, y Chatterbox producen habla de calidad casi humana con entonación natural y emoción. Modelos libres como Kokoro ofrecen una excelente calidad para la mayoría de los casos de uso.

TTS.ai admite más de 30 idiomas en su biblioteca modelo. El inglés tiene el soporte más amplio del modelo, pero modelos como CosyVoice 2 cubren chino, japonés y coreano; GPT-SoVITS maneja chino, japonés, coreano e inglés; y MeloTTS admite inglés, español, francés, chino, japonés y coreano.

Sí. Todo el procesamiento ocurre en nuestros servidores GPU dedicados. No almacenamos su entrada de texto o audio generado después de la entrega. Las muestras de voz cargadas para clonación se utilizan sólo para la sesión actual y no se conservan. Nunca compartimos sus datos con terceros ni los usamos para entrenar modelos.

Sí. Todo el audio generado en TTS.ai es suyo para usar comercialmente, incluyendo videos de YouTube, podcasts, audiolibros, aplicaciones, anuncios y productos. Nuestros modelos son de código abierto bajo licencias permisivas (MIT, Apache 2.0). No se requieren regalías ni atribución.

TTS.ai genera audio en formato WAV de forma predeterminada para obtener la máxima calidad. Puede convertir a MP3, FLAC, OGG o M4A utilizando nuestra herramienta gratuita Audio Converter. La API admite especificar su formato de salida preferido directamente en la solicitud.

Sube una muestra de audio corta (como 5 segundos) de la voz que quieres clonar, luego escribe cualquier texto para generar voz en esa voz. Modelos como Chatterbox, GPT-SoVITS y CosyVoice 2 admiten clonación de voz. La voz clonada captura el tono, el acento y el estilo de hablar.

Los modelos gratuitos (Kokoro, Piper, VITS, MeloTTS) no requieren ninguna cuenta y costo cero caracteres. Los modelos estándar (2.000 caracteres/1K de entrada) incluyen Bark, CosyVoice 2, F5-TTS y Dia. Los modelos premium (4.000 caracteres/1K de entrada) incluyen OpenVoice, Chatterbox, StyleTTS 2 y Tortoise. Los modelos pagados generalmente ofrecen mayor calidad, más voces y funciones adicionales como clonación de voz.

Sí. La API es compatible con el procesamiento por lotes para convertir grandes volúmenes de texto a voz. Envíe múltiples solicitudes y recupere resultados asíncronamente utilizando los UUIDs de trabajo. Los planes empresariales ($99/mo) incluyen acceso prioritario a la cola para un procesamiento por lotes más rápido. Ideal para la producción de audiolibros, contenido de curso y proyectos de voz en off a gran escala.
4.0/5 (8)

Comience a usar la voz de IA hoy

Únase a creadores, desarrolladores y empresas que utilizan TTS.ai