IA libre Texto a hablar
22+ modelos de código abierto, más de 100 voces, 32+ idiomas. No se requiere ninguna cuenta.
Todo lo que necesitas para la voz IA
26 herramientas alimentadas por más de 24 modelos de IA de código abierto
22+ Modelos de voz AI
La colección más completa de modelos TTS de código abierto en una sola plataforma
Kokoro Free
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Lo mejor para: High-quality TTS with minimal latency, streaming applications
Probar gratisPiper Free
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Lo mejor para: Quick previews, accessibility, and embedded applications
Probar gratisVITS Free
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Lo mejor para: General-purpose text-to-speech with natural prosody
Probar gratisMeloTTS Free
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
Lo mejor para: Aplicaciones de producción que necesitan TTS rápido y multilingüe
Probar gratisBark Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
Desarrollador: Suno · Licencia: MIT
Pruébalo.Bark Small Standard
Lighter version of Bark with faster inference and lower memory usage.
Desarrollador: Suno · Licencia: MIT
Pruébalo.CosyVoice 2 Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
Desarrollador: Alibaba (Tongyi Lab) · Licencia: Apache 2.0
Pruébalo.Dia TTS Standard
Modelo de generación de diálogos multi-parlantes que crea conversaciones naturales entre altavoces.
Desarrollador: Nari Labs · Licencia: Apache 2.0
Pruébalo.Parler TTS Standard
Describe the voice you want in natural language and Parler generates matching speech.
Desarrollador: Hugging Face · Licencia: Apache 2.0
Pruébalo.IndexTTS-2 Standard
Zero-shot TTS with fine-grained emotion control and high expressiveness.
Desarrollador: Index Team · Licencia: Apache 2.0
Pruébalo.Spark TTS Standard
Voice cloning TTS with controllable emotion and speaking style via prompts.
Desarrollador: SparkAudio · Licencia: Apache 2.0
Pruébalo.GPT-SoVITS Standard
Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.
Desarrollador: RVC-Boss · Licencia: MIT
Pruébalo.Orpheus Standard
Human-level emotional TTS model trained on 100K hours of speech data.
Desarrollador: Canopy Labs · Licencia: Llama 3.2 Community
Pruébalo.Qwen3 TTS Standard
Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.
Desarrollador: Alibaba (Qwen) · Licencia: Apache 2.0
Pruébalo.CosyVoice 2
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
Idiomas: en, zh, ja, ko, fr, de, it, es
Voz clonadaIndexTTS-2
Zero-shot TTS with fine-grained emotion control and high expressiveness.
Idiomas: en, zh
Voz clonadaSpark TTS
Voice cloning TTS with controllable emotion and speaking style via prompts.
Idiomas: en, zh
Voz clonadaGPT-SoVITS
Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.
Idiomas: en, zh, ja, ko
Voz clonadaChatterbox
La clonación de voz de última generación con cero disparos con control de emociones de Resemble AI.
Idiomas: en
Voz clonadaTortoise TTS
Texto a voz multi-voz centrado en la calidad con arquitectura autorregresiva.
Idiomas: en
Voz clonadaOpenVoice
Instant voice cloning with granular control over style, emotion, and accent.
Idiomas: en, zh, ja, ko, fr, de, es, it
Voz clonadaQwen3 TTS
Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.
Idiomas: en, zh, ja, ko, de, fr, ru, pt, es, it
Voz clonadaAPI de desarrollador-primero
API REST compatible con OpenAI. Un punto final, más de 22 modelos. Soporte de transmisión para aplicaciones en tiempo real.
- Formato compatible con OpenAI
- Streaming TTS para aplicaciones en tiempo real
- Procesamiento por lotes para grandes puestos de trabajo
- Notificaciones de Webhook
import requests
response = requests.post(
"https://api.tts.ai/v1/tts/",
headers={"Authorization": "Bearer sk-tts-xxx"},
json={
"model": "kokoro",
"text": "Hello from TTS.ai!",
"voice": "af_bella",
}
)
with open("output.mp3", "wb") as f:
f.write(response.content)
Precios simples y transparentes
Empieza gratis. Escala a medida que creces.
Libre
50 créditos
- Kokoro, Piper, VITS, MeloTTS
- Límite de 500 caracteres
- 3 gen/hora (sin cuenta)
Iniciador
500 créditos/mes
- Todos los 22+ modelos
- Límite de 5.000 caracteres
- Clonación de voz
Pro
2.000 créditos/mes
- Todo en Starter
- Acceso a la API
- Tratamiento prioritario
Preguntas frecuentes
Comience a usar la voz de IA hoy
Únete a creadores, desarrolladores y empresas que utilizan TTS.ai