IA libre Texto a vozComment
31+ modelos de código aberto, 231+ voces, 34+ idiomas. Non se require conta.
Todo o que precisa para a IA de voz
Máis de 30 ferramentas baseadas en modelos de IA de código aberto
31+ Modelos de voz de IA
A colección máis completa de modelos TTS de código aberto nunha única plataforma
Kokoro Free
Kokoro é un modelo de síntese de voz de 82 millóns de parámetros que supera con creces a súa clase de peso. A pesar do seu tamaño minúsculo, produce unha fala extraordinariamente natural e expresiva. Kokoro soporta múltiples linguas, incluíndo inglés, xaponés, chinés e coreano cunha variedade de voces expresivas. Executase incribelmente rápido, xerando son case 100 veces máis rápido que en tempo real nunha GPU.
Mellor para: TTS de alta calidade con latencia mínima, aplicacións de transmisión
Probar de balde
Piper Free
Piper é un motor lixeiro de síntese de voz desenvolvido por Rhasspy que emprega as arquitecturas VITS e larynx. Execútase completamente na CPU, o que o fai ideal para dispositivos periféricos, automatización doméstica e aplicacións que requiran TTS sen conexión. Con máis de 100 voces en máis de 30 idiomas, Piper ofrece voz natural a velocidades en tempo real mesmo nun Raspberry Pi 4.
Mellor para: Vistas previas rápidas, accesibilidade e programas incorporados
Probar de balde
VITS Free
VITS (Variational Inference with adversarial learning for end- to- end Text- to- Speech) é un método de TTS paralelo de extremo a extremo que xera un son máis natural que os modelos actuais de dúas etapas. Adopta a inferencia variacional aumentada con fluxos normalizadores e un proceso de adestramento adversario, logrando unha mellora significativa na naturalidade.
Mellor para: Texto a voz de propósito xeral con prosodia natural
Probar de balde
MeloTTS Free
MeloTTS de MyShell. ai é unha biblioteca de TTS multilingüe que admite inglés (americano, británico, indio, australiano), español, francés, chinés, xaponés e coreano. É extremadamente rápida, procesando o texto a unha velocidade case en tempo real só na CPU. MeloTTS está deseñado para uso en produción e admite a inferencia tanto na CPU como na GPU.
Mellor para: Aplicativos de produción que precisan de TTS rápido e multilingüe
Probar de balde
OuteTTS Free
OuteTTS estende grandes modelos de linguaxe con capacidades de texto- a- voz, preservando a arquitectura orixinal. Soporta múltiples infraestruturas, incluíndo llama. cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e mesmo inferencia do navegador mediante Transformers. js. Dispón de clonación de voz de tiro cero a través de perfís de falante gardados como JSON.
Mellor para: Despliegue de Edge, TTS baseado en navegador, entornos de baixos recursos
Probar de balde
Pocket TTS Free
Pocket TTS de Kyutai (creadores de Moshi) é un modelo de síntese de voz de 100M de parámetros que é moito máis potente que o seu peso. Executase eficientemente na CPU, admite a clonación de voz sen disparos a partir dunha soa mostra de son e produce unha voz de son natural. O tamaño pequeno do modelo faino ideal para o despliegue de perímetro e ambientes con poucos recursos.
Mellor para: Despliegue lixeiro, entornos só de CPU, clonación rápida de voz
Probar de balde
Kitten TTS Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
Mellor para: Fast lightweight TTS, edge deployment, low-latency applications
Probar de balde
Bark Standard
Modelo de transformación de texto en son baseado en transformadores que xera fala, música e efectos sonoros realistas.
Desenvolvente: Suno · Licenza: MIT
Inténtao
Bark Small Standard
Versión máis lixeira de Bark con inferencias máis rápidas e menor uso de memoria.
Desenvolvente: Suno · Licenza: MIT
Inténtao
CosyVoice 2 Standard
TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.
Desenvolvente: Alibaba (Tongyi Lab) · Licenza: Apache 2.0
Inténtao
Dia TTS Standard
Modelo de xeración de diálogos multifalante que crea conversas naturais entre falantes.
Desenvolvente: Nari Labs · Licenza: Apache 2.0
Inténtao
Parler TTS Standard
Describa a voz que queira en linguaxe natural e Parler xerará a voz correspondente.
Desenvolvente: Hugging Face · Licenza: Apache 2.0
Inténtao
GLM-TTS Standard
Consegue a taxa de erro de caracteres máis baixa entre os modelos TTS de código aberto.
Desenvolvente: Zhipu AI · Licenza: GLM-4 License
Inténtao
IndexTTS-2 Standard
TTS de tiro cero con control de emocións de gran fino e alta expresividade.
Desenvolvente: Index Team · Licenza: Bilibili Model License
Inténtao
Spark TTS Standard
Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.
Desenvolvente: SparkAudio · Licenza: CC BY-NC-SA 4.0
Inténtao
GPT-SoVITS Standard
Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.
Desenvolvente: RVC-Boss · Licenza: MIT
Inténtao
Orpheus Standard
Modelo TTS emocional a nivel humano adestrado con 100K horas de datos de fala.
Desenvolvente: Canopy Labs · Licenza: Llama 3.2 Community
Inténtao
Qwen3 TTS Standard
O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.
Desenvolvente: Alibaba (Qwen) · Licenza: Apache 2.0
Inténtao
Chatterbox Turbo Standard
Chatterbox máis rápido con latencia inferior a 200 ms e etiquetas paralingüísticas para risas, toses e máis.
Desenvolvente: Resemble AI · Licenza: MIT
Inténtao
Dia 2 Standard
TTS conversacional de primeira transmisión con diálogo multifalante e pistas paralingüísticas.
Desenvolvente: Nari Labs · Licenza: Apache 2.0
Inténtao
VoxCPM Standard
TTS sen tokenizador que produce son a 44,1 kHz con consistencia de parágrafos consciente do contexto.
Desenvolvente: OpenBMB · Licenza: Apache 2.0
Inténtao
TADA Standard
TTS sen alucinacións con aliñamento dual texto-acústico, 5 veces máis rápido que o TTS LLM comparable.
Desenvolvente: Hume AI · Licenza: MIT
Inténtao
VibeVoice Standard
Modelo de Microsoft para contidos multifalante de forma longa como podcasts e audiolibros.
Desenvolvente: Microsoft · Licenza: MIT
Inténtao
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Desenvolvente: Alibaba (FunAudioLLM) · Licenza: Apache 2.0
Inténtao
CosyVoice 2
TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.
Linguas: en, zh, ja, ko, fr, de, it, es
Clonar a voz
GLM-TTS
Consegue a taxa de erro de caracteres máis baixa entre os modelos TTS de código aberto.
Linguas: en, zh
Clonar a voz
IndexTTS-2
TTS de tiro cero con control de emocións de gran fino e alta expresividade.
Linguas: en, zh
Clonar a voz
Spark TTS
Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.
Linguas: en, zh
Clonar a voz
GPT-SoVITS
Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.
Linguas: en, zh, ja, ko
Clonar a voz
Chatterbox
Clonaxe de voz de última xeración con control de emocións de Resemble AI.
Linguas: en
Clonar a voz
Tortoise TTS
Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.
Linguas: en
Clonar a voz
OpenVoice
Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.
Linguas: en, zh, ja, ko, fr, de, es, it
Clonar a voz
Qwen3 TTS
O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.
Linguas: en, zh, ja, ko, de, fr, ru, pt, es, it
Clonar a voz
Chatterbox Turbo
Chatterbox máis rápido con latencia inferior a 200 ms e etiquetas paralingüísticas para risas, toses e máis.
Linguas: en
Clonar a voz
VoxCPM
TTS sen tokenizador que produce son a 44,1 kHz con consistencia de parágrafos consciente do contexto.
Linguas: en, zh
Clonar a voz
OuteTTS
TTS baseado en LLM que se executa en CPU, GPU ou navegador mediante llama. cpp e Transformers. js.
Linguas: en
Clonar a voz
Pocket TTS
Modelo de parámetros lixeiro de 100M por Kyutai con clonación de voz a partir dunha soa mostra. Name
Linguas: en, fr
Clonar a voz
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Linguas: en, zh, ja, ko, de, es, fr, it, ru
Clonar a voz
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Linguas: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Clonar a voz
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Linguas: en, zh
Clonar a vozAPI para desenvolvedores
API REST compatíbel con OpenAI. Un punto final, máis de 22 modelos. Soporte de transmisión para aplicacións en tempo real.
- Formato compatíbel con OpenAI
- Transmisión de TTS para aplicacións en tempo real
- Procesamento por lotes para traballos grandes
- Notificacións de webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Prezos simples e transparentes
Comeza libre. Escala a medida que medres.
Libre
15. 000 caracteres
- Kokoro, Piper, VITS, MeloTTS
- Límite de 500 caracteres
- 3 xenes/ hora (sen conta)
Iniciador
500 créditos/mes
- Todos os 22+ modelos
- 100. 000 caracteres por xeración
- Clonaxe de voz
Pro
2.000 créditos/mes
- Todo no iniciador
- Acceso á API
- Procesamento de prioridade
Preguntas frecuentes
What could we improve? Your feedback helps us fix issues.
Comece a usar a voz da IA hoxe
Únase a creadores, desenvolvedores e empresas que usan TTS.ai