IA libre Texto a vozComment
33+ modelos de código aberto, 273+ voces, 33+ idiomas. Non se require conta.
Todo o que precisa para a IA de voz
Máis de 30 ferramentas baseadas en modelos de IA de código aberto
33+ Modelos de voz de IA
A colección máis completa de modelos TTS de código aberto nunha única plataforma
Kokoro Libre
Kokoro é un modelo de síntese de voz de 82 millóns de parámetros que supera con creces a súa clase de peso. A pesar do seu tamaño minúsculo, produce unha fala extraordinariamente natural e expresiva. Kokoro soporta múltiples linguas, incluíndo inglés, xaponés, chinés e coreano cunha variedade de voces expresivas. Executase incribelmente rápido, xerando son case 100 veces máis rápido que en tempo real nunha GPU.
Mellor para: TTS de alta calidade con latencia mínima, aplicacións de transmisión
Probar de balde
Piper Libre
Piper é un motor lixeiro de síntese de voz desenvolvido por Rhasspy que emprega as arquitecturas VITS e larynx. Execútase completamente na CPU, o que o fai ideal para dispositivos periféricos, automatización doméstica e aplicacións que requiran TTS sen conexión. Con máis de 100 voces en máis de 30 idiomas, Piper ofrece voz natural a velocidades en tempo real mesmo nun Raspberry Pi 4.
Mellor para: Vistas previas rápidas, accesibilidade e programas incorporados
Probar de balde
VITS Libre
VITS (Variational Inference with adversarial learning for end- to- end Text- to- Speech) é un método de TTS paralelo de extremo a extremo que xera un son máis natural que os modelos actuais de dúas etapas. Adopta a inferencia variacional aumentada con fluxos normalizadores e un proceso de adestramento adversario, logrando unha mellora significativa na naturalidade.
Mellor para: Texto a voz de propósito xeral con prosodia natural
Probar de balde
MeloTTS Libre
MeloTTS de MyShell. ai é unha biblioteca de TTS multilingüe que admite inglés (americano, británico, indio, australiano), español, francés, chinés, xaponés e coreano. É extremadamente rápida, procesando o texto a unha velocidade case en tempo real só na CPU. MeloTTS está deseñado para uso en produción e admite a inferencia tanto na CPU como na GPU.
Mellor para: Aplicativos de produción que precisan de TTS rápido e multilingüe
Probar de balde
Kani TTS 2 Libre
Kani- TTS- 2 de NineNineSix é un modelo ultraligeiro de 400M de parámetros construído sobre o núcleo LiquidAI LFM2 con Nvidia NanoCodec. Execútase en só 3GB de VRAM e consegue 10 segundos de fala en ~2 segundos (RTF 0. 2). Soporta a clonación de voz sen disparos mediante a incorporación de altofalantes.
Mellor para: Xeración rápida, entornos con poucos recursos, vistas previas rápidas
Probar de balde
OuteTTS Libre
OuteTTS estende grandes modelos de linguaxe con capacidades de texto- a- voz, preservando a arquitectura orixinal. Soporta múltiples infraestruturas, incluíndo llama. cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e mesmo inferencia do navegador mediante Transformers. js. Dispón de clonación de voz de tiro cero a través de perfís de falante gardados como JSON.
Mellor para: Despliegue de Edge, TTS baseado en navegador, entornos de baixos recursos
Probar de balde
Pocket TTS Libre
Pocket TTS de Kyutai (creadores de Moshi) é un modelo de síntese de voz de 100M de parámetros que é moito máis potente que o seu peso. Executase eficientemente na CPU, admite a clonación de voz sen disparos a partir dunha soa mostra de son e produce unha voz de son natural. O tamaño pequeno do modelo faino ideal para o despliegue de perímetro e ambientes con poucos recursos.
Mellor para: Despliegue lixeiro, entornos só de CPU, clonación rápida de voz
Probar de balde
Kitten TTS Libre
Kitten TTS de KittenML é un modelo de síntese de voz ultraligeiro construído sobre ONNX. Con variantes de 15M a 80M de parámetros (25- 80 MB en disco), ofrece síntese de voz de alta calidade na CPU sen precisar de GPU. Posúe 8 voces incorporadas, velocidade de fala axustábel e preprocesamento de texto incorporado para números, moedas e unidades. Ideal para aplicacións de implementación de borde e de baixa latencia.
Mellor para: TTS rápido e lixeiro, aplicacións de baixa latencia e de implementación á beira
Probar de balde
Ming-Omni TTS Libre
Ming- omni- tts- 0. 5B de inclusionAI é un modelo de fala omnimodal compacto construído sobre a densa estrutura do BailingMM cun descodificador de son que se corresponde con fluxos parche a parche. Ofrece unha saída de 44, 1 kHz (cerca da calidade dun CD), soporta clonación de voz sen tomas a partir dunha referencia de 3 segundos ou máis, e inclúe control de emocións/ dialecto/ BGM mediante instrucións JSON. Excelente estabilidade — 0, 83% WER en probas chinesas.
Mellor para: Narración bilingüe de alta fidelidade, voz controlada pola emoción, contido de audiolibro chinés
Probar de balde
MOSS-TTS Nano Libre
MOSS- TTS- Nano- 100M é a variante compacta de 100M parámetros de OpenMOSS da familia MOSS- TTS, que comparte a arquitectura de transformador de atraso. Troca a calidade máxima do modelo 8B por ~80 veces menos peso e VRAM dramáticamente menor por petición, o que o fai axeitado para implementacións de nivel libre e alto rendemento. O mesmo alcance de 20 linguas.
Mellor para: TTS de capa libre, produción de alto volume, uso interactivo de baixa latencia
Probar de balde
Bark Estándar
Modelo de transformación de texto en son baseado en transformadores que xera fala, música e efectos sonoros realistas.
Desenvolvente: Suno · Licenza: MIT
Inténtao
Bark Small Estándar
Versión máis lixeira de Bark con inferencias máis rápidas e menor uso de memoria.
Desenvolvente: Suno · Licenza: MIT
Inténtao
CosyVoice 2 Estándar
TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.
Desenvolvente: Alibaba (Tongyi Lab) · Licenza: Apache 2.0
Inténtao
Dia TTS Estándar
Modelo de xeración de diálogos multifalante que crea conversas naturais entre falantes.
Desenvolvente: Nari Labs · Licenza: Apache 2.0
Inténtao
Parler TTS Estándar
Describa a voz que queira en linguaxe natural e Parler xerará a voz correspondente.
Desenvolvente: Hugging Face · Licenza: Apache 2.0
Inténtao
IndexTTS-2 Estándar
TTS de tiro cero con control de emocións de gran fino e alta expresividade.
Desenvolvente: Index Team · Licenza: Bilibili Model License
Inténtao
Spark TTS Estándar
Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.
Desenvolvente: SparkAudio · Licenza: CC BY-NC-SA 4.0
Inténtao
GPT-SoVITS Estándar
Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.
Desenvolvente: RVC-Boss · Licenza: MIT
Inténtao
Orpheus Estándar
Modelo TTS emocional a nivel humano adestrado con 100K horas de datos de fala.
Desenvolvente: Canopy Labs · Licenza: Llama 3.2 Community
Inténtao
Qwen3 TTS Estándar
O TTS multilingüe de Alibaba con clonación de voz, voces predefinidas e deseño de voz a partir de texto.
Desenvolvente: Alibaba (Qwen) · Licenza: Apache 2.0
Inténtao
VieNeu-TTS-v2 Estándar
TTS con conmutación de código vietnamita + inglés con 7 voces predefinidas e clonación de voz sen disparos. Só CPU, non se require GPU. Name
Desenvolvente: Phạm Nguyễn Ngọc Bảo · Licenza: Apache 2.0
Inténtao
Chatterbox Turbo Estándar
Chatterbox máis rápido con latencia inferior a 200 ms e etiquetas paralingüísticas para risas, toses e máis.
Desenvolvente: Resemble AI · Licenza: MIT
Inténtao
VoxCPM Estándar
TTS sen tokenizador que produce son a 44,1 kHz con consistencia de parágrafos consciente do contexto.
Desenvolvente: OpenBMB · Licenza: Apache 2.0
Inténtao
VibeVoice Estándar
Modelo de Microsoft para contidos multifalante de forma longa como podcasts e audiolibros.
Desenvolvente: Microsoft · Licenza: MIT
Inténtao
CosyVoice3 Estándar
TTS multilingüe de próxima xeración con bi-streaming, control de emocións e clonación de voz sen disparos.
Desenvolvente: Alibaba (FunAudioLLM) · Licenza: Apache 2.0
Inténtao
NAMAA Saudi TTS Estándar
O primeiro TTS aberto en árabe saudita. Dialecto saudita nativo con clonación de voz de calidade Chatterbox.
Desenvolvente: NAMAA Space · Licenza: MIT
Inténtao
Darwin TTS Estándar
Variante cross- modal de Qwen3- TTS con pesos FFN mesturados do modelo de linguaxe Qwen3- 1. 7B para unha clonación multilingüe máis nítida.
Desenvolvente: FINAL-Bench · Licenza: Apache 2.0
Inténtao
MOSS-TTSD Estándar
Modelo de continuidade de diálogo multifalante — xera conversas ao estilo de podcast con ata 5 falantes e 60 minutos de son coherente.
Desenvolvente: OpenMOSS · Licenza: Apache 2.0
Inténtao
CosyVoice 2
TTS de transmisión escalable de Alibaba con naturalidade de paridade humana e latencia case cero.
Linguas: en, zh, ja, ko, fr, de, it, es
Clonar a voz
IndexTTS-2
TTS de tiro cero con control de emocións de gran fino e alta expresividade.
Linguas: en, zh
Clonar a voz
Spark TTS
Clonaxe de voz TTS con emocións controlábeis e estilo de fala mediante mensaxes.
Linguas: en, zh
Clonar a voz
GPT-SoVITS
Clonaxe de voz TTS de poucas tomas que replica calquera voz a partir de só 5 segundos de son.
Linguas: en, zh, ja, ko
Clonar a voz
Chatterbox
Clonaxe de voz de última xeración con control de emocións de Resemble AI.
Linguas: en
Clonar a voz
Tortoise TTS
Texto-a-fala multi-voz centrado na calidade cunha arquitectura autoregressiva.
Linguas: en
Clonar a voz
OpenVoice
Clonaxe instantánea de voz con control granular sobre estilo, emoción e acento.
Linguas: en, zh, ja, ko, fr, es
Clonar a voz
VieNeu-TTS-v2
TTS con conmutación de código vietnamita + inglés con 7 voces predefinidas e clonación de voz sen disparos. Só CPU, non se require GPU. Name
Linguas: vi, en
Clonar a voz
Chatterbox Turbo
Chatterbox máis rápido con latencia inferior a 200 ms e etiquetas paralingüísticas para risas, toses e máis.
Linguas: en
Clonar a voz
VoxCPM
TTS sen tokenizador que produce son a 44,1 kHz con consistencia de parágrafos consciente do contexto.
Linguas: en, zh
Clonar a voz
OuteTTS
TTS baseado en LLM que se executa en CPU, GPU ou navegador mediante llama. cpp e Transformers. js.
Linguas: en
Clonar a voz
Pocket TTS
Modelo de parámetros lixeiro de 100M por Kyutai con clonación de voz a partir dunha soa mostra. Name
Linguas: en, fr
Clonar a voz
CosyVoice3
TTS multilingüe de próxima xeración con bi-streaming, control de emocións e clonación de voz sen disparos.
Linguas: en, zh, ja, ko, de, es, fr, it, ru
Clonar a voz
NAMAA Saudi TTS
O primeiro TTS aberto en árabe saudita. Dialecto saudita nativo con clonación de voz de calidade Chatterbox.
Linguas: ar
Clonar a voz
Darwin TTS
Variante cross- modal de Qwen3- TTS con pesos FFN mesturados do modelo de linguaxe Qwen3- 1. 7B para unha clonación multilingüe máis nítida.
Linguas: en, ko, ja, zh
Clonar a voz
MOSS-TTSD
Modelo de continuidade de diálogo multifalante — xera conversas ao estilo de podcast con ata 5 falantes e 60 minutos de son coherente.
Linguas: en, zh
Clonar a voz
Ming-Omni TTS
Modelo de voz omnimodal compacto de 0,5B de inclusionAI con saída de alta fidelidade de 44,1 kHz e clonación de voz sen disparos.
Linguas: en, zh
Clonar a voz
MOSS-TTS Nano
Variante MOSS-TTS de 100M minúscula — mesma arquitectura, 80x menor, latencia de capa libre.
Linguas: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Clonar a vozAPI para desenvolvedores
API REST compatíbel con OpenAI. Un punto final, máis de 22 modelos. Soporte de transmisión para aplicacións en tempo real.
- Formato compatíbel con OpenAI
- Transmisión de TTS para aplicacións en tempo real
- Procesamento por lotes para traballos grandes
- Notificacións de webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Prezos simples e transparentes
Comeza libre. Escala a medida que medres.
Libre
15. 000 caracteres + 5. 000/ día
- 7 modelos libres, incluíndo Kokoro
- 5000 caracteres por xeración
- Acceso á API incluído
Iniciador
500 créditos/mes
- Todos os 22+ modelos
- 100. 000 caracteres por xeración
- Clonaxe de voz
Pro
2.000 créditos/mes
- Todo no iniciador
- Acceso á API
- Procesamento de prioridade
Preguntas frecuentes
Que podemos mellorar? Os seus comentarios axúdannos a corrixir os problemas.
Comece a usar a voz da IA hoxe
Únase a creadores, desenvolvedores e empresas que usan TTS.ai