IA livre Texto ao Discurso
31+ modelos de código aberto, 231+ vozes, 34+ Línguas. Não é necessária conta.
Tudo o que você precisa para a IA de voz
30+ ferramentas alimentadas por modelos de IA de código aberto
31+ Modelos de Voz da IA
A coleção mais abrangente de modelos TTS de código aberto em uma plataforma
Kokoro Free
Kokoro é um parâmetro de 82 milhões de parâmetros do modelo text-to-speech que soca muito acima de sua classe de peso. Apesar de seu pequeno tamanho, produz discursos notavelmente naturais e expressivos. Kokoro suporta múltiplos idiomas, incluindo inglês, japonês, chinês e coreano com uma variedade de vozes expressivas. Ele funciona incrivelmente rápido — gerando áudio quase 100x mais rápido do que em tempo real em uma GPU.
Melhor para: TTS de alta qualidade com latência mínima, aplicativos de streaming
Tente Gratuito
Piper Free
O Piper é um motor leve de texto a voz desenvolvido pelo Rhasspy que utiliza arquiteturas VITS e laringe. Funciona inteiramente na CPU, tornando-o ideal para dispositivos de borda, automação domiciliar e aplicações que requerem TTS offline. Com mais de 100 vozes em mais de 30 idiomas, o Piper oferece fala natural a velocidades em tempo real mesmo em um Raspberry Pi 4.
Melhor para: Visualizações rápidas, acessibilidade e aplicações incorporadas
Tente Gratuito
VITS Free
O VITS (Inferência Variacional com Aprendizagem adversarial para Texto-a-Função) é um método paralelo do TTS-Fundação que gera áudio sonoro mais natural do que os modelos atuais de dois estágios. Adota inferência variacional aumentada com fluxos de normalização e um processo de treinamento adversario, alcançando uma melhora significativa da naturalidade.
Melhor para: Para uso geral, texto a voz com prosódia natural
Tente Gratuito
MeloTTS Free
MeloTTS by MyShell.ai é uma biblioteca multilingue de TTS que apoia o inglês (americano, britânico, indiano, australiano), espanhol, francês, chinês, japonês e coreano. É extremamente rápido, processando texto em quase velocidade em tempo real na CPU sozinho. MeloTTS é projetado para uso de produção e suporta tanto a inferência CPU como GPU.
Melhor para: Aplicações de produção que precisam de TTS rápido e multilingue
Tente Gratuito
OuteTTS Free
OuteTTS estende grandes modelos de linguagem com capacidades de texto a voz, preservando a arquitetura original. Ele suporta múltiplos backends incluindo lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e até mesmo inferência do navegador via Transformers.js. Características de clonagem de voz zero-shot através de perfis de alto-falante salvos como JSON.
Melhor para: Implementação de borda, TTS baseado no navegador, ambientes de baixo recurso
Tente Gratuito
Pocket TTS Free
Pocket TTS by Kyutai (creadores de Moshi) é um parâmetro compacto de 100M de texto a voz que sopra bem acima do seu peso. Ele funciona de forma eficiente na CPU, suporta clonagem de voz zero-hot a partir de uma única amostra de áudio, e produz fala de som natural. O pequeno tamanho do modelo torna-o ideal para a implantação de bordas e ambientes de baixo recurso.
Melhor para: Ligeira implantação, ambientes apenas CPU, clonagem de voz rápida
Tente Gratuito
Kitten TTS Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
Melhor para: Fast lightweight TTS, edge deployment, low-latency applications
Tente Gratuito
Bark Standard
Modelo text-to-audio baseado em transformadores que gera efeitos realistas de fala, música e som.
Desenvolvedor: Suno · Licença: MIT
Experimenta-o.
Bark Small Standard
Versão mais leve de Bark com inferência mais rápida e menor uso de memória.
Desenvolvedor: Suno · Licença: MIT
Experimenta-o.
CosyVoice 2 Standard
A escalable streaming TTS da Alibaba com naturalidade de paridade humana e latência perto de zero.
Desenvolvedor: Alibaba (Tongyi Lab) · Licença: Apache 2.0
Experimenta-o.
Dia TTS Standard
Modelo de geração de diálogo multi-falantes que cria conversas naturais entre alto-falantes.
Desenvolvedor: Nari Labs · Licença: Apache 2.0
Experimenta-o.
Parler TTS Standard
Descreva a voz que você quer em linguagem natural e o Parler gera fala correspondente.
Desenvolvedor: Hugging Face · Licença: Apache 2.0
Experimenta-o.
GLM-TTS Standard
Alcança a menor taxa de erro de caráter entre os modelos de código aberto TTS.
Desenvolvedor: Zhipu AI · Licença: GLM-4 License
Experimenta-o.
IndexTTS-2 Standard
TTS zero-hot com controle de emoções finamente cerâmico e alta expressividade.
Desenvolvedor: Index Team · Licença: Bilibili Model License
Experimenta-o.
Spark TTS Standard
Clonagem de voz TTS com emoção controlável e estilo de fala através de prompts.
Desenvolvedor: SparkAudio · Licença: CC BY-NC-SA 4.0
Experimenta-o.
GPT-SoVITS Standard
Poucas vozes de clonagem TTS que replica qualquer voz a partir de apenas 5 segundos de áudio.
Desenvolvedor: RVC-Boss · Licença: MIT
Experimenta-o.
Orpheus Standard
Modelo de TTS emocional de nível humano treinado em 100K horas de dados de fala.
Desenvolvedor: Canopy Labs · Licença: Llama 3.2 Community
Experimenta-o.
Qwen3 TTS Standard
TTS multilingue da Alibaba com clonagem de voz, vozes predefinidas e design de voz a partir de texto.
Desenvolvedor: Alibaba (Qwen) · Licença: Apache 2.0
Experimenta-o.
Chatterbox Turbo Standard
Chatterbox mais rápido com latência sub-200ms e tags paralinguísticos para rir, tosse e muito mais.
Desenvolvedor: Resemble AI · Licença: MIT
Experimenta-o.
Dia 2 Standard
Streaming-primeiro TTS conversacional com diálogo multi-falantes e pistas paralinguísticas.
Desenvolvedor: Nari Labs · Licença: Apache 2.0
Experimenta-o.
VoxCPM Standard
TTS sem tokenizador que produz áudio de 44,1kHz com consistência de parágrafos conscientes do contexto.
Desenvolvedor: OpenBMB · Licença: Apache 2.0
Experimenta-o.
TADA Standard
TTS de halucinação zero com alinhamento duplo acústico-texto, 5x mais rápido do que o LLM TTS comparável.
Desenvolvedor: Hume AI · Licença: MIT
Experimenta-o.
VibeVoice Standard
Modelo Microsoft para conteúdo multi-falante de forma longa, como podcasts e audiobooks.
Desenvolvedor: Microsoft · Licença: MIT
Experimenta-o.
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Desenvolvedor: Alibaba (FunAudioLLM) · Licença: Apache 2.0
Experimenta-o.
CosyVoice 2
A escalable streaming TTS da Alibaba com naturalidade de paridade humana e latência perto de zero.
Línguas: en, zh, ja, ko, fr, de, it, es
Clonar a Voz
GLM-TTS
Alcança a menor taxa de erro de caráter entre os modelos de código aberto TTS.
Línguas: en, zh
Clonar a Voz
IndexTTS-2
TTS zero-hot com controle de emoções finamente cerâmico e alta expressividade.
Línguas: en, zh
Clonar a Voz
Spark TTS
Clonagem de voz TTS com emoção controlável e estilo de fala através de prompts.
Línguas: en, zh
Clonar a Voz
GPT-SoVITS
Poucas vozes de clonagem TTS que replica qualquer voz a partir de apenas 5 segundos de áudio.
Línguas: en, zh, ja, ko
Clonar a Voz
Chatterbox
Clonagem de voz de última geração com controle emotivo da IA Resemble.
Línguas: en
Clonar a Voz
Tortoise TTS
Texto para voz multi-voz focado na qualidade com arquitetura autorregressiva.
Línguas: en
Clonar a Voz
OpenVoice
clonagem de voz instantânea com controle granular sobre estilo, emoção e acento.
Línguas: en, zh, ja, ko, fr, de, es, it
Clonar a Voz
Qwen3 TTS
TTS multilingue da Alibaba com clonagem de voz, vozes predefinidas e design de voz a partir de texto.
Línguas: en, zh, ja, ko, de, fr, ru, pt, es, it
Clonar a Voz
Chatterbox Turbo
Chatterbox mais rápido com latência sub-200ms e tags paralinguísticos para rir, tosse e muito mais.
Línguas: en
Clonar a Voz
VoxCPM
TTS sem tokenizador que produz áudio de 44,1kHz com consistência de parágrafos conscientes do contexto.
Línguas: en, zh
Clonar a Voz
OuteTTS
TTS baseado em LLM que funciona em CPU, GPU ou navegador via lama.cpp e Transformers.js.
Línguas: en
Clonar a Voz
Pocket TTS
Modelo de parâmetro de 100M leve por Kyutai com clonagem de voz de uma única amostra.
Línguas: en, fr
Clonar a Voz
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Línguas: en, zh, ja, ko, de, es, fr, it, ru
Clonar a Voz
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Línguas: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Clonar a Voz
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Línguas: en, zh
Clonar a VozDesenvolvedor-Primeira API
API REST compatível com o OpenAI. Um endpoint, 22+ modelos. Suporte de transmissão para aplicações em tempo real.
- Formato compatível com OpenAI
- Streaming TTS para aplicativos em tempo real
- Processamento por lotes para grandes empregos
- Notificações de Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Preços simples, transparentes
Comece livre. Escala à medida que você cresce.
Grátis
15 créditos
- Kokoro, Piper, VITS, MeloTTS
- Limite de 500 caracteres
- 3 gen/hora (sem conta)
Início
500 créditos/mês
- Todos os modelos mais de 22
- 100.000 caracteres por geração
- Clonagem de Voz
Pro
2 000 créditos/mês
- Tudo no Starter
- Acesso à API
- Tratamento prioritário
Perguntas Frequentes
O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.
Comece a usar a voz da IA hoje
Junte-se a criadores, desenvolvedores e empresas usando TTS.ai