IA livre Texto ao Discurso
33+ modelos de código aberto, 273+ vozes, 33+ Línguas. Não é necessária conta.
Tudo o que você precisa para a IA de voz
30+ ferramentas alimentadas por modelos de IA de código aberto
33+ Modelos de Voz da IA
A coleção mais abrangente de modelos TTS de código aberto em uma plataforma
Kokoro Grátis
Kokoro é um parâmetro de 82 milhões de parâmetros do modelo text-to-speech que soca muito acima de sua classe de peso. Apesar de seu pequeno tamanho, produz discursos notavelmente naturais e expressivos. Kokoro suporta múltiplos idiomas, incluindo inglês, japonês, chinês e coreano com uma variedade de vozes expressivas. Ele funciona incrivelmente rápido — gerando áudio quase 100x mais rápido do que em tempo real em uma GPU.
Melhor para: TTS de alta qualidade com latência mínima, aplicativos de streaming
Tente Gratuito
Piper Grátis
O Piper é um motor leve de texto a voz desenvolvido pelo Rhasspy que utiliza arquiteturas VITS e laringe. Funciona inteiramente na CPU, tornando-o ideal para dispositivos de borda, automação domiciliar e aplicações que requerem TTS offline. Com mais de 100 vozes em mais de 30 idiomas, o Piper oferece fala natural a velocidades em tempo real mesmo em um Raspberry Pi 4.
Melhor para: Visualizações rápidas, acessibilidade e aplicações incorporadas
Tente Gratuito
VITS Grátis
O VITS (Inferência Variacional com Aprendizagem adversarial para Texto-a-Função) é um método paralelo do TTS-Fundação que gera áudio sonoro mais natural do que os modelos atuais de dois estágios. Adota inferência variacional aumentada com fluxos de normalização e um processo de treinamento adversario, alcançando uma melhora significativa da naturalidade.
Melhor para: Para uso geral, texto a voz com prosódia natural
Tente Gratuito
MeloTTS Grátis
MeloTTS by MyShell.ai é uma biblioteca multilingue de TTS que apoia o inglês (americano, britânico, indiano, australiano), espanhol, francês, chinês, japonês e coreano. É extremamente rápido, processando texto em quase velocidade em tempo real na CPU sozinho. MeloTTS é projetado para uso de produção e suporta tanto a inferência CPU como GPU.
Melhor para: Aplicações de produção que precisam de TTS rápido e multilingue
Tente Gratuito
Kani TTS 2 Grátis
Kani-TTS-2 por NineNineSix é um modelo de parâmetro ultra-luz 400M construído em uma coluna vertebral LFM2 da IA Líquida com NVIDIA NanoCodec. Ele funciona em apenas 3GB VRAM e produz ~10 segundos de fala em ~2 segundos em um A100 (RTF 0.2). A atual liberação pública embarca um ponto de controle `kani-tts-2-en' em inglês e não expõe o gancho de incorporação de alto-falantes necessário para clonagem de voz — use Chatterbox / IndexTTS2 / F5-TTS para clonagem, ou Kokoro / MeloTTS para não-inglês.
Melhor para: Geração rápida de Inglês em hardware baixa-VRAM, visualizações rápidas
Tente Gratuito
OuteTTS Grátis
OuteTTS estende grandes modelos de linguagem com capacidades de texto a voz, preservando a arquitetura original. Ele suporta múltiplos backends incluindo lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e até mesmo inferência do navegador via Transformers.js. Características de clonagem de voz zero-shot através de perfis de alto-falante salvos como JSON.
Melhor para: Implementação de borda, TTS baseado no navegador, ambientes de baixo recurso
Tente Gratuito
Pocket TTS Grátis
Pocket TTS by Kyutai (creadores de Moshi) é um parâmetro compacto de 100M de texto a voz que sopra bem acima do seu peso. Ele funciona de forma eficiente na CPU, suporta clonagem de voz zero-hot a partir de uma única amostra de áudio, e produz fala de som natural. O pequeno tamanho do modelo torna-o ideal para a implantação de bordas e ambientes de baixo recurso.
Melhor para: Ligeira implantação, ambientes apenas CPU, clonagem de voz rápida
Tente Gratuito
Kitten TTS Grátis
Kitten TTS by KittenML é um modelo de texto para voz ultra leve construído na ONNX. Com variantes de parâmetros 15M a 80M (25-80 MB no disco), oferece síntese de voz de alta qualidade na CPU sem requerer uma GPU. Características 8 vozes integradas, velocidade de fala ajustável e pré-processamento de texto incorporado para números, moedas e unidades. Ideal para a implantação de bordas e aplicações de baixa latência.
Melhor para: Rápido TTS leve, implantação de bordas, aplicações de baixa latência
Tente Gratuito
Ming-Omni TTS Grátis
Ming-omni-tts-0.5B por inclusãoAI é um modelo compacto de fala omni-modal construído na coluna vertebral densa BailingMM com um decodificador de áudio de correspondência Patch-by-Patch. Fornece a saída 44.1kHz (qualidade perto de CD), suporta clonagem de voz zero-hot a partir de uma 3+ segunda referência, e inclui o controle de emoção / dialeto / BGM incorporado através de instruções JSON. Excelente estabilidade — 0,83% WER em referências chinesas.
Melhor para: Narração bilíngue de alta fidelidade, ação de voz controlada por emoções, conteúdo de audiolivro chinês
Tente Gratuito
MOSS-TTS Nano Grátis
MOSS-TTS-Nano-100M é a variante compacta de 100M-parametro da família MOSS-TTS, compartilhando a arquitetura do transformador de atrasos. Trade a qualidade de pico do modelo 8B para pesos ~80x menores e VRAM per-request dramaticamente mais baixo, tornando-o adequado para implantações de nível livre e alto. O mesmo alcance de 20 línguas.
Melhor para: Free-tier TTS, produção de alto volume, uso interativo de baixa latência
Tente Gratuito
Bark Norma
Modelo text-to-audio baseado em transformadores que gera efeitos realistas de fala, música e som.
Desenvolvedor: Suno · Licença: MIT
Experimenta-o.
Bark Small Norma
Versão mais leve de Bark com inferência mais rápida e menor uso de memória.
Desenvolvedor: Suno · Licença: MIT
Experimenta-o.
CosyVoice 2 Norma
A escalable streaming TTS da Alibaba com naturalidade de paridade humana e latência perto de zero.
Desenvolvedor: Alibaba (Tongyi Lab) · Licença: Apache 2.0
Experimenta-o.
Dia TTS Norma
Modelo de geração de diálogo multi-falantes que cria conversas naturais entre alto-falantes.
Desenvolvedor: Nari Labs · Licença: Apache 2.0
Experimenta-o.
Parler TTS Norma
Descreva a voz que você quer em linguagem natural e o Parler gera fala correspondente.
Desenvolvedor: Hugging Face · Licença: Apache 2.0
Experimenta-o.
IndexTTS-2 Norma
TTS zero-hot com controle de emoções finamente cerâmico e alta expressividade.
Desenvolvedor: Index Team · Licença: Bilibili Model License
Experimenta-o.
Spark TTS Norma
Clonagem de voz TTS com emoção controlável e estilo de fala através de prompts.
Desenvolvedor: SparkAudio · Licença: CC BY-NC-SA 4.0
Experimenta-o.
GPT-SoVITS Norma
Poucas vozes de clonagem TTS que replica qualquer voz a partir de apenas 5 segundos de áudio.
Desenvolvedor: RVC-Boss · Licença: MIT
Experimenta-o.
Orpheus Norma
Modelo de TTS emocional de nível humano treinado em 100K horas de dados de fala.
Desenvolvedor: Canopy Labs · Licença: Llama 3.2 Community
Experimenta-o.
Qwen3 TTS Norma
O TTS multilingue da Alibaba com vozes predefinidas e design de voz do texto.
Desenvolvedor: Alibaba (Qwen) · Licença: Apache 2.0
Experimenta-o.
VieNeu-TTS-v2 Norma
Vietnamita + Inglês TTS com 7 vozes predefinidas e clonagem de voz zero. Só CPU, não é necessário GPU.
Desenvolvedor: Phạm Nguyễn Ngọc Bảo · Licença: Apache 2.0
Experimenta-o.
Chatterbox Turbo Norma
Chatterbox mais rápido com latência sub-200ms e tags paralinguísticos para rir, tosse e muito mais.
Desenvolvedor: Resemble AI · Licença: MIT
Experimenta-o.
VoxCPM Norma
TTS sem tokenizador que produz áudio de 44,1kHz com consistência de parágrafos conscientes do contexto.
Desenvolvedor: OpenBMB · Licença: Apache 2.0
Experimenta-o.
VibeVoice Norma
Modelo Microsoft para conteúdo multi-falante de forma longa, como podcasts e audiobooks.
Desenvolvedor: Microsoft · Licença: MIT
Experimenta-o.
CosyVoice3 Norma
TTS multilingue de próxima geração com bi-streaming, controle de emoções e clonagem de voz zero-shot.
Desenvolvedor: Alibaba (FunAudioLLM) · Licença: Apache 2.0
Experimenta-o.
NAMAA Saudi TTS Norma
Primeiro aberto Saudi-Arabic TTS. Dialeto nativo saudita com clonagem de voz de qualidade Chatterbox.
Desenvolvedor: NAMAA Space · Licença: MIT
Experimenta-o.
Darwin TTS Norma
Variante cross-modal Qwen3-TTS com pesos FFN misturados do modelo de linguagem Qwen3-1.7B para clonagem multilingue mais afiada.
Desenvolvedor: FINAL-Bench · Licença: Apache 2.0
Experimenta-o.
MOSS-TTSD Norma
Modelo de continuação de diálogo multi-falantes — gerar conversas em estilo podcast com até 5 alto-falantes e 60 minutos de áudio coerente.
Desenvolvedor: OpenMOSS · Licença: Apache 2.0
Experimenta-o.
CosyVoice 2
A escalable streaming TTS da Alibaba com naturalidade de paridade humana e latência perto de zero.
Línguas: en, zh, ja, ko, fr, de, it, es
Clonar a Voz
IndexTTS-2
TTS zero-hot com controle de emoções finamente cerâmico e alta expressividade.
Línguas: en, zh
Clonar a Voz
Spark TTS
Clonagem de voz TTS com emoção controlável e estilo de fala através de prompts.
Línguas: en, zh
Clonar a Voz
GPT-SoVITS
Poucas vozes de clonagem TTS que replica qualquer voz a partir de apenas 5 segundos de áudio.
Línguas: en, zh, ja, ko
Clonar a Voz
Chatterbox
Clonagem de voz de última geração com controle emotivo da IA Resemble.
Línguas: en
Clonar a Voz
Tortoise TTS
Texto para voz multi-voz focado na qualidade com arquitetura autorregressiva.
Línguas: en
Clonar a Voz
OpenVoice
clonagem de voz instantânea com controle granular sobre estilo, emoção e acento.
Línguas: en, zh, ja, ko, fr, es
Clonar a Voz
VieNeu-TTS-v2
Vietnamita + Inglês TTS com 7 vozes predefinidas e clonagem de voz zero. Só CPU, não é necessário GPU.
Línguas: vi, en
Clonar a Voz
Chatterbox Turbo
Chatterbox mais rápido com latência sub-200ms e tags paralinguísticos para rir, tosse e muito mais.
Línguas: en
Clonar a Voz
VoxCPM
TTS sem tokenizador que produz áudio de 44,1kHz com consistência de parágrafos conscientes do contexto.
Línguas: en, zh
Clonar a Voz
OuteTTS
TTS baseado em LLM que funciona em CPU, GPU ou navegador via lama.cpp e Transformers.js.
Línguas: en
Clonar a Voz
Pocket TTS
Modelo de parâmetro de 100M leve por Kyutai com clonagem de voz de uma única amostra.
Línguas: en, fr
Clonar a Voz
CosyVoice3
TTS multilingue de próxima geração com bi-streaming, controle de emoções e clonagem de voz zero-shot.
Línguas: en, zh, ja, ko, de, es, fr, it, ru
Clonar a Voz
NAMAA Saudi TTS
Primeiro aberto Saudi-Arabic TTS. Dialeto nativo saudita com clonagem de voz de qualidade Chatterbox.
Línguas: ar
Clonar a Voz
Darwin TTS
Variante cross-modal Qwen3-TTS com pesos FFN misturados do modelo de linguagem Qwen3-1.7B para clonagem multilingue mais afiada.
Línguas: en, ko, ja, zh
Clonar a Voz
MOSS-TTSD
Modelo de continuação de diálogo multi-falantes — gerar conversas em estilo podcast com até 5 alto-falantes e 60 minutos de áudio coerente.
Línguas: en, zh
Clonar a Voz
Ming-Omni TTS
Modelo compacto de fala omni-modal 0,5B a partir da inclusãoAI com alta fidelidade 44,1kHz saída e clonagem de voz zero.
Línguas: en, zh
Clonar a Voz
MOSS-TTS Nano
Tiny 100M variante MOSS-TTS — a mesma arquitetura, 80x menor, latência de nível livre.
Línguas: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Clonar a VozDesenvolvedor-Primeira API
API REST compatível com o OpenAI. Um endpoint, 22+ modelos. Suporte de transmissão para aplicações em tempo real.
- Formato compatível com OpenAI
- Streaming TTS para aplicativos em tempo real
- Processamento por lotes para grandes empregos
- Notificações de Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Preços simples, transparentes
Comece livre. Escala à medida que você cresce.
Grátis
15.000 caracteres + 5.000/dia
- 7 modelos gratuitos, incluindo Kokoro
- 5000 caracteres por geração
- Acesso API incluído
Início
500 créditos/mês
- Todos os modelos mais de 22
- 100.000 caracteres por geração
- Clonagem de Voz
Pro
2 000 créditos/mês
- Tudo no Starter
- Acesso à API
- Tratamento prioritário
Perguntas Frequentes
O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.
Comece a usar a voz da IA hoje
Junte-se a criadores, desenvolvedores e empresas usando TTS.ai