IA livre Texto ao Discurso

33+ modelos de código aberto, 273+ vozes, 33+ Línguas. Não é necessária conta.

17K+
criadores
70K+
gerações
33+
Modelos de IA
273+
vozes
0/500 caracteres · Inscreva-se por 5.000 por geração → Grátis
Gosta do TTS.ai? Conte aos seus amigos!

Tudo o que você precisa para a IA de voz

30+ ferramentas alimentadas por modelos de IA de código aberto

33+ Modelos de Voz da IA

A coleção mais abrangente de modelos TTS de código aberto em uma plataforma

KokoroKokoro Grátis

Kokoro é um parâmetro de 82 milhões de parâmetros do modelo text-to-speech que soca muito acima de sua classe de peso. Apesar de seu pequeno tamanho, produz discursos notavelmente naturais e expressivos. Kokoro suporta múltiplos idiomas, incluindo inglês, japonês, chinês e coreano com uma variedade de vozes expressivas. Ele funciona incrivelmente rápido — gerando áudio quase 100x mais rápido do que em tempo real em uma GPU.

Melhor para: TTS de alta qualidade com latência mínima, aplicativos de streaming

Tente Gratuito

PiperPiper Grátis

O Piper é um motor leve de texto a voz desenvolvido pelo Rhasspy que utiliza arquiteturas VITS e laringe. Funciona inteiramente na CPU, tornando-o ideal para dispositivos de borda, automação domiciliar e aplicações que requerem TTS offline. Com mais de 100 vozes em mais de 30 idiomas, o Piper oferece fala natural a velocidades em tempo real mesmo em um Raspberry Pi 4.

Melhor para: Visualizações rápidas, acessibilidade e aplicações incorporadas

Tente Gratuito

VITSVITS Grátis

O VITS (Inferência Variacional com Aprendizagem adversarial para Texto-a-Função) é um método paralelo do TTS-Fundação que gera áudio sonoro mais natural do que os modelos atuais de dois estágios. Adota inferência variacional aumentada com fluxos de normalização e um processo de treinamento adversario, alcançando uma melhora significativa da naturalidade.

Melhor para: Para uso geral, texto a voz com prosódia natural

Tente Gratuito

MeloTTSMeloTTS Grátis

MeloTTS by MyShell.ai é uma biblioteca multilingue de TTS que apoia o inglês (americano, britânico, indiano, australiano), espanhol, francês, chinês, japonês e coreano. É extremamente rápido, processando texto em quase velocidade em tempo real na CPU sozinho. MeloTTS é projetado para uso de produção e suporta tanto a inferência CPU como GPU.

Melhor para: Aplicações de produção que precisam de TTS rápido e multilingue

Tente Gratuito

Kani TTS 2Kani TTS 2 Grátis

Kani-TTS-2 por NineNineSix é um modelo de parâmetro ultra-luz 400M construído em uma coluna vertebral LFM2 da IA Líquida com NVIDIA NanoCodec. Ele funciona em apenas 3GB VRAM e produz ~10 segundos de fala em ~2 segundos em um A100 (RTF 0.2). A atual liberação pública embarca um ponto de controle `kani-tts-2-en' em inglês e não expõe o gancho de incorporação de alto-falantes necessário para clonagem de voz — use Chatterbox / IndexTTS2 / F5-TTS para clonagem, ou Kokoro / MeloTTS para não-inglês.

Melhor para: Geração rápida de Inglês em hardware baixa-VRAM, visualizações rápidas

Tente Gratuito

OuteTTSOuteTTS Grátis

OuteTTS estende grandes modelos de linguagem com capacidades de texto a voz, preservando a arquitetura original. Ele suporta múltiplos backends incluindo lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e até mesmo inferência do navegador via Transformers.js. Características de clonagem de voz zero-shot através de perfis de alto-falante salvos como JSON.

Melhor para: Implementação de borda, TTS baseado no navegador, ambientes de baixo recurso

Tente Gratuito

Pocket TTSPocket TTS Grátis

Pocket TTS by Kyutai (creadores de Moshi) é um parâmetro compacto de 100M de texto a voz que sopra bem acima do seu peso. Ele funciona de forma eficiente na CPU, suporta clonagem de voz zero-hot a partir de uma única amostra de áudio, e produz fala de som natural. O pequeno tamanho do modelo torna-o ideal para a implantação de bordas e ambientes de baixo recurso.

Melhor para: Ligeira implantação, ambientes apenas CPU, clonagem de voz rápida

Tente Gratuito

Kitten TTSKitten TTS Grátis

Kitten TTS by KittenML é um modelo de texto para voz ultra leve construído na ONNX. Com variantes de parâmetros 15M a 80M (25-80 MB no disco), oferece síntese de voz de alta qualidade na CPU sem requerer uma GPU. Características 8 vozes integradas, velocidade de fala ajustável e pré-processamento de texto incorporado para números, moedas e unidades. Ideal para a implantação de bordas e aplicações de baixa latência.

Melhor para: Rápido TTS leve, implantação de bordas, aplicações de baixa latência

Tente Gratuito

Ming-Omni TTSMing-Omni TTS Grátis

Ming-omni-tts-0.5B por inclusãoAI é um modelo compacto de fala omni-modal construído na coluna vertebral densa BailingMM com um decodificador de áudio de correspondência Patch-by-Patch. Fornece a saída 44.1kHz (qualidade perto de CD), suporta clonagem de voz zero-hot a partir de uma 3+ segunda referência, e inclui o controle de emoção / dialeto / BGM incorporado através de instruções JSON. Excelente estabilidade — 0,83% WER em referências chinesas.

Melhor para: Narração bilíngue de alta fidelidade, ação de voz controlada por emoções, conteúdo de audiolivro chinês

Tente Gratuito

MOSS-TTS NanoMOSS-TTS Nano Grátis

MOSS-TTS-Nano-100M é a variante compacta de 100M-parametro da família MOSS-TTS, compartilhando a arquitetura do transformador de atrasos. Trade a qualidade de pico do modelo 8B para pesos ~80x menores e VRAM per-request dramaticamente mais baixo, tornando-o adequado para implantações de nível livre e alto. O mesmo alcance de 20 línguas.

Melhor para: Free-tier TTS, produção de alto volume, uso interativo de baixa latência

Tente Gratuito

BarkBark Norma

Modelo text-to-audio baseado em transformadores que gera efeitos realistas de fala, música e som.

Desenvolvedor: Suno · Licença: MIT

Experimenta-o.

Bark SmallBark Small Norma

Versão mais leve de Bark com inferência mais rápida e menor uso de memória.

Desenvolvedor: Suno · Licença: MIT

Experimenta-o.

CosyVoice 2CosyVoice 2 Norma

A escalable streaming TTS da Alibaba com naturalidade de paridade humana e latência perto de zero.

Desenvolvedor: Alibaba (Tongyi Lab) · Licença: Apache 2.0

Experimenta-o.

Dia TTSDia TTS Norma

Modelo de geração de diálogo multi-falantes que cria conversas naturais entre alto-falantes.

Desenvolvedor: Nari Labs · Licença: Apache 2.0

Experimenta-o.

Parler TTSParler TTS Norma

Descreva a voz que você quer em linguagem natural e o Parler gera fala correspondente.

Desenvolvedor: Hugging Face · Licença: Apache 2.0

Experimenta-o.

IndexTTS-2IndexTTS-2 Norma

TTS zero-hot com controle de emoções finamente cerâmico e alta expressividade.

Desenvolvedor: Index Team · Licença: Bilibili Model License

Experimenta-o.

Spark TTSSpark TTS Norma

Clonagem de voz TTS com emoção controlável e estilo de fala através de prompts.

Desenvolvedor: SparkAudio · Licença: CC BY-NC-SA 4.0

Experimenta-o.

GPT-SoVITSGPT-SoVITS Norma

Poucas vozes de clonagem TTS que replica qualquer voz a partir de apenas 5 segundos de áudio.

Desenvolvedor: RVC-Boss · Licença: MIT

Experimenta-o.

OrpheusOrpheus Norma

Modelo de TTS emocional de nível humano treinado em 100K horas de dados de fala.

Desenvolvedor: Canopy Labs · Licença: Llama 3.2 Community

Experimenta-o.

Qwen3 TTSQwen3 TTS Norma

O TTS multilingue da Alibaba com vozes predefinidas e design de voz do texto.

Desenvolvedor: Alibaba (Qwen) · Licença: Apache 2.0

Experimenta-o.

VieNeu-TTS-v2VieNeu-TTS-v2 Norma

Vietnamita + Inglês TTS com 7 vozes predefinidas e clonagem de voz zero. Só CPU, não é necessário GPU.

Desenvolvedor: Phạm Nguyễn Ngọc Bảo · Licença: Apache 2.0

Experimenta-o.

Chatterbox TurboChatterbox Turbo Norma

Chatterbox mais rápido com latência sub-200ms e tags paralinguísticos para rir, tosse e muito mais.

Desenvolvedor: Resemble AI · Licença: MIT

Experimenta-o.

VoxCPMVoxCPM Norma

TTS sem tokenizador que produz áudio de 44,1kHz com consistência de parágrafos conscientes do contexto.

Desenvolvedor: OpenBMB · Licença: Apache 2.0

Experimenta-o.

VibeVoiceVibeVoice Norma

Modelo Microsoft para conteúdo multi-falante de forma longa, como podcasts e audiobooks.

Desenvolvedor: Microsoft · Licença: MIT

Experimenta-o.

CosyVoice3CosyVoice3 Norma

TTS multilingue de próxima geração com bi-streaming, controle de emoções e clonagem de voz zero-shot.

Desenvolvedor: Alibaba (FunAudioLLM) · Licença: Apache 2.0

Experimenta-o.

NAMAA Saudi TTSNAMAA Saudi TTS Norma

Primeiro aberto Saudi-Arabic TTS. Dialeto nativo saudita com clonagem de voz de qualidade Chatterbox.

Desenvolvedor: NAMAA Space · Licença: MIT

Experimenta-o.

Darwin TTSDarwin TTS Norma

Variante cross-modal Qwen3-TTS com pesos FFN misturados do modelo de linguagem Qwen3-1.7B para clonagem multilingue mais afiada.

Desenvolvedor: FINAL-Bench · Licença: Apache 2.0

Experimenta-o.

MOSS-TTSDMOSS-TTSD Norma

Modelo de continuação de diálogo multi-falantes — gerar conversas em estilo podcast com até 5 alto-falantes e 60 minutos de áudio coerente.

Desenvolvedor: OpenMOSS · Licença: Apache 2.0

Experimenta-o.

ChatterboxChatterbox Premium

Clonagem de voz de última geração com controle emotivo da IA Resemble.

Qualidade:

Experimenta-o.

Tortoise TTSTortoise TTS Premium

Texto para voz multi-voz focado na qualidade com arquitetura autorregressiva.

Qualidade:

Experimenta-o.

StyleTTS 2StyleTTS 2 Premium

Texto a voz humana através da difusão do estilo e do treinamento adversario.

Qualidade:

Experimenta-o.

OpenVoiceOpenVoice Premium

clonagem de voz instantânea com controle granular sobre estilo, emoção e acento.

Qualidade:

Experimenta-o.

Sesame CSMSesame CSM Premium

Modelo de fala conversacional gerando diálogo natural com tempo e emoção adequados.

Qualidade:

Experimenta-o.

CosyVoice 2CosyVoice 2

A escalable streaming TTS da Alibaba com naturalidade de paridade humana e latência perto de zero.

Línguas: en, zh, ja, ko, fr, de, it, es

Clonar a Voz

IndexTTS-2IndexTTS-2

TTS zero-hot com controle de emoções finamente cerâmico e alta expressividade.

Línguas: en, zh

Clonar a Voz

Spark TTSSpark TTS

Clonagem de voz TTS com emoção controlável e estilo de fala através de prompts.

Línguas: en, zh

Clonar a Voz

GPT-SoVITSGPT-SoVITS

Poucas vozes de clonagem TTS que replica qualquer voz a partir de apenas 5 segundos de áudio.

Línguas: en, zh, ja, ko

Clonar a Voz

ChatterboxChatterbox

Clonagem de voz de última geração com controle emotivo da IA Resemble.

Línguas: en

Clonar a Voz

Tortoise TTSTortoise TTS

Texto para voz multi-voz focado na qualidade com arquitetura autorregressiva.

Línguas: en

Clonar a Voz

OpenVoiceOpenVoice

clonagem de voz instantânea com controle granular sobre estilo, emoção e acento.

Línguas: en, zh, ja, ko, fr, es

Clonar a Voz

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnamita + Inglês TTS com 7 vozes predefinidas e clonagem de voz zero. Só CPU, não é necessário GPU.

Línguas: vi, en

Clonar a Voz

Chatterbox TurboChatterbox Turbo

Chatterbox mais rápido com latência sub-200ms e tags paralinguísticos para rir, tosse e muito mais.

Línguas: en

Clonar a Voz

VoxCPMVoxCPM

TTS sem tokenizador que produz áudio de 44,1kHz com consistência de parágrafos conscientes do contexto.

Línguas: en, zh

Clonar a Voz

OuteTTSOuteTTS

TTS baseado em LLM que funciona em CPU, GPU ou navegador via lama.cpp e Transformers.js.

Línguas: en

Clonar a Voz

Pocket TTSPocket TTS

Modelo de parâmetro de 100M leve por Kyutai com clonagem de voz de uma única amostra.

Línguas: en, fr

Clonar a Voz

CosyVoice3CosyVoice3

TTS multilingue de próxima geração com bi-streaming, controle de emoções e clonagem de voz zero-shot.

Línguas: en, zh, ja, ko, de, es, fr, it, ru

Clonar a Voz

NAMAA Saudi TTSNAMAA Saudi TTS

Primeiro aberto Saudi-Arabic TTS. Dialeto nativo saudita com clonagem de voz de qualidade Chatterbox.

Línguas: ar

Clonar a Voz

Darwin TTSDarwin TTS

Variante cross-modal Qwen3-TTS com pesos FFN misturados do modelo de linguagem Qwen3-1.7B para clonagem multilingue mais afiada.

Línguas: en, ko, ja, zh

Clonar a Voz

MOSS-TTSDMOSS-TTSD

Modelo de continuação de diálogo multi-falantes — gerar conversas em estilo podcast com até 5 alto-falantes e 60 minutos de áudio coerente.

Línguas: en, zh

Clonar a Voz

Ming-Omni TTSMing-Omni TTS

Modelo compacto de fala omni-modal 0,5B a partir da inclusãoAI com alta fidelidade 44,1kHz saída e clonagem de voz zero.

Línguas: en, zh

Clonar a Voz

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M variante MOSS-TTS — a mesma arquitetura, 80x menor, latência de nível livre.

Línguas: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Clonar a Voz

Desenvolvedor-Primeira API

API REST compatível com o OpenAI. Um endpoint, 22+ modelos. Suporte de transmissão para aplicações em tempo real.

  • Formato compatível com OpenAI
  • Streaming TTS para aplicativos em tempo real
  • Processamento por lotes para grandes empregos
  • Notificações de Webhook
Ver Docs da API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Preços simples, transparentes

Comece livre. Escala à medida que você cresce.

Grátis

$0

15.000 caracteres + 5.000/dia

  • 7 modelos gratuitos, incluindo Kokoro
  • 5000 caracteres por geração
  • Acesso API incluído
Inscreva-se gratuitamente

Início

$9/mo

500 créditos/mês

  • Todos os modelos mais de 22
  • 100.000 caracteres por geração
  • Clonagem de Voz
Comece
Mais Popular

Pro

$29/mo

2 000 créditos/mês

  • Tudo no Starter
  • Acesso à API
  • Tratamento prioritário
Obtenha Pro

Negócios

$99/mo

10 000 créditos/mês

  • Tudo em Pro
  • API Bulk
  • Fila de prioridade
Obtenha Negócios

Ver todos os planos incluindo pacotes de caracteres →

Perguntas Frequentes

TTS.ai é a plataforma de voz mais abrangente da IA, oferecendo 22+ modelos de texto a voz, clonagem de voz, voz a texto e ferramentas de áudio. Todos os modelos são de código aberto sem bloqueio de vendedor.

Sim! TTS.ai oferece texto para voz grátis com modelos Kokoro, Piper, VITS e MeloTTS. Sem necessidade de conta. Inscreva-se para obter 15.000 caracteres gratuitos e acessar todos os modelos. Planos pagos começam com $9/mês.

Para a velocidade, use Kokoro ou Piper. Para a qualidade, tente CosyVoice 2 ou StyleTTS 2. Para a clonagem de voz, use Chatterbox ou GPT-SoVITS. Para a janela, use Dia TTS. Tente vários modelos no mesmo texto para comparar.

Sim. API REST compatível com o OpenAI para TTS, STT, clonagem de voz e ferramentas de áudio. Incluída em cada plano, incluindo grátis, com limites de taxa que escalam por nível (gratuito: 10 req/min, Lite: 20, Iniciador: 30, Pro: 60, Negócios: 300). Ver documentação em tts.ai/api /.

A qualidade da voz varia segundo o modelo. Modelos premium como CosyVoice 2, StyleTTS 2, e Chatterbox produzem fala de qualidade próxima humana com intonação natural e emoção. Os modelos gratuitos como Kokoro oferecem excelente qualidade para a maioria dos casos de uso.

TTS.ai suporta mais de 30 idiomas em sua biblioteca modelo. Inglês tem o suporte mais amplo do modelo, mas modelos como CosyVoice 2 cobre chinês, japonês e coreano; GPT-SoVITS manuseia chinês, japonês, coreano e inglês; e MeloTTS suporta inglês, espanhol, francês, chinês, japonês e coreano.

Sim. Todos os processamentos acontecem em nossos servidores GPU dedicados. Não armazenamos sua entrada de texto ou áudio gerado após a entrega. As amostras de voz enviadas para clonagem são usadas apenas para a sessão atual e não são mantidas. Nunca compartilhamos seus dados com terceiros ou usá-los para treinar modelos.

Sim. Todo o áudio gerado em TTS.ai é seu para usar comercialmente, incluindo para vídeos do YouTube, podcasts, audiobooks, aplicativos, anúncios e produtos. Nossos modelos são de código aberto sob licenças permissivas (MIT, Apache 2.0). Não são necessários royalties ou atribuições.

TTS.ai gera áudio em formato WAV por padrão para a máxima qualidade. Você pode converter para MP3, FLAC, OGG ou M4A usando a nossa ferramenta Free Audio Converter. A API suporta especificar o seu formato de saída preferido diretamente no pedido.

Carregue uma pequena amostra de áudio (com 5 segundos) da voz que você quer clonar, depois digite qualquer texto para gerar a fala nessa voz. Modelos como Chatterbox, GPT-SoVITS e CosyVoice 2 suportam a clonagem de voz. A voz clonada captura o tom, o accento e o estilo de fala.

Os modelos gratuitos (Kokoro, Piper, VITS, MeloTTS) não exigem nenhuma conta e custam zero caracteres. Os modelos padrão (2.000 caracteres/1K de entrada) incluem Bark, CosyVoice 2, F5-TTS e Dia. Os modelos premium (4.000 caracteres/1K de entrada) incluem OpenVoice, Chatterbox, StyleTTS 2, e Tortoise. Os modelos pagos geralmente oferecem maior qualidade, mais vozes e recursos adicionais como clonagem de voz.

Sim. A API suporta o processamento por lotes para converter grandes volumes de texto em voz. Envie múltiplos pedidos e recupere resultados de forma sincronizada usando trabalho UUIDs. O plano de negócios (99/mo) e maior incluem o acesso prioritário à fila para processamento por lotes mais rápido. Ideal para produção de audiobook, conteúdo de curso e projetos de vozover em larga escala.
4.1/5 (42)

O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.

Comece a usar a voz da IA hoje

Junte-se a criadores, desenvolvedores e empresas usando TTS.ai