IA livre Texto ao Discurso

31+ modelos de código aberto, 231+ vozes, 34+ Línguas. Não é necessária conta.

8K+
criadores
30K+
gerações
31+
Modelos de IA
231+
vozes
0/500 caracteres · Sign up for 5,000 per generation → Grátis
Gosta do TTS.ai? Conte aos seus amigos!

Tudo o que você precisa para a IA de voz

30+ ferramentas alimentadas por modelos de IA de código aberto

31+ Modelos de Voz da IA

A coleção mais abrangente de modelos TTS de código aberto em uma plataforma

KokoroKokoro Free

Kokoro é um parâmetro de 82 milhões de parâmetros do modelo text-to-speech que soca muito acima de sua classe de peso. Apesar de seu pequeno tamanho, produz discursos notavelmente naturais e expressivos. Kokoro suporta múltiplos idiomas, incluindo inglês, japonês, chinês e coreano com uma variedade de vozes expressivas. Ele funciona incrivelmente rápido — gerando áudio quase 100x mais rápido do que em tempo real em uma GPU.

Melhor para: TTS de alta qualidade com latência mínima, aplicativos de streaming

Tente Gratuito

PiperPiper Free

O Piper é um motor leve de texto a voz desenvolvido pelo Rhasspy que utiliza arquiteturas VITS e laringe. Funciona inteiramente na CPU, tornando-o ideal para dispositivos de borda, automação domiciliar e aplicações que requerem TTS offline. Com mais de 100 vozes em mais de 30 idiomas, o Piper oferece fala natural a velocidades em tempo real mesmo em um Raspberry Pi 4.

Melhor para: Visualizações rápidas, acessibilidade e aplicações incorporadas

Tente Gratuito

VITSVITS Free

O VITS (Inferência Variacional com Aprendizagem adversarial para Texto-a-Função) é um método paralelo do TTS-Fundação que gera áudio sonoro mais natural do que os modelos atuais de dois estágios. Adota inferência variacional aumentada com fluxos de normalização e um processo de treinamento adversario, alcançando uma melhora significativa da naturalidade.

Melhor para: Para uso geral, texto a voz com prosódia natural

Tente Gratuito

MeloTTSMeloTTS Free

MeloTTS by MyShell.ai é uma biblioteca multilingue de TTS que apoia o inglês (americano, britânico, indiano, australiano), espanhol, francês, chinês, japonês e coreano. É extremamente rápido, processando texto em quase velocidade em tempo real na CPU sozinho. MeloTTS é projetado para uso de produção e suporta tanto a inferência CPU como GPU.

Melhor para: Aplicações de produção que precisam de TTS rápido e multilingue

Tente Gratuito

OuteTTSOuteTTS Free

OuteTTS estende grandes modelos de linguagem com capacidades de texto a voz, preservando a arquitetura original. Ele suporta múltiplos backends incluindo lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e até mesmo inferência do navegador via Transformers.js. Características de clonagem de voz zero-shot através de perfis de alto-falante salvos como JSON.

Melhor para: Implementação de borda, TTS baseado no navegador, ambientes de baixo recurso

Tente Gratuito

Pocket TTSPocket TTS Free

Pocket TTS by Kyutai (creadores de Moshi) é um parâmetro compacto de 100M de texto a voz que sopra bem acima do seu peso. Ele funciona de forma eficiente na CPU, suporta clonagem de voz zero-hot a partir de uma única amostra de áudio, e produz fala de som natural. O pequeno tamanho do modelo torna-o ideal para a implantação de bordas e ambientes de baixo recurso.

Melhor para: Ligeira implantação, ambientes apenas CPU, clonagem de voz rápida

Tente Gratuito

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Melhor para: Fast lightweight TTS, edge deployment, low-latency applications

Tente Gratuito

BarkBark Standard

Modelo text-to-audio baseado em transformadores que gera efeitos realistas de fala, música e som.

Desenvolvedor: Suno · Licença: MIT

Experimenta-o.

Bark SmallBark Small Standard

Versão mais leve de Bark com inferência mais rápida e menor uso de memória.

Desenvolvedor: Suno · Licença: MIT

Experimenta-o.

CosyVoice 2CosyVoice 2 Standard

A escalable streaming TTS da Alibaba com naturalidade de paridade humana e latência perto de zero.

Desenvolvedor: Alibaba (Tongyi Lab) · Licença: Apache 2.0

Experimenta-o.

Dia TTSDia TTS Standard

Modelo de geração de diálogo multi-falantes que cria conversas naturais entre alto-falantes.

Desenvolvedor: Nari Labs · Licença: Apache 2.0

Experimenta-o.

Parler TTSParler TTS Standard

Descreva a voz que você quer em linguagem natural e o Parler gera fala correspondente.

Desenvolvedor: Hugging Face · Licença: Apache 2.0

Experimenta-o.

GLM-TTSGLM-TTS Standard

Alcança a menor taxa de erro de caráter entre os modelos de código aberto TTS.

Desenvolvedor: Zhipu AI · Licença: GLM-4 License

Experimenta-o.

IndexTTS-2IndexTTS-2 Standard

TTS zero-hot com controle de emoções finamente cerâmico e alta expressividade.

Desenvolvedor: Index Team · Licença: Bilibili Model License

Experimenta-o.

Spark TTSSpark TTS Standard

Clonagem de voz TTS com emoção controlável e estilo de fala através de prompts.

Desenvolvedor: SparkAudio · Licença: CC BY-NC-SA 4.0

Experimenta-o.

GPT-SoVITSGPT-SoVITS Standard

Poucas vozes de clonagem TTS que replica qualquer voz a partir de apenas 5 segundos de áudio.

Desenvolvedor: RVC-Boss · Licença: MIT

Experimenta-o.

OrpheusOrpheus Standard

Modelo de TTS emocional de nível humano treinado em 100K horas de dados de fala.

Desenvolvedor: Canopy Labs · Licença: Llama 3.2 Community

Experimenta-o.

Qwen3 TTSQwen3 TTS Standard

TTS multilingue da Alibaba com clonagem de voz, vozes predefinidas e design de voz a partir de texto.

Desenvolvedor: Alibaba (Qwen) · Licença: Apache 2.0

Experimenta-o.

Chatterbox TurboChatterbox Turbo Standard

Chatterbox mais rápido com latência sub-200ms e tags paralinguísticos para rir, tosse e muito mais.

Desenvolvedor: Resemble AI · Licença: MIT

Experimenta-o.

Dia 2Dia 2 Standard

Streaming-primeiro TTS conversacional com diálogo multi-falantes e pistas paralinguísticas.

Desenvolvedor: Nari Labs · Licença: Apache 2.0

Experimenta-o.

VoxCPMVoxCPM Standard

TTS sem tokenizador que produz áudio de 44,1kHz com consistência de parágrafos conscientes do contexto.

Desenvolvedor: OpenBMB · Licença: Apache 2.0

Experimenta-o.

TADATADA Standard

TTS de halucinação zero com alinhamento duplo acústico-texto, 5x mais rápido do que o LLM TTS comparável.

Desenvolvedor: Hume AI · Licença: MIT

Experimenta-o.

VibeVoiceVibeVoice Standard

Modelo Microsoft para conteúdo multi-falante de forma longa, como podcasts e audiobooks.

Desenvolvedor: Microsoft · Licença: MIT

Experimenta-o.

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Desenvolvedor: Alibaba (FunAudioLLM) · Licença: Apache 2.0

Experimenta-o.

ChatterboxChatterbox Premium

Clonagem de voz de última geração com controle emotivo da IA Resemble.

Qualidade:

Experimenta-o.

Tortoise TTSTortoise TTS Premium

Texto para voz multi-voz focado na qualidade com arquitetura autorregressiva.

Qualidade:

Experimenta-o.

StyleTTS 2StyleTTS 2 Premium

Texto a voz humana através da difusão do estilo e do treinamento adversario.

Qualidade:

Experimenta-o.

OpenVoiceOpenVoice Premium

clonagem de voz instantânea com controle granular sobre estilo, emoção e acento.

Qualidade:

Experimenta-o.

Sesame CSMSesame CSM Premium

Modelo de fala conversacional gerando diálogo natural com tempo e emoção adequados.

Qualidade:

Experimenta-o.

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Qualidade:

Experimenta-o.

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Qualidade:

Experimenta-o.

CosyVoice 2CosyVoice 2

A escalable streaming TTS da Alibaba com naturalidade de paridade humana e latência perto de zero.

Línguas: en, zh, ja, ko, fr, de, it, es

Clonar a Voz

GLM-TTSGLM-TTS

Alcança a menor taxa de erro de caráter entre os modelos de código aberto TTS.

Línguas: en, zh

Clonar a Voz

IndexTTS-2IndexTTS-2

TTS zero-hot com controle de emoções finamente cerâmico e alta expressividade.

Línguas: en, zh

Clonar a Voz

Spark TTSSpark TTS

Clonagem de voz TTS com emoção controlável e estilo de fala através de prompts.

Línguas: en, zh

Clonar a Voz

GPT-SoVITSGPT-SoVITS

Poucas vozes de clonagem TTS que replica qualquer voz a partir de apenas 5 segundos de áudio.

Línguas: en, zh, ja, ko

Clonar a Voz

ChatterboxChatterbox

Clonagem de voz de última geração com controle emotivo da IA Resemble.

Línguas: en

Clonar a Voz

Tortoise TTSTortoise TTS

Texto para voz multi-voz focado na qualidade com arquitetura autorregressiva.

Línguas: en

Clonar a Voz

OpenVoiceOpenVoice

clonagem de voz instantânea com controle granular sobre estilo, emoção e acento.

Línguas: en, zh, ja, ko, fr, de, es, it

Clonar a Voz

Qwen3 TTSQwen3 TTS

TTS multilingue da Alibaba com clonagem de voz, vozes predefinidas e design de voz a partir de texto.

Línguas: en, zh, ja, ko, de, fr, ru, pt, es, it

Clonar a Voz

Chatterbox TurboChatterbox Turbo

Chatterbox mais rápido com latência sub-200ms e tags paralinguísticos para rir, tosse e muito mais.

Línguas: en

Clonar a Voz

VoxCPMVoxCPM

TTS sem tokenizador que produz áudio de 44,1kHz com consistência de parágrafos conscientes do contexto.

Línguas: en, zh

Clonar a Voz

OuteTTSOuteTTS

TTS baseado em LLM que funciona em CPU, GPU ou navegador via lama.cpp e Transformers.js.

Línguas: en

Clonar a Voz

Pocket TTSPocket TTS

Modelo de parâmetro de 100M leve por Kyutai com clonagem de voz de uma única amostra.

Línguas: en, fr

Clonar a Voz

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Línguas: en, zh, ja, ko, de, es, fr, it, ru

Clonar a Voz

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Línguas: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Clonar a Voz

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Línguas: en, zh

Clonar a Voz

Desenvolvedor-Primeira API

API REST compatível com o OpenAI. Um endpoint, 22+ modelos. Suporte de transmissão para aplicações em tempo real.

  • Formato compatível com OpenAI
  • Streaming TTS para aplicativos em tempo real
  • Processamento por lotes para grandes empregos
  • Notificações de Webhook
Ver Docs da API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Preços simples, transparentes

Comece livre. Escala à medida que você cresce.

Grátis

$0

15 créditos

  • Kokoro, Piper, VITS, MeloTTS
  • Limite de 500 caracteres
  • 3 gen/hora (sem conta)
Inscreva-se gratuitamente

Início

$9/mo

500 créditos/mês

  • Todos os modelos mais de 22
  • 100.000 caracteres por geração
  • Clonagem de Voz
Comece
Mais Popular

Pro

$29/mo

2 000 créditos/mês

  • Tudo no Starter
  • Acesso à API
  • Tratamento prioritário
Obtenha Pro

Negócios

$99/mo

10 000 créditos/mês

  • Tudo em Pro
  • API Bulk
  • Fila de prioridade
Obtenha Negócios

Ver todos os planos incluindo pacotes de caracteres →

Perguntas Frequentes

TTS.ai é a plataforma de voz mais abrangente da IA, oferecendo 22+ modelos de texto a voz, clonagem de voz, voz a texto e ferramentas de áudio. Todos os modelos são de código aberto sem bloqueio de vendedor.

Sim! TTS.ai oferece texto para voz grátis com modelos Kokoro, Piper, VITS e MeloTTS. Sem necessidade de conta. Inscreva-se para obter 15.000 caracteres gratuitos e acessar todos os modelos. Planos pagos começam com $9/mês.

Para a velocidade, use Kokoro ou Piper. Para a qualidade, tente CosyVoice 2 ou StyleTTS 2. Para a clonagem de voz, use Chatterbox ou GPT-SoVITS. Para a janela, use Dia TTS. Tente vários modelos no mesmo texto para comparar.

Sim. API REST compatível com o OpenAI para TTS, STT, clonagem de voz e ferramentas de áudio. Disponível em Pro ($29/mo) e Enterprise ($99/mo) planos. Ver documentação em tts.ai/api/.

A qualidade da voz varia segundo o modelo. Modelos premium como CosyVoice 2, StyleTTS 2, e Chatterbox produzem fala de qualidade próxima humana com intonação natural e emoção. Os modelos gratuitos como Kokoro oferecem excelente qualidade para a maioria dos casos de uso.

TTS.ai suporta mais de 30 idiomas em sua biblioteca modelo. Inglês tem o suporte mais amplo do modelo, mas modelos como CosyVoice 2 cobre chinês, japonês e coreano; GPT-SoVITS manuseia chinês, japonês, coreano e inglês; e MeloTTS suporta inglês, espanhol, francês, chinês, japonês e coreano.

Sim. Todos os processamentos acontecem em nossos servidores GPU dedicados. Não armazenamos sua entrada de texto ou áudio gerado após a entrega. As amostras de voz enviadas para clonagem são usadas apenas para a sessão atual e não são mantidas. Nunca compartilhamos seus dados com terceiros ou usá-los para treinar modelos.

Sim. Todo o áudio gerado em TTS.ai é seu para usar comercialmente, incluindo para vídeos do YouTube, podcasts, audiobooks, aplicativos, anúncios e produtos. Nossos modelos são de código aberto sob licenças permissivas (MIT, Apache 2.0). Não são necessários royalties ou atribuições.

TTS.ai gera áudio em formato WAV por padrão para a máxima qualidade. Você pode converter para MP3, FLAC, OGG ou M4A usando a nossa ferramenta Free Audio Converter. A API suporta especificar o seu formato de saída preferido diretamente no pedido.

Carregue uma pequena amostra de áudio (com 5 segundos) da voz que você quer clonar, depois digite qualquer texto para gerar a fala nessa voz. Modelos como Chatterbox, GPT-SoVITS e CosyVoice 2 suportam a clonagem de voz. A voz clonada captura o tom, o accento e o estilo de fala.

Os modelos gratuitos (Kokoro, Piper, VITS, MeloTTS) não exigem nenhuma conta e custam zero caracteres. Os modelos padrão (2.000 caracteres/1K de entrada) incluem Bark, CosyVoice 2, F5-TTS e Dia. Os modelos premium (4.000 caracteres/1K de entrada) incluem OpenVoice, Chatterbox, StyleTTS 2, e Tortoise. Os modelos pagos geralmente oferecem maior qualidade, mais vozes e recursos adicionais como clonagem de voz.

Sim. A API suporta o processamento por lotes para converter grandes volumes de texto em voz. Enviar vários pedidos e recuperar resultados de forma sincrona usando o trabalho UUIDs. Planos de empresas ($99/mo) incluem acesso prioritário à fila para processamento por lotes mais rápido. Ideal para produção de audiobook, conteúdo de curso e projetos de vozover em larga escala.
4.1/5 (21)

O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.

Comece a usar a voz da IA hoje

Junte-se a criadores, desenvolvedores e empresas usando TTS.ai