IA livre Texto ao Discurso

Parâmetros 82M Ultra-rápido Vozes expressivas Multilingual Suporte de transmissão

Modelo de parâmetro leve 82M que fornece fala de qualidade de estúdio com inferência rápida e ardente.

Rápido · 1.5GB VRAM Experimenta-o.

Piper

Amigável à CPU Desligado e capaz 100+ vozes 35 mais línguas Suporte SSML

Um texto neural rápido e local para o sistema de fala otimizado para Raspberry Pi e dispositivos incorporados.

Rápido · 0 (CPU only) VRAM Experimenta-o.

VITS

Síntese final a final Prosodia natural Inferência rápida Múltiplos alto-falantes

Autoencodador variacional condicional com aprendizagem adversarial para texto a voz.

Rápido · 1GB VRAM Experimenta-o.

MeloTTS

Optimizado pela CPU Multilingual Acentos múltiplos Preparado para a produção Baixa latência

Texto para voz multilingue de alta qualidade que funciona na CPU com latência mínima.

Rápido · 0.5GB (GPU optional) VRAM Experimenta-o.

Bark

Efeitos sonoros Rindo/pesagem Geração de música 100+ falantes Multilingual

Modelo text-to-audio baseado em transformadores que gera efeitos realistas de fala, música e som.

Devagar · 5GB VRAM Experimenta-o.

Bark Small

Ligeira Mais rápido do que a barra cheia Discurso emocional Multilingual

Versão mais leve de Bark com inferência mais rápida e menor uso de memória.

Médio · 2GB VRAM Experimenta-o.

CosyVoice 2

Fluxo Clonagem de tiro zero Translingual Controlo da emoção Paridade humana

A escalable streaming TTS da Alibaba com naturalidade de paridade humana e latência perto de zero.

Dia TTS

Múltiplos falantes Geração de diálogo Torneiras naturais Expressão emocional Parâmetros 1.6B

Modelo de geração de diálogo multi-falantes que cria conversas naturais entre alto-falantes.

Parler TTS

Descrição da voz Controlo da linguagem natural Criação de voz flexível Não precisam de vozes predefinidas

Descreva a voz que você quer em linguagem natural e o Parler gera fala correspondente.

Indic Parler TTS

11 línguas indianas Descrição da voz Controlo da linguagem natural Pronúncia índica autêntica

Fala de alta qualidade para mais de 8 línguas indianas com controle de voz em língua natural.

Devagar · 8GB VRAM Experimenta-o.

KhanomTan TTS

TTS tailandês Múltiplos alto-falantes Arquitetura do seuTTS Licença comercial-safe

Tailandês-primeiro texto-a- voz com uma escolha de vozes de alto-falante.

Rápido · 2GB VRAM Experimenta-o.

IndexTTS-2

Controlo da emoção Quadro zero Vetores de emoção Discurso expressivo Controlo de centeio fino

TTS zero-hot com controle de emoções finamente cerâmico e alta expressividade.

Spark TTS

Clonagem de voz Controlo da emoção Controlo do estilo Baseado em prontuário clonagem de 5-segundos

Clonagem de voz TTS com emoção controlável e estilo de fala através de prompts.

GPT-SoVITS

clonagem de 5-segundos Cantar a voz Aprendizagem pouco excitante Alta fidelidade Translingual

Poucas vozes de clonagem TTS que replica qualquer voz a partir de apenas 5 segundos de áudio.

Devagar · 6GB VRAM Experimenta-o.

Orpheus

Emoção a nível humano 100K horas de treinamento ênfase natural Discurso expressivo

Modelo de TTS emocional de nível humano treinado em 100K horas de dados de fala.

Chatterbox

Clonagem de tiro zero Controlo da emoção Alta fidelidade Transferência de estilo Clonagem de amostra única

Clonagem de voz de última geração com controle emotivo da IA Resemble.

Tortoise TTS

Qualidade mais alta Multi-vozes Arquitetura DALL-E Clonagem de voz Autoregressiva

Texto para voz multi-voz focado na qualidade com arquitetura autorregressiva.

Devagar · 8GB VRAM Experimenta-o.

StyleTTS 2

Nível humano Difusão do estilo Formação adversarial Variação natural Alta fidelidade

Texto a voz humana através da difusão do estilo e do treinamento adversario.

OpenVoice

clonagem instantânea Conversão de voz Controlo da emoção Controlo de acontecimentos Multilingual

clonagem de voz instantânea com controle granular sobre estilo, emoção e acento.

Qwen3 TTS

9 vozes predefinidas Design de voz a partir de texto Controlo da emoção 10 línguas

O TTS multilingue da Alibaba com vozes predefinidas e design de voz do texto.

Médio · 7GB VRAM Experimenta-o.

VieNeu-TTS-v2

7 vozes predefinidas (Acentos Norte e Sul) Comutador de códigos En-Vi Clonagem de voz (3-5s de referência) Suporte de podcast / multi- falante Só CPU — não é necessário GPU

Vietnamita + Inglês TTS com 7 vozes predefinidas e clonagem de voz zero. Só CPU, não é necessário GPU.

Rápido · CPU VRAM Experimenta-o.

Sesame CSM

Conversação Calendário natural Aperta de turnos Backcanal Parâmetros 1B

Modelo de fala conversacional gerando diálogo natural com tempo e emoção adequados.

Devagar · 8GB VRAM Experimenta-o.

Chatterbox Turbo

Latência sub-200ms Etiquetas paralinguísticas 6x em tempo real Clonagem de voz Marcação de água

Chatterbox mais rápido com latência sub-200ms e tags paralinguísticos para rir, tosse e muito mais.

Rápido · 2GB VRAM Experimenta-o.

VoxCPM

áudio de 44,1kHz Sem tokenizador Clonagem translingüe Conhecimento do contexto Ajuste fino da LoRA

TTS sem tokenizador que produz áudio de 44,1kHz com consistência de parágrafos conscientes do contexto.

Rápido · 4GB VRAM Experimenta-o.

Kani TTS 2

3GB VRAM Ultra-rápido Ligeira NanoCodec Grátis

Modelo TTS Inglês Ultra-Lightweight 400M executando-se em apenas 3GB VRAM.

Rápido · 3GB VRAM Experimenta-o.

OuteTTS

Inferência da CPU Inferência do navegador Múltiplos motores Perfis de falantes

TTS baseado em LLM que funciona em CPU, GPU ou navegador via lama.cpp e Transformers.js.

Devagar · 2GB VRAM Experimenta-o.

VibeVoice

Múltiplos falantes Até 90 min Geração de Podcast Consistência dos oradores streaming de 200ms

Modelo Microsoft para conteúdo multi-falante de forma longa, como podcasts e audiobooks.

Rápido · 4GB VRAM Experimenta-o.

Pocket TTS

Parâmetros de 100M Inferência da CPU Clonagem de voz Clonagem de amostra única Preparado para a borda

Modelo de parâmetro de 100M leve por Kyutai com clonagem de voz de uma única amostra.

Rápido · 1GB VRAM Experimenta-o.

Kitten TTS

Inferência apenas da CPU Debaixo do tamanho do modelo 80MB 8 vozes incorporadas Controlo de velocidade Baseado na ONNX Saída de 24kHz

TTS ultra-luz sob 80MB. Execução na CPU sem GPU.

Rápido · 0GB VRAM Experimenta-o.

CosyVoice3

Bi-streaming Controlo da emoção Clonagem de voz Controlo de velocidade/volume Instrução seguinte

TTS multilingue de próxima geração com bi-streaming, controle de emoções e clonagem de voz zero-shot.

Rápido · 4GB VRAM Experimenta-o.

NAMAA Saudi TTS

Dialeto árabe saudita Arábico Padrão Moderno Clonagem de voz a zero fogo Controlo da emoção Pronúncia nativa

Primeiro aberto Saudi-Arabic TTS. Dialeto nativo saudita com clonagem de voz de qualidade Chatterbox.

Médio · 6GB VRAM Experimenta-o.

Darwin TTS

Clonagem de voz Translingual PFN-blended 4 línguas básicas Correspondência da coluna vertebral Qwen3

Variante cross-modal Qwen3-TTS com pesos FFN misturados do modelo de linguagem Qwen3-1.7B para clonagem multilingue mais afiada.

Médio · 7GB VRAM Experimenta-o.

MOSS-TTSD

Diálogo multi-falante Até 5 oradores áudio coerente de 60 minutos Clonagem de voz Podcast-optimizado

Modelo de continuação de diálogo multi-falantes — gerar conversas em estilo podcast com até 5 alto-falantes e 60 minutos de áudio coerente.

Médio · 12GB VRAM Experimenta-o.

Ming-Omni TTS

Saída de 44,1kHz Clonagem de voz Controlo da emoção Controlo dialéctico Geração de MGB Compacto 0.5B

Modelo compacto de fala omni-modal 0,5B a partir da inclusãoAI com alta fidelidade 44,1kHz saída e clonagem de voz zero.

Médio · 3GB VRAM Experimenta-o.

MOSS-TTS Nano