Texto a voz de IAName

Converta texto en voz natural con máis de 24 modelos de IA de código aberto. Uso gratuíto, non se require conta.

Non o facemos. Vender a túa voz
0/500 caracteres
Inscríbete límite de 5. 000 caracteres

Incluír o texto en etiquetas SSML para un control preciso:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Engadir marcadores de emoción para influír na entrega (o soporte do modelo varía):

Definir pronunciacións personalizadas (palabra = pronunciación):

-12 +12
0.5x 2.0x
Libre con Piper, VITS, MeloTTS
O son xerado aparecerá aquí. Escolla un modelo, introduza o texto e prema Xerar.
O son xerou correctamente
Obter o son A ligazón caduca en 24 horas
Encántalle TTS.ai? Cóntallo aos teus amigos!

Detalles do modelo

OuteTTS

OuteTTS

Free

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Desenvolvente: OuteAI
Licenza: Apache 2.0
Velocidade Fast
Calidade:
linguas 1 lingua
VRAM 2GB
Clonaxe de voz Soportado
Características:
CPU inference Browser inference Voice cloning Multiple backends Speaker profiles
Mellor para:: Edge deployment, browser-based TTS, low-resource environments

Consellos para obter mellores resultados

  • Empregar a puntuación axeitada para pausas e entoación naturais
  • Ortografía os números e abreviaturas para unha pronuncia máis clara
  • Engadir vírgulas para crear pausas curtas entre frases
  • Empregar reticencias (...) para pausas dramáticas máis longas
  • Probe Kokoro ou CosyVoice 2 para obter os resultados máis naturais
  • Empregar Dia para diálogos multifalante e contido de podcast

Custos de crédito

Tier Custo por 1K caracteres
Libre 0 créditos (sen límite)
Estándar 2 créditos / 1K caracteres
Premium 4 créditos / 1K caracteres

Como funciona a conversión de texto a voz da IA

Xere voces de calidade profesional en tres pasos sinxelos. Non se requiren coñecementos técnicos.

Paso 1

Introduza o seu texto

Escriba, apegue ou envíe o texto que queira converter en voz. Soporta ata 5. 000 caracteres por xeración para usuarios con sesión iniciada. Empregue texto simple ou engada etiquetas SSML para un control avanzado da pronuncia, pausas e énfase.

Paso 2

Escoller o modelo e a voz

Escolla entre máis de 20 modelos de IA en tres niveis. Escolla unha voz que coincida co seu contido, escolla a lingua de destino, axuste a velocidade de reprodución de 0, 5x a 2, 0x e escolla o formato de saída preferido (MP3, WAV, OGG ou FLAC).

Paso 3

Xerar e obter

Prema Xerar e o son estará listo en segundos. Previsualice co reprodutor incorporado, descargue no formato escollido ou copie unha ligazón compartible. Empregue a API para procesamento por lotes e integración no seu fluxo de traballo.

Casos de uso de Texto- para- Fala

O texto-a-fala impulsado pola IA está a transformar a forma en que a xente crea, consome e interactúa co contido de audio en decenas de industrias.

Todos os modelos de síntese de voz

Especificacións detalladas para cada modelo de IA dispoñíbel en TTS.ai. Compare a calidade, velocidade, soporte de linguas e características para atopar o modelo perfecto para o seu proxecto.

KokoroKokoro

Free

Kokoro é un modelo de síntese de voz de 82 millóns de parámetros que supera con creces a súa clase de peso. A pesar do seu tamaño minúsculo, produce unha fala extraordinariamente natural e expresiva. Kokoro soporta múltiples linguas, incluíndo inglés, xaponés, chinés e coreano cunha variedade de voces expresivas. Executase incribelmente rápido, xerando son case 100 veces máis rápido que en tempo real nunha GPU.

Desenvolvente::
Hexgrad
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
VRAM:
1.5GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
Libre
Parámetros de 82M Ultrarrápido Voces expresivas Multilingüe Soporte de transmisión
Mellor para:: TTS de alta calidade con latencia mínima, aplicacións de transmisión

PiperPiper

Free

Piper é un motor lixeiro de síntese de voz desenvolvido por Rhasspy que emprega as arquitecturas VITS e larynx. Execútase completamente na CPU, o que o fai ideal para dispositivos periféricos, automatización doméstica e aplicacións que requiran TTS sen conexión. Con máis de 100 voces en máis de 30 idiomas, Piper ofrece voz natural a velocidades en tempo real mesmo nun Raspberry Pi 4.

Desenvolvente::
Rhasspy
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
VRAM:
0 (CPU only)
Clonaxe de voz:
Non
Custo por 1K caracteres:
Libre
Amigable coa CPU Capaz de traballar sen conexión Máis de 100 voces 30+ linguas Soporte de SSML
Mellor para:: Vistas previas rápidas, accesibilidade e programas incorporados

VITSVITS

Free

VITS (Variational Inference with adversarial learning for end- to- end Text- to- Speech) é un método de TTS paralelo de extremo a extremo que xera un son máis natural que os modelos actuais de dúas etapas. Adopta a inferencia variacional aumentada con fluxos normalizadores e un proceso de adestramento adversario, logrando unha mellora significativa na naturalidade.

Desenvolvente::
Jaehyeon Kim et al.
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas:
en, zh, ja, ko
VRAM:
1GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
Libre
Síntese completa Prosodia natural Inferencia rápida Múltiplos altofalantes
Mellor para:: Texto a voz de propósito xeral con prosodia natural

MeloTTSMeloTTS

Free

MeloTTS de MyShell. ai é unha biblioteca de TTS multilingüe que admite inglés (americano, británico, indio, australiano), español, francés, chinés, xaponés e coreano. É extremadamente rápida, procesando o texto a unha velocidade case en tempo real só na CPU. MeloTTS está deseñado para uso en produción e admite a inferencia tanto na CPU como na GPU.

Desenvolvente::
MyShell.ai
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas:
en, es, fr, zh, ja, ko
VRAM:
0.5GB (GPU optional)
Clonaxe de voz:
Non
Custo por 1K caracteres:
Libre
Optimizado para a CPU Multilingüe Múltiples acentos Listo para a produción Baixa latencia
Mellor para:: Aplicativos de produción que precisan de TTS rápido e multilingüe

BarkBark

Standard

Bark de Suno é un modelo de transformación de texto en son baseado en transformadores que pode xerar fala multilingüe altamente realista, así como outros sons como música, ruído de fondo e efectos sonoros. Pode producir comunicacións non verbais como risas, suspiros e choros. Bark admite máis de 100 altofalantes predefinidos e máis de 13 idiomas.

Desenvolvente::
Suno
Licenza::
MIT
Velocidade:
Slow
Calidade::
linguas:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
5GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
2x
Efectos de son Rir/Suspirar Xeración de música 100+ altofalantes Multilingüe
Mellor para:: Contido de son creativo, audiolibros con emocións, efectos sonoros

Bark SmallBark Small

Standard

Bark Small é unha versión destilada do modelo Bark que troca algunha calidade de son por velocidades de inferencia significativamente máis rápidas e menores requirimentos de memoria. Conserva a capacidade de Bark de xerar fala con emocións, risas e varias linguas.

Desenvolvente::
Suno
Licenza::
MIT
Velocidade:
Medium
Calidade::
linguas:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
2GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
2x
Lixeiro Máis rápido que a corteza completa Fala emocional Multilingüe
Mellor para:: Son creativo rápido cando o cortexo completo é lento de máis

CosyVoice 2CosyVoice 2

Standard

CosyVoice 2 do laboratorio Tongyi de Alibaba consegue unha calidade de fala comparable á humana cunha latencia extremadamente baixa, o que o fai ideal para aplicacións en tempo real. Emprega un enfoque de cuantización escalar finita para a síntese en fluxo e admite a clonación de voz a tiro cero, síntese entre linguas e control de emocións de gran fino. Supera a moitos sistemas TTS comerciais en avaliacións subxectivas.

Desenvolvente::
Alibaba (Tongyi Lab)
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en, zh, ja, ko, fr, de, it, es
VRAM:
4GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
2x
Retransmisión Clonaxe de disparo cero Multilingüe Control de emocións Paridade humana
Mellor para:: Aplicativos en tempo real, transmisión de TTS, asistentes de voz

Dia TTSDia TTS

Standard

Dia de Nari Labs é un modelo de síntese de texto a voz de 1. 6B de parámetros deseñado especificamente para xerar diálogos de varios falantes. Pode producir conversas de son natural entre dous falantes con turnos axeitados, prosodia e expresión emocional. Dia é perfecto para crear contidos ao estilo de podcasts, diálogos de audiolibros e IA conversacional interactiva.

Desenvolvente::
Nari Labs
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en
VRAM:
4GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
2x
Altofalante múltiple Xeración de diálogos Toma de turnos naturais Expresión emocional Parámetros de 1. 6B
Mellor para:: Podcasts, diálogos de audiolibros, contido conversacional

Parler TTSParler TTS

Standard

Parler TTS é un modelo de síntese de texto a voz que emprega descricións de voz de linguaxe natural para controlar a fala xerada. No canto de escoller entre voces predefinidas, descríbese a voz que se queira (por ex. « unha voz feminina cálida cun lixeiro acento británico, falando devagar e claramente ») e Parler xera a fala que coincida con esa descrición. Isto faino excepcionalmente flexible para aplicacións creativas.

Desenvolvente::
Hugging Face
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en
VRAM:
4GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
2x
Descrición da voz Control da linguaxe natural Creación de voz flexible Non se precisan voces predefinidas
Mellor para:: Aplicativos creativos nos que se precisan características de voz personalizadas

GLM-TTSGLM-TTS

Standard

GLM- TTS de Zhipu AI é un sistema de texto a voz construído sobre a arquitectura Llama con coincidencia de fluxo. Consegue a taxa de erro de caracteres máis baixa entre os modelos TTS de código aberto, o que significa que produce a pronunciación máis precisa. GLM- TTS admite inglés e chinés con clonación de voz a partir de mostras de son de 3- 10 segundos.

Desenvolvente::
Zhipu AI
Licenza::
GLM-4 License
Velocidade:
Medium
Calidade::
linguas:
en, zh
VRAM:
4GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
2x
Taxa de erro máis baixa Clonaxe de voz Coincidencia de fluxo Prosodia natural
Mellor para:: Programas que requiren a máxima precisión na pronunciaciónName

IndexTTS-2IndexTTS-2

Standard

IndexTTS- 2 é un sistema avanzado de síntese de texto a voz que sobresae na síntese de voz de tiro cero co control de emocións de gran fino. Pode xerar fala con tons emocionais específicos como feliz, triste, enfadado ou asustado sen requirir datos de adestramento específicos de emocións. O modelo emprega vectores de emocións para controlar con precisión a expresión emocional da fala xerada.

Desenvolvente::
Index Team
Licenza::
Bilibili Model License
Velocidade:
Medium
Calidade::
linguas:
en, zh
VRAM:
4GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
2x
Control de emocións Zero-shot Vectores de emocións Fala expresiva Control de gran fino
Mellor para:: Contido emocionalmente expresivo, audiolibros, asistentes virtuais

Spark TTSSpark TTS

Standard

Spark TTS de SparkAudio é un modelo de texto a voz que combina a clonación de voz con emocións controlábeis e estilo de fala. Usando só 5 segundos de son de referencia, pode clonar unha voz e logo xerar fala con diferentes emocións, velocidades e estilos mantendo a identidade da voz clonada. Spark TTS emprega un sistema de control baseado en mensaxes.

Desenvolvente::
SparkAudio
Licenza::
CC BY-NC-SA 4.0
Velocidade:
Medium
Calidade::
linguas:
en, zh
VRAM:
4GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
2x
Clonaxe de voz Control de emocións Control de estilo Baseado en preguntas Clonaxe de 5 segundos
Mellor para:: Creación de contidos con voces clonadas e control emocional

GPT-SoVITSGPT-SoVITS

Standard

GPT- SoVITS combina o modelado da linguaxe ao estilo de GPT con SoVITS (Singing Voice Inference via Translation and Synthesis) para unha potente clonación de voz en poucas tomas. Con tan só 5 segundos de son de referencia, pode clonar con precisión unha voz e xerar un novo discurso preservando as características únicas do falante. Excele tanto na síntese de voz falada como cantada.

Desenvolvente::
RVC-Boss
Licenza::
MIT
Velocidade:
Slow
Calidade::
linguas:
en, zh, ja, ko
VRAM:
6GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
2x
Clonaxe de 5 segundos Voz cantando Aprendizaxe de poucas tomas Alta fidelidade Multilingüe
Mellor para:: Clonaxe de voz, síntese de canto, replicación da voz do creador do contido

OrpheusOrpheus

Standard

Orpheus é un modelo de síntese de voz a gran escala que consegue a expresión emocional a nivel humano. Adestrado con máis de 100. 000 horas de datos de fala diversos, sobresae na xeración de fala con emocións naturais, énfase e estilos de fala. Orpheus pode producir fala que é virtualmente indistinguible das gravacións humanas.

Desenvolvente::
Canopy Labs
Licenza::
Llama 3.2 Community
Velocidade:
Medium
Calidade::
linguas:
en
VRAM:
4GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
2x
Emoción a nivel humano 100K horas de adestramento Accento natural Fala expresiva
Mellor para:: Fala emocional de alta calidade, audiolibros, dobraxe

ChatterboxChatterbox

Premium

Chatterbox de Resemble AI é un modelo de clonaxe de voz de vangarda. Pode replicar calquera voz a partir dunha soa mostra de son cunha precisión notable, capturando non só o timbre senón tamén o estilo de fala e os matices emocionais. Chatterbox tamén conta cun control de emocións de gran fino, que lle permite axustar o ton emocional da fala xerada independentemente da identidade da voz.

Desenvolvente::
Resemble AI
Licenza::
MIT
Velocidade:
Medium
Calidade::
linguas:
en
VRAM:
4GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
4x
Clonaxe de disparo cero Control de emocións Alta fidelidade Transferencia de estilo Clonaxe dunha soa mostra
Mellor para:: Clonaxe profesional de voz con control emocional, creación de contidos

Tortoise TTSTortoise TTS

Premium

O Tortoise TTS é un sistema de síntese de voz multi- voz autorregressivo que prioriza a calidade do son sobre a velocidade. Emprega unha arquitectura inspirada en DALL- E para xerar unha fala moi natural cunha excelente prosodia e semellanza co falante. Aínda que é máis lento que moitas alternativas, o Tortoise produce algunhas das falas sintéticas máis realistas dispoñíbeis no ecosistema de código aberto.

Desenvolvente::
James Betker
Licenza::
Apache 2.0
Velocidade:
Slow
Calidade::
linguas:
en
VRAM:
8GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
4x
Calidade máxima Multi- voz Arquitectura DALL- E Clonaxe de voz Auto- regresivo
Mellor para:: Audiolibros, contido premium, aplicacións de calidade

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 consegue a síntese TTS a nivel humano combinando a difusión de estilos co adestramento adversario empregando grandes modelos de linguaxe de fala. Xera a fala de son máis natural entre os modelos dun só falante, rivalizando coas gravacións humanas. StyleTTS 2 emprega o modelado de estilos baseado na difusión para capturar toda a gama de variación da fala humana.

Desenvolvente::
Columbia University
Licenza::
MIT
Velocidade:
Medium
Calidade::
linguas:
en
VRAM:
4GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
4x
Nivel humano Difusión de estilo Adestramento competitivo Varianza natural Alta fidelidade
Mellor para:: Síntese dun só altofalante con calidade de estudio, narración profesional

OpenVoiceOpenVoice

Premium

OpenVoice de MyShell. ai permite a clonación instantánea de voz cun control granular sobre o estilo de voz, emoción, acento, ritmo, pausas e entoación. Pode clonar unha voz a partir dun clip de son curto e xerar fala en varias linguas mantendo a identidade do falante. OpenVoice tamén funciona como un conversor de voz, permitindo a transformación de voz en tempo real.

Desenvolvente::
MyShell.ai / MIT
Licenza::
MIT
Velocidade:
Medium
Calidade::
linguas:
en, zh, ja, ko, fr, de, es, it
VRAM:
4GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
4x
Clonaxe instantánea Conversión de voz Control de emocións Control do acento Multilingüe
Mellor para:: Clonaxe de voz con control de estilo refinado, conversión de voz

Qwen3 TTSQwen3 TTS

Standard

Qwen3- TTS é un modelo de síntese de texto a voz de 1. 700 millóns de parámetros do equipo Qwen de Alibaba. Soporta tres modos: voces predefinidas con control de emocións (9 altofalantes), clonación de voz a partir de só 3 segundos de son, e un modo único de deseño de voz onde se describe a voz que se queira en linguaxe natural. Cobre 10 linguas con alta expresividade e prosodia natural.

Desenvolvente::
Alibaba (Qwen)
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en, zh, ja, ko, de, fr, ru, pt, es, it
VRAM:
7GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
2x
Clonaxe de voz 9 voces predefinidas Deseño de voz a partir de texto Control de emocións Linguas
Mellor para:: Contido multilingüe con clonación de voz ou deseño de voz personalizado

Sesame CSMSesame CSM

Premium

O Sesame CSM (Conversational Speech Model) é un modelo de mil millóns de parámetros deseñado especificamente para xerar fala conversacional. Modela os patróns naturais da conversa humana, incluíndo o tempo de toma de turnos, as respostas de canle traseira, as reaccións emocionais e o fluxo da conversa. O CSM xera son que soa como unha conversa humana natural en vez dunha fala sintética.

Desenvolvente::
Sesame
Licenza::
Apache 2.0
Velocidade:
Slow
Calidade::
linguas:
en
VRAM:
8GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
4x
Conversacional Temporización natural Tomando a quenda Canle traseira Parámetros 1B
Mellor para:: Asistentes de IA, chatbots, aplicacións de IA conversacionais

Chatterbox TurboChatterbox Turbo

Standard

Chatterbox Turbo de Resemble AI é unha actualización de 350M de parámetros de Chatterbox, que ofrece ata 6x velocidade en tempo real cunha latencia inferior a 200ms. Soporta etiquetas paralingüísticas como [laugh], [cough] e [chuckle] directamente no texto. Inclúe marcas de auga Perth en todo o son xerado para rastrexar a procedencia. Name

Desenvolvente::
Resemble AI
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas:
en
VRAM:
2GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
2x
Latencia inferior a 200 ms Etiquetas paralingüísticas 6x en tempo real Clonaxe de voz Marca de auga
Mellor para:: Axentes de voz en tempo real, fala expresiva con sons naturais

ZonosZonos

Standard

Zonos v0. 1 de Zyphra é un modelo de parámetros de 1. 6B con control de emocións de gran fino con controles deslizantes para a felicidade, a ira, a tristeza, o medo e a sorpresa. Ofrece tanto un transformador como unha nova variante SSM (modelo de espazo de estados). Adestrado con máis de 200K horas de fala multilingüe con clonación de voz a partir de 10- 30 segundos de son de referencia. Name

Desenvolvente::
Zyphra
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en, ja, zh, fr, de
VRAM:
6GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
2x
Control de emocións Clonaxe de voz Arquitectura SSM Multilingüe Control de ton/frecuencia
Mellor para:: Fala expresiva con control de emocións, estudo de deseño de voz

Dia 2Dia 2

Standard

Dia2, de Nari Labs, é unha actualización de Dia, dispoñíbel en variantes de parámetros 1B e 2B. Comeza a sintetizar o son desde os primeiros tokens, o que o fai ideal para axentes de voz en tempo real e canalizacións de voz a voz. Soporta o diálogo multifalante con etiquetas [S1]/ [S2] e pistas paralingüísticas como (risos), (tose).

Desenvolvente::
Nari Labs
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas:
en
VRAM:
4GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
2x
Saída en fluxo Altofalante múltiple Baixa latencia Indicacións paralingüísticas Saída de ata 2 min
Mellor para:: Axentes de voz en tempo real, xeración de diálogos, aplicacións de transmisión

VoxCPMVoxCPM

Standard

VoxCPM 1. 5 de OpenBMB é un novo modelo de TTS libre de tokenizador que opera en espazo continuo en vez de tokens discretos. Produce son de alta fidelidade a 44, 1 kHz, admite a clonación de voz a tiro cero de 3 a 10 segundos, e mantén a consistencia nos parágrafos. A clonación entre linguas permítelle aplicar unha voz inglesa á fala chinesa e viceversa.

Desenvolvente::
OpenBMB
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas:
en, zh
VRAM:
4GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
2x
Son de 44, 1 kHz Sen tokenizador Clonaxe multilingüe Sensible ao contexto Afinación fina de LoRA
Mellor para:: Son de alta fidelidade, audiolibros, contidos longos con consistencia de voz

OuteTTSOuteTTS

Free

OuteTTS estende grandes modelos de linguaxe con capacidades de texto- a- voz, preservando a arquitectura orixinal. Soporta múltiples infraestruturas, incluíndo llama. cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, e mesmo inferencia do navegador mediante Transformers. js. Dispón de clonación de voz de tiro cero a través de perfís de falante gardados como JSON.

Desenvolvente::
OuteAI
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas:
en
VRAM:
2GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
Libre
Inferencia da CPU Inferencia do navegador Clonaxe de voz Múltiples infraestruturas Perfís dos altofalantes
Mellor para:: Despliegue de Edge, TTS baseado en navegador, entornos de baixos recursos

TADATADA

Standard

TADA (Text- Acoustic Dual Alignment) de Hume AI é un modelo de TTS revolucionario que elimina as alucinacións mediante unha nova arquitectura de aliñamento dual construída sobre Llama 3. 2. Dispoñible en variantes 1B (inglés) e 3B (multilingüe), TADA consegue un RTF de 0, 09 — 5 veces máis rápido que os modelos de TTS baseados en LLM. Soporta ata 700 segundos de contexto de son e produce unha fala emocionalmente expresiva sen alucinacións en probas estándar.

Desenvolvente::
Hume AI
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas:
en
VRAM:
5GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
2x
Cero alucinacións 5 veces máis rápido que o LLM TTS Expresión emocional 700s audio context Aliñamento duplo
Mellor para:: Fala de alta calidade, expresión emocional, inferencia rápida

VibeVoiceVibeVoice

Standard

VibeVoice de Microsoft vén en dúas variantes: un modelo 1. 5B para contidos longos (ata 90 minutos, 4 altofalantes) e un modelo Realtime 0. 5B para transmisión con ~200 ms de latencia do primeiro son. A variante 1. 5B sobresae en podcasts e audiolibros coa consistencia do falante en pasaxes longas. Nota: Microsoft eliminou o código TTS do repositorio e o son xerado inclúe renuncias audibles de IA.

Desenvolvente::
Microsoft
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas:
en, zh
VRAM:
4GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
2x
Altofalante múltiple Ata 90 min Xeración de podcasts Consistencia do falante Transmisión de 200ms
Mellor para:: Podcasts, audiolibros, contido multifalante de forma longa

Pocket TTSPocket TTS

Free

Pocket TTS de Kyutai (creadores de Moshi) é un modelo de síntese de voz de 100M de parámetros que é moito máis potente que o seu peso. Executase eficientemente na CPU, admite a clonación de voz sen disparos a partir dunha soa mostra de son e produce unha voz de son natural. O tamaño pequeno do modelo faino ideal para o despliegue de perímetro e ambientes con poucos recursos.

Desenvolvente::
Kyutai
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas:
en, fr
VRAM:
1GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
Libre
Parámetros 100M Inferencia da CPU Clonaxe de voz Clonaxe de mostra única Preparado para bordos
Mellor para:: Despliegue lixeiro, entornos só de CPU, clonación rápida de voz

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Desenvolvente::
KittenML
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas:
en
VRAM:
0GB
Clonaxe de voz:
Non
Custo por 1K caracteres:
Libre
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
Mellor para:: Fast lightweight TTS, edge deployment, low-latency applications

CosyVoice3CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Desenvolvente::
Alibaba (FunAudioLLM)
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas:
en, zh, ja, ko, de, es, fr, it, ru
VRAM:
4GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
2x
Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following
Mellor para:: Multilingual production TTS, real-time applications, voice cloning

MOSS-TTSMOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

Desenvolvente::
OpenMOSS
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
VRAM:
16GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
4x
Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching
Mellor para:: Audiobooks, long-form content, multilingual production

MegaTTS3MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

Desenvolvente::
ByteDance
Licenza::
Apache 2.0
Velocidade:
Slow
Calidade::
linguas:
en, zh
VRAM:
8GB
Clonaxe de voz:
Si
Custo por 1K caracteres:
4x
Voice cloning Adjustable similarity Cross-lingual
Mellor para:: High-fidelity voice cloning

KokoroKokoro

Libre

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Desenvolvente::
Hexgrad
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
Mellor para:: High-quality TTS with minimal latency, streaming applications

PiperPiper

Libre

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Desenvolvente::
Rhasspy
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
Mellor para:: Quick previews, accessibility, and embedded applications

VITSVITS

Libre

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Desenvolvente::
Jaehyeon Kim et al.
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas: en, zh, ja, ko
Mellor para:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

Libre

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Desenvolvente::
MyShell.ai
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas: en, es, fr, zh, ja, ko
Mellor para:: Production applications needing fast, multilingual TTS

OuteTTSOuteTTS

Libre

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Desenvolvente::
OuteAI
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas: en
Mellor para:: Edge deployment, browser-based TTS, low-resource environments

Pocket TTSPocket TTS

Libre

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Desenvolvente::
Kyutai
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas: en, fr
Mellor para:: Lightweight deployment, CPU-only environments, quick voice cloning

Kitten TTSKitten TTS

Libre

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Desenvolvente::
KittenML
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas: en
Mellor para:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

Estándar

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

Desenvolvente::
Suno
Licenza::
MIT
Velocidade:
Slow
Calidade::
linguas:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Clonaxe de voz:
Non
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
Mellor para:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

Estándar

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

Desenvolvente::
Suno
Licenza::
MIT
Velocidade:
Medium
Calidade::
linguas:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Clonaxe de voz:
Non
LightweightFaster than full BarkEmotional speechMultilingual
Mellor para:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

Estándar

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

Desenvolvente::
Alibaba (Tongyi Lab)
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en, zh, ja, ko, fr, de, it, es
Clonaxe de voz:
Si
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
Mellor para:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

Estándar

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

Desenvolvente::
Nari Labs
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en
Clonaxe de voz:
Non
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
Mellor para:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

Estándar

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

Desenvolvente::
Hugging Face
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en
Clonaxe de voz:
Non
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
Mellor para:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

Estándar

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

Desenvolvente::
Zhipu AI
Licenza::
GLM-4 License
Velocidade:
Medium
Calidade::
linguas:
en, zh
Clonaxe de voz:
Si
Lowest error rateVoice cloningFlow matchingNatural prosody
Mellor para:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

Estándar

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

Desenvolvente::
Index Team
Licenza::
Bilibili Model License
Velocidade:
Medium
Calidade::
linguas:
en, zh
Clonaxe de voz:
Si
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
Mellor para:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

Estándar

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

Desenvolvente::
SparkAudio
Licenza::
CC BY-NC-SA 4.0
Velocidade:
Medium
Calidade::
linguas:
en, zh
Clonaxe de voz:
Si
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
Mellor para:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

Estándar

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

Desenvolvente::
RVC-Boss
Licenza::
MIT
Velocidade:
Slow
Calidade::
linguas:
en, zh, ja, ko
Clonaxe de voz:
Si
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
Mellor para:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

Estándar

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

Desenvolvente::
Canopy Labs
Licenza::
Llama 3.2 Community
Velocidade:
Medium
Calidade::
linguas:
en
Clonaxe de voz:
Non
Human-level emotion100K hours trainingNatural emphasisExpressive speech
Mellor para:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

Estándar

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

Desenvolvente::
Alibaba (Qwen)
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en, zh, ja, ko, de, fr, ru, pt, es, it
Clonaxe de voz:
Si
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
Mellor para:: Multilingual content with voice cloning or custom voice design

Chatterbox TurboChatterbox Turbo

Estándar

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

Desenvolvente::
Resemble AI
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas:
en
Clonaxe de voz:
Si
Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
Mellor para:: Real-time voice agents, expressive speech with natural sounds

ZonosZonos

Estándar

Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.

Desenvolvente::
Zyphra
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en, ja, zh, fr, de
Clonaxe de voz:
Si
Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control
Mellor para:: Expressive speech with emotion control, voice design studio

Dia 2Dia 2

Estándar

Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).

Desenvolvente::
Nari Labs
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas:
en
Clonaxe de voz:
Non
Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output
Mellor para:: Real-time voice agents, dialogue generation, streaming applications

VoxCPMVoxCPM

Estándar

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

Desenvolvente::
OpenBMB
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas:
en, zh
Clonaxe de voz:
Si
44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
Mellor para:: High-fidelity audio, audiobooks, long-form content with voice consistency

TADATADA

Estándar

TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.

Desenvolvente::
Hume AI
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas:
en
Clonaxe de voz:
Non
Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment
Mellor para:: High-quality hallucination-free speech, emotional expression, fast inference

VibeVoiceVibeVoice

Estándar

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

Desenvolvente::
Microsoft
Licenza::
MIT
Velocidade:
Fast
Calidade::
linguas:
en, zh
Clonaxe de voz:
Non
Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
Mellor para:: Podcasts, dialogues, long-form narration, multi-speaker content

CosyVoice3CosyVoice3

Estándar

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Desenvolvente::
Alibaba (FunAudioLLM)
Licenza::
Apache 2.0
Velocidade:
Fast
Calidade::
linguas:
en, zh, ja, ko, de, es, fr, it, ru
Clonaxe de voz:
Si
Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
Mellor para:: Multilingual production TTS, real-time applications, voice cloning

ChatterboxChatterbox

Premium

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

Desenvolvente::
Resemble AI
Licenza::
MIT
Velocidade:
Medium
Calidade::
linguas:
en
Clonaxe de voz:
Si
VRAM:
4GB
Custo por 1K caracteres:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
Mellor para:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

Premium

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

Desenvolvente::
James Betker
Licenza::
Apache 2.0
Velocidade:
Slow
Calidade::
linguas:
en
Clonaxe de voz:
Si
VRAM:
8GB
Custo por 1K caracteres:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
Mellor para:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

Desenvolvente::
Columbia University
Licenza::
MIT
Velocidade:
Medium
Calidade::
linguas:
en
Clonaxe de voz:
Non
VRAM:
4GB
Custo por 1K caracteres:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
Mellor para:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

Premium

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

Desenvolvente::
MyShell.ai / MIT
Licenza::
MIT
Velocidade:
Medium
Calidade::
linguas:
en, zh, ja, ko, fr, de, es, it
Clonaxe de voz:
Si
VRAM:
4GB
Custo por 1K caracteres:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
Mellor para:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

Desenvolvente::
Sesame
Licenza::
Apache 2.0
Velocidade:
Slow
Calidade::
linguas:
en
Clonaxe de voz:
Non
VRAM:
8GB
Custo por 1K caracteres:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
Mellor para:: AI assistants, chatbots, conversational AI applications

MOSS-TTSMOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

Desenvolvente::
OpenMOSS
Licenza::
Apache 2.0
Velocidade:
Medium
Calidade::
linguas:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Clonaxe de voz:
Si
VRAM:
16GB
Custo por 1K caracteres:
4x
Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching
Mellor para:: Audiobooks, long-form content, multilingual production

MegaTTS3MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

Desenvolvente::
ByteDance
Licenza::
Apache 2.0
Velocidade:
Slow
Calidade::
linguas:
en, zh
Clonaxe de voz:
Si
VRAM:
8GB
Custo por 1K caracteres:
4x
Voice cloningAdjustable similarityCross-lingual
Mellor para:: High-fidelity voice cloning

Táboa de comparación de modelos

Modelo Desenvolvente: Tier Calidade: Velocidade linguas Clonaxe de voz VRAM Licenza: créditos
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 Libre Empregar
Piper Rhasspy Free Fast 31 0 (CPU only) MIT Libre Empregar
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT Libre Empregar
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT Libre Empregar
Bark Suno Standard Slow 13 5GB MIT 2 Empregar
Bark Small Suno Standard Medium 13 2GB MIT 2 Empregar
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 Empregar
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 Empregar
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 Empregar
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 Empregar
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 Empregar
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 Empregar
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 Empregar
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 Empregar
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 Empregar
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 Empregar
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 Empregar
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 Empregar
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 Empregar
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 Empregar
Chatterbox Turbo Resemble AI Standard Fast 1 2GB MIT 2 Empregar
Zonos Zyphra Standard Medium 5 6GB Apache 2.0 2 Empregar
Dia 2 Nari Labs Standard Fast 1 4GB Apache 2.0 2 Empregar
VoxCPM OpenBMB Standard Fast 2 4GB Apache 2.0 2 Empregar
OuteTTS OuteAI Free Fast 1 2GB Apache 2.0 Libre Empregar
TADA Hume AI Standard Fast 1 5GB MIT 2 Empregar
VibeVoice Microsoft Standard Fast 2 4GB MIT 2 Empregar
Pocket TTS Kyutai Free Fast 2 1GB MIT Libre Empregar
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 Libre Empregar
CosyVoice3 Alibaba (FunAudioLLM) Standard Fast 9 4GB Apache 2.0 2 Empregar
MOSS-TTS OpenMOSS Premium Medium 19 16GB Apache 2.0 4 Empregar
MegaTTS3 ByteDance Premium Slow 2 8GB Apache 2.0 4 Empregar

A plataforma de síntese de voz con IA máis completa

Por que escoller TTS.ai para a síntese de voz?

TTS.ai reúne ao mundo

Cada modelo é de código aberto baixo MIT, Apache 2. 0 ou licenzas permisivas similares, o que lle asegura os dereitos comerciais completos para usar o son xerado nos seus proxectos. Queira que precise unha síntese rápida e lixeira para aplicacións en tempo real ou unha saída de calidade de estudio para audiolibros e podcasts, TTS.ai ten o modelo axeitado para cada caso de uso.

Modelos gratuítos, non se require conta

Comece de inmediato con tres modelos de TTS gratuítos: Piper (ultra- rápido, lixeiro), VITS (síntese neural de alta calidade) e MeloTTS (soporte multilingüe). Sen rexistro, sen tarxeta de crédito, sen límites de xeracións. Os modelos gratuítos admiten inglés e varias outras linguas cunha saída de son natural axeitada para a maioría dos programas.

Procesamento acelerado pola GPU

Todos os modelos TTS executanse en GPU NVIDIA dedicadas para tempos de xeración rápidos e consistentes. Os modelos gratuítos xeran normalmente o son en menos de 2 segundos. Os modelos estándar como Kokoro, CosyVoice 2 e Bark teñen unha media de 3- 5 segundos. Os modelos premium coa calidade máis alta, como Tortoise e Chatterbox, procesan en 5- 15 segundos dependendo da lonxitude do texto.

Soporta máis de 30 idiomas

Xere voz en máis de 30 linguas, incluíndo inglés, español, francés, alemán, italiano, portugués, chinés, xaponés, coreano, árabe, hindi, ruso e moitas máis. Varios modelos admiten a síntese entre linguas, o que significa que pode xerar voz nunha lingua na que a voz orixinal nunca foi adestrada. CosyVoice 2 e GPT- SoVITS sobresaen na clonación de voz entre linguas.

API preparada para desenvolvedores

Integre TTS.ai nas súas aplicacións coa nosa API REST compatíbel con OpenAI. Un punto final para máis de 20 modelos. SDK de Python, JavaScript, cURL e Go. Soporte de transmisión para aplicacións en tempo real. Procesamento por lotes para xerar contido a gran escala. Webhooks para notificacións asincrónicas. Dispoñible nos plans Pro e Enterprise.

Preguntas frecuentes

Texto a voz (TTS) é unha tecnoloxía de IA que converte o texto escrito en son falado de son natural. Os modelos TTS neurais modernos como Kokoro, Chatterbox e CosyVoice 2 usan aprendizaxe profunda para producir fala que soa notablemente humana, con prosodia, emoción e ritmo naturais.

Depende das súas necesidades. Para vistas previas rápidas, empregue Piper ou MeloTTS (gratuito, rápido). Para alta calidade, tente Kokoro ou CosyVoice 2 (nivel estándar). Para clonación de voz, empregue Chatterbox ou GPT- SoVITS (premium). Para contido de diálogo/ podcast, tente Dia TTS. Cada modelo ten puntos fortes diferentes; experimente para atopar o que mellor se adapte.

Si! TTS.ai ofrece texto- a- voz gratuíto cos modelos Kokoro, Piper, VITS e MeloTTS. Non se require conta para un máximo de 500 caracteres e 3 xeracións por hora. Inscríbase nunha conta gratuíta para obter 15 créditos e acceder a todos os modelos.

Os nosos modelos TTS admiten en conxunto máis de 30 idiomas, incluíndo inglés, español, francés, alemán, italiano, portugués, chinés, xaponés, coreano, árabe, ruso, hindi e moitos máis. A disponibilidade de idiomas varía segundo o modelo.

Si, o son xerado mediante TTS.ai pode ser usado comercialmente. Todos os nosos modelos usan licenzas de código aberto (MIT, Apache 2. 0). Comprobe as licenzas individuais dos modelos para ver os termos específicos. Recomendamos revisar a licenza do modelo específico que use para o seu proxecto.

TTS.ai admite os formatos de saída MP3, WAV, OGG e FLAC. MP3 é o predeterminado para a reprodución web. Recoméndase WAV para o posterior procesamento de son. Pode converter entre formatos coa nosa ferramenta de conversión de son.

A clonación de voz emprega a IA para replicar unha voz específica a partir dunha mostra de son curta (normalmente de 5 a 30 segundos). Envíe unha gravación clara da voz de destino, e modelos como Chatterbox, GPT- SoVITS ou OpenVoice xerarán unha nova fala nesa voz. A calidade mellora con son de referencia máis limpo e longo.

Os usuarios gratuítos poden xerar ata 500 caracteres por petición. Os usuarios rexistrados obteñen ata 5. 000 caracteres por petición. Para textos máis longos, o son xérase en anacos e únense automaticamente. Os usuarios da API poden procesar ata 10. 000 caracteres por petición.

O soporte de SSML (Speech Synthesis Markup Language) varía segundo o modelo. Piper e algúns outros modelos soportan etiquetas SSML básicas para pausas, énfase e control da pronuncia. Para modelos sen soporte nativo de SSML, pode usar puntuación natural e saltos de liña para influír na prosodia.

Si, a maioría dos modelos admiten o axuste da velocidade de 0, 5x a 2, 0x. Algúns modelos como Bark e Parler tamén permiten o control do ton e do estilo. Pode axustar os parámetros de velocidade no panel de configuración avanzada ou mediante o parámetro de velocidade da API.

Si, o procesamento por lotes está dispoñíbel a través da nosa API. Pode enviar varios segmentos de texto nunha única chamada ou script da API, e cada un será procesado e devolto como ficheiros de son separados. Isto é ideal para capítulos de audiolibros, módulos de aprendizaxe electrónica ou scripts de diálogo de xogos.

Xere unha chave da API desde o panel da súa conta e, a continuación, envíe peticións POST ao noso punto final da API REST cos seus parámetros de texto, modelo e voz. Ofrecemos exemplos de código en Python, JavaScript e cURL. A API é compatíbel con OpenAI, polo que as integracións existentes funcionan con cambios mínimos.
5.0/5 (2)

What could we improve? Your feedback helps us fix issues.

Comezar a converter texto en voz agora

Únase a miles de creadores que usan TTS.ai. Obteña 15.000 caracteres gratis cunha nova conta. Modelos gratuitos dispoñibles sen rexistrarse.