Texto a voz de IAName
Converta texto en voz natural con máis de 24 modelos de IA de código aberto. Uso gratuíto, non se require conta.
Incluír o texto en etiquetas SSML para un control preciso:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Engadir marcadores de emoción para influír na entrega (o soporte do modelo varía):
Definir pronunciacións personalizadas (palabra = pronunciación):
Detalles do modelo
StyleTTS 2
StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.
| Desenvolvente: | Columbia University |
| Licenza: | MIT |
| Velocidade | Medium |
| Calidade: | |
| linguas | 1 lingua |
| VRAM | 4GB |
| Clonaxe de voz | Non soportado |
Consellos para obter mellores resultados
- Empregar a puntuación axeitada para pausas e entoación naturais
- Ortografía os números e abreviaturas para unha pronuncia máis clara
- Engadir vírgulas para crear pausas curtas entre frases
- Empregar reticencias (...) para pausas dramáticas máis longas
- Probe Kokoro ou CosyVoice 2 para obter os resultados máis naturais
- Empregar Dia para diálogos multifalante e contido de podcast
Custos de crédito
| Tier | Custo por 1K caracteres |
|---|---|
| Libre | 0 créditos (sen límite) |
| Estándar | 2 créditos / 1K caracteres |
| Premium | 4 créditos / 1K caracteres |
Como funciona a conversión de texto a voz da IA
Xere voces de calidade profesional en tres pasos sinxelos. Non se requiren coñecementos técnicos.
Introduza o seu texto
Escriba, apegue ou envíe o texto que queira converter en voz. Soporta ata 5. 000 caracteres por xeración para usuarios con sesión iniciada. Empregue texto simple ou engada etiquetas SSML para un control avanzado da pronuncia, pausas e énfase.
Escoller o modelo e a voz
Escolla entre máis de 24 modelos de IA en tres niveis. Escolla unha voz que coincida co seu contido, escolla a lingua de destino, axuste a velocidade de reprodución de 0, 5x a 2, 0x e escolla o formato de saída preferido (MP3, WAV, OGG ou FLAC).
Xerar e obter
Prema Xerar e o son estará listo en segundos. Previsualice co reprodutor incorporado, descargue no formato escollido ou copie unha ligazón compartible. Empregue a API para procesamento por lotes e integración no seu fluxo de traballo.
Casos de uso de Texto- para- Fala
O texto-a-fala impulsado pola IA está a transformar a forma en que a xente crea, consome e interactúa co contido de audio en decenas de industrias.
Todos os modelos de síntese de voz
Especificacións detalladas para cada modelo de IA dispoñíbel en TTS.ai. Compare a calidade, velocidade, soporte de linguas e características para atopar o modelo perfecto para o seu proxecto.
Kokoro
Free
Kokoro é un modelo de síntese de voz de 82 millóns de parámetros que supera con creces a súa clase de peso. A pesar do seu tamaño minúsculo, produce unha fala extraordinariamente natural e expresiva. Kokoro soporta múltiples linguas, incluíndo inglés, xaponés, chinés e coreano cunha variedade de voces expresivas. Executase incribelmente rápido, xerando son case 100 veces máis rápido que en tempo real nunha GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Non
Libre
Piper
Free
Piper é un motor lixeiro de síntese de voz desenvolvido por Rhasspy que emprega as arquitecturas VITS e larynx. Execútase completamente na CPU, o que o fai ideal para dispositivos periféricos, automatización doméstica e aplicacións que requiran TTS sen conexión. Con máis de 100 voces en máis de 30 idiomas, Piper ofrece voz natural a velocidades en tempo real mesmo nun Raspberry Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Non
Libre
VITS
Free
VITS (Variational Inference with adversarial learning for end- to- end Text- to- Speech) é un método de TTS paralelo de extremo a extremo que xera un son máis natural que os modelos actuais de dúas etapas. Adopta a inferencia variacional aumentada con fluxos normalizadores e un proceso de adestramento adversario, logrando unha mellora significativa na naturalidade.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Non
Libre
MeloTTS
Free
MeloTTS de MyShell. ai é unha biblioteca de TTS multilingüe que admite inglés (americano, británico, indio, australiano), español, francés, chinés, xaponés e coreano. É extremadamente rápida, procesando o texto a unha velocidade case en tempo real só na CPU. MeloTTS está deseñado para uso en produción e admite a inferencia tanto na CPU como na GPU.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Non
Libre
Bark
Standard
Bark de Suno é un modelo de transformación de texto en son baseado en transformadores que pode xerar fala multilingüe altamente realista, así como outros sons como música, ruído de fondo e efectos sonoros. Pode producir comunicacións non verbais como risas, suspiros e choros. Bark admite máis de 100 altofalantes predefinidos e máis de 13 idiomas.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Non
2
Bark Small
Standard
Bark Small é unha versión destilada do modelo Bark que troca algunha calidade de son por velocidades de inferencia significativamente máis rápidas e menores requirimentos de memoria. Conserva a capacidade de Bark de xerar fala con emocións, risas e varias linguas.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Non
2
CosyVoice 2
Standard
CosyVoice 2 do laboratorio Tongyi de Alibaba consegue unha calidade de fala comparable á humana cunha latencia extremadamente baixa, o que o fai ideal para aplicacións en tempo real. Emprega un enfoque de cuantización escalar finita para a síntese en fluxo e admite a clonación de voz a tiro cero, síntese entre linguas e control de emocións de gran fino. Supera a moitos sistemas TTS comerciais en avaliacións subxectivas.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Si
2
Dia TTS
Standard
Dia de Nari Labs é un modelo de síntese de texto a voz de 1. 6B de parámetros deseñado especificamente para xerar diálogos de varios falantes. Pode producir conversas de son natural entre dous falantes con turnos axeitados, prosodia e expresión emocional. Dia é perfecto para crear contidos ao estilo de podcasts, diálogos de audiolibros e IA conversacional interactiva.
Nari Labs
Apache 2.0
Medium
en
4GB
Non
2
Parler TTS
Standard
Parler TTS é un modelo de síntese de texto a voz que emprega descricións de voz de linguaxe natural para controlar a fala xerada. No canto de escoller entre voces predefinidas, descríbese a voz que se queira (por ex. « unha voz feminina cálida cun lixeiro acento británico, falando devagar e claramente ») e Parler xera a fala que coincida con esa descrición. Isto faino excepcionalmente flexible para aplicacións creativas.
Hugging Face
Apache 2.0
Medium
en
4GB
Non
2
IndexTTS-2
Standard
IndexTTS- 2 é un sistema avanzado de síntese de texto a voz que sobresae na síntese de voz de tiro cero co control de emocións de gran fino. Pode xerar fala con tons emocionais específicos como feliz, triste, enfadado ou asustado sen requirir datos de adestramento específicos de emocións. O modelo emprega vectores de emocións para controlar con precisión a expresión emocional da fala xerada.
Index Team
Apache 2.0
Medium
en, zh
4GB
Si
2
Spark TTS
Standard
Spark TTS de SparkAudio é un modelo de texto a voz que combina a clonación de voz con emocións controlábeis e estilo de fala. Usando só 5 segundos de son de referencia, pode clonar unha voz e logo xerar fala con diferentes emocións, velocidades e estilos mantendo a identidade da voz clonada. Spark TTS emprega un sistema de control baseado en mensaxes.
SparkAudio
Apache 2.0
Medium
en, zh
4GB
Si
2
GPT-SoVITS
Standard
GPT- SoVITS combina o modelado da linguaxe ao estilo de GPT con SoVITS (Singing Voice Inference via Translation and Synthesis) para unha potente clonación de voz en poucas tomas. Con tan só 5 segundos de son de referencia, pode clonar con precisión unha voz e xerar un novo discurso preservando as características únicas do falante. Excele tanto na síntese de voz falada como cantada.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Si
2
Orpheus
Standard
Orpheus é un modelo de síntese de voz a gran escala que consegue a expresión emocional a nivel humano. Adestrado con máis de 100. 000 horas de datos de fala diversos, sobresae na xeración de fala con emocións naturais, énfase e estilos de fala. Orpheus pode producir fala que é virtualmente indistinguible das gravacións humanas.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Non
2
Chatterbox
Premium
Chatterbox de Resemble AI é un modelo de clonaxe de voz de vangarda. Pode replicar calquera voz a partir dunha soa mostra de son cunha precisión notable, capturando non só o timbre senón tamén o estilo de fala e os matices emocionais. Chatterbox tamén conta cun control de emocións de gran fino, que lle permite axustar o ton emocional da fala xerada independentemente da identidade da voz.
Resemble AI
MIT
Medium
en
4GB
Si
4
Tortoise TTS
Premium
O Tortoise TTS é un sistema de síntese de voz multi- voz autorregressivo que prioriza a calidade do son sobre a velocidade. Emprega unha arquitectura inspirada en DALL- E para xerar unha fala moi natural cunha excelente prosodia e semellanza co falante. Aínda que é máis lento que moitas alternativas, o Tortoise produce algunhas das falas sintéticas máis realistas dispoñíbeis no ecosistema de código aberto.
James Betker
Apache 2.0
Slow
en
8GB
Si
4
StyleTTS 2
Premium
StyleTTS 2 consegue a síntese TTS a nivel humano combinando a difusión de estilos co adestramento adversario empregando grandes modelos de linguaxe de fala. Xera a fala de son máis natural entre os modelos dun só falante, rivalizando coas gravacións humanas. StyleTTS 2 emprega o modelado de estilos baseado na difusión para capturar toda a gama de variación da fala humana.
Columbia University
MIT
Medium
en
4GB
Non
4
OpenVoice
Premium
OpenVoice de MyShell. ai permite a clonación instantánea de voz cun control granular sobre o estilo de voz, emoción, acento, ritmo, pausas e entoación. Pode clonar unha voz a partir dun clip de son curto e xerar fala en varias linguas mantendo a identidade do falante. OpenVoice tamén funciona como un conversor de voz, permitindo a transformación de voz en tempo real.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Si
4
Qwen3 TTS
Standard
Qwen3- TTS é un modelo de síntese de texto a voz de 1. 700 millóns de parámetros do equipo Qwen de Alibaba. Soporta tres modos: voces predefinidas con control de emocións (9 altofalantes), clonación de voz a partir de só 3 segundos de son, e un modo único de deseño de voz onde se describe a voz que se queira en linguaxe natural. Cobre 10 linguas con alta expresividade e prosodia natural.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Si
2
Sesame CSM
Premium
O Sesame CSM (Conversational Speech Model) é un modelo de mil millóns de parámetros deseñado especificamente para xerar fala conversacional. Modela os patróns naturais da conversa humana, incluíndo o tempo de toma de turnos, as respostas de canle traseira, as reaccións emocionais e o fluxo da conversa. O CSM xera son que soa como unha conversa humana natural en vez dunha fala sintética.
Sesame
Apache 2.0
Slow
en
8GB
Non
4
Kokoro
Libre
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Libre
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Libre
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Libre
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Bark
Estándar
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Non
Bark Small
Estándar
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Non
CosyVoice 2
Estándar
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Si
Dia TTS
Estándar
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Non
Parler TTS
Estándar
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Non
IndexTTS-2
Estándar
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Apache 2.0
Medium
en, zh
Si
Spark TTS
Estándar
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
Apache 2.0
Medium
en, zh
Si
GPT-SoVITS
Estándar
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Si
Orpheus
Estándar
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Non
Qwen3 TTS
Estándar
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Si
Táboa de comparación de modelos
| Modelo | Desenvolvente: | Tier | Calidade: | Velocidade | linguas | Clonaxe de voz | VRAM | Licenza: | créditos | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Libre | Empregar | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Libre | Empregar | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Libre | Empregar | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Libre | Empregar | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Empregar | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Empregar | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Empregar | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Empregar | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Empregar | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | Empregar | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | Empregar | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Empregar | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Empregar | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Empregar | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Empregar | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Empregar | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Empregar | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Empregar | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Empregar |
A plataforma de síntese de voz con IA máis completa
Por que escoller TTS.ai para a síntese de voz?
TTS.ai reúne ao mundo
Cada modelo é de código aberto baixo MIT, Apache 2. 0, ou licenzas permisivas similares, asegurando que ten dereitos comerciais completos para usar o son xerado nos seus proxectos. Se precisa unha síntese rápida e lixeira para aplicacións en tempo real ou unha saída de calidade de estudio premium para audiolibros e podcasts, TTS. ai ten o modelo axeitado para cada caso de uso.
Modelos gratuítos, non se require conta
Comece de inmediato con tres modelos de TTS gratuítos: Piper (ultra- rápido, lixeiro), VITS (síntese neural de alta calidade) e MeloTTS (soporte multilingüe). Sen rexistro, sen tarxeta de crédito, sen límites de xeracións. Os modelos gratuítos admiten inglés e varias outras linguas cunha saída de son natural axeitada para a maioría dos programas.
Procesamento acelerado pola GPU
Todos os modelos TTS executanse en GPU NVIDIA dedicadas para tempos de xeración rápidos e consistentes. Os modelos gratuítos xeran normalmente o son en menos de 2 segundos. Os modelos estándar como Kokoro, CosyVoice 2 e Bark teñen unha media de 3- 5 segundos. Os modelos premium coa calidade máis alta, como Tortoise e Chatterbox, procesan en 5- 15 segundos dependendo da lonxitude do texto.
Soporta máis de 30 idiomas
Xere voz en máis de 30 linguas, incluíndo inglés, español, francés, alemán, italiano, portugués, chinés, xaponés, coreano, árabe, hindi, ruso e moitas máis. Varios modelos admiten a síntese entre linguas, o que significa que pode xerar voz nunha lingua na que a voz orixinal nunca foi adestrada. CosyVoice 2 e GPT- SoVITS sobresaen na clonación de voz entre linguas.
API preparada para desenvolvedores
Integre TTS.ai nas súas aplicacións coa nosa API REST compatíbel con OpenAI. Un punto final para todos os modelos 24+. SDK de Python, JavaScript, cURL e Go. Soporte de transmisión para aplicacións en tempo real. Procesamento por lotes para xerar contido a gran escala. Webhooks para notificacións asincrónicas. Dispoñible nos plans Pro e Enterprise.
Preguntas frecuentes
Comezar a converter texto en voz agora
Únase a miles de creadores que usan TTS.ai. Obteña 50 créditos gratuítos cunha nova conta. Modelos gratuítos dispoñibles sen rexistrarse.