Sa palibot sa Kūh-e Sūh.
Pag-convert sa teksto ngadto sa natural nga tingog nga panultihon uban sa open-source AI models. Libreng gamiton, walay account nga gikinahanglan.
Ang yuta palibot sa Ssm kay medyo kabukiran.
<speak><prosody rate="slow">Slow speech</prosody></speak>
Ang yuta palibot sa Cerro La Ventana kay lain-lain.
Ang yuta palibot sa Cerro La Pronunciación kay lain-lain.
Mga detalye sa modelo
Kokoro
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
| Pag-uswag: | Hexgrad |
| Lisensya: | Apache 2.0 |
| Katulin | Fast |
| Kalidad: | |
| Mga pinulongan | 8 Mga pinulongan |
| VRAM | 1.5GB |
| Sa palibot sa Klondike. | Wala gisuportahan |
Espesye sa langaw ang Simulium bonariense.
- Espesye sa tanom nga bulak ang Impatiens naturalis.
- Espesye sa tanom nga bulak ang Asplenium clareum.
- Idugang ang mga punto aron makahimo og mga mubo nga paglabay tali sa mga pangungusap
- Espesye sa tanom nga bulak ang Epilobium longum.
- Ang yuta palibot sa Cox Number Two Mine kay medyo kabukiran.
- Paggamit Dia alang sa multi-speaker dialog ug podcast nga sulud
Paggamit sa mga karakter
| Tigre | Adunay 1,000 ka molupyo. |
|---|---|
| Libre | 1:1 (sa Pranses) |
| Sa palibot sa Standard. | 2x mga karakter |
| Premium | 4x mga karakter |
Ang yuta sa Punta Texto kay lain-lain.
Ang mga propesyonal nga kalidad sa voiceovers sa tulo ka yano nga mga lakang.
Isulat ang imong teksto
I-type, i-paste, o i-upload ang teksto nga gusto nimong i-convert ngadto sa tingog. Gisuportahan ang 5,000 ka karakter matag henerasyon alang sa libre nga mga account, o 100,000 alang sa bayad nga mga plano. Paggamit sa plain text o pagdugang SSML tags alang sa advanced nga kontrol sa pagpamulong, pauses, ug emphasis.
Pilia ang Modelo ug Tingog
Pilia gikan sa 20+ AI modelo sa ibabaw sa tulo ka mga tier. Pilia ang usa ka tingog nga mouyon sa imong mga sulod, pagpili sa imong target nga pinulongan, adjust playback speed gikan sa 0.5x ngadto sa 2.0x, ug pagpili sa imong gitinguha nga output format (MP3, WAV, OGG, o FLAC).
I-download ang
I-klik ang Pagbugkos ug ang imong audio andam na sa mga segundo. Pagtan-aw sa built-in player, pag-download sa imong gipili nga format, o pagkopya sa usa ka ibahagi nga link. Paggamit sa API alang sa batch processing ug integration sa imong workflow.
Ang yuta sa Punta de la Palapa kay lain-lain.
Ang mga tanom sa palibot sa Textile Reservoir kay hapit tanan kasagbotan ang ulohan sa nasod.
Ang yuta sa Speech Point kay lain-lain.
Detailed specifications for every AI model available on TTS.ai. Compare quality, speed, language support, and features to find the perfect model for your project.
Kokoro
Free
Ang Kokoro usa ka 82 milyon nga parameter nga modelo sa teksto-sa-pagsulti nga maayong nagpunting sa ibabaw sa iyang gibug-aton nga klase. Bisan pa sa iyang gamay nga gidak-on, kini naghimo sa talagsaong natural ug ekspresibo nga pakigsulti. Ang Kokoro nagsuporta sa daghang mga pinulongan lakip ang Ingles, Hapon, Intsik, ug Koreano nga adunay lainlaing ekspresibo nga tingog. Kini nagdagan nga dili makatarunganon nga dali — nga naghimo sa audio nga halos 100x nga mas dali kaysa sa real-time sa usa ka GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, fr, it, pt, es, hi
1.5GB
Wala
Libre
Piper
Free
Ang Piper usa ka lightweight text-to-speech engine nga gipalambo sa Rhasspy nga gigamit ang VITS ug larynx architectures. Kini modagan bug-os sa CPU, nga naghimo niini nga ideal alang sa mga aparato sa edge, home automation, ug mga aplikasyon nga nagkinahanglan sa offline TTS.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi, ca, cy, fa, lv, sl, lb
0 (CPU only)
Wala
Libre
VITS
Free
Ang VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) usa ka paralelo nga end-to-end nga TTS nga pamaagi nga nagdala sa mas natural nga tunog nga audio kay sa karon nga duha ka yugto nga mga modelo.
Jaehyeon Kim et al.
MIT
Fast
en, de, es, fr, pt, nl, fi, hu, bg, ja, pl
1GB
Wala
Libre
MeloTTS
Free
MeloTTS sa MyShell.ai mao ang usa ka multilingual TTS librarya nga suporta sa English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, ug Korean. Kini mao ang kaayo nga dali, sa pagproseso sa teksto sa duol sa real-time speed sa CPU lang. MeloTTS mao ang gidisenyo alang sa paggamit sa produksyon ug suporta sa duha ka CPU ug GPU inference.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Wala
Libre
Bark
Standard
Bark sa Suno mao ang usa ka transformer-based nga teksto-sa-audio nga modelo nga mahimo sa paghimo sa taas nga realistiko, multilingual nga mga pulong ingon man usab sa uban nga audio sama sa musika, background nga ingay, ug sa tingog nga mga epekto. Kini mahimo sa paghimo sa nonverbal nga komunikasyon sama sa pag-ingon, pag-ingon, ug pag-ingon. Bark suporta sa ibabaw sa 100 speaker presets ug 13+ nga mga pinulongan.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Wala
2x
Bark Small
Standard
Ang mga tanom sa palibot sa Little Lake kay hapit tanan kasagbotan ang ulohan sa nasod.Ang klima umogon ug subtropikal.Ang klima umogon ug subtropikal.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Wala
2x
CosyVoice 2
Standard
Ang CozyVoice 2 sa Alibaba's Tongyi Lab makab-ot human-comparable speech kalidad uban sa dako nga ubos nga latency, nga naghimo niini nga ideal alang sa real-time nga mga aplikasyon. Kini gigamit sa usa ka katapusan nga scalar quantization pamaagi alang sa streaming sintesis ug suporta zero-shot tingog cloning, cross-lingual nga sintesis, ug fine-grained emosyon control.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Sa palibot sa Jabal al Muḩallaqta.
2x
Dia TTS
Standard
Dia sa Nari Labs mao ang usa ka 1.6B parameter text-to-speech modelo nga gidisenyo alang sa pagmugna sa multi-speaker dialogue. Kini mahimo sa paghimo sa natural nga-suod nga mga panag-istoryahanay tali sa duha ka mga mag-uuma uban sa angay nga turn-taking, prosody, ug emotional expression. Dia mao ang hingpit alang sa paghimo sa podcast-style nga mga sulod, audiobook dialogues, ug interaktif nga conversational AI.
Nari Labs
Apache 2.0
Medium
en
4GB
Wala
2x
Parler TTS
Standard
Ang Parler TTS usa ka modelo sa teksto-sa-pagsulti nga gigamit ang natural nga mga deskripsiyon sa tingog sa pinulongan aron makontrol ang gibuhat nga tingog. Sa baylo nga pagpili gikan sa mga preset nga tingog, imong gihulagway ang tingog nga imong gusto (eg, "usa ka mainit nga babaye nga tingog nga adunay gamay nga British accent, nagsulti nga dali ug tin-aw") ug ang Parler nagdala sa tingog nga mouyon sa kini nga deskripsiyon. Kini naghimo niini nga talagsaong flexible alang sa mga creative nga aplikasyon.
Hugging Face
Apache 2.0
Medium
en
4GB
Wala
2x
IndexTTS-2
Standard
Ang IndexTTS-2 usa ka advanced text-to-speech system nga nag-una sa zero-shot voice synthesis uban sa fine-grained emotion control. Kini mahimo nga makahimo sa pagsulti sa mga partikular nga emosyonal nga mga tono sama sa malipayon, sad, nabalaka, o nahadlok nga walay panginahanglan sa mga emosyon-specific training data. Ang modelo gigamit sa mga emosyonal nga mga vector sa tukma nga kontrol sa emosyonal nga ekspresyon sa gibuhat nga mga pulong.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Sa palibot sa Jabal al Muḩallaqta.
2x
Spark TTS
Standard
Spark TTS pinaagi sa SparkAudio mao ang usa ka text-to-speech modelo nga naghiusa sa tingog sa pag-cloning uban sa kontrolado nga emosyon ug sa pag-istoryahanay sa estilo. Sa paggamit sa lamang sa 5 ka segundo sa reference audio, kini mahimo sa pag-clone sa usa ka tingog ug unya sa paghimo sa tingog uban sa lain-laing mga emosyon, speed, ug estilo samtang sa pagpalig-on sa cloned tingog identity. Spark TTS gigamit sa usa ka prompt-based nga kontrol sa sistema.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Sa palibot sa Jabal al Muḩallaqta.
2x
GPT-SoVITS
Standard
Ang GPT-SoVITS nagkombinar sa GPT-style nga lingguwistika sa SoVITS (Singing Voice Inference via Translation and Synthesis) alang sa makapahimuot nga pipila ka mga shot nga tingog nga pagklon. Sa gamay nga lima ka segundo sa reference audio, kini mahimo nga tukma nga magklon sa tingog ug makahimo og bag-ong tingog samtang nagpreserba sa tingog sa tingog. Kini maayo sa duha nga pag-istorya ug sa tingog nga sintesis sa tingog.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Sa palibot sa Jabal al Muḩallaqta.
2x
Orpheus
Standard
Ang Orpheus usa ka dako nga-scale text-to-speech modelo nga makab-ot human-level emotional expression. Trained sa ibabaw sa 100,000 ka oras sa nagkalain-laing mga speech data, kini maayo sa pagmugna sa speech uban sa natural nga mga emosyon, emphasis, ug speaking estilo. Orpheus mahimo sa paghimo sa speech nga virtually indistinguishable gikan sa mga tawo recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Wala
2x
Chatterbox
Premium
Ang Chatterbox pinaagi sa Resemble AI usa ka cutting-edge zero-shot nga modelo sa tingog nga pag-clone. Kini mahimo nga mag-replicate sa bisan unsang tingog gikan sa usa ka audio sample nga adunay talagsaong katukma, nga nakolekta dili lamang ang timbre apan usab ang estilo sa pagsulti ug mga emosyonal nga mga nuances. Ang Chatterbox adunay mga kinaiya nga kontrolado nga emosyonal, nga nagtugot kanimo sa pag-adjust sa emosyonal nga tono sa gi-generate nga tingog nga independente sa tingog nga identidad.
Resemble AI
MIT
Medium
en
4GB
Sa palibot sa Jabal al Muḩallaqta.
4x
Tortoise TTS
Premium
Ang Tortoise TTS usa ka autoregressive multi-voice text-to-speech system nga nag-prioritize sa audio quality sa unahan sa speed. Kini gigamit ang DALL-E-inspired architecture aron makahimo og natural nga tingog nga adunay maayong prosody ug speaker similarity. Bisan pa sa mas dali kay sa daghang mga alternatibo, ang Tortoise naghimo sa pipila sa labing realistikong sintetikong tingog nga anaa sa open-source ecosystem.
James Betker
Apache 2.0
Slow
en
8GB
Sa palibot sa Jabal al Muḩallaqta.
4x
StyleTTS 2
Premium
Ang yuta palibot sa 2nd of July Mine kay medyo kabukiran, ug nga tinakpan sa ubos sa amihanan.Ang yuta palibot sa 2nd of July Mine kay kasagaran medyo kabukiran.
Columbia University
MIT
Medium
en
4GB
Wala
4x
OpenVoice
Premium
OpenVoice sa MyShell.ai nagtugot sa instant nga tingog sa pag-cloning uban sa granular nga kontrol sa tingog estilo, emosyon, accent, rhythm, pauses, ug intonation. Kini mahimo sa pag-clone sa tingog gikan sa usa ka mubo nga audio clip ug sa paghimo sa tingog sa daghang mga pinulongan samtang ang pagpalig-on sa tingog sa identidad. OpenVoice usab nga mga buhat ingon sa usa ka tingog converter, nga nagtugot sa real-time nga tingog sa transformation.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, es
4GB
Sa palibot sa Jabal al Muḩallaqta.
4x
Qwen3 TTS
Standard
Qwen3-TTS mao ang usa ka 1.7 bilyon nga parameter text-to-speech modelo gikan sa Alibaba's Qwen team. Kini suporta sa duha ka mga mode: preset tingog uban sa emosyon sa pagkontrolar (9 speakers), ug sa usa ka talagsaon nga tingog sa disenyo mode diin kamo sa paghulagway sa tingog nga imong gusto sa natural nga pinulongan. Kini naglangkob sa 10 mga pinulongan uban sa taas nga ekspresyon ug natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Wala
2x
VieNeu-TTS-v2
Standard
Ang kinahabogang dapit sa palibot dunay gihabogon nga 2,007 ka metro ug 1.0 km sa amihanan-sidlakan sa Cerro El Tesoro.Ang yuta palibot sa Cerro El Tesoro kay kasagaran kabungtoran, apan sa habagatang-sidlakan nga kini mao ang patag.
Phạm Nguyễn Ngọc Bảo
Apache 2.0
Fast
vi, en
CPU
Sa palibot sa Jabal al Muḩallaqta.
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) mao ang usa ka 1 bilyon nga parameter modelo nga gidisenyo alang sa pagmugna sa conversational nga pinulongan. Kini modelo sa natural nga mga laraw sa tawo nga pag-istoryahanay lakip na ang turn-taking timing, backchannel mga tubag, emotional reactions, ug conversational nga pinulongan. CSM nagdala sa audio nga tunog sama sa usa ka natural nga tawo nga pag-istoryahanay kay sa sintetikong pinulongan.
Sesame
Apache 2.0
Slow
en
8GB
Wala
4x
Chatterbox Turbo
Standard
Ang Chatterbox Turbo sa Resemble AI usa ka 350M parameter upgrade sa Chatterbox, nga naghatag hangtod sa 6x nga real-time nga bilis sa sub-200ms latency. Kini nagsuporta sa paralinguistic tags sama sa [laugh], [cough], ug [chuckle] direkta sa teksto. Naglakip sa Perth watermarking sa tanan nga gihimo nga audio alang sa provenance tracking.
Resemble AI
MIT
Fast
en
2GB
Sa palibot sa Jabal al Muḩallaqta.
2x
VoxCPM
Standard
VoxCPM 1.5 pinaagi sa OpenBMB mao ang usa ka bag-o nga tokenizer-free TTS modelo nga naglihok sa dugay nga espasyo kay sa diskretong mga tokens. Kini naghimo sa high-fidelity 44.1kHz audio, suporta zero-shot tingog cloning gikan sa 3-10 segundo, ug nagpabilin nga konsistensiya sa ibabaw sa mga paragrafo. Cross-language cloning nagtugot kaninyo sa pag-aplay sa usa ka English nga tingog sa Chinese nga pag-istoryahanay ug vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
Sa palibot sa Jabal al Muḩallaqta.
2x
Kani TTS 2
Free
Kini nga mga modelo sa mga parameter sa 400M ultra-lightweight gitukod sa usa ka Liquid AI LFM2 backbone uban sa NVIDIA NanoCodec. kini nga mga buhat sa lamang sa 3GB VRAM ug sa paghimo sa ~ 10 segundo sa pag-istoryahanay sa ~ 2 segundo sa usa ka A100 (RTF 0.2). ang karon nga publiko nga release ships sa usa ka English-only `kani-tts-2-en` checkpoint ug dili sa pag-ila sa speaker-embedding hook gikinahanglan alang sa tingog sa cloning - sa paggamit sa Chatterbox / IndexTTS2 / F5-TTS alang sa cloning, o Kokoro / MeloTTS alang sa non-English.
NineNineSix
Apache 2.0
Fast
en
3GB
Wala
Libre
OuteTTS
Free
OuteTTS nagpalapad sa dako nga mga modelo sa pinulongan uban sa text-to-speech mga abilidad samtang nagpreserba sa orihinal nga arkitektura. kini suporta sa daghang mga backends lakip na llama.cpp (CPU / GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ug bisan browser inference pinaagi sa Transformers.js. Features zero-shot tingog cloning pinaagi sa speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
en
2GB
Sa palibot sa Jabal al Muḩallaqta.
Libre
VibeVoice
Standard
Ang kinabasaan nga bulan Hulyo, sa 300 milimetro nga ulan, ug ang kinaugahan Enero, sa 5 milimetro.Ang kasarangang giiniton 16 °C. Ang kinainitan nga bulan Hulyo, sa 28 °C, ug ang kinabugnawan Enero, sa 3 °C. Ang kasarangang pag-ulan 3,000 milimetro matag tuig.
Microsoft
MIT
Fast
en, zh
4GB
Wala
2x
Pocket TTS
Free
Pocket TTS sa Kyutai (mga tigbuhat sa Moshi) mao ang usa ka compact 100M parameter text-to-speech modelo nga punches maayo sa ibabaw sa iyang gibug-aton. Kini nga gidagan sa epektibo sa CPU, suporta zero-shot tingog cloning gikan sa usa ka audio sample, ug naghimo sa natural nga-suod nga tingog sa tingog. Ang gagmay nga modelo sa gidak-on naghimo niini nga ideal alang sa edge deployment ug low-resource nga mga palibot.
Kyutai
MIT
Fast
en, fr
1GB
Sa palibot sa Jabal al Muḩallaqta.
Libre
Kitten TTS
Free
Kitten TTS pinaagi sa KittenML mao ang usa ka ultra-lightweight text-to-speech modelo nga gitukod sa ONNX. Sa mga matang gikan sa 15M ngadto sa 80M parameters (25-80 MB sa disk), kini naghatag sa taas nga kalidad nga tingog sa sintesis sa CPU nga walay gikinahanglan sa usa ka GPU. Features 8 built-in nga tingog, adjustable tingog speed, ug built-in nga teksto preprocessing alang sa mga numero, salapi, ug mga yunit. Ideal alang sa edge deployment ug low-latency nga mga aplikasyon.
KittenML
Apache 2.0
Fast
en
0GB
Wala
Libre
CosyVoice3
Standard
Ang kinahabogang dapit sa palibot dunay gihabogon nga 1,159 ka metro ug 1.0 km sa amihanan-sidlakan sa Kūh-e Sīāh-e Sīāh.Ang klima hemiboreal.Ang klima umogon ug subtropikal.Ang kasarangang giiniton 18 °C. Ang kinainitan nga bulan Hulyo, sa 29 °C, ug ang kinabugnawan Enero, sa -18 °C. Ang kasarangang pag-ulan 1,900 milimetro matag tuig.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
Sa palibot sa Jabal al Muḩallaqta.
2x
NAMAA Saudi TTS
Standard
NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.
NAMAA Space
MIT
Medium
ar
6GB
Sa palibot sa Jabal al Muḩallaqta.
2x
Darwin TTS
Standard
Ang kinabasaan nga bulan Hulyo, sa 177 milimetro nga ulan, ug ang kinaugahan Enero, sa 3 milimetro.Ang kasarangang giiniton 1 °C. Ang kinainitan nga bulan Hulyo, sa 23 °C, ug ang kinabugnawan Enero, sa 1 °C. Ang kasarangang pag-ulan 1,777 milimetro matag tuig.
FINAL-Bench
Apache 2.0
Medium
en, ko, ja, zh
7GB
Sa palibot sa Jabal al Muḩallaqta.
2x
MOSS-TTSD
Standard
MOSS-TTSD v1.0 gikan sa OpenMOSS mao ang usa ka 7B dialogue text-to-speech modelo nga mopadayon sa mga panag-istoryahanay gikan sa usa ka mubo nga audio prompt. Supports hangtud sa 5 simultaneous speakers pinaagi sa [S1] / [S2] tags, zero-shot voice cloning gikan sa 3-10s reference audio, ug hangtud sa 60 minutos sa coherent multi-turn dialogue sa ibabaw sa 20 ka mga pinulongan.
OpenMOSS
Apache 2.0
Medium
en, zh
12GB
Sa palibot sa Jabal al Muḩallaqta.
2x
Ming-Omni TTS
Free
Ang kinahabogang dapit sa palibot dunay gihabogon nga 4,081 ka metro ug 1.0 km sa amihanan-sidlakan sa Kūh-e Bāzāgh.Ang yuta palibot sa Kūh-e Bāzāgh kay kasagaran kabungtoran, apan sa habagatang-sidlakan nga kini mao ang patag.
inclusionAI
Apache 2.0
Medium
en, zh
3GB
Sa palibot sa Jabal al Muḩallaqta.
Libre
MOSS-TTS Nano
Free
Ang kinahabogang dapit sa palibot dunay gihabogon nga 1,080 ka metro ug 1.0 km sa amihanan-sidlakan sa Kūh-e Bāzāgh.Ang klima hemiboreal.Ang klima umogon ug subtropikal.Ang kasarangang giiniton 18 °C. Ang kinainitan nga bulan Hulyo, sa 20 °C, ug ang kinabugnawan Enero, sa -10 °C. Ang kasarangang pag-ulan 1,080 milimetro matag tuig.
OpenMOSS
Apache 2.0
Fast
en, zh, de, es, fr, ja, it, ko, ru, ar, pt
2GB
Sa palibot sa Jabal al Muḩallaqta.
Libre
Kokoro
Libre
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Libre
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Libre
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Libre
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Kani TTS 2
Libre
Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.
NineNineSix
Apache 2.0
Fast
OuteTTS
Libre
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
Libre
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
Libre
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Ming-Omni TTS
Libre
Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.
inclusionAI
Apache 2.0
Medium
MOSS-TTS Nano
Libre
MOSS-TTS-Nano-100M is OpenMOSS's compact 100M-parameter variant of the MOSS-TTS family, sharing the delay-transformer architecture. Trades the 8B model's peak quality for ~80x smaller weights and dramatically lower per-request VRAM, making it suitable for free-tier and high-throughput deployments. Same 20-language reach.
OpenMOSS
Apache 2.0
Fast
Bark
Sa palibot sa Standard.
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Wala
Bark Small
Sa palibot sa Standard.
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Wala
CosyVoice 2
Sa palibot sa Standard.
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Sa palibot sa Jabal al Muḩallaqta.
Dia TTS
Sa palibot sa Standard.
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Wala
Parler TTS
Sa palibot sa Standard.
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Wala
IndexTTS-2
Sa palibot sa Standard.
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Sa palibot sa Jabal al Muḩallaqta.
Spark TTS
Sa palibot sa Standard.
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Sa palibot sa Jabal al Muḩallaqta.
GPT-SoVITS
Sa palibot sa Standard.
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Sa palibot sa Jabal al Muḩallaqta.
Orpheus
Sa palibot sa Standard.
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Wala
Qwen3 TTS
Sa palibot sa Standard.
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports two modes: preset voices with emotion control (9 speakers), and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Wala
VieNeu-TTS-v2
Sa palibot sa Standard.
VieNeu-TTS-v2 is a 300M parameter Vietnamese-first TTS model trained on 10,000+ hours of bilingual data. It supports seamless en-vi code-switching, 7 preset voices spanning Northern and Southern accents, and instant voice cloning from 3-5 seconds of reference audio. Runs entirely on CPU via GGUF Q4 inference + ONNX audio decoder — no GPU needed, generations finish in ~7 seconds. Built on a Qwen3 backbone.
Phạm Nguyễn Ngọc Bảo
Apache 2.0
Fast
vi, en
Sa palibot sa Jabal al Muḩallaqta.
Chatterbox Turbo
Sa palibot sa Standard.
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
Sa palibot sa Jabal al Muḩallaqta.
VoxCPM
Sa palibot sa Standard.
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
Sa palibot sa Jabal al Muḩallaqta.
VibeVoice
Sa palibot sa Standard.
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
Wala
CosyVoice3
Sa palibot sa Standard.
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
Sa palibot sa Jabal al Muḩallaqta.
NAMAA Saudi TTS
Sa palibot sa Standard.
NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.
NAMAA Space
MIT
Medium
ar
Sa palibot sa Jabal al Muḩallaqta.
Darwin TTS
Sa palibot sa Standard.
Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).
FINAL-Bench
Apache 2.0
Medium
en, ko, ja, zh
Sa palibot sa Jabal al Muḩallaqta.
MOSS-TTSD
Sa palibot sa Standard.
MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.
OpenMOSS
Apache 2.0
Medium
en, zh
Sa palibot sa Jabal al Muḩallaqta.
Espesye sa langaw ang Simulium comparatum.
| Modelo | Pag-uswag: | Tigre | Kalidad: | Katulin | Mga pinulongan | Sa palibot sa Klondike. | VRAM | Lisensya: | Sa palibot sa Cost. | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 8 | 1.5GB | Apache 2.0 | Libre | Paggamit | ||
| Piper | Rhasspy | Free | Fast | 35 | 0 (CPU only) | MIT | Libre | Paggamit | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 11 | 1GB | MIT | Libre | Paggamit | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Libre | Paggamit | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Paggamit | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Paggamit | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Paggamit | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Paggamit | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Paggamit | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Paggamit | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Paggamit | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Paggamit | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Paggamit | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Paggamit | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Paggamit | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Paggamit | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 6 | 4GB | MIT | 4 | Paggamit | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Paggamit | ||
| VieNeu-TTS-v2 | Phạm Nguyễn Ngọc Bảo | Standard | Fast | 2 | CPU | Apache 2.0 | 2 | Paggamit | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Paggamit | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | Paggamit | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | Paggamit | ||
| Kani TTS 2 | NineNineSix | Free | Fast | 1 | 3GB | Apache 2.0 | Libre | Paggamit | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | Libre | Paggamit | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | Paggamit | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | Libre | Paggamit | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Libre | Paggamit | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | Paggamit | ||
| NAMAA Saudi TTS | NAMAA Space | Standard | Medium | 1 | 6GB | MIT | 2 | Paggamit | ||
| Darwin TTS | FINAL-Bench | Standard | Medium | 4 | 7GB | Apache 2.0 | 2 | Paggamit | ||
| MOSS-TTSD | OpenMOSS | Standard | Medium | 2 | 12GB | Apache 2.0 | 2 | Paggamit | ||
| Ming-Omni TTS | inclusionAI | Free | Medium | 2 | 3GB | Apache 2.0 | Libre | Paggamit | ||
| MOSS-TTS Nano | OpenMOSS | Free | Fast | 11 | 2GB | Apache 2.0 | Libre | Paggamit |
Ang yuta palibot sa Textile kay medyo kabukiran.
Why Choose TTS.ai for Text to Speech?
Ang TTS.ai nagdala sa kalibutan sa labing maayo nga open-source text-to-speech modelo sa usa ka single, sayon sa paggamit sa plataporma. dili sama sa mga serbisyo nga may kalabutan sa lock kaninyo ngadto sa usa ka lamang nga tingog engine, TTS.ai naghatag kaninyo sa access sa 20+ modelo gikan sa mga nag-unang mga research labs lakip na Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University, ug uban pa.
Every model is open source under MIT, Apache 2.0, or similar permissive licenses, ensuring you have full commercial rights to use the generated audio in your projects. Whether you need fast, lightweight synthesis for real-time applications or premium studio-quality output for audiobooks and podcasts, TTS.ai has the right model for every use case.
Ang yuta palibot sa No Account kay lain-lain.
Pag-abli sa diha nga sa tulo ka libre nga TTS modelo: Piper (ultra-fast, lightweight), VITS (high-quality neural synthesis), ug MeloTTS (multi-language suporta). Wala sa pag-sign-up, walay credit card, walay limitasyon sa mga henerasyon. Libre nga mga modelo sa suporta sa English ug sa daghan nga mga uban pang mga pinulongan uban sa natural nga-sa tingog output nga angay alang sa kadaghanan sa mga aplikasyon.
Espesye sa langaw ang Gonomyia accelerata.
Ang tanan nga mga TTS modelo nga gidagan sa dedikado NVIDIA GPUs alang sa dali, konsistente nga mga panahon sa generation. Free mga modelo sa kasagaran sa paghimo sa audio sa ubos sa 2 segundo. Standard nga mga modelo sama sa Kokoro, CosyVoice 2, ug Bark average 3-5 segundo. Premium nga mga modelo sa labing taas nga kalidad, sama sa Tortoise ug Chatterbox, sa proseso sa 5-15 segundo depende sa gitas-on sa teksto.
30+ nga mga pinulongan
Generate speech in over 30 languages including English, Spanish, French, German, Italian, Portuguese, Chinese, Japanese, Korean, Arabic, Hindi, Russian, and many more. Several models support cross-lingual synthesis, meaning you can generate speech in a language the original voice was never trained on. CosyVoice 2 and GPT-SoVITS excel at cross-lingual voice cloning.
Bukid ang Debre-i-Ape sa Ehipto.
Integration TTS.ai ngadto sa imong mga aplikasyon uban sa atong OpenAI-compatible REST API. Usa ka endpoint alang sa tanan nga 20+ modelo. Python, JavaScript, cURL, ug Go SDKs. Streaming suporta alang sa mga aplikasyon sa real-time. Batch processing alang sa dako nga-scale nga mga butang sa generation. Webhooks alang sa async nga mga notification. API access gilakip sa matag plano lakip na ang libre.
Sa palibot sa Frequently Asked Questions.
Sa palibot sa Kūh-e Darreh-ye Āb.
Pagpadayon sa Konversyon sa Teksto ngadto sa Pagsulti Karon
Join thousands of creators using TTS.ai. Get 15,000 free characters with a new account. Free models available without signup.