AI Text to Speech
Açıq mənbəli AI modelləri ilə mətni təbii səsli danışmaya çevir. İstifadəsi pulsuzdur, hesab tələb olunmur.
Düzgün idarə üçün mətninizi SSML lentlərinə sarılın:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Göndərmə təsiri üçün hiss-halı işarələrini əlavə et (model dəstəyi dəyişir):
Özəl səsləndirmələri təsvir et (söz = səsləndirmə):
Model Məlumatları
OuteTTS
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
| Yaradıcı: | OuteAI |
| Lisenziya: | Apache 2.0 |
| Sür'ət | Fast |
| Keyfiyyət : | |
| dillər | 1 language |
| VRAM | 2GB |
| Səs Klonlama | Dəstəklənir |
Daha yaxşı nəticələr üçün məsləhətlər
- Təbii sükut və intonasiya üçün düzgün nişanlama istifadə et
- Rəqəmləri və qısaltmaları daha aydın oxumaq üçün imla et
- Fərqli cümlələr arasında qısa fasilə yaratmaq üçün vergül əlavə et
- Uzun dramatik fasilələrə üçün üç nöqtə (...) istifadə et
- Ən təbii nəticələr üçün Kokoro və ya CosyVoice 2-ni sınayın
- Dia-nı çoxlu səsləndirici dialoqu və podcast məzmunu üçün istifadə et
Karakter İstifadəsi
| Tərcümə | 1K xarakterin qiyməti |
|---|---|
| Pulsuz | 0 kredit (sığortasız) |
| Ön qurğulu | 2 kredit / 1K simvol |
| Premium | 4 kredit / 1K simvol |
AI Text to Speech necə işləyir
Üç sadə addımla peşəkar keyfiyyətli səs yazıları yaradın. Texniki bilik tələb olunmur.
Mətni daxil edin
Sənəddə çevirmək istədiyiniz mətni yazın, yapışdırın və ya yükləyin. Giriş etmiş istifadəçilər üçün hər nəsildə 5000-ə qədər xarakter dəstəklənir. Tərcümə, fasilə və vurğu üzərində daha geniş nəzarət üçün sadə mətn istifadə edin və ya SSML təyinatlarını əlavə edin.
Model və səs seç
Üç səviyyədə 20+ AI modeli arasından seçin. İçərişinizi uyğunlaşdıran səsi seçin, məqsəd dilinizi seçin, oynatma sürətini 0.5x-dən 2.0x-ə qədər düzəldin və istədiyiniz çıxış formatını (MP3, WAV, OGG, ya da FLAC) seçin.
Yüklə
Yarat düyməsini basın və səsiniz saniyələr içində hazır olacaq. İçindəki pleyerlə əvvəlcədən baxın, seçdiyiniz formatda yükləyin, ya da paylaşıla bilən bir körpünü kopyalayın. İş axınınıza birləşdirmək və paketləmək üçün API istifadə edin.
Mətndən Söhbətə İstifadə Halı
AI-powered text-to-speech insanların düzən sənayelərində audio məzmunla necə yaratmaq, istehlak etmək və ünsiyyət qurmalarını dəyişir.
Bütün Text-to-Speech Modelləri
TTS.ai-də mövcud olan hər bir AI modeli üçün ətraflı spesifikasiyalar. Proqramınız üçün mükəmməl modeli tapmaq üçün keyfiyyət, sürət, dil dəstəyi və xüsusiyyətləri müqayisə edin.
Kokoro
Free
Kokoro 82 milyon parametrli mətndən-sözə modeldir və öz ağırlıq sinfindən çox üstündür. Kiçik ölçüsünə baxmayaraq, o, çox təbii və ifadəli bir səs istehsal edir. Kokoro ingilis, yapon, çin və koreyalı dilləri də daxil olmaqla bir çox dilləri dəstəkləyir və müxtəlif ifadəli səslər istehsal edir. O, inanılmaz sürətlə işləyir - GPU-da real vaxtda səsi 100x sürətlə istehsal edir.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
_Yox
Pulsuz
Piper
Free
Piper Rhasspy tərəfindən inkişaf etdirilmiş VITS və larynx arxitekturalarını istifadə edən yüngül mətn-söhbətə motordur. CPU-da işləyir, bu da onu edge cihazları, ev avtomatlaşdırması və offlayn TTS tələb edən proqramlar üçün ideal edir. 30-dan çox dildə 100 səslə Piper Raspberry Pi 4-də belə real vaxt sürətində təbii səsli sözlər təqdim edir.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
_Yox
Pulsuz
VITS
Free
VITS (variasiyalı nəticə ilə qarşılıqlı öyrənmə üçün son-son Text-to-Speech) hazırkı iki mərhələli modellərdən daha təbii səslənən səsi yaradan paralel son-son TTS metodudur. Normallaşdırma axınları ilə artırılmış variasiyalı nəticəni və qarşılıqlı öyrənmə prosesini qəbul edir, təbiiliyi əhəmiyyətli dərəcədə yaxşılaşdırır.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
_Yox
Pulsuz
MeloTTS
Free
MyShell.ai tərəfindən yaradılan MeloTTS İngilis (Amerika, İngiltərə, Hindistan, Avstraliya), İspan, Fransız, Çin, Yapon və Koreya dillərini dəstəkləyən çoxdilli TTS kitabxanasıdır. Bu kitabxana çox sürətlidir, yalnız CPU-da mətni real vaxt sürəti ilə işləyir. MeloTTS istehsal üçün hazırlanmışdır və CPU və GPU-nun nəticələrini dəstəkləyir.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
_Yox
Pulsuz
Bark
Standard
Suno tərəfindən hazırlanmış Bark, çox dildə çox real səs və musiqi, arxa fon səsləri və səs effektləri kimi digər səsləri yarada bilən transformator əsaslı mətn-səs modelidir. Gülüş, inilti və ağlama kimi sözsüz ünsiyyəti yarada bilir. Bark 100-dən çox səsləndiricinin əvvəlcədən qurğularını və 13-dən çox dili dəstəkləyir.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
_Yox
2x
Bark Small
Standard
Bark Small Bark modelinin daha sürətli nəticələmə sürəti və daha az yaddaş tələbləri üçün bəzi səs keyfiyyətini dəyişən distillasiya edilmiş versiyasıdır. Bark'ın emosional, gülüş və çoxlu dillərlə danışmaq qabiliyyətini saxlayır.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
_Yox
2x
CosyVoice 2
Standard
Alibaba'nın Tongyi Lab tərəfindən hazırlanan CosyVoice 2 insan səsi ilə müqayisəli səs keyfiyyətinə malikdir və çox aşağı gecikmə ilə real vaxt tətbiqləri üçün idealdır. O, axın sintezinə sonlu skalar kvantlaşdırma yanaşmasını istifadə edir və zero-shot səs klonlaşdırmasını, dillərarası sintezini və incə hisslər nəzarətini dəstəkləyir. O, subyektiv qiymətləndirmələrdə bir çox kommersiya TTS sistemlərini üstələyir.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Bəli
2x
Dia TTS
Standard
Dia Nari Labs tərəfindən hazırlanmış 1.6B parametrli mətn-söhbətə modeldir. Bu model xüsusi olaraq çoxlu-söhbətçili dialoq yaratmaq üçün hazırlanmışdır. Dia iki danışan arasında uyğun dönüş, prosodiya və emosional ifadə ilə təbii səsli söhbətlər yarada bilər. Dia podcast-style məzmun, audiobook dialoqları və interaktiv danışıq AI yaratmaq üçün mükəmməldir.
Nari Labs
Apache 2.0
Medium
en
4GB
_Yox
2x
Parler TTS
Standard
Parler TTS, yaradılan danışığı idarə etmək üçün təbii dil səs təsvirini istifadə edən mətndən-sözə modeldir. Ön qurulmuş səslərdən seçmək əvəzinə, istədiyiniz səsi təsvir edə bilərsiniz (məsələn, "yavaş və aydın danışan, kiçik Britaniya aksenti olan qız səsi") və Parler bu təsviri uyğunlaşdıraraq danışığı yaradır. Bu onu yaradıcı proqramlar üçün unikal elastik edir.
Hugging Face
Apache 2.0
Medium
en
4GB
_Yox
2x
GLM-TTS
Standard
Zhipu AI tərəfindən hazırlanmış GLM-TTS, Llama mimarisinə əsaslanan və axın uyğunlaşdırması ilə işləyən mətn-söhbətə çevirmə sistemidir. Bu sistem açıq mənbəli TTS modelləri arasında ən aşağı xarakter səhv dərəcəsinə nail olur, bu da ən dəqiq səslənməni təmin edir. GLM-TTS 3-10 saniyəlik səs nümunələrindən səs klonlaşdırması ilə İngilis və Çin dillərini dəstəkləyir.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Bəli
2x
IndexTTS-2
Standard
IndexTTS-2, zəif səs sintezində və emosional nəzarətdə üstün olan inkişaf etmiş mətn-söhbət sistemidir. O, emosional təlim məlumatları tələb etmədən xoşbəxt, kədərli, qəzəbli və qorxu kimi xüsusi emosional tonlarla danışa bilər. Model, yaradılan danışığın emosional ifadəsini dəqiq idarə etmək üçün emosional vektorlardan istifadə edir.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Bəli
2x
Spark TTS
Standard
Spark TTS SparkAudio tərəfindən səs klonlaşdırmasını idarəolunan hiss və danışıq üslubu ilə birləşdirən mətn-söhbət modelidir. Yalnız 5 saniyəlik istinad səsi istifadə edərək səsi klonlaşdıra bilər və sonra klonlaşdırılmış səs kimliyini qoruyaraq fərqli hisslər, sürətlər və üslublarla danışıq yarada bilər. Spark TTS prompt əsaslı idarəetmə sistemini istifadə edir.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Bəli
2x
GPT-SoVITS
Standard
GPT-SoVITS GPT-style dil modelləşdirmə ilə SoVITS (Singing Voice Inference via Translation and Synthesis)-i güclü az-şot səs klonlaşdırması üçün birləşdirir. 5 saniyəlik istinad səsi ilə səsi dəqiq klonlaşdıra və yeni səsi yaratmaqla danışanın unikal xüsusiyyətlərini qoruya bilir. Həm danışıq həm də səs sintezini yaxşı edir.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Bəli
2x
Orpheus
Standard
Orpheus insan səviyyəli emosional ifadəyə nail olan böyük ölçülü mətn-söhbətə modeldir. 100,000 saatdan çox müxtəlif səs məlumatları üzərində təlim edilmişdir, təbii emosiyalar, vurğulamalar və danışıq üslubları ilə danışıq yaratmaqda üstündür. Orpheus insan səs yazılarından virtual olaraq ayırd edilə bilməyən danışıq istehsal edə bilər.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
_Yox
2x
Chatterbox
Premium
Chatterbox by Resemble AI son dərəcə müasir səs klonlama modelidir. Bu tək səs nümunəsindən hər hansı səsi çox dəqiqliklə təkrarlaya bilər, təkcə səs tonunu deyil, həm də danışıq üslubunu və emosional nüansları da əldə edə bilər. Chatterbox həmçinin səs kimliyindən asılı olmayaraq yaradılan danışığın emosional tonunu tənzimləmənizə imkan verən incə hisslər idarəsini də təklif edir.
Resemble AI
MIT
Medium
en
4GB
Bəli
4x
Tortoise TTS
Premium
Tortoise TTS, audio keyfiyyətini sürətdən üstün tutan çox səsli mətn-söhbətə çevirmə sistemidir. DALL-E-dən ilhamlanan mimarisini istifadə edərək, parlaq prozodiya və səsləndirici oxşarlığı ilə çox təbii səsi yaradır. Bir çox alternativlərdən daha yavaş olsa da, Tortoise açıq mənbə ekosistemində mövcud olan ən real sintez edilmiş səsi yaradır.
James Betker
Apache 2.0
Slow
en
8GB
Bəli
4x
StyleTTS 2
Premium
StyleTTS 2, böyük səs dil modelləri ilə rəqabətçi təlimləri birləşdirərək insan səviyyəli TTS sintezini əldə edir. İnsan səs qeydləri ilə rəqabət aparan tək-oxuma modelləri arasında ən təbii səslənən səsi yaradır. StyleTTS 2, insan səs dəyişikliyinin bütün diapazonunu tutmaq üçün diffuziya əsaslı üslub modelləşdirməsini istifadə edir.
Columbia University
MIT
Medium
en
4GB
_Yox
4x
OpenVoice
Premium
MyShell.ai tərəfindən yaradılan OpenVoice səs üslubu, emosiyası, aksenti, ritmi, fasilə və intonasiyası üzərində nəzarəti ilə səsin dərhal klonlanmasına imkan verir. O, qısa audio klipdən səsi klonlaya və danışan şəxsiyyətini qoruyaraq bir çox dildə danışığı yarada bilər. OpenVoice real vaxt səs dəyişdirmə imkan verən səs çevirici kimi də işləyir.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Bəli
4x
Qwen3 TTS
Standard
Qwen3-TTS Alibaba'nın Qwen komandasından olan 1.7 milyard parametrli mətndən-sözə modeldir. Üç rejimi dəstəkləyir: emosional nəzarətlə əvvəlcədən qurulmuş səslər (9 səsləndirici), yalnız 3 saniyədən səs klonlaşdırması və istədiyiniz səsi təbii dildə təsvir etdiyiniz unikal səs dizaynı rejimi. Yüksək ifadəliliyi və təbii prozodiya ilə 10 dili əhatə edir.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Bəli
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) 1 milyard parametrdən ibarət olan və söhbət yaratmaq üçün xüsusi olaraq hazırlanmış modeldir. Bu model insan söhbətinin təbiət nümunələrini modelləşdirir. Bu nümunələr arasında dönmə vaxtı, backchannel cavabları, emosional reaksiyalar və söhbət axını da var. CSM sintetik söhbət deyil, təbiət söhbəti kimi səslənən səsi yaradır.
Sesame
Apache 2.0
Slow
en
8GB
_Yox
4x
Chatterbox Turbo
Standard
Resemble AI tərəfindən hazırlanmış Chatterbox Turbo, Chatterbox-un 350M parametrli yenilənməsidir. 200ms-dən aşağı gecikmə ilə 6x real vaxt sürətinə qədər dəstək verir. [laugh], [cough] və [chuckle] kimi paralingvistik mətn etiketlərini dəstəkləyir. Provayder izləmə üçün bütün yaradılan səslər üzərində Perth su nişanını ehtiva edir.
Resemble AI
MIT
Fast
en
2GB
Bəli
2x
Zonos
Standard
Zyphra tərəfindən yaradılan Zonos v0.1, xoşbəxtlik, qəzəb, kədər, qorxu və təəccüb üçün sürüşkənlərlə təchiz edilmiş 1.6B parametrli emosional nəzarət modelidir. Bu model həm bir transformator, həm də yeni SSM (status-space model) variantını təklif edir. 10-30 saniyəlik istinad səsindən səs klonlaşdırması ilə 200K+ saat çoxdilli danışıq üzərində təlim edilmişdir.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
6GB
Bəli
2x
Dia 2
Standard
Nari Labs tərəfindən Dia2 Dia-nın 1B və 2B parametr variantlarında mövcud olan axın-əvvəlki yenilənməsidir. İlk bir neçə tokendən səsi sintez etməyə başlayır, real vaxt səs agentləri və söz-söhbət boru kəmərləri üçün ideal edir. [S1]/[S2] etiketləri və (gülür), (kökləyir) kimi paralingvistik işarələrlə çoxlu-söhbətçi dialoqu dəstəkləyir.
Nari Labs
Apache 2.0
Fast
en
4GB
_Yox
2x
VoxCPM
Standard
VoxCPM 1.5 OpenBMB tərəfindən hazırlanmış, diskret tokenlərdən daha çox davamlı məkanda işləyən yeni tokenizatorsuz TTS modelidir. O, yüksək keyfiyyətli 44.1kHz səs istehsal edir, 3-10 saniyədən zero-shot səs klonlaşdırmasını dəstəkləyir və abzaslar arasında tutarlılığı qoruyur. Dilli klonlaşdırma sizə ingilis səsini Çin dilindəki səsə və əksinə tətbiq etməyə imkan verir.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
Bəli
2x
OuteTTS
Free
OuteTTS orijinal quruluşunu qoruyaraq mətn-söhbətə imkanları ilə böyük dil modellərini genişləndirir. llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM və hətta Transformers.js vasitəsilə brauzer inference daxil olmaqla bir çox arxa tərəfi dəstəkləyir. JSON olaraq qeyd edilmiş səsvermə profilləri vasitəsilə zero-shot səs klonlaşdırmasını dəstəkləyir.
OuteAI
Apache 2.0
Fast
en
2GB
Bəli
Pulsuz
TADA
Standard
Hume AI tərəfindən hazırlanmış TADA (Text-Acoustic Dual Alignment) Llama 3.2 üzərində qurulan yeni bir ikili düzəliş arxitekturası vasitəsilə hallucinasyonları aradan qaldıran yenilikçi TTS modelidir. 1B (ingiliscə) və 3B (çoxdilli) variantlarında mövcud olan TADA, RTF-də 0.09 - 5x LLM-ə əsaslanan TTS modellərindən daha sürətlidir. 700 saniyəyə qədər audio konteksti dəstəkləyir və standart benchmarklarda heç bir hallucinasyon olmadan emosional olaraq ifadəli bir danışıq yaradır.
Hume AI
MIT
Fast
en
5GB
_Yox
2x
VibeVoice
Standard
Microsoft VibeVoice iki variantda gəlir: uzun formatlı məzmun üçün 1.5B modeli (90 dəqiqəyə qədər, 4 səsləndirici) və ~200ms ilk səsləndirici gecikməsi ilə axın üçün Rəsmi 0.5B modeli. 1.5B variantı uzun keçidlərdə səsləndirici konzistensiyası ilə podcast və audiokitablarda üstünlük təşkil edir. Xatırlatma: Microsoft TTS kodunu repozitoriyadan çıxardıb və yaradılan səs səsləndirici AI-nin səsləndirilən cavabdehliyini də ehtiva edir.
Microsoft
MIT
Fast
en, zh
4GB
_Yox
2x
Pocket TTS
Free
Kyutai tərəfindən (Moshi-nin yaradıcıları) hazırlanmış Pocket TTS, 100M parametrli kompakt mətn-söhbətə çevirmə modelidir. CPU-da səmərəli işləyir, tək səs nümunəsindən səs klonlaşdırmasını dəstəkləyir və təbii səsli söhbət yaradır. Kiçik model ölçüsü onu edge işə salınması və az resurslu mühitə ideal edir.
Kyutai
MIT
Fast
en, fr
1GB
Bəli
Pulsuz
Kitten TTS
Free
Kitten TTS by KittenML ONNX üzərində qurulan ultra-yüngül mətn-söhbətə çevirmə modelidir. 15M-dən 80M parametrə qədər variantları ilə (25-80 MB diskdə), CPU-da GPU tələb etmədən yüksək keyfiyyətli səs sintezini təmin edir. 8 daxili səs, düzəldilə bilən danışıq sürəti və rəqəmlər, pul vahidləri və vahidlər üçün daxili mətn əvvəldən işləməsi xüsusiyyətlərinə malikdir. Ən son işə salma və aşağı gecikmə tətbiqləri üçün idealdır.
KittenML
Apache 2.0
Fast
en
0GB
_Yox
Pulsuz
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
Bəli
2x
MOSS-TTS
Premium
MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
16GB
Bəli
4x
MegaTTS3
Premium
MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
ByteDance
Apache 2.0
Slow
en, zh
8GB
Bəli
4x
Kokoro
Pulsuz
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Pulsuz
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Pulsuz
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Pulsuz
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
OuteTTS
Pulsuz
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
Pulsuz
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
Pulsuz
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Ön qurğulu
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
_Yox
Bark Small
Ön qurğulu
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
_Yox
CosyVoice 2
Ön qurğulu
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Bəli
Dia TTS
Ön qurğulu
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
_Yox
Parler TTS
Ön qurğulu
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
_Yox
GLM-TTS
Ön qurğulu
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Bəli
IndexTTS-2
Ön qurğulu
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Bəli
Spark TTS
Ön qurğulu
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Bəli
GPT-SoVITS
Ön qurğulu
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Bəli
Orpheus
Ön qurğulu
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
_Yox
Qwen3 TTS
Ön qurğulu
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Bəli
Chatterbox Turbo
Ön qurğulu
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
Bəli
Zonos
Ön qurğulu
Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
Bəli
Dia 2
Ön qurğulu
Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
Nari Labs
Apache 2.0
Fast
en
_Yox
VoxCPM
Ön qurğulu
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
Bəli
TADA
Ön qurğulu
TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
Hume AI
MIT
Fast
en
_Yox
VibeVoice
Ön qurğulu
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
_Yox
CosyVoice3
Ön qurğulu
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
Bəli
Model müqayisə cədvəli
| Model | Yaradıcı: | Tərcümə | Keyfiyyət : | Sür'ət | dillər | Səs Klonlama | VRAM | Lisenziya: | kreditlər | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Pulsuz | İstifadə et | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Pulsuz | İstifadə et | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Pulsuz | İstifadə et | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Pulsuz | İstifadə et | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | İstifadə et | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | İstifadə et | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | İstifadə et | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | İstifadə et | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | İstifadə et | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | İstifadə et | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | İstifadə et | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | İstifadə et | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | İstifadə et | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | İstifadə et | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | İstifadə et | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | İstifadə et | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | İstifadə et | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | İstifadə et | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | İstifadə et | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | İstifadə et | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | İstifadə et | ||
| Zonos | Zyphra | Standard | Medium | 5 | 6GB | Apache 2.0 | 2 | İstifadə et | ||
| Dia 2 | Nari Labs | Standard | Fast | 1 | 4GB | Apache 2.0 | 2 | İstifadə et | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | İstifadə et | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | Pulsuz | İstifadə et | ||
| TADA | Hume AI | Standard | Fast | 1 | 5GB | MIT | 2 | İstifadə et | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | İstifadə et | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | Pulsuz | İstifadə et | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Pulsuz | İstifadə et | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | İstifadə et | ||
| MOSS-TTS | OpenMOSS | Premium | Medium | 19 | 16GB | Apache 2.0 | 4 | İstifadə et | ||
| MegaTTS3 | ByteDance | Premium | Slow | 2 | 8GB | Apache 2.0 | 4 | İstifadə et |
Ən genişləndirilmiş AI Text to Speech platforması
TTS.ai-i Text to Speech üçün niyə seçməlisiniz?
TTS.ai dünyanın ən yaxşı açıq mənbəli mətndən-sözə modellərini tək, istifadəsi asan platformada birləşdirir. Sizi tək səs mühərriki ilə bağlayan mülkiyyət xidmətlərindən fərqli olaraq, TTS.ai sizə Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua Universiteti və daha çoxunu da daxil olmaqla lider tədqiqat laboratoriyalarından 20+ modelə çıxış verir.
Hər bir model MIT, Apache 2.0 və ya buna bənzər icazəli lisenziyalar altında açıq mənbədir, sizin layihələrinizdə yaradılan səsi istifadə etmək üçün tam kommersiya hüquqlarınız təmin edilir. Real vaxt tətbiqləri üçün sürətli, yüngül sintez və ya audio kitablar və podcastlar üçün premium studiya keyfiyyətli çıxarışa ehtiyacınız olsun, TTS.ai hər istifadə halı üçün doğru modelə malikdir.
Pulsuz Modellər, Hesab İstənilmir
Üç pulsuz TTS modeli ilə dərhal başlayın: Piper (ultra sürətli, yüngül), VITS (yüksək keyfiyyətli sinir sintezi) və MeloTTS (çox dil dəstəyi). Qeydiyyat olmadan, kredit kartı olmadan, nəsillər arasında məhdudiyyət olmadan. Pulsuz modellər İngilis və bir çox digər dilləri dəstəkləyir və bir çox tətbiqlər üçün uyğun olan təbii səsli çıxışı dəstəkləyir.
GPU sürətləndirilmiş işləmə
Bütün TTS modelləri sürətli, davamlı istehsal vaxtları üçün xüsusi NVIDIA GPU-larda işləyir. Pulsuz modellər adətən səsi 2 saniyədən az müddətdə istehsal edirlər. Kokoro, CosyVoice 2 və Bark kimi standart modellər orta hesabla 3-5 saniyə ərzində. Tortoise və Chatterbox kimi ən yüksək keyfiyyətli premium modellər mətnin uzunluğuna görə 5-15 saniyədə işləyir.
30+ dil dəstəklənir
İngilis, İspan, Fransız, Alman, İtalyan, Portuqaliya, Çin, Yapon, Koreya, Ərəb, Hind, Rus və daha çox dillərdə 30-dan çox səsi yarada bilərsiniz. Bir çox modellər dillərarası sintezini dəstəkləyir, bu da siz orijinal səsin öyrədilmədiyi dildə səs yarada bilərsiniz deməkdir. CosyVoice 2 və GPT-SoVITS dillərarası səs klonlamada üstündür.
Yaradıcıya hazır API
TTS.ai-i OpenAI-yə uyğun REST API-mizlə tətbiqlərinizə birləşdirin. Bütün 20+ modellər üçün bir son nöqtə. Python, JavaScript, cURL və Go SDK-ları. Real vaxt tətbiqləri üçün axın dəstəyi. Böyük miqyaslı məzmun istehsalı üçün batch prosesi. Async bildirişləri üçün Webhooks. Pro və Enterprise planlarında mövcuddur.
Tez-tez Sorulan Sual
Nəyi yaxşılaşdıra bilərik? Sizin rəyiniz problemləri düzəltməyə kömək edir.
Mətnə-Söhbətə Dəyişməni İndi Başlat
TTS.ai istifadə edərək minlərlə yaradıcıya qoşulun. Yeni hesabla 15,000 pulsuz xarakter əldə edin. Pulsuz modellər qeydiyyat olmadan mövcuddur.