AI Text to Speech
Açıq mənbəli AI modelləri ilə mətni təbii səsli danışmaya çevir. İstifadəsi pulsuzdur, hesab tələb olunmur.
Düzgün idarə üçün mətninizi SSML lentlərinə sarılın:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Göndərməyə təsir etmək üçün emosiya işarələrini əlavə et (model dəstəyi dəyişir):
Özəl səsləndirmələri təsvir et (söz = səsləndirmə):
Model Məlumatları
Kitten TTS
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
| Yaradıcı: | KittenML |
| Lisenziya: | Apache 2.0 |
| Sür'ət | Fast |
| Keyfiyyət : | |
| dillər | 1 language |
| VRAM | 0GB |
| Səs Klonlama | Dəstəklənmir |
Daha yaxşı nəticələr üçün məsləhətlər
- Təbii sükut və intonasiya üçün düzgün nişanlama istifadə et
- Rəqəmləri və qısaltmaları daha aydın oxumaq üçün imla et
- Fərqli cümlələr arasında qısa fasilə yaratmaq üçün vergül əlavə et
- Uzun dramatik fasilələrə üçün üç nöqtə (...) istifadə et
- Ən təbii nəticələr üçün Kokoro və ya CosyVoice 2-ni sınayın
- Dia-nı çoxlu səsləndirici dialoqu və podcast məzmunu üçün istifadə et
Karakter İstifadəsi
| Tərcümə | 1K xarakterin qiyməti |
|---|---|
| Pulsuz | 0 kredit (sığortasız) |
| Ön qurğulu | 2 kredit / 1K simvol |
| Premium | 4 kredit / 1K simvol |
AI Text to Speech necə işləyir
Üç sadə addımla peşəkar keyfiyyətli səs yazıları yaradın. Texniki bilik tələb olunmur.
Mətni daxil edin
Sənəddə çevirmək istədiyiniz mətni yazın, yapışdırın və ya yükləyin. Giriş etmiş istifadəçilər üçün hər nəsildə 5000-ə qədər xarakter dəstəklənir. Tərcümə, fasilə və vurğu üzərində daha geniş nəzarət üçün sadə mətn istifadə edin və ya SSML təyinatlarını əlavə edin.
Model və səs seç
Üç səviyyədə 20+ AI modeli arasından seçin. İçərişinizi uyğunlaşdıran səsi seçin, məqsəd dilinizi seçin, oynatma sürətini 0.5x-dən 2.0x-ə qədər düzəldin və istədiyiniz çıxış formatını (MP3, WAV, OGG, ya da FLAC) seçin.
Yüklə
Yarat düyməsini basın və səsiniz saniyələr içində hazır olacaq. İçindəki pleyerlə əvvəlcədən baxın, seçdiyiniz formatda yükləyin, ya da paylaşıla bilən bir körpünü kopyalayın. İş axınınıza birləşdirmək və paketləmək üçün API istifadə edin.
Mətndən Söhbətə İstifadə Halı
AI-powered text-to-speech insanların düzən sənayelərində audio məzmunla necə yaratmaq, istehlak etmək və ünsiyyət qurmalarını dəyişir.
Bütün Text-to-Speech Modelləri
TTS.ai-də mövcud olan hər bir AI modeli üçün ətraflı spesifikasiyalar. Proqramınız üçün mükəmməl modeli tapmaq üçün keyfiyyət, sürət, dil dəstəyi və xüsusiyyətləri müqayisə edin.
Kokoro
Free
Kokoro 82 milyon parametrli mətndən-sözə modeldir və öz ağırlıq sinfindən çox üstündür. Kiçik ölçüsünə baxmayaraq, o, çox təbii və ifadəli bir səs istehsal edir. Kokoro ingilis, yapon, çin və koreyalı dilləri də daxil olmaqla bir çox dilləri dəstəkləyir və müxtəlif ifadəli səslər istehsal edir. O, inanılmaz sürətlə işləyir - GPU-da real vaxtda səsi 100x sürətlə istehsal edir.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
_Yox
Pulsuz
Piper
Free
Piper Rhasspy tərəfindən inkişaf etdirilmiş VITS və larynx arxitekturalarını istifadə edən yüngül mətn-söhbətə motordur. CPU-da işləyir, bu da onu edge cihazları, ev avtomatlaşdırması və offlayn TTS tələb edən proqramlar üçün ideal edir. 30-dan çox dildə 100 səslə Piper Raspberry Pi 4-də belə real vaxt sürətində təbii səsli sözlər təqdim edir.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
_Yox
Pulsuz
VITS
Free
VITS (variasiyalı nəticə ilə qarşılıqlı öyrənmə üçün son-son Text-to-Speech) hazırkı iki mərhələli modellərdən daha təbii səslənən səsi yaradan paralel son-son TTS metodudur. Normallaşdırma axınları ilə artırılmış variasiyalı nəticəni və qarşılıqlı öyrənmə prosesini qəbul edir, təbiiliyi əhəmiyyətli dərəcədə yaxşılaşdırır.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
_Yox
Pulsuz
MeloTTS
Free
MyShell.ai tərəfindən yaradılan MeloTTS İngilis (Amerika, İngiltərə, Hindistan, Avstraliya), İspan, Fransız, Çin, Yapon və Koreya dillərini dəstəkləyən çoxdilli TTS kitabxanasıdır. Bu kitabxana çox sürətlidir, yalnız CPU-da mətni real vaxt sürəti ilə işləyir. MeloTTS istehsal üçün hazırlanmışdır və CPU və GPU-nun nəticələrini dəstəkləyir.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
_Yox
Pulsuz
Bark
Standard
Suno tərəfindən hazırlanmış Bark, çox dildə çox real səs və musiqi, arxa fon səsləri və səs effektləri kimi digər səsləri yarada bilən transformator əsaslı mətn-səs modelidir. Gülüş, inilti və ağlama kimi sözsüz ünsiyyəti yarada bilir. Bark 100-dən çox səsləndiricinin əvvəlcədən qurğularını və 13-dən çox dili dəstəkləyir.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
_Yox
2x
Bark Small
Standard
Bark Small Bark modelinin daha sürətli nəticələmə sürəti və daha az yaddaş tələbləri üçün bəzi səs keyfiyyətini dəyişən distillasiya edilmiş versiyasıdır. Bark'ın emosional, gülüş və çoxlu dillərlə danışmaq qabiliyyətini saxlayır.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
_Yox
2x
CosyVoice 2
Standard
Alibaba'nın Tongyi Lab tərəfindən hazırlanan CosyVoice 2 insan səsi ilə müqayisəli səs keyfiyyətinə malikdir və çox aşağı gecikmə ilə real vaxt tətbiqləri üçün idealdır. O, axın sintezinə sonlu skalar kvantlaşdırma yanaşmasını istifadə edir və zero-shot səs klonlaşdırmasını, dillərarası sintezini və incə hisslər nəzarətini dəstəkləyir. O, subyektiv qiymətləndirmələrdə bir çox kommersiya TTS sistemlərini üstələyir.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Bəli
2x
Dia TTS
Standard
Dia Nari Labs tərəfindən hazırlanmış 1.6B parametrli mətn-söhbətə modeldir. Bu model xüsusi olaraq çoxlu-söhbətçili dialoq yaratmaq üçün hazırlanmışdır. Dia iki danışan arasında uyğun dönüş, prosodiya və emosional ifadə ilə təbii səsli söhbətlər yarada bilər. Dia podcast-style məzmun, audiobook dialoqları və interaktiv danışıq AI yaratmaq üçün mükəmməldir.
Nari Labs
Apache 2.0
Medium
en
4GB
_Yox
2x
Parler TTS
Standard
Parler TTS, yaradılan danışığı idarə etmək üçün təbii dil səs təsvirini istifadə edən mətndən-sözə modeldir. Ön qurulmuş səslərdən seçmək əvəzinə, istədiyiniz səsi təsvir edə bilərsiniz (məsələn, "yavaş və aydın danışan, kiçik Britaniya aksenti olan qız səsi") və Parler bu təsviri uyğunlaşdıraraq danışığı yaradır. Bu onu yaradıcı proqramlar üçün unikal elastik edir.
Hugging Face
Apache 2.0
Medium
en
4GB
_Yox
2x
GLM-TTS
Standard
Zhipu AI tərəfindən hazırlanmış GLM-TTS, Llama mimarisinə əsaslanan və axın uyğunlaşdırması ilə işləyən mətn-söhbətə çevirmə sistemidir. Bu sistem açıq mənbəli TTS modelləri arasında ən aşağı xarakter səhv dərəcəsinə nail olur, bu da ən dəqiq səslənməni təmin edir. GLM-TTS 3-10 saniyəlik səs nümunələrindən səs klonlaşdırması ilə İngilis və Çin dillərini dəstəkləyir.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Bəli
2x
IndexTTS-2
Standard
IndexTTS-2, zəif səs sintezində və emosional nəzarətdə üstün olan inkişaf etmiş mətn-söhbət sistemidir. O, emosional təlim məlumatları tələb etmədən xoşbəxt, kədərli, qəzəbli və qorxu kimi xüsusi emosional tonlarla danışa bilər. Model, yaradılan danışığın emosional ifadəsini dəqiq idarə etmək üçün emosional vektorlardan istifadə edir.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Bəli
2x
Spark TTS
Standard
Spark TTS SparkAudio tərəfindən səs klonlaşdırmasını idarəolunan hiss və danışıq üslubu ilə birləşdirən mətn-söhbət modelidir. Yalnız 5 saniyəlik istinad səsi istifadə edərək səsi klonlaşdıra bilər və sonra klonlaşdırılmış səs kimliyini qoruyaraq fərqli hisslər, sürətlər və üslublarla danışıq yarada bilər. Spark TTS prompt əsaslı idarəetmə sistemini istifadə edir.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Bəli
2x
GPT-SoVITS
Standard
GPT-SoVITS GPT-style dil modelləşdirmə ilə SoVITS (Singing Voice Inference via Translation and Synthesis)-i güclü az-şot səs klonlaşdırması üçün birləşdirir. 5 saniyəlik istinad səsi ilə səsi dəqiq klonlaşdıra və yeni səsi yaratmaqla danışanın unikal xüsusiyyətlərini qoruya bilir. Həm danışıq həm də səs sintezini yaxşı edir.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Bəli
2x
Orpheus
Standard
Orpheus insan səviyyəli emosional ifadəyə nail olan böyük ölçülü mətn-söhbətə modeldir. 100,000 saatdan çox müxtəlif səs məlumatları üzərində təlim edilmişdir, təbii emosiyalar, vurğulamalar və danışıq üslubları ilə danışıq yaratmaqda üstündür. Orpheus insan səs yazılarından virtual olaraq ayırd edilə bilməyən danışıq istehsal edə bilər.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
_Yox
2x
Chatterbox
Premium
Resemble AI tərəfindən hazırlanmış Chatterbox səs klonlama modelidir. Bu model tək bir səs nümunəsindən istənilən səsi çox dəqiqliklə təkrarlaya bilər, təkcə səs tonunu deyil, həm də danışıq üslubunu və emosional nüansları da ələ keçirə bilir. Chatterbox həmçinin sizə səs kimliyindən asılı olmayaraq səsin emosional tonunu düzəltməyinizə imkan verən çox incə emosional idarəetmə xüsusiyyətlərinə də malikdir.
Resemble AI
MIT
Medium
en
4GB
Bəli
4x
Tortoise TTS
Premium
Tortoise TTS, audio keyfiyyətini sürətdən üstün tutan çox səsli mətn-söhbətə çevirmə sistemidir. DALL-E-dən ilhamlanan arxitekturadan istifadə edərək parlaq prozodiya və danışanın bənzərliyi ilə çox təbiidir. Bir çox alternativlərdən daha yavaş olsa da, Tortoise açıq mənbəli ekosistemdə mövcud olan ən realist sintetik sözləri istehsal edir.
James Betker
Apache 2.0
Slow
en
8GB
Bəli
4x
StyleTTS 2
Premium
StyleTTS 2, böyük səs dil modelləri ilə rəqabətçi təlimləri birləşdirərək insan səviyyəli TTS sintezini əldə edir. İnsan səs qeydləri ilə rəqabət aparan tək-oxuma modelləri arasında ən təbii səslənən səsi yaradır. StyleTTS 2, insan səs dəyişikliyinin bütün diapazonunu tutmaq üçün diffuziya əsaslı üslub modelləşdirməsini istifadə edir.
Columbia University
MIT
Medium
en
4GB
_Yox
4x
OpenVoice
Premium
MyShell.ai tərəfindən yaradılan OpenVoice səs üslubu, emosiyası, aksenti, ritmi, fasilə və intonasiyası üzərində nəzarəti ilə səsin dərhal klonlanmasına imkan verir. O, qısa audio klipdən səsi klonlaya və danışan şəxsiyyətini qoruyaraq bir çox dildə danışığı yarada bilər. OpenVoice real vaxt səs dəyişdirmə imkan verən səs çevirici kimi də işləyir.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Bəli
4x
Qwen3 TTS
Standard
Qwen3-TTS Alibaba'nın Qwen komandasından olan 1.7 milyard parametrli mətndən-sözə modeldir. Üç rejimi dəstəkləyir: emosional nəzarətlə əvvəlcədən qurulmuş səslər (9 səsləndirici), yalnız 3 saniyədən səs klonlaşdırması və istədiyiniz səsi təbii dildə təsvir etdiyiniz unikal səs dizaynı rejimi. Yüksək ifadəliliyi və təbii prozodiya ilə 10 dili əhatə edir.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Bəli
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) 1 milyard parametrdən ibarət olan və söhbət yaratmaq üçün xüsusi olaraq hazırlanmış modeldir. Bu model insan söhbətinin təbiət nümunələrini modelləşdirir. Bu nümunələr arasında dönmə vaxtı, backchannel cavabları, emosional reaksiyalar və söhbət axını da var. CSM sintetik söhbət deyil, təbiət söhbəti kimi səslənən səsi yaradır.
Sesame
Apache 2.0
Slow
en
8GB
_Yox
4x
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
_Yox
Pulsuz
Kokoro
Pulsuz
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Pulsuz
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Pulsuz
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Pulsuz
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Kitten TTS
Pulsuz
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Ön qurğulu
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
_Yox
Bark Small
Ön qurğulu
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
_Yox
CosyVoice 2
Ön qurğulu
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Bəli
Dia TTS
Ön qurğulu
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
_Yox
Parler TTS
Ön qurğulu
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
_Yox
GLM-TTS
Ön qurğulu
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Bəli
IndexTTS-2
Ön qurğulu
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Bəli
Spark TTS
Ön qurğulu
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Bəli
GPT-SoVITS
Ön qurğulu
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Bəli
Orpheus
Ön qurğulu
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
_Yox
Qwen3 TTS
Ön qurğulu
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Bəli
Model müqayisə cədvəli
| Model | Yaradıcı: | Tərcümə | Keyfiyyət : | Sür'ət | dillər | Səs Klonlama | VRAM | Lisenziya: | kreditlər | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Pulsuz | İstifadə et | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Pulsuz | İstifadə et | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Pulsuz | İstifadə et | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Pulsuz | İstifadə et | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | İstifadə et | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | İstifadə et | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | İstifadə et | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | İstifadə et | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | İstifadə et | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | İstifadə et | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | İstifadə et | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | İstifadə et | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | İstifadə et | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | İstifadə et | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | İstifadə et | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | İstifadə et | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | İstifadə et | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | İstifadə et | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | İstifadə et | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | İstifadə et | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Pulsuz | İstifadə et |
Ən genişləndirilmiş AI Text to Speech platforması
Niyə TTS.ai-ni Text to Speech üçün seçmək lazımdır?
TTS.ai dünyanın ən yaxşı açıq mənbəli mətndən-sözə modellərini tək, istifadəsi asan platformada birləşdirir. Sizi tək səs mühərriki ilə bağlayan mülkiyyət xidmətlərindən fərqli olaraq, TTS.ai sizə Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua Universiteti və daha çoxunu da daxil olmaqla lider tədqiqat laboratoriyalarından 20+ modelə çıxış verir.
Hər bir model MIT, Apache 2.0 və ya buna bənzər icazəli lisenziyalar altında açıq mənbədir, sizin layihələrinizdə yaradılan səsi istifadə etmək üçün tam kommersiya hüquqlarınız təmin edilir. Real vaxt tətbiqləri üçün sürətli, yüngül sintez və ya audio kitablar və podcastlar üçün premium studiya keyfiyyətli çıxarışa ehtiyacınız olsun, TTS.ai hər istifadə halı üçün doğru modelə malikdir.
Pulsuz Modellər, Hesab İstənilmir
Üç pulsuz TTS modeli ilə dərhal başlayın: Piper (ultra sürətli, yüngül), VITS (yüksək keyfiyyətli sinir sintezi) və MeloTTS (çox dil dəstəyi). Qeydiyyat olmadan, kredit kartı olmadan, nəsillər arasında məhdudiyyət olmadan. Pulsuz modellər İngilis və bir çox digər dilləri dəstəkləyir və bir çox tətbiqlər üçün uyğun olan təbii səsli çıxışı dəstəkləyir.
GPU sürətləndirilmiş işləmə
Bütün TTS modelləri sürətli, davamlı istehsal vaxtları üçün xüsusi NVIDIA GPU-larda işləyir. Pulsuz modellər adətən səsi 2 saniyədən az müddətdə istehsal edirlər. Kokoro, CosyVoice 2 və Bark kimi standart modellər orta hesabla 3-5 saniyə ərzində. Tortoise və Chatterbox kimi ən yüksək keyfiyyətli premium modellər mətnin uzunluğuna görə 5-15 saniyədə işləyir.
30+ dil dəstəklənir
İngilis, İspan, Fransız, Alman, İtalyan, Portuqaliya, Çin, Yapon, Koreya, Ərəb, Hind, Rus və daha çox dillərdə 30-dan çox səsi yarada bilərsiniz. Bir çox modellər dillərarası sintezini dəstəkləyir, bu da siz orijinal səsin öyrədilmədiyi dildə səs yarada bilərsiniz deməkdir. CosyVoice 2 və GPT-SoVITS dillərarası səs klonlamada üstündür.
Yaradıcıya hazır API
TTS.ai-i OpenAI-yə uyğun REST API-mizlə tətbiqlərinizə birləşdirin. Bütün 20+ modellər üçün bir son nöqtə. Python, JavaScript, cURL və Go SDK-ları. Real vaxt tətbiqləri üçün axın dəstəyi. Böyük miqyaslı məzmun istehsalı üçün batch prosesi. Async bildirişləri üçün Webhooks. Pro və Enterprise planlarında mövcuddur.
Tez-tez Sorulan Sual
Nəyi yaxşılaşdıra bilərik? Sizin rəyiniz problemləri düzəltməyə kömək edir.
Mətnə-Söhbətə Dəyişməni İndi Başlat
TTS.ai istifadə edərək minlərlə yaradıcıya qoşulun. Yeni hesabla 15,000 pulsuz xarakter əldə edin. Pulsuz modellər qeydiyyat olmadan mövcuddur.