Xəta / Xüsusiyyət İxtiyarını İdarə Et

AI Text to Speech

Açıq mənbəli AI modelləri ilə mətni təbii səsli danışmaya çevir. İstifadəsi pulsuzdur, hesab tələb olunmur.

Qeyd Ol

Sizin dilində hələlik TTS səsləri yoxdur. Bizə öz səslərinizi əlavə etməyə kömək edin! Səsini Sat

0/500 hərflər · 5000-ə qədər qeydiyyatdan keçin →

Qeyd Et 5,000 karakter həddi

SSML Modu (Düzgün idarəetmə üçün Speech Synthesis Markup Language)

Düzgün idarə üçün mətninizi SSML lentlərinə sarılın:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emotikonlar

Göndərmə təsiri üçün hiss-halı işarələrini əlavə et (model dəstəyi dəyişir):

Tərcümə lüğəti

Özəl səsləndirmələri təsvir et (söz = səsləndirmə):

Səs 0

-12 +12

Dia Dəyişənləri [S1] və [S2] təqvimləri müxtəlif səsləndiriciləri göstərmək üçün istifadə edin. Məsələn:

[S1] Salam! [S2] Salam, necəsiniz?



                

                
                
                    
                    
                        Model
                        
                    

                    
                    
                        
                            Səs
                            
                        
                        
                            
                            
                                
                                
                                
                            
                            
                        
                    
                
                

                
                
                    
                    
                        Dil
                        
                    

                    
                    
                        Çıxış şəkli
                        
                    

                    
                    
                        
                            Sür'ət
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Piper, VITS, MeloTTS ilə pulsuz



        
        
            
                Yaratdığınız səs burada görünəcək. Bir model seçin, mətni daxil edin və Yarat düyməsini basın.
            
            
            
                
                
                    Yaratmaq Bacarılmadı
                    
                
            
        

            
                
                    
                        Audio müvəffəqiyyətlə yaradıldı
                        
                    
                    
                        


    
        
            
            
                
                    
                
                
            
        
    


                        
                            
                                Audio endirilsin
                            
                            
                                Yüklə
                            
                            
                            
                            Körpünün müddəti 24 saat ərzində başa çatır
                            
                                
                                    
                                    
                                    
                                    
                                    
                                
                            
                        
                    
                
            
        

        

    
        
            
                
                    TTS.ai-ni sevirsiniz? Dostlarınıza deyin!



    
    
        
        
            
                Model Məlumatları
            
            
                
                
                    
                    Kitten TTS
                
                Free
                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
                
                    
                        
                            Yaradıcı:
                            KittenML
                        
                        
                            Lisenziya:
                            Apache 2.0
                        
                        
                            Sür'ət
                            
                                Fast
                            
                        
                        
                            Keyfiyyət :
                            
                                
                            
                        
                        
                            dillər
                            1 language
                        
                        
                            VRAM
                            0GB
                        
                        
                            Səs Klonlama
                             Dəstəklənmir
                        
                    
                
                
                
                    Xüsusiyyətlər:
                    
                        
                        CPU-only inference
                        
                        Under 80MB model size
                        
                        8 built-in voices
                        
                        Speed control
                        
                        ONNX-based
                        
                        24kHz output
                        
                    
                
                
                
                Ən Yaxşı:: 
                Fast lightweight TTS, edge deployment, low-latency applications
                
                
            
        

        
        
            
                Daha yaxşı nəticələr üçün məsləhətlər
            
            
                
                    Təbii sükut və intonasiya üçün düzgün nişanlama istifadə et
                    Rəqəmləri və qısaltmaları daha aydın oxumaq üçün imla et
                    Fərqli cümlələr arasında qısa fasilə yaratmaq üçün vergül əlavə et
                    Uzun dramatik fasilələrə üçün üç nöqtə (...) istifadə et
                    Ən təbii nəticələr üçün Kokoro və ya CosyVoice 2-ni sınayın
                    Dia-nı çoxlu səsləndirici dialoqu və podcast məzmunu üçün istifadə et
                
            
        

        
        
            
                Karakter İstifadəsi
            
            
                
                    
                        
                            Tərcümə
                            1K xarakterin qiyməti
                        
                    
                    
                        
                            Pulsuz
                            0 kredit (sığortasız)
                        
                        
                            Ön qurğulu
                            2 kredit / 1K simvol
                        
                        
                            Premium
                            4 kredit / 1K simvol
                        
                    
                
            
            
                Daha çox xarakter al

Tərcümə	1K xarakterin qiyməti
Pulsuz	0 kredit (sığortasız)
Ön qurğulu	2 kredit / 1K simvol
Premium	4 kredit / 1K simvol






    
        
            
                
                
                    Daha çox xarakter al
                    
    Reklam yoxdur
    Sınırsız istifadə
    Əsas dəstək
    Yeni xüsusiyyətlərə erkən çıxış


                
                

                
                    
                        Daha çox xarakter al






    
        AI Text to Speech necə işləyir
        Üç sadə addımla peşəkar keyfiyyətli səs yazıları yaradın. Texniki bilik tələb olunmur.
        
            
                
                    
                        
                            
                        
                        Addım 1
                        Mətni daxil edin
                        Sənəddə çevirmək istədiyiniz mətni yazın, yapışdırın və ya yükləyin. Giriş etmiş istifadəçilər üçün hər nəsildə 5000-ə qədər xarakter dəstəklənir. Tərcümə, fasilə və vurğu üzərində daha geniş nəzarət üçün sadə mətn istifadə edin və ya SSML təyinatlarını əlavə edin.
                    
                
            
            
                
                    
                        
                            
                        
                        Addım 2
                        Model və səs seç
                        Üç səviyyədə 20+ AI modeli arasından seçin. İçərişinizi uyğunlaşdıran səsi seçin, məqsəd dilinizi seçin, oynatma sürətini 0.5x-dən 2.0x-ə qədər düzəldin və istədiyiniz çıxış formatını (MP3, WAV, OGG, ya da FLAC) seçin.
                    
                
            
            
                
                    
                        
                            
                        
                        Addım 3
                        Yüklə
                        Yarat düyməsini basın və səsiniz saniyələr içində hazır olacaq. İçindəki pleyerlə əvvəlcədən baxın, seçdiyiniz formatda yükləyin, ya da paylaşıla bilən bir körpünü kopyalayın. İş axınınıza birləşdirmək və paketləmək üçün API istifadə edin.
                    
                
            
        
    






    
        Mətndən Söhbətə İstifadə Halı
        AI-powered text-to-speech insanların düzən sənayelərində audio məzmunla necə yaratmaq, istehlak etmək və ünsiyyət qurmalarını dəyişir.
        
            
                
                    
                        
                        Audiokitablar
                        Bütün kitabları studiya keyfiyyətli danışıqla təbii səsli audio kitablara çevirin. Dia ilə karakter dialoqu üçün çoxlu səsləndirici dəstəyi.
                    
                
            
            
                
                    
                        
                        Video səsləndirmə
                        YouTube, TikTok, Instagram Reels və Shorts üçün peşəkar səsləndirmələr yaradın. 100+ səslər və ya özünüz klonlayın.
                    
                
            
            
                
                    
                        
                        Podcastlar
                        Bir çox AI səsləri olan skriptlərdən podcast hissələrini yaradın. Dia-nı iki səsli söhbətlər üçün istifadə edin.
                    
                
            
            
                
                    
                        
                        Oyun
                        İndi oyunları, vizual romanlar və interaktiv ədəbiyyat üçün AI səs aktyorluğu. NPC dialoqu, cutscene səsləri, 30+ dil.
                    
                
            
            
                
                    
                        
                        E-öyrənmə
                        Kurs materialları, dərslər və təlim məzmununu audioya çevirin. Global platformalar üçün çox dil dəstəyi.
                    
                
            
            
                
                    
                        
                        Yetişilə Bilənlik
                        Veb saytları, sənədləri və tətbiqləri əlçatan edin. Ekran oxuyucusu API inteqrasiyası və məqalə-dən-audio-ya çevirmə.
                    
                
            
            
                
                    
                        
                        Telefon Sistemləri
                        Power IVR sistemləri, telefon menyuları, və müştəri xidməti ilə təbii AI səsləri. zəng mərkəzləri üçün aşağı-latency axını.
                    
                
            
            
                
                    
                        
                        Sosial Media
                        TikTok danışıqları, Instagram Reels, Twitter / X şərhləri, YouTube Shorts. Pulsuz modellərlə sürətli yaradılma.
                    
                
            
            
                
                    
                        
                        Dağıdım
                        Twitch TTS xəbərdarlıqları, söhbət-sözə, AI qohumları və Discord botları. Düşük gecikmə, 100+ səs, StreamElements uyğun.
                    
                
            
            
                
                    
                        
                        Marketinq
                        Ad voiceovers, explaner videolar, məhsul demoları, və satış təqdimatları. kampaniyalar arasında audio məzmun istehsalı ölçmək.
                    
                
            
            
                
                    
                        
                        Dublyaj və Lokalizasiya
                        Videonu səslə uyğunlaşdırılmış AI ilə 30+ dildə tərcümə və dublaj edin. Avtomatik transkripsiya və səsləndirici aşkarlama.
                    
                
            
            
                
                    
                        
                        Meditasiya və sağlamlıq
                        Bu zaman ürək, ağciyər, böyrək, qaraciyər, qaraciyər və böyrəklər fəaliyyət göstərir.
                    
                
            
        
        
            Bütün istifadə halları və alətləri göstər
        
    






    
        Bütün Text-to-Speech Modelləri
        TTS.ai-də mövcud olan hər bir AI modeli üçün ətraflı spesifikasiyalar. Proqramınız üçün mükəmməl modeli tapmaq üçün keyfiyyət, sürət, dil dəstəyi və xüsusiyyətləri müqayisə edin.

        
        
            Hamısı (32)
            Pulsuz (9)
            Ön qurğulu (18)
            Premium (5)
        

        
            
            
                
                    
                    
                        
                            
                                Kokoro
                                Free
                            
                            
                                Kokoro 82 milyon parametrli mətndən-sözə modeldir və öz ağırlıq sinfindən çox üstündür. Kiçik ölçüsünə baxmayaraq, o, çox təbii və ifadəli bir səs istehsal edir. Kokoro ingilis, yapon, çin və koreyalı dilləri də daxil olmaqla bir çox dilləri dəstəkləyir və müxtəlif ifadəli səslər istehsal edir. O, inanılmaz sürətlə işləyir - GPU-da real vaxtda səsi 100x sürətlə istehsal edir.

                                
                                    
                                        Yaradıcı::

                                        Hexgrad
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, ja, zh, fr, it, pt, es, hi
                                    
                                    
                                        VRAM:

                                        1.5GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        82M parametrlər
                                        
                                        Çox sürətli
                                        
                                        Ekspressiv səslər
                                        
                                        Çoxdilli
                                        
                                        İşıqlandırma dəstəyi
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Minimal gecikmə ilə yüksək keyfiyyətli TTS, axın tətbiqetmələri
                                
                            
                            
                                
                                    Try Kokoro
                                
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Free
                            
                            
                                Piper Rhasspy tərəfindən inkişaf etdirilmiş VITS və larynx arxitekturalarını istifadə edən yüngül mətn-söhbətə motordur. CPU-da işləyir, bu da onu edge cihazları, ev avtomatlaşdırması və offlayn TTS tələb edən proqramlar üçün ideal edir. 30-dan çox dildə 100 səslə Piper Raspberry Pi 4-də belə real vaxt sürətində təbii səsli sözlər təqdim edir.

                                
                                    
                                        Yaradıcı::

                                        Rhasspy
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                    
                                    
                                        VRAM:

                                        0 (CPU only)
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        CPU-ya uyğun
                                        
                                        Xətt kənarında ola bilər
                                        
                                        100+ səs
                                        
                                        30+ dil
                                        
                                        SSML dəstək
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Tez önizləmələr, əlçatanlıq və daxili proqramlar
                                
                            
                            
                                
                                    Try Piper
                                
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Free
                            
                            
                                VITS (variasiyalı nəticə ilə qarşılıqlı öyrənmə üçün son-son Text-to-Speech) hazırkı iki mərhələli modellərdən daha təbii səslənən səsi yaradan paralel son-son TTS metodudur. Normallaşdırma axınları ilə artırılmış variasiyalı nəticəni və qarşılıqlı öyrənmə prosesini qəbul edir, təbiiliyi əhəmiyyətli dərəcədə yaxşılaşdırır.

                                
                                    
                                        Yaradıcı::

                                        Jaehyeon Kim et al.
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, de, es, fr, pt, nl, fi, hu, bg, uk, pl
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        Son-son sintez
                                        
                                        Təbii üsul
                                        
                                        Tez-tez
                                        
                                        Birdən çox səsləndirici
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Təbii prozodiya ilə ümumi məqsədli mətn-söhbətə çevirici
                                
                            
                            
                                
                                    Try VITS
                                
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Free
                            
                            
                                MyShell.ai tərəfindən yaradılan MeloTTS İngilis (Amerika, İngiltərə, Hindistan, Avstraliya), İspan, Fransız, Çin, Yapon və Koreya dillərini dəstəkləyən çoxdilli TTS kitabxanasıdır. Bu kitabxana çox sürətlidir, yalnız CPU-da mətni real vaxt sürəti ilə işləyir. MeloTTS istehsal üçün hazırlanmışdır və CPU və GPU-nun nəticələrini dəstəkləyir.

                                
                                    
                                        Yaradıcı::

                                        MyShell.ai
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, es, fr, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        0.5GB (GPU optional)
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        CPU optimallaşdırılmış
                                        
                                        Çoxdilli
                                        
                                        Çoxlu Aksentlər
                                        
                                        Proqram hazırdır
                                        
                                        Az gözləmə müddəti
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Çoxdilli və sürətli TTS tələb edən proqramlar
                                
                            
                            
                                
                                    Try MeloTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark
                                Standard
                            
                            
                                Suno tərəfindən hazırlanmış Bark, çox dildə çox real səs və musiqi, arxa fon səsləri və səs effektləri kimi digər səsləri yarada bilən transformator əsaslı mətn-səs modelidir. Gülüş, inilti və ağlama kimi sözsüz ünsiyyəti yarada bilir. Bark 100-dən çox səsləndiricinin əvvəlcədən qurğularını və 13-dən çox dili dəstəkləyir.

                                
                                    
                                        Yaradıcı::

                                        Suno
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Slow
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        5GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Səs effektləri
                                        
                                        Gülmək/Nəsihət vermək
                                        
                                        Musiqi yaradılması
                                        
                                        100+ səsləndirici
                                        
                                        Çoxdilli
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Yaradıcı audio məzmun, emosional audiokitablar, səs effektləri
                                
                            
                            
                                
                                    Try Bark
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Standard
                            
                            
                                Bark Small Bark modelinin daha sürətli nəticələmə sürəti və daha az yaddaş tələbləri üçün bəzi səs keyfiyyətini dəyişən distillasiya edilmiş versiyasıdır. Bark'ın emosional, gülüş və çoxlu dillərlə danışmaq qabiliyyətini saxlayır.

                                
                                    
                                        Yaradıcı::

                                        Suno
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Yüngül
                                        
                                        Tam qabıqdan daha sürətli
                                        
                                        Emosional nitq
                                        
                                        Çoxdilli
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Tam Bark çox yavaş olduqda sürətli yaradıcı səs
                                
                            
                            
                                
                                    Try Bark Small
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Standard
                            
                            
                                Alibaba'nın Tongyi Lab tərəfindən hazırlanan CosyVoice 2 insan səsi ilə müqayisəli səs keyfiyyətinə malikdir və çox aşağı gecikmə ilə real vaxt tətbiqləri üçün idealdır. O, axın sintezinə sonlu skalar kvantlaşdırma yanaşmasını istifadə edir və zero-shot səs klonlaşdırmasını, dillərarası sintezini və incə hisslər nəzarətini dəstəkləyir. O, subyektiv qiymətləndirmələrdə bir çox kommersiya TTS sistemlərini üstələyir.

                                
                                    
                                        Yaradıcı::

                                        Alibaba (Tongyi Lab)
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, ja, ko, fr, de, it, es
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Dağıdım
                                        
                                        Zero-shot klonlama
                                        
                                        Dillərarası
                                        
                                        Emosional idarəetmə
                                        
                                        İnsan-paritet
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Real-time tətbiqetmələri, TTS axını, səs köməkçiləri
                                
                            
                            
                                
                                    Try CosyVoice 2
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Standard
                            
                            
                                Dia Nari Labs tərəfindən hazırlanmış 1.6B parametrli mətn-söhbətə modeldir. Bu model xüsusi olaraq çoxlu-söhbətçili dialoq yaratmaq üçün hazırlanmışdır. Dia iki danışan arasında uyğun dönüş, prosodiya və emosional ifadə ilə təbii səsli söhbətlər yarada bilər. Dia podcast-style məzmun, audiobook dialoqları və interaktiv danışıq AI yaratmaq üçün mükəmməldir.

                                
                                    
                                        Yaradıcı::

                                        Nari Labs
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Birdən çox səsləndirici
                                        
                                        Dialog yaradılır
                                        
                                        Təbii dönmə
                                        
                                        Emosional İfadə
                                        
                                        Parametrlər
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Podcastlar, audiokitab dialoqları, söhbət məzmunu
                                
                            
                            
                                
                                    Try Dia TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Standard
                            
                            
                                Parler TTS, yaradılan danışığı idarə etmək üçün təbii dil səs təsvirini istifadə edən mətndən-sözə modeldir. Ön qurulmuş səslərdən seçmək əvəzinə, istədiyiniz səsi təsvir edə bilərsiniz (məsələn, "yavaş və aydın danışan, kiçik Britaniya aksenti olan qız səsi") və Parler bu təsviri uyğunlaşdıraraq danışığı yaradır. Bu onu yaradıcı proqramlar üçün unikal elastik edir.

                                
                                    
                                        Yaradıcı::

                                        Hugging Face
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Səs təsviri
                                        
                                        Təbii dil idarəsi
                                        
                                        Elastik səs yaradılması
                                        
                                        Ön qurğulu səslər lazım deyil
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Özəl səs xüsusiyyətlərinə ehtiyacınız olan yaradıcı tətbiqlər
                                
                            
                            
                                
                                    Try Parler TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                Standard
                            
                            
                                Zhipu AI tərəfindən hazırlanmış GLM-TTS, Llama mimarisinə əsaslanan və axın uyğunlaşdırması ilə işləyən mətn-söhbətə çevirmə sistemidir. Bu sistem açıq mənbəli TTS modelləri arasında ən aşağı xarakter səhv dərəcəsinə nail olur, bu da ən dəqiq səslənməni təmin edir. GLM-TTS 3-10 saniyəlik səs nümunələrindən səs klonlaşdırması ilə İngilis və Çin dillərini dəstəkləyir.

                                
                                    
                                        Yaradıcı::

                                        Zhipu AI
                                    
                                    
                                        Lisenziya::

                                        GLM-4 License
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Ən aşağı xəta dərəcəsi
                                        
                                        Sesi təkrarla
                                        
                                        Flow matching
                                        
                                        Təbii üsul
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Maksimum səsləndirmə dəqiqliyi tələb edən proqramlar
                                
                            
                            
                                
                                    Try GLM-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Standard
                            
                            
                                IndexTTS-2, zəif səs sintezində və emosional nəzarətdə üstün olan inkişaf etmiş mətn-söhbət sistemidir. O, emosional təlim məlumatları tələb etmədən xoşbəxt, kədərli, qəzəbli və qorxu kimi xüsusi emosional tonlarla danışa bilər. Model, yaradılan danışığın emosional ifadəsini dəqiq idarə etmək üçün emosional vektorlardan istifadə edir.

                                
                                    
                                        Yaradıcı::

                                        Index Team
                                    
                                    
                                        Lisenziya::

                                        Bilibili Model License
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Emosiyalar
                                        
                                        Zero-shot
                                        
                                        Emosiya vektorları
                                        
                                        Ekspressiv danışıq
                                        
                                        İdarəetmə
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Emosional ifadəli məzmun, audiokitablar, virtual köməkçilər
                                
                            
                            
                                
                                    Try IndexTTS-2
                                
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Standard
                            
                            
                                Spark TTS SparkAudio tərəfindən səs klonlaşdırmasını idarəolunan hiss və danışıq üslubu ilə birləşdirən mətn-söhbət modelidir. Yalnız 5 saniyəlik istinad səsi istifadə edərək səsi klonlaşdıra bilər və sonra klonlaşdırılmış səs kimliyini qoruyaraq fərqli hisslər, sürətlər və üslublarla danışıq yarada bilər. Spark TTS prompt əsaslı idarəetmə sistemini istifadə edir.

                                
                                    
                                        Yaradıcı::

                                        SparkAudio
                                    
                                    
                                        Lisenziya::

                                        CC BY-NC-SA 4.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Sesi təkrarla
                                        
                                        Emosional idarəetmə
                                        
                                        Tərtib İdarəetmə
                                        
                                        Prompt-based
                                        
                                        5 saniyəlik klonlama
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Klon səslər və emosional nəzarətlə məzmun yaratmaq
                                
                            
                            
                                
                                    Try Spark TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Standard
                            
                            
                                GPT-SoVITS GPT-style dil modelləşdirmə ilə SoVITS (Singing Voice Inference via Translation and Synthesis)-i güclü az-şot səs klonlaşdırması üçün birləşdirir. 5 saniyəlik istinad səsi ilə səsi dəqiq klonlaşdıra və yeni səsi yaratmaqla danışanın unikal xüsusiyyətlərini qoruya bilir. Həm danışıq həm də səs sintezini yaxşı edir.

                                
                                    
                                        Yaradıcı::

                                        RVC-Boss
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Slow
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        5 saniyəlik klonlama
                                        
                                        Şarkı Sesi
                                        
                                        Bir neçə dəfə öyrən
                                        
                                        Yüksək keyfiyyətli
                                        
                                        Dilli
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Sesi klonlama, səs sintezisi, məzmun yaradıcısı səsi təkrarlama
                                
                            
                            
                                
                                    Try GPT-SoVITS
                                
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Standard
                            
                            
                                Orpheus insan səviyyəli emosional ifadəyə nail olan böyük ölçülü mətn-söhbətə modeldir. 100,000 saatdan çox müxtəlif səs məlumatları üzərində təlim edilmişdir, təbii emosiyalar, vurğulamalar və danışıq üslubları ilə danışıq yaratmaqda üstündür. Orpheus insan səs yazılarından virtual olaraq ayırd edilə bilməyən danışıq istehsal edə bilər.

                                
                                    
                                        Yaradıcı::

                                        Canopy Labs
                                    
                                    
                                        Lisenziya::

                                        Llama 3.2 Community
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        İnsan səviyyəli hisslər
                                        
                                        100K saat təlim
                                        
                                        Təbii işıqlandırma
                                        
                                        Ekspressiv danışıq
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Yüksək keyfiyyətli emosional danışıq, audiokitablar, səs aktyorluğu
                                
                            
                            
                                
                                    Try Orpheus
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Chatterbox by Resemble AI son dərəcə müasir səs klonlama modelidir. Bu tək səs nümunəsindən hər hansı səsi çox dəqiqliklə təkrarlaya bilər, təkcə səs tonunu deyil, həm də danışıq üslubunu və emosional nüansları da əldə edə bilər. Chatterbox həmçinin səs kimliyindən asılı olmayaraq yaradılan danışığın emosional tonunu tənzimləmənizə imkan verən incə hisslər idarəsini də təklif edir.

                                
                                    
                                        Yaradıcı::

                                        Resemble AI
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Zero-shot klonlama
                                        
                                        Emosiyalar
                                        
                                        Yüksək keyfiyyətli
                                        
                                        Təsvir köçürmə
                                        
                                        Tək nümunə klonlaşdırma
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Emosional nəzarətlə professional səs klonlama, məzmun yaratma
                                
                            
                            
                                
                                    Try Chatterbox
                                
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS, audio keyfiyyətini sürətdən üstün tutan çox səsli mətn-söhbətə çevirmə sistemidir. DALL-E-dən ilhamlanan mimarisini istifadə edərək, parlaq prozodiya və səsləndirici oxşarlığı ilə çox təbii səsi yaradır. Bir çox alternativlərdən daha yavaş olsa da, Tortoise açıq mənbə ekosistemində mövcud olan ən real sintez edilmiş səsi yaradır.

                                
                                    
                                        Yaradıcı::

                                        James Betker
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Slow
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Ən yüksək keyfiyyət
                                        
                                        Çox səsli
                                        
                                        DALL-E arxitekturası
                                        
                                        Sesi təkrarla
                                        
                                        Avtomatik geriləmə
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Audiokitablar, premium məzmun, keyfiyyətli tətbiqlər
                                
                            
                            
                                
                                    Try Tortoise TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2, böyük səs dil modelləri ilə rəqabətçi təlimləri birləşdirərək insan səviyyəli TTS sintezini əldə edir. İnsan səs qeydləri ilə rəqabət aparan tək-oxuma modelləri arasında ən təbii səslənən səsi yaradır. StyleTTS 2, insan səs dəyişikliyinin bütün diapazonunu tutmaq üçün diffuziya əsaslı üslub modelləşdirməsini istifadə edir.

                                
                                    
                                        Yaradıcı::

                                        Columbia University
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        İnsan səviyyəsi
                                        
                                        Tərcümə
                                        
                                        Mübarizə
                                        
                                        Təbii dəyişən
                                        
                                        Yüksək keyfiyyətli
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Studio keyfiyyətli tək səsləndirici sintezisi, peşəkar danışıq
                                
                            
                            
                                
                                    Try StyleTTS 2
                                
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                MyShell.ai tərəfindən yaradılan OpenVoice səs üslubu, emosiyası, aksenti, ritmi, fasilə və intonasiyası üzərində nəzarəti ilə səsin dərhal klonlanmasına imkan verir. O, qısa audio klipdən səsi klonlaya və danışan şəxsiyyətini qoruyaraq bir çox dildə danışığı yarada bilər. OpenVoice real vaxt səs dəyişdirmə imkan verən səs çevirici kimi də işləyir.

                                
                                    
                                        Yaradıcı::

                                        MyShell.ai / MIT
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, ja, ko, fr, es
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Dərhal klonlama
                                        
                                        Səs çeviricisi
                                        
                                        Emosiyalar
                                        
                                        Aksent idarəsi
                                        
                                        Çoxdilli
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Sesi təkrarlamaq üçün incə-tərtib edilmiş üslub idarəsi, səsi çevirmə
                                
                            
                            
                                
                                    Try OpenVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Standard
                            
                            
                                Qwen3-TTS Alibaba'nın Qwen komandasından olan 1.7 milyard parametrli mətndən-sözə modeldir. Üç rejimi dəstəkləyir: emosional nəzarətlə əvvəlcədən qurulmuş səslər (9 səsləndirici), yalnız 3 saniyədən səs klonlaşdırması və istədiyiniz səsi təbii dildə təsvir etdiyiniz unikal səs dizaynı rejimi. Yüksək ifadəliliyi və təbii prozodiya ilə 10 dili əhatə edir.

                                
                                    
                                        Yaradıcı::

                                        Alibaba (Qwen)
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, ja, ko, de, fr, ru, pt, es, it
                                    
                                    
                                        VRAM:

                                        7GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Sesi təkrarla
                                        
                                        9 əvvəlcədən qurulmuş səs
                                        
                                        Mətndən səs dizaynı
                                        
                                        Emosiyalar
                                        
                                        Dillər
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Sesi klonlaşdırma və ya öz səs dizaynı ilə çoxdilli məzmun
                                
                            
                            
                                
                                    Try Qwen3 TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) 1 milyard parametrdən ibarət olan və söhbət yaratmaq üçün xüsusi olaraq hazırlanmış modeldir. Bu model insan söhbətinin təbiət nümunələrini modelləşdirir. Bu nümunələr arasında dönmə vaxtı, backchannel cavabları, emosional reaksiyalar və söhbət axını da var. CSM sintetik söhbət deyil, təbiət söhbəti kimi səslənən səsi yaradır.

                                
                                    
                                        Yaradıcı::

                                        Sesame
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Slow
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Konversasiya
                                        
                                        Təbii vaxt
                                        
                                        Dönüş
                                        
                                        Geri kanal
                                        
                                        Parametrlər
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                AI köməkçiləri, chatbotlar, danışıq AI tətbiqləri
                                
                            
                            
                                
                                    Try Sesame CSM
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Standard
                            
                            
                                Resemble AI tərəfindən hazırlanmış Chatterbox Turbo, Chatterbox-un 350M parametrli yenilənməsidir. 200ms-dən aşağı gecikmə ilə 6x real vaxt sürətinə qədər dəstək verir. [laugh], [cough] və [chuckle] kimi paralingvistik mətn etiketlərini dəstəkləyir. Provayder izləmə üçün bütün yaradılan səslər üzərində Perth su nişanını ehtiva edir.

                                
                                    
                                        Yaradıcı::

                                        Resemble AI
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Sub-200ms gecikmə
                                        
                                        Paralingvistik etiketlər
                                        
                                        6x real-time
                                        
                                        Səs klonlama
                                        
                                        Su nişanı
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Real-time səs agentləri, təbii səslərlə ifadəli danışıq
                                
                            
                            
                                
                                    Try Chatterbox Turbo
                                
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Standard
                            
                            
                                VoxCPM 1.5 OpenBMB tərəfindən hazırlanmış, diskret tokenlərdən daha çox davamlı məkanda işləyən yeni tokenizatorsuz TTS modelidir. O, yüksək keyfiyyətli 44.1kHz səs istehsal edir, 3-10 saniyədən zero-shot səs klonlaşdırmasını dəstəkləyir və abzaslar arasında tutarlılığı qoruyur. Dilli klonlaşdırma sizə ingilis səsini Çin dilindəki səsə və əksinə tətbiq etməyə imkan verir.

                                
                                    
                                        Yaradıcı::

                                        OpenBMB
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Səs
                                        
                                        Tokenizer-free
                                        
                                        Cross-language klonlama
                                        
                                        Bağlan
                                        
                                        LoRA düzəltmə
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Yüksək keyfiyyətli səs, audiokitablar, səslə uyğun olan uzun formatlı məzmun
                                
                            
                            
                                
                                    Try VoxCPM
                                
                            
                        
                    
                    
                    
                        
                            
                                Kani TTS 2
                                Free
                            
                            
                                NineNineSix tərəfindən hazırlanmış Kani-TTS-2 NVIDIA NanoCodec ilə Liquid AI LFM2 backbone üzərində qurulan ultra-yüngül 400M parametrli modeldir. Bu model yalnız 3GB VRAM-da işləyir və A100 (RTF 0.2) üzərində ~2 saniyədə ~10 saniyəlik danışıq istehsal edir. Hazırkı ictimai buraxılış yalnız ingilis dilində `kani-tts-2-en` kontrol nöqtəsi ilə gəlir və səs klonlaşdırılması üçün lazım olan səsləndirici-içəriləmə hook-u ifşa etmir - klonlaşdırma üçün Chatterbox / IndexTTS2 / F5-TTS, ya da ingilis dilində olmayan Kokoro / MeloTTS istifadə edin.

                                
                                    
                                        Yaradıcı::

                                        NineNineSix
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        3GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        3GB VRAM
                                        
                                        Çox sürətli
                                        
                                        Yüngül
                                        
                                        NanoCodec
                                        
                                        Pulsuz
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Düşük VRAM qurğularında sürətli ingiliscə yaradılması, sürətli önizləmələr
                                
                            
                            
                                
                                    Try Kani TTS 2
                                
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Free
                            
                            
                                OuteTTS orijinal quruluşunu qoruyaraq mətn-söhbətə imkanları ilə böyük dil modellərini genişləndirir. llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM və hətta Transformers.js vasitəsilə brauzer inference daxil olmaqla bir çox arxa tərəfi dəstəkləyir. JSON olaraq qeyd edilmiş səsvermə profilləri vasitəsilə zero-shot səs klonlaşdırmasını dəstəkləyir.

                                
                                    
                                        Yaradıcı::

                                        OuteAI
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        CPU inference
                                        
                                        Səyyahın təyini
                                        
                                        Sesi təkrarla
                                        
                                        Birdən çox arxa plan
                                        
                                        Dinləyici profilləri
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Edge işə salma, brauzer əsaslı TTS, az resurs tələb edən mühitə
                                
                            
                            
                                
                                    Try OuteTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Standard
                            
                            
                                Microsoft VibeVoice iki variantda gəlir: uzun formatlı məzmun üçün 1.5B modeli (90 dəqiqəyə qədər, 4 səsləndirici) və ~200ms ilk səsləndirici gecikməsi ilə axın üçün Rəsmi 0.5B modeli. 1.5B variantı uzun keçidlərdə səsləndirici konzistensiyası ilə podcast və audiokitablarda üstünlük təşkil edir. Xatırlatma: Microsoft TTS kodunu repozitoriyadan çıxardıb və yaradılan səs səsləndirici AI-nin səsləndirilən cavabdehliyini də ehtiva edir.

                                
                                    
                                        Yaradıcı::

                                        Microsoft
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Birdən çox səsləndirici
                                        
                                        90 dəqiqəyə qədər
                                        
                                        Podcast yaradılması
                                        
                                        Dinləyici
                                        
                                        200ms axın
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Podcastlar, audiokitablar, uzun formalı çoxlu səsləndirici məzmunu
                                
                            
                            
                                
                                    Try VibeVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Free
                            
                            
                                Kyutai tərəfindən (Moshi-nin yaradıcıları) hazırlanmış Pocket TTS, 100M parametrli kompakt mətn-söhbətə çevirmə modelidir. CPU-da səmərəli işləyir, tək səs nümunəsindən səs klonlaşdırmasını dəstəkləyir və təbii səsli söhbət yaradır. Kiçik model ölçüsü onu edge işə salınması və az resurslu mühitə ideal edir.

                                
                                    
                                        Yaradıcı::

                                        Kyutai
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, fr
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        Parametrlər
                                        
                                        CPU inference
                                        
                                        Sesi təkrarla
                                        
                                        Tək nümunə klonlama
                                        
                                        Kənar hazır
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Yüngül işə salma, CPU-dan istifadə edən mühitə uyğun, sürətli səs klonlama
                                
                            
                            
                                
                                    Try Pocket TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Free
                            
                            
                                Kitten TTS by KittenML ONNX üzərində qurulan ultra-yüngül mətn-söhbətə çevirmə modelidir. 15M-dən 80M parametrə qədər variantları ilə (25-80 MB diskdə), CPU-da GPU tələb etmədən yüksək keyfiyyətli səs sintezini təmin edir. 8 daxili səs, düzəldilə bilən danışıq sürəti və rəqəmlər, pul vahidləri və vahidlər üçün daxili mətn əvvəldən işləməsi xüsusiyyətlərinə malikdir. Ən son işə salma və aşağı gecikmə tətbiqləri üçün idealdır.

                                
                                    
                                        Yaradıcı::

                                        KittenML
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        0GB
                                    
                                    
                                        Səs Klonlama:

                                         No
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        CPU-only inference
                                        
                                        80MB-dan az model ölçüsü
                                        
                                        8 daxili səs
                                        
                                        Sür'ət idarəsi
                                        
                                        ONNX əsaslı
                                        
                                        24kHz çıxış
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Yüksək sürətli TTS, kənar işə salma, aşağı gecikmə tətbiqetmələri
                                
                            
                            
                                
                                    Try Kitten TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Standard
                            
                            
                                CosyVoice3 Alibaba'nın FunAudioLLM komandasının sonuncu inkişafıdır. Bu, ~150ms gecikmə ilə bi-streaming inference, emosional/ sürət/ səs səviyyəsi üçün əmr əsaslı idarəetmə və zero-shot klonlaşdırma üçün yaxşılaşdırılmış səsləndirici oxşarlığı xüsusiyyətlərinə malikdir. 9 dili və 18 Çin dialektini dəstəkləyir. RL-tuned variant state-of-the-art prosody təqdim edir.

                                
                                    
                                        Yaradıcı::

                                        Alibaba (FunAudioLLM)
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, ja, ko, de, es, fr, it, ru
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        İki axın
                                        
                                        Emosiyalar
                                        
                                        Sesi təkrarla
                                        
                                        Sür'ət/həcm idarəsi
                                        
                                        İcazə
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Çoxdilli istehsal TTS, real vaxt tətbiqləri, səs klonlaşdırması
                                
                            
                            
                                
                                    Try CosyVoice3
                                
                            
                        
                    
                    
                    
                        
                            
                                NAMAA Saudi TTS
                                Standard
                            
                            
                                NAMAA Saudi TTS, Resemble AI's ChatterboxMultilingual'ın Səudiyyə Ərəbistanı üçün hazırlanmış bir TTS-dir. NAMAA Space tərəfindən Səudiyyə dialekti ilə işlənib hazırlanmış bu TTS, çoxdilli modellərin uyğun gəlmədiyi müasir standart ərəb və Səudiyyə danışıq dilinin təbii səsini yaradır. Chatterbox'un səs klonlama və emosional nəzarətini referans səs mesajları vasitəsilə ötürür. İlk açıq-qələmli ərəb TTS TTS.ai-də tətbiq edilmişdir.

                                
                                    
                                        Yaradıcı::

                                        NAMAA Space
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        ar
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Səudiyyə ərəb dili
                                        
                                        Modern Standard Arabic
                                        
                                        Zero-shot səs klonlama
                                        
                                        Emosiyalar
                                        
                                        Yerli səslənmə
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Səudiyyə auditoriyası üçün ərəb məzmunu, MSA narrasiyası, Khaleeji-dialekt səs agentləri, ərəb audiokitabları
                                
                            
                            
                                
                                    Try NAMAA Saudi TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Darwin TTS
                                Standard
                            
                            
                                Darwin-TTS-1.7B-Cross by FINAL-Bench Qwen3-TTS-1.7B-nin araşdırma variantıdır. Burada 84 talker-FFN tensorları (8.6%) Qwen3-1.7B-Base-dən uyğun tensorlarla α=3%-də qarışdırılır. Bu qarışıq təkrar təlim olmadan yaradılır və Koreya, İngilis, Yapon və Çin dillərində daha aydın səs klonlaşdırması əldə edilir. Zərf-şot səs klonlaşdırma modunda işləyir (3 saniyə istinad səsi).

                                
                                    
                                        Yaradıcı::

                                        FINAL-Bench
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, ko, ja, zh
                                    
                                    
                                        VRAM:

                                        7GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Sesi təkrarla
                                        
                                        Dilli
                                        
                                        FFN-qarışdırılmış
                                        
                                        4 əsas dil
                                        
                                        Qwen3 arxa qurğusu
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                İngilis / Koreya / Yapon / Çin arasında tək referans səsi ilə dillərarası səs klonlaşdırması
                                
                            
                            
                                
                                    Try Darwin TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTSD
                                Standard
                            
                            
                                MOSS-TTSD v1.0 OpenMOSS-dan olan 7B dialoq mətn-söhbətə çevirmə modelidir ki, qısa audio xəbərdarlığından söhbəti davam etdirir. [S1]/[S2] etiketləri vasitəsilə 5-ə qədər eyni vaxtda danışanları dəstəkləyir, 3-10 saniyəlik istinad səsindən zero-shot səs klonlaşdırmasını və 20 dildə 60 dəqiqəyə qədər davam edən çox-dönüşlü dialoqu dəstəkləyir. MOSS-TTS-dən fərqli olaraq — TTSD podcast/audiobook/dubbing iş axınları üçün ixtisaslaşmışdır.

                                
                                    
                                        Yaradıcı::

                                        OpenMOSS
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        12GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Çoxlu səsləndirici dialoqu
                                        
                                        5 səsləndiriciyə qədər
                                        
                                        60min koherent audio
                                        
                                        Sesi təkrarla
                                        
                                        Podcast optimallaşdırması
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Podcastlar, audiokitablar, dublyaj edilmiş dialoq, çoxlu səslərlə söhbət məzmunu
                                
                            
                            
                                
                                    Try MOSS-TTSD
                                
                            
                        
                    
                    
                    
                        
                            
                                Ming-Omni TTS
                                Free
                            
                            
                                Ming-omni-tts-0.5B inclusionAI tərəfindən hazırlanmış BailingMM sıx backbone üzərində qurulan Patch-by-Patch axın uyğun audio dekoderi olan kompakt omni-modal danışıq modelidir. 44.1kHz çıxış (CD keyfiyyətinə yaxın), 3+ saniyə istinaddan zero-shot səs klonlaşdırmasını dəstəkləyir və JSON əmrləri vasitəsilə daxili emosional / dialekt / BGM idarəsini ehtiva edir. Mükəmməl sabitlik — Çin benchmarklarında 0.83% WER.

                                
                                    
                                        Yaradıcı::

                                        inclusionAI
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        3GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        44.1kHz çıxış
                                        
                                        Sesi təkrarla
                                        
                                        Emosiyalar
                                        
                                        Dialekt İdarəetmə
                                        
                                        BGM yaradılması
                                        
                                        Kompakt 0.5B
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                İki dildə yüksək keyfiyyətli danışıq, emosional səs aktyorluğu, Çin audiokitab məzmunu
                                
                            
                            
                                
                                    Try Ming-Omni TTS
                                
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Kokoro
                                Pulsuz
                            
                            
                                Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
                                
                                    Yaradıcı::
Hexgrad
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en, ja, zh, fr, it, pt, es, hi
                                
                                Ən Yaxşı:: High-quality TTS with minimal latency, streaming applications
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Pulsuz
                            
                            
                                Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
                                
                                    Yaradıcı::
Rhasspy
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                
                                Ən Yaxşı:: Quick previews, accessibility, and embedded applications
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Pulsuz
                            
                            
                                VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
                                
                                    Yaradıcı::
Jaehyeon Kim et al.
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl
                                
                                Ən Yaxşı:: General-purpose text-to-speech with natural prosody
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Pulsuz
                            
                            
                                MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
                                
                                    Yaradıcı::
MyShell.ai
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en, es, fr, zh, ja, ko
                                
                                Ən Yaxşı:: Production applications needing fast, multilingual TTS
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                Kani TTS 2
                                Pulsuz
                            
                            
                                Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.
                                
                                    Yaradıcı::
NineNineSix
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en
                                
                                Ən Yaxşı:: Fast English generation on low-VRAM hardware, quick previews
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Pulsuz
                            
                            
                                OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
                                
                                    Yaradıcı::
OuteAI
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en
                                
                                Ən Yaxşı:: Edge deployment, browser-based TTS, low-resource environments
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Pulsuz
                            
                            
                                Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
                                
                                    Yaradıcı::
Kyutai
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en, fr
                                
                                Ən Yaxşı:: Lightweight deployment, CPU-only environments, quick voice cloning
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Pulsuz
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
                                
                                    Yaradıcı::
KittenML
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en
                                
                                Ən Yaxşı:: Fast lightweight TTS, edge deployment, low-latency applications
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                Ming-Omni TTS
                                Pulsuz
                            
                            
                                Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.
                                
                                    Yaradıcı::
inclusionAI
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər: en, zh
                                
                                Ən Yaxşı:: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Bark
                                Ön qurğulu
                            
                            
                                Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
                                
                                    Yaradıcı::
Suno
                                    Lisenziya::
MIT
                                    Sür'ət:
Slow
                                    Keyfiyyət ::

                                    dillər:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Səs Klonlama:
 No
                                
                                Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
                                Ən Yaxşı:: Creative audio content, audiobooks with emotion, sound effects
                            
                            
                                Try Bark
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Ön qurğulu
                            
                            
                                Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
                                
                                    Yaradıcı::
Suno
                                    Lisenziya::
MIT
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Səs Klonlama:
 No
                                
                                LightweightFaster than full BarkEmotional speechMultilingual
                                Ən Yaxşı:: Quick creative audio when full Bark is too slow
                            
                            
                                Try Bark Small
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Ön qurğulu
                            
                            
                                CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
                                
                                    Yaradıcı::
Alibaba (Tongyi Lab)
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh, ja, ko, fr, de, it, es
                                    Səs Klonlama:
 Bəli
                                
                                StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
                                Ən Yaxşı:: Real-time applications, streaming TTS, voice assistants
                            
                            
                                Try CosyVoice 2
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Ön qurğulu
                            
                            
                                Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
                                
                                    Yaradıcı::
Nari Labs
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 No
                                
                                Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
                                Ən Yaxşı:: Podcasts, audiobook dialogues, conversational content
                            
                            
                                Try Dia TTS
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Ön qurğulu
                            
                            
                                Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
                                
                                    Yaradıcı::
Hugging Face
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 No
                                
                                Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
                                Ən Yaxşı:: Creative applications where you need custom voice characteristics
                            
                            
                                Try Parler TTS
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                Ön qurğulu
                            
                            
                                GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
                                
                                    Yaradıcı::
Zhipu AI
                                    Lisenziya::
GLM-4 License
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 Bəli
                                
                                Lowest error rateVoice cloningFlow matchingNatural prosody
                                Ən Yaxşı:: Applications requiring maximum pronunciation accuracy
                            
                            
                                Try GLM-TTS
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Ön qurğulu
                            
                            
                                IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
                                
                                    Yaradıcı::
Index Team
                                    Lisenziya::
Bilibili Model License
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 Bəli
                                
                                Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
                                Ən Yaxşı:: Emotionally expressive content, audiobooks, virtual assistants
                            
                            
                                Try IndexTTS-2
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Ön qurğulu
                            
                            
                                Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
                                
                                    Yaradıcı::
SparkAudio
                                    Lisenziya::
CC BY-NC-SA 4.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 Bəli
                                
                                Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
                                Ən Yaxşı:: Content creation with cloned voices and emotional control
                            
                            
                                Try Spark TTS
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Ön qurğulu
                            
                            
                                GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
                                
                                    Yaradıcı::
RVC-Boss
                                    Lisenziya::
MIT
                                    Sür'ət:
Slow
                                    Keyfiyyət ::

                                    dillər:
en, zh, ja, ko
                                    Səs Klonlama:
 Bəli
                                
                                5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
                                Ən Yaxşı:: Voice cloning, singing synthesis, content creator voice replication
                            
                            
                                Try GPT-SoVITS
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Ön qurğulu
                            
                            
                                Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
                                
                                    Yaradıcı::
Canopy Labs
                                    Lisenziya::
Llama 3.2 Community
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 No
                                
                                Human-level emotion100K hours trainingNatural emphasisExpressive speech
                                Ən Yaxşı:: High-quality emotional speech, audiobooks, voice acting
                            
                            
                                Try Orpheus
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Ön qurğulu
                            
                            
                                Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
                                
                                    Yaradıcı::
Alibaba (Qwen)
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh, ja, ko, de, fr, ru, pt, es, it
                                    Səs Klonlama:
 Bəli
                                
                                Voice cloning9 preset voicesVoice design from textEmotion control10 languages
                                Ən Yaxşı:: Multilingual content with voice cloning or custom voice design
                            
                            
                                Try Qwen3 TTS
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Ön qurğulu
                            
                            
                                Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
                                
                                    Yaradıcı::
Resemble AI
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 Bəli
                                
                                Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
                                Ən Yaxşı:: Real-time voice agents, expressive speech with natural sounds
                            
                            
                                Try Chatterbox Turbo
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Ön qurğulu
                            
                            
                                VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
                                
                                    Yaradıcı::
OpenBMB
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 Bəli
                                
                                44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
                                Ən Yaxşı:: High-fidelity audio, audiobooks, long-form content with voice consistency
                            
                            
                                Try VoxCPM
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Ön qurğulu
                            
                            
                                VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
                                
                                    Yaradıcı::
Microsoft
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 No
                                
                                Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
                                Ən Yaxşı:: Podcasts, dialogues, long-form narration, multi-speaker content
                            
                            
                                Try VibeVoice
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Ön qurğulu
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
                                
                                    Yaradıcı::
Alibaba (FunAudioLLM)
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər:
en, zh, ja, ko, de, es, fr, it, ru
                                    Səs Klonlama:
 Bəli
                                
                                Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
                                Ən Yaxşı:: Multilingual production TTS, real-time applications, voice cloning
                            
                            
                                Try CosyVoice3
                            
                        
                    
                    
                    
                        
                            
                                NAMAA Saudi TTS
                                Ön qurğulu
                            
                            
                                NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.
                                
                                    Yaradıcı::
NAMAA Space
                                    Lisenziya::
MIT
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
ar
                                    Səs Klonlama:
 Bəli
                                
                                Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation
                                Ən Yaxşı:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks
                            
                            
                                Try NAMAA Saudi TTS
                            
                        
                    
                    
                    
                        
                            
                                Darwin TTS
                                Ön qurğulu
                            
                            
                                Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).
                                
                                    Yaradıcı::
FINAL-Bench
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, ko, ja, zh
                                    Səs Klonlama:
 Bəli
                                
                                Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone
                                Ən Yaxşı:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice
                            
                            
                                Try Darwin TTS
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTSD
                                Ön qurğulu
                            
                            
                                MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.
                                
                                    Yaradıcı::
OpenMOSS
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 Bəli
                                
                                Multi-speaker dialogueUp to 5 speakers60min coherent audioVoice cloningPodcast-optimised
                                Ən Yaxşı:: Podcasts, audiobooks, dubbed dialogue, conversational content with multiple voices
                            
                            
                                Try MOSS-TTSD
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.
                                
                                    Yaradıcı::
Resemble AI
                                    Lisenziya::
MIT
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 Bəli
                                    VRAM:
4GB
                                    1K xarakterin qiyməti:
4x
                                
                                Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
                                Ən Yaxşı:: Professional voice cloning with emotional control, content creation
                            
                            
                                Try Chatterbox
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.
                                
                                    Yaradıcı::
James Betker
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Slow
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 Bəli
                                    VRAM:
8GB
                                    1K xarakterin qiyməti:
4x
                                
                                Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
                                Ən Yaxşı:: Audiobooks, premium content, quality-first applications
                            
                            
                                Try Tortoise TTS
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.
                                
                                    Yaradıcı::
Columbia University
                                    Lisenziya::
MIT
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 No
                                    VRAM:
4GB
                                    1K xarakterin qiyməti:
4x
                                
                                Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
                                Ən Yaxşı:: Studio-quality single-speaker synthesis, professional narration
                            
                            
                                Try StyleTTS 2
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.
                                
                                    Yaradıcı::
MyShell.ai / MIT
                                    Lisenziya::
MIT
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh, ja, ko, fr, es
                                    Səs Klonlama:
 Bəli
                                    VRAM:
4GB
                                    1K xarakterin qiyməti:
4x
                                
                                Instant cloningVoice conversionEmotion controlAccent controlMultilingual
                                Ən Yaxşı:: Voice cloning with fine-grained style control, voice conversion
                            
                            
                                Try OpenVoice
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.
                                
                                    Yaradıcı::
Sesame
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Slow
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 No
                                    VRAM:
8GB
                                    1K xarakterin qiyməti:
4x
                                
                                ConversationalNatural timingTurn-takingBackchannel1B parameters
                                Ən Yaxşı:: AI assistants, chatbots, conversational AI applications
                            
                            
                                Try Sesame CSM
                            
                        
                    
                    
                
            
        

        
        
            Model müqayisə cədvəli
            
                
                    
                        
                            Model
                            Yaradıcı:
                            Tərcümə
                            Keyfiyyət :
                            Sür'ət
                            dillər
                            Səs Klonlama
                            VRAM
                            Lisenziya:
                            kreditlər
                            
                        
                    
                    
                        
                        
                            Kokoro
                            Hexgrad
                            Free
                            
                            Fast
                            8
                            
                            1.5GB
                            Apache 2.0
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            Piper
                            Rhasspy
                            Free
                            
                            Fast
                            29
                            
                            0 (CPU only)
                            MIT
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            VITS
                            Jaehyeon Kim et al.
                            Free
                            
                            Fast
                            11
                            
                            1GB
                            MIT
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            MeloTTS
                            MyShell.ai
                            Free
                            
                            Fast
                            6
                            
                            0.5GB (GPU optional)
                            MIT
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            Bark
                            Suno
                            Standard
                            
                            Slow
                            13
                            
                            5GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            Bark Small
                            Suno
                            Standard
                            
                            Medium
                            13
                            
                            2GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            CosyVoice 2
                            Alibaba (Tongyi Lab)
                            Standard
                            
                            Medium
                            8
                            
                            4GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            Dia TTS
                            Nari Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            Parler TTS
                            Hugging Face
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            GLM-TTS
                            Zhipu AI
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            GLM-4 License
                            2
                            İstifadə et
                        
                        
                        
                            IndexTTS-2
                            Index Team
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            Bilibili Model License
                            2
                            İstifadə et
                        
                        
                        
                            Spark TTS
                            SparkAudio
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            CC BY-NC-SA 4.0
                            2
                            İstifadə et
                        
                        
                        
                            GPT-SoVITS
                            RVC-Boss
                            Standard
                            
                            Slow
                            4
                            
                            6GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            Orpheus
                            Canopy Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Llama 3.2 Community
                            2
                            İstifadə et
                        
                        
                        
                            Chatterbox
                            Resemble AI
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            İstifadə et
                        
                        
                        
                            Tortoise TTS
                            James Betker
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            İstifadə et
                        
                        
                        
                            StyleTTS 2
                            Columbia University
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            İstifadə et
                        
                        
                        
                            OpenVoice
                            MyShell.ai / MIT
                            Premium
                            
                            Medium
                            6
                            
                            4GB
                            MIT
                            4
                            İstifadə et
                        
                        
                        
                            Qwen3 TTS
                            Alibaba (Qwen)
                            Standard
                            
                            Medium
                            10
                            
                            7GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            Sesame CSM
                            Sesame
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            İstifadə et
                        
                        
                        
                            Chatterbox Turbo
                            Resemble AI
                            Standard
                            
                            Fast
                            1
                            
                            2GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            VoxCPM
                            OpenBMB
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            Kani TTS 2
                            NineNineSix
                            Free
                            
                            Fast
                            1
                            
                            3GB
                            Apache 2.0
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            OuteTTS
                            OuteAI
                            Free
                            
                            Fast
                            1
                            
                            2GB
                            Apache 2.0
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            VibeVoice
                            Microsoft
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            Pocket TTS
                            Kyutai
                            Free
                            
                            Fast
                            2
                            
                            1GB
                            MIT
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            Kitten TTS
                            KittenML
                            Free
                            
                            Fast
                            1
                            
                            0GB
                            Apache 2.0
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            CosyVoice3
                            Alibaba (FunAudioLLM)
                            Standard
                            
                            Fast
                            9
                            
                            4GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            NAMAA Saudi TTS
                            NAMAA Space
                            Standard
                            
                            Medium
                            1
                            
                            6GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            Darwin TTS
                            FINAL-Bench
                            Standard
                            
                            Medium
                            4
                            
                            7GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            MOSS-TTSD
                            OpenMOSS
                            Standard
                            
                            Medium
                            2
                            
                            12GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            Ming-Omni TTS
                            inclusionAI
                            Free
                            
                            Medium
                            2
                            
                            3GB
                            Apache 2.0
                            Pulsuz
                            İstifadə et
                        
                        
                    
                
            
        
    




    
        
            
                Ən genişləndirilmiş AI Text to Speech platforması

                
                    
                        TTS.ai-i Text to Speech üçün niyə seçməlisiniz?
                        TTS.ai dünyanın ən yaxşı açıq mənbəli mətndən-sözə modellərini tək, istifadəsi asan platformada birləşdirir. Sizi tək səs mühərriki ilə bağlayan mülkiyyət xidmətlərindən fərqli olaraq, TTS.ai sizə Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua Universiteti və daha çoxunu da daxil olmaqla lider tədqiqat laboratoriyalarından 20+ modelə çıxış verir.
                        Hər bir model MIT, Apache 2.0 və ya buna bənzər icazəli lisenziyalar altında açıq mənbədir, sizin layihələrinizdə yaradılan səsi istifadə etmək üçün tam kommersiya hüquqlarınız təmin edilir. Real vaxt tətbiqləri üçün sürətli, yüngül sintez və ya audio kitablar və podcastlar üçün premium studiya keyfiyyətli çıxarışa ehtiyacınız olsun, TTS.ai hər istifadə halı üçün doğru modelə malikdir.

                        Pulsuz Modellər, Hesab İstənilmir
                        Üç pulsuz TTS modeli ilə dərhal başlayın: Piper (ultra sürətli, yüngül), VITS (yüksək keyfiyyətli sinir sintezi) və MeloTTS (çox dil dəstəyi). Qeydiyyat olmadan, kredit kartı olmadan, nəsillər arasında məhdudiyyət olmadan. Pulsuz modellər İngilis və bir çox digər dilləri dəstəkləyir və bir çox tətbiqlər üçün uyğun olan təbii səsli çıxışı dəstəkləyir.
                    
                    
                        GPU sürətləndirilmiş işləmə
                        Bütün TTS modelləri sürətli, davamlı istehsal vaxtları üçün xüsusi NVIDIA GPU-larda işləyir. Pulsuz modellər adətən səsi 2 saniyədən az müddətdə istehsal edirlər. Kokoro, CosyVoice 2 və Bark kimi standart modellər orta hesabla 3-5 saniyə ərzində. Tortoise və Chatterbox kimi ən yüksək keyfiyyətli premium modellər mətnin uzunluğuna görə 5-15 saniyədə işləyir.

                        30+ dil dəstəklənir
                        İngilis, İspan, Fransız, Alman, İtalyan, Portuqaliya, Çin, Yapon, Koreya, Ərəb, Hind, Rus və daha çox dillərdə 30-dan çox səsi yarada bilərsiniz. Bir çox modellər dillərarası sintezini dəstəkləyir, bu da siz orijinal səsin öyrədilmədiyi dildə səs yarada bilərsiniz deməkdir. CosyVoice 2 və GPT-SoVITS dillərarası səs klonlamada üstündür.

                        Yaradıcıya hazır API
                        TTS.ai-i OpenAI-yə uyğun REST API-mizlə tətbiqlərinizə birləşdirin. Bütün 20+ modellər üçün bir son nöqtə. Python, JavaScript, cURL və Go SDK-ları. Real vaxt tətbiqləri üçün axın dəstəyi. Böyük miqyaslı məzmun istehsalı üçün batch prosesi. Async bildirişləri üçün Webhooks. API girişi hər planda daxildir, o cümlədən pulsuz.
                    
                
            
        
    









    



    
        
        
        Daha çox öyrən →
        
    










    
        Tez-tez Sorulan Sual
        
            
                
                    
                    
                        
                            
                        
                        
                            
                                Text-to-speech (TTS) yazılı mətni təbii səslənən danışan səsə çevirən bir AI texnologiyasıdır. Kokoro, Chatterbox və CosyVoice 2 kimi müasir neyron TTS modelləri dərin öyrənməni istifadə edərək təbii prozodiya, emosionallıq və ritmlə insan kimi səslənən danışığı istehsal edirlər.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bu sizin ehtiyaclarınıza bağlıdır. Tez-tez nəzərdən keçirmək üçün Piper və ya MeloTTS (pulsuz, sürətli) istifadə edin. Yüksək keyfiyyət üçün Kokoro və ya CosyVoice 2 (standart səviyyə) istifadə edin. Sesi klonlaşdırmaq üçün Chatterbox və ya GPT-SoVITS (premium) istifadə edin. Dialoq/podkast məzmunu üçün Dia TTS istifadə edin. Hər bir modelin fərqli gücləri var - ən uyğununu tapmaq üçün sınayın.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bəli! TTS.ai Kokoro, Piper, VITS və MeloTTS modelləri ilə pulsuz mətn-söhbətə çevirmə təklif edir. 500-ə qədər xarakter və saatda 3 nəsil üçün hesab tələb olunmur. 15,000 xarakter və bütün modellərə çıxış üçün pulsuz hesab üçün qeydiyyatdan keçin.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bizim TTS modellərimiz ümumilikdə ingilis, ispan, fransız, alman, italyan, portuqal, çin, yapon, koreya, ərəb, rus, hindi və daha çox dilləri dəstəkləyir. Dillərin mövcudluğu modeldən asılı olaraq dəyişir.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bəli, TTS.ai vasitəsilə yaradılan səs kommersiya məqsədləri üçün istifadə edilə bilər. Bütün modellərimiz açıq mənbə lisenziyası (MIT, Apache 2.0) ilə işləyir. Müəyyən şərtlər üçün fərdi model lisenziyası ilə tanış olun. Proqramınız üçün istifadə etdiyiniz xüsusi modelin lisenziyası ilə tanış olmağı tövsiyə edirik.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                TTS.ai MP3, WAV, OGG və FLAC çıxış formatlarını dəstəkləyir. MP3 veb oynatma üçün ön qurğuludur. Daha sonra səs prosesi üçün WAV tövsiyə olunur. Audio Converter aləti ilə formatları dəyişdirə bilərsiniz.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Səs klonlaması qısa səs nümunəsindən (adətən 5-30 saniyə) müəyyən səsi təkrarlamaq üçün Dİ-ni istifadə edir. Məqsəd səsin aydın bir qeydini yükləyin və Chatterbox, GPT-SoVITS, ya da OpenVoice kimi modellər bu səsdə yeni danışıq yaradacaq. Keyfiyyət daha təmiz, daha uzun istinad səsi ilə yaxşılaşır.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Pulsuz istifadəçilər istək başına 500-ə qədər xarakter yarada bilərlər. Qeydiyyatdan keçmiş istifadəçilər istək başına 5000-ə qədər xarakter əldə edə bilərlər. Uzun mətnlər üçün səs parça-parça yaradılır və avtomatik olaraq birləşdirilir. API istifadəçiləri istək başına 10000-ə qədər xarakter işlədə bilərlər.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                SSML (Speech Synthesis Markup Language) dəstəkləməsi modeldən modelə dəyişir. Piper və bəzi digər modellər fasilə, vurğu və nitq nəzarəti üçün əsas SSML təqvimləri dəstəkləyir. Yerli SSML dəstəkləməsi olmayan modellər üçün, prozodiya təsiri üçün təbii nişan və sətir qırışları istifadə edə bilərsiniz.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bəli, modellərin əksəriyyəti 0.5x-dən 2.0x-ə qədər sürət tənzimləməsini dəstəkləyir. Bark və Parler kimi bəzi modellər həmçinin səs və üslub tənzimləməsini də dəstəkləyir. Sürət parametrlərini inkişaf etmiş qurğular panelində və ya API sürət parametri vasitəsilə təyin edə bilərsiniz.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bəli, paket işləmə API vasitəsilə mövcuddur. Bir neçə mətn hissəsini tək bir API çağırışı və ya skripti ilə göndərə bilərsiniz və hər biri ayrı səs faylları kimi işlənəcək və geri qaytarılacaqdır. Bu audiokitab fəsilləri, e-öyrənmə modulları və ya oyun dialoq skriptləri üçün idealdır.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Hesabınızdakı idarə panelindən bir API açarı yaradın, sonra REST API son nöqtəsinə mətn, model və səs parametrləri ilə POST istəkləri göndərin. Python, JavaScript və cURL-də kod nümunələri təqdim edirik. API OpenAI ilə uyğundur, buna görə mövcud inteqrasiyalar minimal dəyişikliklərlə işləyir.
                            
                        
                    
                    
                
            
        
    








    
        
            
                
                
                
                
                
                
                
                
                
                
                
                
                
            
            5.0/5 (4)
        
        
            Nəyi yaxşılaşdıra bilərik? Sizin rəyiniz problemləri düzəltməyə kömək edir.
            
                
                
                
                
            
            
                
                
            
        
    







    
        Mətnə-Söhbətə Dəyişməni İndi Başlat
        TTS.ai istifadə edərək minlərlə yaradıcıya qoşulun. Yeni hesabla 15,000 pulsuz xarakter əldə edin. Pulsuz modellər qeydiyyat olmadan mövcuddur.
        
            
            Qeyd Ol
            Qiymətləri Göstər

Yaradıcı:	KittenML
Lisenziya:	Apache 2.0
Sür'ət	Fast
Keyfiyyət :
dillər	1 language
VRAM	0GB
Səs Klonlama	Dəstəklənmir

Model	Yaradıcı:	Tərcümə	Sür'ət	dillər	VRAM	Lisenziya:	kreditlər
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	Pulsuz	İstifadə et
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	Pulsuz	İstifadə et
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Pulsuz	İstifadə et
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Pulsuz	İstifadə et
Bark	Suno	Standard	Slow	13	5GB	MIT	2	İstifadə et
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	İstifadə et
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	İstifadə et
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	İstifadə et
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	İstifadə et
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	İstifadə et
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	İstifadə et
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	İstifadə et
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	İstifadə et
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	İstifadə et
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	İstifadə et
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	İstifadə et
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	İstifadə et
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	İstifadə et
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	İstifadə et
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	İstifadə et
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	İstifadə et
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	İstifadə et
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	Pulsuz	İstifadə et
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Pulsuz	İstifadə et
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	İstifadə et
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Pulsuz	İstifadə et
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Pulsuz	İstifadə et
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	İstifadə et
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	İstifadə et
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	İstifadə et
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	İstifadə et
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Pulsuz	İstifadə et