AI Text to Speech

Açıq mənbəli AI modelləri ilə mətni təbii səsli danışmaya çevir. İstifadəsi pulsuzdur, hesab tələb olunmur.

Qeyd Ol

Sizin dilində hələlik TTS səsləri yoxdur. Bizə öz səslərinizi əlavə etməyə kömək edin! Səsini Sat

0/500 hərflər

Qeyd Et 5,000 karakter həddi

SSML Modu (Düzgün idarəetmə üçün Speech Synthesis Markup Language)

Düzgün idarə üçün mətninizi SSML lentlərinə sarılın:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emotikonlar

Göndərmə təsiri üçün hiss-halı işarələrini əlavə et (model dəstəyi dəyişir):

Tərcümə lüğəti

Özəl səsləndirmələri təsvir et (söz = səsləndirmə):

Səs 0

-12 +12

Dia Dəyişənləri [S1] və [S2] təqvimləri müxtəlif səsləndiriciləri göstərmək üçün istifadə edin. Məsələn:

[S1] Salam! [S2] Salam, necəsiniz?



                
                
                    
                    
                        Model
                        
                    

                    
                    
                        Səs
                        
                    
                
                

                
                
                    
                    
                        Dil
                        
                    

                    
                    
                        Çıxış şəkli
                        
                    

                    
                    
                        
                            Sür'ət
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Piper, VITS, MeloTTS ilə pulsuz



        
        
            
                Yaratdığınız səs burada görünəcək. Bir model seçin, mətni daxil edin və Yarat düyməsini basın.
            
            
            
                
                
                    Yaratmaq Bacarılmadı
                    
                
            
        

            
                
                    
                        Audio müvəffəqiyyətlə yaradıldı
                        
                    
                    
                        


    
        
            
            
                
                    
                
                
            
        
    


                        
                            
                                Audio endirilsin
                            
                            
                            
                            Körpünün müddəti 24 saat ərzində başa çatır
                            
                                
                                    
                                    
                                    
                                    
                                    
                                
                            
                        
                    
                
            
        

        

    
        
            
                
                    TTS.ai-ni sevirsiniz? Dostlarınıza deyin!



    
    
        
        
            
                Model Məlumatları
            
            
                
                
                    
                    OuteTTS
                
                Free
                OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
                
                    
                        
                            Yaradıcı:
                            OuteAI
                        
                        
                            Lisenziya:
                            Apache 2.0
                        
                        
                            Sür'ət
                            
                                Fast
                            
                        
                        
                            Keyfiyyət :
                            
                                
                            
                        
                        
                            dillər
                            1 language
                        
                        
                            VRAM
                            2GB
                        
                        
                            Səs Klonlama
                             Dəstəklənir
                        
                    
                
                
                
                    Xüsusiyyətlər:
                    
                        
                        CPU inference
                        
                        Browser inference
                        
                        Voice cloning
                        
                        Multiple backends
                        
                        Speaker profiles
                        
                    
                
                
                
                Ən Yaxşı:: 
                Edge deployment, browser-based TTS, low-resource environments
                
                
            
        

        
        
            
                Daha yaxşı nəticələr üçün məsləhətlər
            
            
                
                    Təbii sükut və intonasiya üçün düzgün nişanlama istifadə et
                    Rəqəmləri və qısaltmaları daha aydın oxumaq üçün imla et
                    Fərqli cümlələr arasında qısa fasilə yaratmaq üçün vergül əlavə et
                    Uzun dramatik fasilələrə üçün üç nöqtə (...) istifadə et
                    Ən təbii nəticələr üçün Kokoro və ya CosyVoice 2-ni sınayın
                    Dia-nı çoxlu səsləndirici dialoqu və podcast məzmunu üçün istifadə et
                
            
        

        
        
            
                Karakter İstifadəsi
            
            
                
                    
                        
                            Tərcümə
                            1K xarakterin qiyməti
                        
                    
                    
                        
                            Pulsuz
                            0 kredit (sığortasız)
                        
                        
                            Ön qurğulu
                            2 kredit / 1K simvol
                        
                        
                            Premium
                            4 kredit / 1K simvol
                        
                    
                
            
            
                Daha çox xarakter al

Tərcümə	1K xarakterin qiyməti
Pulsuz	0 kredit (sığortasız)
Ön qurğulu	2 kredit / 1K simvol
Premium	4 kredit / 1K simvol






    
        
            
                
                
                    
                    
    Reklam yoxdur
    Sınırsız istifadə
    Əsas dəstək
    Yeni xüsusiyyətlərə erkən çıxış


                
                

                
                    
                        Daha çox təşəkkür al






    
        AI Text to Speech necə işləyir
        Üç sadə addımla peşəkar keyfiyyətli səs yazıları yaradın. Texniki bilik tələb olunmur.
        
            
                
                    
                        
                            
                        
                        Addım 1
                        Mətni daxil edin
                        Sənəddə çevirmək istədiyiniz mətni yazın, yapışdırın və ya yükləyin. Giriş etmiş istifadəçilər üçün hər nəsildə 5000-ə qədər xarakter dəstəklənir. Tərcümə, fasilə və vurğu üzərində daha geniş nəzarət üçün sadə mətn istifadə edin və ya SSML təyinatlarını əlavə edin.
                    
                
            
            
                
                    
                        
                            
                        
                        Addım 2
                        Model və səs seç
                        Üç səviyyədə 20+ AI modeli arasından seçin. İçərişinizi uyğunlaşdıran səsi seçin, məqsəd dilinizi seçin, oynatma sürətini 0.5x-dən 2.0x-ə qədər düzəldin və istədiyiniz çıxış formatını (MP3, WAV, OGG, ya da FLAC) seçin.
                    
                
            
            
                
                    
                        
                            
                        
                        Addım 3
                        Yüklə
                        Yarat düyməsini basın və səsiniz saniyələr içində hazır olacaq. İçindəki pleyerlə əvvəlcədən baxın, seçdiyiniz formatda yükləyin, ya da paylaşıla bilən bir körpünü kopyalayın. İş axınınıza birləşdirmək və paketləmək üçün API istifadə edin.
                    
                
            
        
    






    
        Mətndən Söhbətə İstifadə Halı
        AI-powered text-to-speech insanların düzən sənayelərində audio məzmunla necə yaratmaq, istehlak etmək və ünsiyyət qurmalarını dəyişir.
        
            
                
                    
                        
                        Audiokitablar
                        Bütün kitabları studiya keyfiyyətli danışıqla təbii səsli audio kitablara çevirin. Dia ilə karakter dialoqu üçün çoxlu səsləndirici dəstəyi.
                    
                
            
            
                
                    
                        
                        Video səsləndirmə
                        YouTube, TikTok, Instagram Reels və Shorts üçün peşəkar səsləndirmələr yaradın. 100+ səslər və ya özünüz klonlayın.
                    
                
            
            
                
                    
                        
                        Podcastlar
                        Bir çox AI səsləri olan skriptlərdən podcast hissələrini yaradın. Dia-nı iki səsli söhbətlər üçün istifadə edin.
                    
                
            
            
                
                    
                        
                        Oyun
                        İndi oyunları, vizual romanlar və interaktiv ədəbiyyat üçün AI səs aktyorluğu. NPC dialoqu, cutscene səsləri, 30+ dil.
                    
                
            
            
                
                    
                        
                        E-öyrənmə
                        Kurs materialları, dərslər və təlim məzmununu audioya çevirin. Global platformalar üçün çox dil dəstəyi.
                    
                
            
            
                
                    
                        
                        Yetişilə Bilənlik
                        Veb saytları, sənədləri və tətbiqləri əlçatan edin. Ekran oxuyucusu API inteqrasiyası və məqalə-dən-audio-ya çevirmə.
                    
                
            
            
                
                    
                        
                        Telefon Sistemləri
                        Power IVR sistemləri, telefon menyuları, və müştəri xidməti ilə təbii AI səsləri. zəng mərkəzləri üçün aşağı-latency axını.
                    
                
            
            
                
                    
                        
                        Sosial Media
                        TikTok danışıqları, Instagram Reels, Twitter / X şərhləri, YouTube Shorts. Pulsuz modellərlə sürətli yaradılma.
                    
                
            
            
                
                    
                        
                        Dağıdım
                        Twitch TTS xəbərdarlıqları, söhbət-sözə, AI qohumları və Discord botları. Düşük gecikmə, 100+ səs, StreamElements uyğun.
                    
                
            
            
                
                    
                        
                        Marketinq
                        Ad voiceovers, explaner videolar, məhsul demoları, və satış təqdimatları. kampaniyalar arasında audio məzmun istehsalı ölçmək.
                    
                
            
            
                
                    
                        
                        Dublyaj və Lokalizasiya
                        Videonu səslə uyğunlaşdırılmış AI ilə 30+ dildə tərcümə və dublaj edin. Avtomatik transkripsiya və səsləndirici aşkarlama.
                    
                
            
            
                
                    
                        
                        Meditasiya və sağlamlıq
                        Bu zaman ürək, ağciyər, böyrək, qaraciyər, qaraciyər və böyrəklər fəaliyyət göstərir.
                    
                
            
        
        
            Bütün istifadə halları və alətləri göstər
        
    






    
        Bütün Text-to-Speech Modelləri
        TTS.ai-də mövcud olan hər bir AI modeli üçün ətraflı spesifikasiyalar. Proqramınız üçün mükəmməl modeli tapmaq üçün keyfiyyət, sürət, dil dəstəyi və xüsusiyyətləri müqayisə edin.

        
        
            Hamısı (32)
            Pulsuz (7)
            Ön qurğulu (18)
            Premium (7)
        

        
            
            
                
                    
                    
                        
                            
                                Kokoro
                                Free
                            
                            
                                Kokoro 82 milyon parametrli mətndən-sözə modeldir və öz ağırlıq sinfindən çox üstündür. Kiçik ölçüsünə baxmayaraq, o, çox təbii və ifadəli bir səs istehsal edir. Kokoro ingilis, yapon, çin və koreyalı dilləri də daxil olmaqla bir çox dilləri dəstəkləyir və müxtəlif ifadəli səslər istehsal edir. O, inanılmaz sürətlə işləyir - GPU-da real vaxtda səsi 100x sürətlə istehsal edir.

                                
                                    
                                        Yaradıcı::

                                        Hexgrad
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, ja, zh, ko, fr, de, it, pt, es, hi, ru
                                    
                                    
                                        VRAM:

                                        1.5GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        82M parametrlər
                                        
                                        Çox sürətli
                                        
                                        Ekspressiv səslər
                                        
                                        Çoxdilli
                                        
                                        İşıqlandırma dəstəyi
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Minimal gecikmə ilə yüksək keyfiyyətli TTS, axın tətbiqetmələri
                                
                            
                            
                                
                                    _Yoxla Kokoro
                                
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Free
                            
                            
                                Piper Rhasspy tərəfindən inkişaf etdirilmiş VITS və larynx arxitekturalarını istifadə edən yüngül mətn-söhbətə motordur. CPU-da işləyir, bu da onu edge cihazları, ev avtomatlaşdırması və offlayn TTS tələb edən proqramlar üçün ideal edir. 30-dan çox dildə 100 səslə Piper Raspberry Pi 4-də belə real vaxt sürətində təbii səsli sözlər təqdim edir.

                                
                                    
                                        Yaradıcı::

                                        Rhasspy
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                    
                                    
                                        VRAM:

                                        0 (CPU only)
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        CPU-ya uyğun
                                        
                                        Xətt kənarında ola bilər
                                        
                                        100+ səs
                                        
                                        30+ dil
                                        
                                        SSML dəstək
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Tez önizləmələr, əlçatanlıq və daxili proqramlar
                                
                            
                            
                                
                                    _Yoxla Piper
                                
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Free
                            
                            
                                VITS (variasiyalı nəticə ilə qarşılıqlı öyrənmə üçün son-son Text-to-Speech) hazırkı iki mərhələli modellərdən daha təbii səslənən səsi yaradan paralel son-son TTS metodudur. Normallaşdırma axınları ilə artırılmış variasiyalı nəticəni və qarşılıqlı öyrənmə prosesini qəbul edir, təbiiliyi əhəmiyyətli dərəcədə yaxşılaşdırır.

                                
                                    
                                        Yaradıcı::

                                        Jaehyeon Kim et al.
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        Son-son sintez
                                        
                                        Təbii üsul
                                        
                                        Tez-tez
                                        
                                        Birdən çox səsləndirici
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Təbii prozodiya ilə ümumi məqsədli mətn-söhbətə çevirici
                                
                            
                            
                                
                                    _Yoxla VITS
                                
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Free
                            
                            
                                MyShell.ai tərəfindən yaradılan MeloTTS İngilis (Amerika, İngiltərə, Hindistan, Avstraliya), İspan, Fransız, Çin, Yapon və Koreya dillərini dəstəkləyən çoxdilli TTS kitabxanasıdır. Bu kitabxana çox sürətlidir, yalnız CPU-da mətni real vaxt sürəti ilə işləyir. MeloTTS istehsal üçün hazırlanmışdır və CPU və GPU-nun nəticələrini dəstəkləyir.

                                
                                    
                                        Yaradıcı::

                                        MyShell.ai
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, es, fr, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        0.5GB (GPU optional)
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        CPU optimallaşdırılmış
                                        
                                        Çoxdilli
                                        
                                        Çoxlu Aksentlər
                                        
                                        Proqram hazırdır
                                        
                                        Az gözləmə müddəti
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Çoxdilli və sürətli TTS tələb edən proqramlar
                                
                            
                            
                                
                                    _Yoxla MeloTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark
                                Standard
                            
                            
                                Suno tərəfindən hazırlanmış Bark, çox dildə çox real səs və musiqi, arxa fon səsləri və səs effektləri kimi digər səsləri yarada bilən transformator əsaslı mətn-səs modelidir. Gülüş, inilti və ağlama kimi sözsüz ünsiyyəti yarada bilir. Bark 100-dən çox səsləndiricinin əvvəlcədən qurğularını və 13-dən çox dili dəstəkləyir.

                                
                                    
                                        Yaradıcı::

                                        Suno
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Slow
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        5GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Səs effektləri
                                        
                                        Gülmək/Nəsihət vermək
                                        
                                        Musiqi yaradılması
                                        
                                        100+ səsləndirici
                                        
                                        Çoxdilli
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Yaradıcı audio məzmun, emosional audiokitablar, səs effektləri
                                
                            
                            
                                
                                    _Yoxla Bark
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Standard
                            
                            
                                Bark Small Bark modelinin daha sürətli nəticələmə sürəti və daha az yaddaş tələbləri üçün bəzi səs keyfiyyətini dəyişən distillasiya edilmiş versiyasıdır. Bark'ın emosional, gülüş və çoxlu dillərlə danışmaq qabiliyyətini saxlayır.

                                
                                    
                                        Yaradıcı::

                                        Suno
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Yüngül
                                        
                                        Tam qabıqdan daha sürətli
                                        
                                        Emosional nitq
                                        
                                        Çoxdilli
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Tam Bark çox yavaş olduqda sürətli yaradıcı səs
                                
                            
                            
                                
                                    _Yoxla Bark Small
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Standard
                            
                            
                                Alibaba'nın Tongyi Lab tərəfindən hazırlanan CosyVoice 2 insan səsi ilə müqayisəli səs keyfiyyətinə malikdir və çox aşağı gecikmə ilə real vaxt tətbiqləri üçün idealdır. O, axın sintezinə sonlu skalar kvantlaşdırma yanaşmasını istifadə edir və zero-shot səs klonlaşdırmasını, dillərarası sintezini və incə hisslər nəzarətini dəstəkləyir. O, subyektiv qiymətləndirmələrdə bir çox kommersiya TTS sistemlərini üstələyir.

                                
                                    
                                        Yaradıcı::

                                        Alibaba (Tongyi Lab)
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, ja, ko, fr, de, it, es
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Dağıdım
                                        
                                        Zero-shot klonlama
                                        
                                        Dillərarası
                                        
                                        Emosional idarəetmə
                                        
                                        İnsan-paritet
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Real-time tətbiqetmələri, TTS axını, səs köməkçiləri
                                
                            
                            
                                
                                    _Yoxla CosyVoice 2
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Standard
                            
                            
                                Dia Nari Labs tərəfindən hazırlanmış 1.6B parametrli mətn-söhbətə modeldir. Bu model xüsusi olaraq çoxlu-söhbətçili dialoq yaratmaq üçün hazırlanmışdır. Dia iki danışan arasında uyğun dönüş, prosodiya və emosional ifadə ilə təbii səsli söhbətlər yarada bilər. Dia podcast-style məzmun, audiobook dialoqları və interaktiv danışıq AI yaratmaq üçün mükəmməldir.

                                
                                    
                                        Yaradıcı::

                                        Nari Labs
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Birdən çox səsləndirici
                                        
                                        Dialog yaradılır
                                        
                                        Təbii dönmə
                                        
                                        Emosional İfadə
                                        
                                        Parametrlər
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Podcastlar, audiokitab dialoqları, söhbət məzmunu
                                
                            
                            
                                
                                    _Yoxla Dia TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Standard
                            
                            
                                Parler TTS, yaradılan danışığı idarə etmək üçün təbii dil səs təsvirini istifadə edən mətndən-sözə modeldir. Ön qurulmuş səslərdən seçmək əvəzinə, istədiyiniz səsi təsvir edə bilərsiniz (məsələn, "yavaş və aydın danışan, kiçik Britaniya aksenti olan qız səsi") və Parler bu təsviri uyğunlaşdıraraq danışığı yaradır. Bu onu yaradıcı proqramlar üçün unikal elastik edir.

                                
                                    
                                        Yaradıcı::

                                        Hugging Face
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Səs təsviri
                                        
                                        Təbii dil idarəsi
                                        
                                        Elastik səs yaradılması
                                        
                                        Ön qurğulu səslər lazım deyil
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Özəl səs xüsusiyyətlərinə ehtiyacınız olan yaradıcı tətbiqlər
                                
                            
                            
                                
                                    _Yoxla Parler TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                Standard
                            
                            
                                Zhipu AI tərəfindən hazırlanmış GLM-TTS, Llama mimarisinə əsaslanan və axın uyğunlaşdırması ilə işləyən mətn-söhbətə çevirmə sistemidir. Bu sistem açıq mənbəli TTS modelləri arasında ən aşağı xarakter səhv dərəcəsinə nail olur, bu da ən dəqiq səslənməni təmin edir. GLM-TTS 3-10 saniyəlik səs nümunələrindən səs klonlaşdırması ilə İngilis və Çin dillərini dəstəkləyir.

                                
                                    
                                        Yaradıcı::

                                        Zhipu AI
                                    
                                    
                                        Lisenziya::

                                        GLM-4 License
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Ən aşağı xəta dərəcəsi
                                        
                                        Sesi təkrarla
                                        
                                        Flow matching
                                        
                                        Təbii üsul
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Maksimum səsləndirmə dəqiqliyi tələb edən proqramlar
                                
                            
                            
                                
                                    _Yoxla GLM-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Standard
                            
                            
                                IndexTTS-2, zəif səs sintezində və emosional nəzarətdə üstün olan inkişaf etmiş mətn-söhbət sistemidir. O, emosional təlim məlumatları tələb etmədən xoşbəxt, kədərli, qəzəbli və qorxu kimi xüsusi emosional tonlarla danışa bilər. Model, yaradılan danışığın emosional ifadəsini dəqiq idarə etmək üçün emosional vektorlardan istifadə edir.

                                
                                    
                                        Yaradıcı::

                                        Index Team
                                    
                                    
                                        Lisenziya::

                                        Bilibili Model License
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Emosiyalar
                                        
                                        Zero-shot
                                        
                                        Emosiya vektorları
                                        
                                        Ekspressiv danışıq
                                        
                                        İdarəetmə
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Emosional ifadəli məzmun, audiokitablar, virtual köməkçilər
                                
                            
                            
                                
                                    _Yoxla IndexTTS-2
                                
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Standard
                            
                            
                                Spark TTS SparkAudio tərəfindən səs klonlaşdırmasını idarəolunan hiss və danışıq üslubu ilə birləşdirən mətn-söhbət modelidir. Yalnız 5 saniyəlik istinad səsi istifadə edərək səsi klonlaşdıra bilər və sonra klonlaşdırılmış səs kimliyini qoruyaraq fərqli hisslər, sürətlər və üslublarla danışıq yarada bilər. Spark TTS prompt əsaslı idarəetmə sistemini istifadə edir.

                                
                                    
                                        Yaradıcı::

                                        SparkAudio
                                    
                                    
                                        Lisenziya::

                                        CC BY-NC-SA 4.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Sesi təkrarla
                                        
                                        Emosional idarəetmə
                                        
                                        Tərtib İdarəetmə
                                        
                                        Prompt-based
                                        
                                        5 saniyəlik klonlama
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Klon səslər və emosional nəzarətlə məzmun yaratmaq
                                
                            
                            
                                
                                    _Yoxla Spark TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Standard
                            
                            
                                GPT-SoVITS GPT-style dil modelləşdirmə ilə SoVITS (Singing Voice Inference via Translation and Synthesis)-i güclü az-şot səs klonlaşdırması üçün birləşdirir. 5 saniyəlik istinad səsi ilə səsi dəqiq klonlaşdıra və yeni səsi yaratmaqla danışanın unikal xüsusiyyətlərini qoruya bilir. Həm danışıq həm də səs sintezini yaxşı edir.

                                
                                    
                                        Yaradıcı::

                                        RVC-Boss
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Slow
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        5 saniyəlik klonlama
                                        
                                        Şarkı Sesi
                                        
                                        Bir neçə dəfə öyrən
                                        
                                        Yüksək keyfiyyətli
                                        
                                        Dilli
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Sesi klonlama, səs sintezisi, məzmun yaradıcısı səsi təkrarlama
                                
                            
                            
                                
                                    _Yoxla GPT-SoVITS
                                
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Standard
                            
                            
                                Orpheus insan səviyyəli emosional ifadəyə nail olan böyük ölçülü mətn-söhbətə modeldir. 100,000 saatdan çox müxtəlif səs məlumatları üzərində təlim edilmişdir, təbii emosiyalar, vurğulamalar və danışıq üslubları ilə danışıq yaratmaqda üstündür. Orpheus insan səs yazılarından virtual olaraq ayırd edilə bilməyən danışıq istehsal edə bilər.

                                
                                    
                                        Yaradıcı::

                                        Canopy Labs
                                    
                                    
                                        Lisenziya::

                                        Llama 3.2 Community
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        İnsan səviyyəli hisslər
                                        
                                        100K saat təlim
                                        
                                        Təbii işıqlandırma
                                        
                                        Ekspressiv danışıq
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Yüksək keyfiyyətli emosional danışıq, audiokitablar, səs aktyorluğu
                                
                            
                            
                                
                                    _Yoxla Orpheus
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Chatterbox by Resemble AI son dərəcə müasir səs klonlama modelidir. Bu tək səs nümunəsindən hər hansı səsi çox dəqiqliklə təkrarlaya bilər, təkcə səs tonunu deyil, həm də danışıq üslubunu və emosional nüansları da əldə edə bilər. Chatterbox həmçinin səs kimliyindən asılı olmayaraq yaradılan danışığın emosional tonunu tənzimləmənizə imkan verən incə hisslər idarəsini də təklif edir.

                                
                                    
                                        Yaradıcı::

                                        Resemble AI
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Zero-shot klonlama
                                        
                                        Emosiyalar
                                        
                                        Yüksək keyfiyyətli
                                        
                                        Təsvir köçürmə
                                        
                                        Tək nümunə klonlaşdırma
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Emosional nəzarətlə professional səs klonlama, məzmun yaratma
                                
                            
                            
                                
                                    _Yoxla Chatterbox
                                
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS, audio keyfiyyətini sürətdən üstün tutan çox səsli mətn-söhbətə çevirmə sistemidir. DALL-E-dən ilhamlanan mimarisini istifadə edərək, parlaq prozodiya və səsləndirici oxşarlığı ilə çox təbii səsi yaradır. Bir çox alternativlərdən daha yavaş olsa da, Tortoise açıq mənbə ekosistemində mövcud olan ən real sintez edilmiş səsi yaradır.

                                
                                    
                                        Yaradıcı::

                                        James Betker
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Slow
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Ən yüksək keyfiyyət
                                        
                                        Çox səsli
                                        
                                        DALL-E arxitekturası
                                        
                                        Sesi təkrarla
                                        
                                        Avtomatik geriləmə
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Audiokitablar, premium məzmun, keyfiyyətli tətbiqlər
                                
                            
                            
                                
                                    _Yoxla Tortoise TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2, böyük səs dil modelləri ilə rəqabətçi təlimləri birləşdirərək insan səviyyəli TTS sintezini əldə edir. İnsan səs qeydləri ilə rəqabət aparan tək-oxuma modelləri arasında ən təbii səslənən səsi yaradır. StyleTTS 2, insan səs dəyişikliyinin bütün diapazonunu tutmaq üçün diffuziya əsaslı üslub modelləşdirməsini istifadə edir.

                                
                                    
                                        Yaradıcı::

                                        Columbia University
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        İnsan səviyyəsi
                                        
                                        Tərcümə
                                        
                                        Mübarizə
                                        
                                        Təbii dəyişən
                                        
                                        Yüksək keyfiyyətli
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Studio keyfiyyətli tək səsləndirici sintezisi, peşəkar danışıq
                                
                            
                            
                                
                                    _Yoxla StyleTTS 2
                                
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                MyShell.ai tərəfindən yaradılan OpenVoice səs üslubu, emosiyası, aksenti, ritmi, fasilə və intonasiyası üzərində nəzarəti ilə səsin dərhal klonlanmasına imkan verir. O, qısa audio klipdən səsi klonlaya və danışan şəxsiyyətini qoruyaraq bir çox dildə danışığı yarada bilər. OpenVoice real vaxt səs dəyişdirmə imkan verən səs çevirici kimi də işləyir.

                                
                                    
                                        Yaradıcı::

                                        MyShell.ai / MIT
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, ja, ko, fr, de, es, it
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Dərhal klonlama
                                        
                                        Səs çeviricisi
                                        
                                        Emosiyalar
                                        
                                        Aksent idarəsi
                                        
                                        Çoxdilli
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Sesi təkrarlamaq üçün incə-tərtib edilmiş üslub idarəsi, səsi çevirmə
                                
                            
                            
                                
                                    _Yoxla OpenVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Standard
                            
                            
                                Qwen3-TTS Alibaba'nın Qwen komandasından olan 1.7 milyard parametrli mətndən-sözə modeldir. Üç rejimi dəstəkləyir: emosional nəzarətlə əvvəlcədən qurulmuş səslər (9 səsləndirici), yalnız 3 saniyədən səs klonlaşdırması və istədiyiniz səsi təbii dildə təsvir etdiyiniz unikal səs dizaynı rejimi. Yüksək ifadəliliyi və təbii prozodiya ilə 10 dili əhatə edir.

                                
                                    
                                        Yaradıcı::

                                        Alibaba (Qwen)
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, ja, ko, de, fr, ru, pt, es, it
                                    
                                    
                                        VRAM:

                                        7GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Sesi təkrarla
                                        
                                        9 əvvəlcədən qurulmuş səs
                                        
                                        Mətndən səs dizaynı
                                        
                                        Emosiyalar
                                        
                                        Dillər
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Sesi klonlaşdırma və ya öz səs dizaynı ilə çoxdilli məzmun
                                
                            
                            
                                
                                    _Yoxla Qwen3 TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) 1 milyard parametrdən ibarət olan və söhbət yaratmaq üçün xüsusi olaraq hazırlanmış modeldir. Bu model insan söhbətinin təbiət nümunələrini modelləşdirir. Bu nümunələr arasında dönmə vaxtı, backchannel cavabları, emosional reaksiyalar və söhbət axını da var. CSM sintetik söhbət deyil, təbiət söhbəti kimi səslənən səsi yaradır.

                                
                                    
                                        Yaradıcı::

                                        Sesame
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Slow
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Konversasiya
                                        
                                        Təbii vaxt
                                        
                                        Dönüş
                                        
                                        Geri kanal
                                        
                                        Parametrlər
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                AI köməkçiləri, chatbotlar, danışıq AI tətbiqləri
                                
                            
                            
                                
                                    _Yoxla Sesame CSM
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Standard
                            
                            
                                Resemble AI tərəfindən hazırlanmış Chatterbox Turbo, Chatterbox-un 350M parametrli yenilənməsidir. 200ms-dən aşağı gecikmə ilə 6x real vaxt sürətinə qədər dəstək verir. [laugh], [cough] və [chuckle] kimi paralingvistik mətn etiketlərini dəstəkləyir. Provayder izləmə üçün bütün yaradılan səslər üzərində Perth su nişanını ehtiva edir.

                                
                                    
                                        Yaradıcı::

                                        Resemble AI
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Sub-200ms gecikmə
                                        
                                        Paralingvistik etiketlər
                                        
                                        6x real-time
                                        
                                        Səs klonlama
                                        
                                        Su nişanı
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Real-time səs agentləri, təbii səslərlə ifadəli danışıq
                                
                            
                            
                                
                                    _Yoxla Chatterbox Turbo
                                
                            
                        
                    
                    
                    
                        
                            
                                Zonos
                                Standard
                            
                            
                                Zyphra tərəfindən yaradılan Zonos v0.1, xoşbəxtlik, qəzəb, kədər, qorxu və təəccüb üçün sürüşkənlərlə təchiz edilmiş 1.6B parametrli emosional nəzarət modelidir. Bu model həm bir transformator, həm də yeni SSM (status-space model) variantını təklif edir. 10-30 saniyəlik istinad səsindən səs klonlaşdırması ilə 200K+ saat çoxdilli danışıq üzərində təlim edilmişdir.

                                
                                    
                                        Yaradıcı::

                                        Zyphra
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, ja, zh, fr, de
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Emosiyalar
                                        
                                        Səs klonlama
                                        
                                        SSM arxitekturası
                                        
                                        Çoxdilli
                                        
                                        Səs/həssaslıq idarəsi
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Emosiya nəzarəti ilə ifadəli danışıq, səs dizayn studiyası
                                
                            
                            
                                
                                    _Yoxla Zonos
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia 2
                                Standard
                            
                            
                                Nari Labs tərəfindən Dia2 Dia-nın 1B və 2B parametr variantlarında mövcud olan axın-əvvəlki yenilənməsidir. İlk bir neçə tokendən səsi sintez etməyə başlayır, real vaxt səs agentləri və söz-söhbət boru kəmərləri üçün ideal edir. [S1]/[S2] etiketləri və (gülür), (kökləyir) kimi paralingvistik işarələrlə çoxlu-söhbətçi dialoqu dəstəkləyir.

                                
                                    
                                        Yaradıcı::

                                        Nari Labs
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Dağıdımçı çıxıntı
                                        
                                        Birdən çox səsləndirici
                                        
                                        Düşük gecikmə
                                        
                                        Paralingvistik işarə
                                        
                                        2 dəqiqəyə qədər çıxış
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Real-time səs agentləri, dialoq yaratma, axın tətbiqetmələri
                                
                            
                            
                                
                                    _Yoxla Dia 2
                                
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Standard
                            
                            
                                VoxCPM 1.5 OpenBMB tərəfindən hazırlanmış, diskret tokenlərdən daha çox davamlı məkanda işləyən yeni tokenizatorsuz TTS modelidir. O, yüksək keyfiyyətli 44.1kHz səs istehsal edir, 3-10 saniyədən zero-shot səs klonlaşdırmasını dəstəkləyir və abzaslar arasında tutarlılığı qoruyur. Dilli klonlaşdırma sizə ingilis səsini Çin dilindəki səsə və əksinə tətbiq etməyə imkan verir.

                                
                                    
                                        Yaradıcı::

                                        OpenBMB
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Səs
                                        
                                        Tokenizer-free
                                        
                                        Cross-language klonlama
                                        
                                        Bağlan
                                        
                                        LoRA düzəltmə
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Yüksək keyfiyyətli səs, audiokitablar, səslə uyğun olan uzun formatlı məzmun
                                
                            
                            
                                
                                    _Yoxla VoxCPM
                                
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Free
                            
                            
                                OuteTTS orijinal quruluşunu qoruyaraq mətn-söhbətə imkanları ilə böyük dil modellərini genişləndirir. llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM və hətta Transformers.js vasitəsilə brauzer inference daxil olmaqla bir çox arxa tərəfi dəstəkləyir. JSON olaraq qeyd edilmiş səsvermə profilləri vasitəsilə zero-shot səs klonlaşdırmasını dəstəkləyir.

                                
                                    
                                        Yaradıcı::

                                        OuteAI
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        CPU inference
                                        
                                        Səyyahın təyini
                                        
                                        Sesi təkrarla
                                        
                                        Birdən çox arxa plan
                                        
                                        Dinləyici profilləri
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Edge işə salma, brauzer əsaslı TTS, az resurs tələb edən mühitə
                                
                            
                            
                                
                                    _Yoxla OuteTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                TADA
                                Standard
                            
                            
                                Hume AI tərəfindən hazırlanmış TADA (Text-Acoustic Dual Alignment) Llama 3.2 üzərində qurulan yeni bir ikili düzəliş arxitekturası vasitəsilə hallucinasyonları aradan qaldıran yenilikçi TTS modelidir. 1B (ingiliscə) və 3B (çoxdilli) variantlarında mövcud olan TADA, RTF-də 0.09 - 5x LLM-ə əsaslanan TTS modellərindən daha sürətlidir. 700 saniyəyə qədər audio konteksti dəstəkləyir və standart benchmarklarda heç bir hallucinasyon olmadan emosional olaraq ifadəli bir danışıq yaradır.

                                
                                    
                                        Yaradıcı::

                                        Hume AI
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        5GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Hallucinasyonlar yoxdur
                                        
                                        LLM TTS-dən 5x sürətli
                                        
                                        Emosional İfadə
                                        
                                        Audio konteksti
                                        
                                        İkiqat düzəltmə
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Yüksək keyfiyyətli hallucinasyonsuz danışıq, emosional ifadə, sürətli nəticə
                                
                            
                            
                                
                                    _Yoxla TADA
                                
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Standard
                            
                            
                                Microsoft VibeVoice iki variantda gəlir: uzun formatlı məzmun üçün 1.5B modeli (90 dəqiqəyə qədər, 4 səsləndirici) və ~200ms ilk səsləndirici gecikməsi ilə axın üçün Rəsmi 0.5B modeli. 1.5B variantı uzun keçidlərdə səsləndirici konzistensiyası ilə podcast və audiokitablarda üstünlük təşkil edir. Xatırlatma: Microsoft TTS kodunu repozitoriyadan çıxardıb və yaradılan səs səsləndirici AI-nin səsləndirilən cavabdehliyini də ehtiva edir.

                                
                                    
                                        Yaradıcı::

                                        Microsoft
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Birdən çox səsləndirici
                                        
                                        90 dəqiqəyə qədər
                                        
                                        Podcast yaradılması
                                        
                                        Dinləyici
                                        
                                        200ms axın
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Podcastlar, audiokitablar, uzun formalı çoxlu səsləndirici məzmunu
                                
                            
                            
                                
                                    _Yoxla VibeVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Free
                            
                            
                                Kyutai tərəfindən (Moshi-nin yaradıcıları) hazırlanmış Pocket TTS, 100M parametrli kompakt mətn-söhbətə çevirmə modelidir. CPU-da səmərəli işləyir, tək səs nümunəsindən səs klonlaşdırmasını dəstəkləyir və təbii səsli söhbət yaradır. Kiçik model ölçüsü onu edge işə salınması və az resurslu mühitə ideal edir.

                                
                                    
                                        Yaradıcı::

                                        Kyutai
                                    
                                    
                                        Lisenziya::

                                        MIT
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, fr
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        Parametrlər
                                        
                                        CPU inference
                                        
                                        Sesi təkrarla
                                        
                                        Tək nümunə klonlama
                                        
                                        Kənar hazır
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Yüngül işə salma, CPU-dan istifadə edən mühitə uyğun, sürətli səs klonlama
                                
                            
                            
                                
                                    _Yoxla Pocket TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Free
                            
                            
                                Kitten TTS by KittenML ONNX üzərində qurulan ultra-yüngül mətn-söhbətə çevirmə modelidir. 15M-dən 80M parametrə qədər variantları ilə (25-80 MB diskdə), CPU-da GPU tələb etmədən yüksək keyfiyyətli səs sintezini təmin edir. 8 daxili səs, düzəldilə bilən danışıq sürəti və rəqəmlər, pul vahidləri və vahidlər üçün daxili mətn əvvəldən işləməsi xüsusiyyətlərinə malikdir. Ən son işə salma və aşağı gecikmə tətbiqləri üçün idealdır.

                                
                                    
                                        Yaradıcı::

                                        KittenML
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en
                                    
                                    
                                        VRAM:

                                        0GB
                                    
                                    
                                        Səs Klonlama:

                                         _Yox
                                    
                                    
                                        1K xarakterin qiyməti:

                                        Pulsuz
                                    
                                

                                
                                
                                    
                                        
                                        CPU-only inference
                                        
                                        80MB-dan az model ölçüsü
                                        
                                        8 daxili səs
                                        
                                        Sür'ət idarəsi
                                        
                                        ONNX əsaslı
                                        
                                        24kHz çıxış
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Yüksək sürətli TTS, kənar işə salma, aşağı gecikmə tətbiqetmələri
                                
                            
                            
                                
                                    _Yoxla Kitten TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Standard
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

                                
                                    
                                        Yaradıcı::

                                        Alibaba (FunAudioLLM)
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Fast
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, ja, ko, de, es, fr, it, ru
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Bi-streaming
                                        
                                        Emotion control
                                        
                                        Voice cloning
                                        
                                        Speed/volume control
                                        
                                        Instruction following
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Multilingual production TTS, real-time applications, voice cloning
                                
                            
                            
                                
                                    _Yoxla CosyVoice3
                                
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS
                                Premium
                            
                            
                                MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

                                
                                    
                                        Yaradıcı::

                                        OpenMOSS
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Medium
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
                                    
                                    
                                        VRAM:

                                        16GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Ultra-long generation
                                        
                                        20 languages
                                        
                                        Voice cloning
                                        
                                        Duration control
                                        
                                        Pronunciation control
                                        
                                        Code-switching
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                Audiobooks, long-form content, multilingual production
                                
                            
                            
                                
                                    _Yoxla MOSS-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                MegaTTS3
                                Premium
                            
                            
                                MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

                                
                                    
                                        Yaradıcı::

                                        ByteDance
                                    
                                    
                                        Lisenziya::

                                        Apache 2.0
                                    
                                    
                                        Sür'ət:

                                        Slow
                                    
                                    
                                        Keyfiyyət ::

                                        
                                    
                                    
                                        dillər:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Səs Klonlama:

                                         Bəli
                                    
                                    
                                        1K xarakterin qiyməti:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Voice cloning
                                        
                                        Adjustable similarity
                                        
                                        Cross-lingual
                                        
                                    
                                
                                

                                
                                Ən Yaxşı:: 
                                High-fidelity voice cloning
                                
                            
                            
                                
                                    _Yoxla MegaTTS3
                                
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Kokoro
                                Pulsuz
                            
                            
                                Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
                                
                                    Yaradıcı::
Hexgrad
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
                                
                                Ən Yaxşı:: High-quality TTS with minimal latency, streaming applications
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Pulsuz
                            
                            
                                Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
                                
                                    Yaradıcı::
Rhasspy
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                
                                Ən Yaxşı:: Quick previews, accessibility, and embedded applications
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Pulsuz
                            
                            
                                VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
                                
                                    Yaradıcı::
Jaehyeon Kim et al.
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en, zh, ja, ko
                                
                                Ən Yaxşı:: General-purpose text-to-speech with natural prosody
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Pulsuz
                            
                            
                                MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
                                
                                    Yaradıcı::
MyShell.ai
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en, es, fr, zh, ja, ko
                                
                                Ən Yaxşı:: Production applications needing fast, multilingual TTS
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Pulsuz
                            
                            
                                OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
                                
                                    Yaradıcı::
OuteAI
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en
                                
                                Ən Yaxşı:: Edge deployment, browser-based TTS, low-resource environments
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Pulsuz
                            
                            
                                Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
                                
                                    Yaradıcı::
Kyutai
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en, fr
                                
                                Ən Yaxşı:: Lightweight deployment, CPU-only environments, quick voice cloning
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Pulsuz
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
                                
                                    Yaradıcı::
KittenML
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər: en
                                
                                Ən Yaxşı:: Fast lightweight TTS, edge deployment, low-latency applications
                            
                            
                                Pulsuz Yoxla
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Bark
                                Ön qurğulu
                            
                            
                                Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
                                
                                    Yaradıcı::
Suno
                                    Lisenziya::
MIT
                                    Sür'ət:
Slow
                                    Keyfiyyət ::

                                    dillər:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Səs Klonlama:
 _Yox
                                
                                Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
                                Ən Yaxşı:: Creative audio content, audiobooks with emotion, sound effects
                            
                            
                                _Yoxla Bark
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Ön qurğulu
                            
                            
                                Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
                                
                                    Yaradıcı::
Suno
                                    Lisenziya::
MIT
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Səs Klonlama:
 _Yox
                                
                                LightweightFaster than full BarkEmotional speechMultilingual
                                Ən Yaxşı:: Quick creative audio when full Bark is too slow
                            
                            
                                _Yoxla Bark Small
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Ön qurğulu
                            
                            
                                CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
                                
                                    Yaradıcı::
Alibaba (Tongyi Lab)
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh, ja, ko, fr, de, it, es
                                    Səs Klonlama:
 Bəli
                                
                                StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
                                Ən Yaxşı:: Real-time applications, streaming TTS, voice assistants
                            
                            
                                _Yoxla CosyVoice 2
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Ön qurğulu
                            
                            
                                Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
                                
                                    Yaradıcı::
Nari Labs
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 _Yox
                                
                                Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
                                Ən Yaxşı:: Podcasts, audiobook dialogues, conversational content
                            
                            
                                _Yoxla Dia TTS
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Ön qurğulu
                            
                            
                                Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
                                
                                    Yaradıcı::
Hugging Face
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 _Yox
                                
                                Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
                                Ən Yaxşı:: Creative applications where you need custom voice characteristics
                            
                            
                                _Yoxla Parler TTS
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                Ön qurğulu
                            
                            
                                GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
                                
                                    Yaradıcı::
Zhipu AI
                                    Lisenziya::
GLM-4 License
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 Bəli
                                
                                Lowest error rateVoice cloningFlow matchingNatural prosody
                                Ən Yaxşı:: Applications requiring maximum pronunciation accuracy
                            
                            
                                _Yoxla GLM-TTS
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Ön qurğulu
                            
                            
                                IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
                                
                                    Yaradıcı::
Index Team
                                    Lisenziya::
Bilibili Model License
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 Bəli
                                
                                Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
                                Ən Yaxşı:: Emotionally expressive content, audiobooks, virtual assistants
                            
                            
                                _Yoxla IndexTTS-2
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Ön qurğulu
                            
                            
                                Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
                                
                                    Yaradıcı::
SparkAudio
                                    Lisenziya::
CC BY-NC-SA 4.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 Bəli
                                
                                Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
                                Ən Yaxşı:: Content creation with cloned voices and emotional control
                            
                            
                                _Yoxla Spark TTS
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Ön qurğulu
                            
                            
                                GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
                                
                                    Yaradıcı::
RVC-Boss
                                    Lisenziya::
MIT
                                    Sür'ət:
Slow
                                    Keyfiyyət ::

                                    dillər:
en, zh, ja, ko
                                    Səs Klonlama:
 Bəli
                                
                                5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
                                Ən Yaxşı:: Voice cloning, singing synthesis, content creator voice replication
                            
                            
                                _Yoxla GPT-SoVITS
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Ön qurğulu
                            
                            
                                Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
                                
                                    Yaradıcı::
Canopy Labs
                                    Lisenziya::
Llama 3.2 Community
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 _Yox
                                
                                Human-level emotion100K hours trainingNatural emphasisExpressive speech
                                Ən Yaxşı:: High-quality emotional speech, audiobooks, voice acting
                            
                            
                                _Yoxla Orpheus
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Ön qurğulu
                            
                            
                                Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
                                
                                    Yaradıcı::
Alibaba (Qwen)
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh, ja, ko, de, fr, ru, pt, es, it
                                    Səs Klonlama:
 Bəli
                                
                                Voice cloning9 preset voicesVoice design from textEmotion control10 languages
                                Ən Yaxşı:: Multilingual content with voice cloning or custom voice design
                            
                            
                                _Yoxla Qwen3 TTS
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Ön qurğulu
                            
                            
                                Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
                                
                                    Yaradıcı::
Resemble AI
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 Bəli
                                
                                Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
                                Ən Yaxşı:: Real-time voice agents, expressive speech with natural sounds
                            
                            
                                _Yoxla Chatterbox Turbo
                            
                        
                    
                    
                    
                        
                            
                                Zonos
                                Ön qurğulu
                            
                            
                                Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
                                
                                    Yaradıcı::
Zyphra
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, ja, zh, fr, de
                                    Səs Klonlama:
 Bəli
                                
                                Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control
                                Ən Yaxşı:: Expressive speech with emotion control, voice design studio
                            
                            
                                _Yoxla Zonos
                            
                        
                    
                    
                    
                        
                            
                                Dia 2
                                Ön qurğulu
                            
                            
                                Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
                                
                                    Yaradıcı::
Nari Labs
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 _Yox
                                
                                Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output
                                Ən Yaxşı:: Real-time voice agents, dialogue generation, streaming applications
                            
                            
                                _Yoxla Dia 2
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Ön qurğulu
                            
                            
                                VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
                                
                                    Yaradıcı::
OpenBMB
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 Bəli
                                
                                44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
                                Ən Yaxşı:: High-fidelity audio, audiobooks, long-form content with voice consistency
                            
                            
                                _Yoxla VoxCPM
                            
                        
                    
                    
                    
                        
                            
                                TADA
                                Ön qurğulu
                            
                            
                                TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
                                
                                    Yaradıcı::
Hume AI
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 _Yox
                                
                                Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment
                                Ən Yaxşı:: High-quality hallucination-free speech, emotional expression, fast inference
                            
                            
                                _Yoxla TADA
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Ön qurğulu
                            
                            
                                VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
                                
                                    Yaradıcı::
Microsoft
                                    Lisenziya::
MIT
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 _Yox
                                
                                Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
                                Ən Yaxşı:: Podcasts, dialogues, long-form narration, multi-speaker content
                            
                            
                                _Yoxla VibeVoice
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Ön qurğulu
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
                                
                                    Yaradıcı::
Alibaba (FunAudioLLM)
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Fast
                                    Keyfiyyət ::

                                    dillər:
en, zh, ja, ko, de, es, fr, it, ru
                                    Səs Klonlama:
 Bəli
                                
                                Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
                                Ən Yaxşı:: Multilingual production TTS, real-time applications, voice cloning
                            
                            
                                _Yoxla CosyVoice3
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.
                                
                                    Yaradıcı::
Resemble AI
                                    Lisenziya::
MIT
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 Bəli
                                    VRAM:
4GB
                                    1K xarakterin qiyməti:
4x
                                
                                Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
                                Ən Yaxşı:: Professional voice cloning with emotional control, content creation
                            
                            
                                _Yoxla Chatterbox
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.
                                
                                    Yaradıcı::
James Betker
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Slow
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 Bəli
                                    VRAM:
8GB
                                    1K xarakterin qiyməti:
4x
                                
                                Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
                                Ən Yaxşı:: Audiobooks, premium content, quality-first applications
                            
                            
                                _Yoxla Tortoise TTS
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.
                                
                                    Yaradıcı::
Columbia University
                                    Lisenziya::
MIT
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 _Yox
                                    VRAM:
4GB
                                    1K xarakterin qiyməti:
4x
                                
                                Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
                                Ən Yaxşı:: Studio-quality single-speaker synthesis, professional narration
                            
                            
                                _Yoxla StyleTTS 2
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.
                                
                                    Yaradıcı::
MyShell.ai / MIT
                                    Lisenziya::
MIT
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh, ja, ko, fr, de, es, it
                                    Səs Klonlama:
 Bəli
                                    VRAM:
4GB
                                    1K xarakterin qiyməti:
4x
                                
                                Instant cloningVoice conversionEmotion controlAccent controlMultilingual
                                Ən Yaxşı:: Voice cloning with fine-grained style control, voice conversion
                            
                            
                                _Yoxla OpenVoice
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.
                                
                                    Yaradıcı::
Sesame
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Slow
                                    Keyfiyyət ::

                                    dillər:
en
                                    Səs Klonlama:
 _Yox
                                    VRAM:
8GB
                                    1K xarakterin qiyməti:
4x
                                
                                ConversationalNatural timingTurn-takingBackchannel1B parameters
                                Ən Yaxşı:: AI assistants, chatbots, conversational AI applications
                            
                            
                                _Yoxla Sesame CSM
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS
                                Premium
                            
                            
                                MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
                                
                                    Yaradıcı::
OpenMOSS
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Medium
                                    Keyfiyyət ::

                                    dillər:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
                                    Səs Klonlama:
 Bəli
                                    VRAM:
16GB
                                    1K xarakterin qiyməti:
4x
                                
                                Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching
                                Ən Yaxşı:: Audiobooks, long-form content, multilingual production
                            
                            
                                _Yoxla MOSS-TTS
                            
                        
                    
                    
                    
                        
                            
                                MegaTTS3
                                Premium
                            
                            
                                MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
                                
                                    Yaradıcı::
ByteDance
                                    Lisenziya::
Apache 2.0
                                    Sür'ət:
Slow
                                    Keyfiyyət ::

                                    dillər:
en, zh
                                    Səs Klonlama:
 Bəli
                                    VRAM:
8GB
                                    1K xarakterin qiyməti:
4x
                                
                                Voice cloningAdjustable similarityCross-lingual
                                Ən Yaxşı:: High-fidelity voice cloning
                            
                            
                                _Yoxla MegaTTS3
                            
                        
                    
                    
                
            
        

        
        
            Model müqayisə cədvəli
            
                
                    
                        
                            Model
                            Yaradıcı:
                            Tərcümə
                            Keyfiyyət :
                            Sür'ət
                            dillər
                            Səs Klonlama
                            VRAM
                            Lisenziya:
                            kreditlər
                            
                        
                    
                    
                        
                        
                            Kokoro
                            Hexgrad
                            Free
                            
                            Fast
                            11
                            
                            1.5GB
                            Apache 2.0
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            Piper
                            Rhasspy
                            Free
                            
                            Fast
                            31
                            
                            0 (CPU only)
                            MIT
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            VITS
                            Jaehyeon Kim et al.
                            Free
                            
                            Fast
                            4
                            
                            1GB
                            MIT
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            MeloTTS
                            MyShell.ai
                            Free
                            
                            Fast
                            6
                            
                            0.5GB (GPU optional)
                            MIT
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            Bark
                            Suno
                            Standard
                            
                            Slow
                            13
                            
                            5GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            Bark Small
                            Suno
                            Standard
                            
                            Medium
                            13
                            
                            2GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            CosyVoice 2
                            Alibaba (Tongyi Lab)
                            Standard
                            
                            Medium
                            8
                            
                            4GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            Dia TTS
                            Nari Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            Parler TTS
                            Hugging Face
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            GLM-TTS
                            Zhipu AI
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            GLM-4 License
                            2
                            İstifadə et
                        
                        
                        
                            IndexTTS-2
                            Index Team
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            Bilibili Model License
                            2
                            İstifadə et
                        
                        
                        
                            Spark TTS
                            SparkAudio
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            CC BY-NC-SA 4.0
                            2
                            İstifadə et
                        
                        
                        
                            GPT-SoVITS
                            RVC-Boss
                            Standard
                            
                            Slow
                            4
                            
                            6GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            Orpheus
                            Canopy Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Llama 3.2 Community
                            2
                            İstifadə et
                        
                        
                        
                            Chatterbox
                            Resemble AI
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            İstifadə et
                        
                        
                        
                            Tortoise TTS
                            James Betker
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            İstifadə et
                        
                        
                        
                            StyleTTS 2
                            Columbia University
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            İstifadə et
                        
                        
                        
                            OpenVoice
                            MyShell.ai / MIT
                            Premium
                            
                            Medium
                            8
                            
                            4GB
                            MIT
                            4
                            İstifadə et
                        
                        
                        
                            Qwen3 TTS
                            Alibaba (Qwen)
                            Standard
                            
                            Medium
                            10
                            
                            7GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            Sesame CSM
                            Sesame
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            İstifadə et
                        
                        
                        
                            Chatterbox Turbo
                            Resemble AI
                            Standard
                            
                            Fast
                            1
                            
                            2GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            Zonos
                            Zyphra
                            Standard
                            
                            Medium
                            5
                            
                            6GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            Dia 2
                            Nari Labs
                            Standard
                            
                            Fast
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            VoxCPM
                            OpenBMB
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            OuteTTS
                            OuteAI
                            Free
                            
                            Fast
                            1
                            
                            2GB
                            Apache 2.0
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            TADA
                            Hume AI
                            Standard
                            
                            Fast
                            1
                            
                            5GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            VibeVoice
                            Microsoft
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            MIT
                            2
                            İstifadə et
                        
                        
                        
                            Pocket TTS
                            Kyutai
                            Free
                            
                            Fast
                            2
                            
                            1GB
                            MIT
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            Kitten TTS
                            KittenML
                            Free
                            
                            Fast
                            1
                            
                            0GB
                            Apache 2.0
                            Pulsuz
                            İstifadə et
                        
                        
                        
                            CosyVoice3
                            Alibaba (FunAudioLLM)
                            Standard
                            
                            Fast
                            9
                            
                            4GB
                            Apache 2.0
                            2
                            İstifadə et
                        
                        
                        
                            MOSS-TTS
                            OpenMOSS
                            Premium
                            
                            Medium
                            19
                            
                            16GB
                            Apache 2.0
                            4
                            İstifadə et
                        
                        
                        
                            MegaTTS3
                            ByteDance
                            Premium
                            
                            Slow
                            2
                            
                            8GB
                            Apache 2.0
                            4
                            İstifadə et
                        
                        
                    
                
            
        
    




    
        
            
                Ən genişləndirilmiş AI Text to Speech platforması

                
                    
                        TTS.ai-i Text to Speech üçün niyə seçməlisiniz?
                        TTS.ai dünyanın ən yaxşı açıq mənbəli mətndən-sözə modellərini tək, istifadəsi asan platformada birləşdirir. Sizi tək səs mühərriki ilə bağlayan mülkiyyət xidmətlərindən fərqli olaraq, TTS.ai sizə Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua Universiteti və daha çoxunu da daxil olmaqla lider tədqiqat laboratoriyalarından 20+ modelə çıxış verir.
                        Hər bir model MIT, Apache 2.0 və ya buna bənzər icazəli lisenziyalar altında açıq mənbədir, sizin layihələrinizdə yaradılan səsi istifadə etmək üçün tam kommersiya hüquqlarınız təmin edilir. Real vaxt tətbiqləri üçün sürətli, yüngül sintez və ya audio kitablar və podcastlar üçün premium studiya keyfiyyətli çıxarışa ehtiyacınız olsun, TTS.ai hər istifadə halı üçün doğru modelə malikdir.

                        Pulsuz Modellər, Hesab İstənilmir
                        Üç pulsuz TTS modeli ilə dərhal başlayın: Piper (ultra sürətli, yüngül), VITS (yüksək keyfiyyətli sinir sintezi) və MeloTTS (çox dil dəstəyi). Qeydiyyat olmadan, kredit kartı olmadan, nəsillər arasında məhdudiyyət olmadan. Pulsuz modellər İngilis və bir çox digər dilləri dəstəkləyir və bir çox tətbiqlər üçün uyğun olan təbii səsli çıxışı dəstəkləyir.
                    
                    
                        GPU sürətləndirilmiş işləmə
                        Bütün TTS modelləri sürətli, davamlı istehsal vaxtları üçün xüsusi NVIDIA GPU-larda işləyir. Pulsuz modellər adətən səsi 2 saniyədən az müddətdə istehsal edirlər. Kokoro, CosyVoice 2 və Bark kimi standart modellər orta hesabla 3-5 saniyə ərzində. Tortoise və Chatterbox kimi ən yüksək keyfiyyətli premium modellər mətnin uzunluğuna görə 5-15 saniyədə işləyir.

                        30+ dil dəstəklənir
                        İngilis, İspan, Fransız, Alman, İtalyan, Portuqaliya, Çin, Yapon, Koreya, Ərəb, Hind, Rus və daha çox dillərdə 30-dan çox səsi yarada bilərsiniz. Bir çox modellər dillərarası sintezini dəstəkləyir, bu da siz orijinal səsin öyrədilmədiyi dildə səs yarada bilərsiniz deməkdir. CosyVoice 2 və GPT-SoVITS dillərarası səs klonlamada üstündür.

                        Yaradıcıya hazır API
                        TTS.ai-i OpenAI-yə uyğun REST API-mizlə tətbiqlərinizə birləşdirin. Bütün 20+ modellər üçün bir son nöqtə. Python, JavaScript, cURL və Go SDK-ları. Real vaxt tətbiqləri üçün axın dəstəyi. Böyük miqyaslı məzmun istehsalı üçün batch prosesi. Async bildirişləri üçün Webhooks. Pro və Enterprise planlarında mövcuddur.
                    
                
            
        
    









    



    
        
        
        Daha çox öyrən →
        
    










    
        Tez-tez Sorulan Sual
        
            
                
                    
                    
                        
                            
                        
                        
                            
                                Text-to-speech (TTS) yazılı mətni təbii səslənən danışan səsə çevirən bir AI texnologiyasıdır. Kokoro, Chatterbox və CosyVoice 2 kimi müasir neyron TTS modelləri dərin öyrənməni istifadə edərək təbii prozodiya, emosionallıq və ritmlə insan kimi səslənən danışığı istehsal edirlər.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bu sizin ehtiyaclarınıza bağlıdır. Tez-tez nəzərdən keçirmək üçün Piper və ya MeloTTS (pulsuz, sürətli) istifadə edin. Yüksək keyfiyyət üçün Kokoro və ya CosyVoice 2 (standart səviyyə) istifadə edin. Sesi klonlaşdırmaq üçün Chatterbox və ya GPT-SoVITS (premium) istifadə edin. Dialoq/podkast məzmunu üçün Dia TTS istifadə edin. Hər bir modelin fərqli gücləri var - ən uyğununu tapmaq üçün sınayın.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bəli! TTS.ai Kokoro, Piper, VITS və MeloTTS modelləri ilə pulsuz mətn-söhbətə çevirmə təklif edir. 500-ə qədər xarakter və saatda 3 nəsil üçün hesab tələb olunmur. 15,000 xarakter və bütün modellərə çıxış üçün pulsuz hesab üçün qeydiyyatdan keçin.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bizim TTS modellərimiz ümumilikdə ingilis, ispan, fransız, alman, italyan, portuqal, çin, yapon, koreya, ərəb, rus, hindi və daha çox dilləri dəstəkləyir. Dillərin mövcudluğu modeldən asılı olaraq dəyişir.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bəli, TTS.ai vasitəsilə yaradılan səs kommersiya məqsədləri üçün istifadə edilə bilər. Bütün modellərimiz açıq mənbə lisenziyası (MIT, Apache 2.0) ilə işləyir. Müəyyən şərtlər üçün fərdi model lisenziyası ilə tanış olun. Proqramınız üçün istifadə etdiyiniz xüsusi modelin lisenziyası ilə tanış olmağı tövsiyə edirik.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                TTS.ai MP3, WAV, OGG və FLAC çıxış formatlarını dəstəkləyir. MP3 veb oynatma üçün ön qurğuludur. Daha sonra səs prosesi üçün WAV tövsiyə olunur. Audio Converter aləti ilə formatları dəyişdirə bilərsiniz.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Səs klonlaması qısa səs nümunəsindən (adətən 5-30 saniyə) müəyyən səsi təkrarlamaq üçün Dİ-ni istifadə edir. Məqsəd səsin aydın bir qeydini yükləyin və Chatterbox, GPT-SoVITS, ya da OpenVoice kimi modellər bu səsdə yeni danışıq yaradacaq. Keyfiyyət daha təmiz, daha uzun istinad səsi ilə yaxşılaşır.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Pulsuz istifadəçilər istək başına 500-ə qədər xarakter yarada bilərlər. Qeydiyyatdan keçmiş istifadəçilər istək başına 5000-ə qədər xarakter əldə edə bilərlər. Uzun mətnlər üçün səs parça-parça yaradılır və avtomatik olaraq birləşdirilir. API istifadəçiləri istək başına 10000-ə qədər xarakter işlədə bilərlər.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                SSML (Speech Synthesis Markup Language) dəstəkləməsi modeldən modelə dəyişir. Piper və bəzi digər modellər fasilə, vurğu və nitq nəzarəti üçün əsas SSML təqvimləri dəstəkləyir. Yerli SSML dəstəkləməsi olmayan modellər üçün, prozodiya təsiri üçün təbii nişan və sətir qırışları istifadə edə bilərsiniz.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bəli, modellərin əksəriyyəti 0.5x-dən 2.0x-ə qədər sürət tənzimləməsini dəstəkləyir. Bark və Parler kimi bəzi modellər həmçinin səs və üslub tənzimləməsini də dəstəkləyir. Sürət parametrlərini inkişaf etmiş qurğular panelində və ya API sürət parametri vasitəsilə təyin edə bilərsiniz.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bəli, paket işləmə API vasitəsilə mövcuddur. Bir neçə mətn hissəsini tək bir API çağırışı və ya skripti ilə göndərə bilərsiniz və hər biri ayrı səs faylları kimi işlənəcək və geri qaytarılacaqdır. Bu audiokitab fəsilləri, e-öyrənmə modulları və ya oyun dialoq skriptləri üçün idealdır.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Hesabınızdakı idarə panelindən bir API açarı yaradın, sonra REST API son nöqtəsinə mətn, model və səs parametrləri ilə POST istəkləri göndərin. Python, JavaScript və cURL-də kod nümunələri təqdim edirik. API OpenAI ilə uyğundur, buna görə mövcud inteqrasiyalar minimal dəyişikliklərlə işləyir.
                            
                        
                    
                    
                
            
        
    








    
        
            
                
                
                
                
                
                
                
                
                
                
                
                
                
            
            5.0/5 (2)
        
        
            Nəyi yaxşılaşdıra bilərik? Sizin rəyiniz problemləri düzəltməyə kömək edir.
            
                
                
                
                
            
            
                
                
            
        
    







    
        Mətnə-Söhbətə Dəyişməni İndi Başlat
        TTS.ai istifadə edərək minlərlə yaradıcıya qoşulun. Yeni hesabla 15,000 pulsuz xarakter əldə edin. Pulsuz modellər qeydiyyat olmadan mövcuddur.
        
            
            Qeyd Ol
            Qiymətləri Göstər

Yaradıcı:	OuteAI
Lisenziya:	Apache 2.0
Sür'ət	Fast
Keyfiyyət :
dillər	1 language
VRAM	2GB
Səs Klonlama	Dəstəklənir

Model	Yaradıcı:	Tərcümə	Sür'ət	dillər	VRAM	Lisenziya:	kreditlər
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	Pulsuz	İstifadə et
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	Pulsuz	İstifadə et
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	Pulsuz	İstifadə et
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Pulsuz	İstifadə et
Bark	Suno	Standard	Slow	13	5GB	MIT	2	İstifadə et
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	İstifadə et
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	İstifadə et
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	İstifadə et
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	İstifadə et
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	İstifadə et
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	İstifadə et
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	İstifadə et
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	İstifadə et
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	İstifadə et
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	İstifadə et
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	İstifadə et
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	İstifadə et
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	İstifadə et
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	İstifadə et
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	İstifadə et
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	İstifadə et
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	İstifadə et
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	İstifadə et
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	İstifadə et
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Pulsuz	İstifadə et
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	İstifadə et
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	İstifadə et
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Pulsuz	İstifadə et
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Pulsuz	İstifadə et
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	İstifadə et
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	İstifadə et
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	İstifadə et