Metinden Söze

Metini açyk çeşme AI modelleri bilen dogry sesli söze öwür. Mugt ulanmak, hasap gerek däl.

Beýiklik

Siziň dilinde häzirlikçe TTS sesleri ýok. Bize özüňkileri goşmaga kömek et! Sesini Saýla

0/500 karakterler

_Gün tertibi 5000 karakter çäk

SSML Mody (Ses Sintez Markup Dili)

Metini SSML taglarda dolap dogry kontrol üçin:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emotikonlar/Stil Tegler

Göndermek üçin emotion markers ekle (model goldawy üýtgeýär):

Sözlük

Öz sözleriň terjimesini belli et (söz = terjime):

_Gözleg 0

-12 +12

Dia düwmesi hili: [S1] we [S2] taglary ulanyp dürli sözleýjileri nyşanla. Meselem:

[S1] Salam! [S2] Salam, siz nädip?



                
                
                    
                    
                        Model
                        
                    

                    
                    
                        Ses
                        
                    
                
                

                
                
                    
                    
                        Dil
                        
                    

                    
                    
                        Çykyş Düzeli
                        
                    

                    
                    
                        
                            Tizlik
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Piper, VITS, MeloTTS bilen azat



        
        
            
                Siziň döreden audioňyz şu ýerde görüner. Bir model saýlaň, metin girin we döred
            
            
            
                
                
                    Bejerme Başgaça
                    
                
            
        

            
                
                    
                        Ses mübärek bejerildi
                        
                    
                    
                        


    
        
            
            
                
                    
                
                
            
        
    


                        
                            
                                Ses ýükle
                            
                            
                            
                            Baglanyşyk 24 sagadyň içinde gutarýar
                            
                                
                                    
                                    
                                    
                                    
                                    
                                
                            
                        
                    
                
            
        

        

    
        
            
                
                    TTS.ai-ni söýýäňmi? Dostlaryňa aýt!



    
    
        
        
            
                Modeliň Täzelikleri
            
            
                
                
                    
                    Qwen3 TTS
                
                Standard
                Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
                
                    
                        
                            Programçi:
                            Alibaba (Qwen)
                        
                        
                            Lisenziýa:
                            Apache 2.0
                        
                        
                            Tizlik
                            
                                Medium
                            
                        
                        
                            _Hili:
                            
                                
                            
                        
                        
                            dil
                            10 dil
                        
                        
                            VRAM
                            7GB
                        
                        
                            Ses Klonlama
                             Saýlawlar
                        
                    
                
                
                
                    _Hyzmatlar:
                    
                        
                        Voice cloning
                        
                        9 preset voices
                        
                        Voice design from text
                        
                        Emotion control
                        
                        10 languages
                        
                    
                
                
                
                Saýlawlar: 
                Multilingual content with voice cloning or custom voice design
                
                
            
        

        
        
            
                Iň gowy netijeler üçin maslahatlar
            
            
                
                    Takyk aralyklar we intonasiýa üçin dogry aralyklary ullan
                    Rakamlary we gysgalamalary has aňsat okamak üçin emle
                    Sözler arasyna gysga wagtlyk durmalary döretmek üçin çemçeleri goş
                    Uzak dramatik wagtlyk durmalar üçin ellipsis (...) ullan
                    Kokoro ýa-da CosyVoice 2'i iň nazik netijeler üçin synla
                    Birnäçe sözleýji düwmeleri we podkast mazmuny üçin Dia ullan
                
            
        

        
        
            
                Karakter Ullanyşy
            
            
                
                    
                        
                            _Göçür
                            1K karakter üçin töleg
                        
                    
                    
                        
                            Boş
                            0 kredit (süýtgäýmez)
                        
                        
                            _Öň bellenen
                            2 kredit / 1K karakter
                        
                        
                            Premium
                            4 kredit / 1K karakter
                        
                    
                
            
            
                Ekle

_Göçür	1K karakter üçin töleg
Boş	0 kredit (süýtgäýmez)
_Öň bellenen	2 kredit / 1K karakter
Premium	4 kredit / 1K karakter






    
        
            
                
                
                    
                    
    Hiç reklama ýok
    Süňňürsiz ulanmak
    Prioritet goldawy
    Täze aýratynlyklara ertir erişmek


                
                

                
                    
                        Gaýd Et






    
        AI Metinden Söze işleýşi
        Üç aňsat ädimde professional-kvalite diller döret. Hiç bir tehnikal bilim gerek däl.
        
            
                
                    
                        
                            
                        
                        1-nji ädim
                        Metini giriz
                        Söze öwürmek isleýän metiniňizi ýaz, guý, ýa-da ýükläň. Ýatdan çykan ulanyjylar üçin her bir nesil üçin 5000 karaktere çenli goldaýar. Saý metini ullan ýa-da SSML taglary goş, sözlem, wagtlaýyn durma we üns bermek üçin ileri kontrol üçin.
                    
                
            
            
                
                    
                        
                            
                        
                        2-nji ädim
                        Modeli we Sesni Saýla
                        Üç derejeden 20+ AI modellerden saýlaň. Siziň mazmunyňyza laýyk gelýän ses saýlaň, maksat dili saýlaň, çalmak tizligini 0.5x-den 2.0x-e düzeltin, we islendik çykdajy formatyny saýlaň (MP3, WAV, OGG, ýa-da FLAC).
                    
                
            
            
                
                    
                        
                            
                        
                        3-nji tapgyr
                        Bejer
                        Bejer düw we seniň audioň sekundlar içinde taýyn bolar. Içe giren çalşyjy bilen öňki görkez, saýlan formatda ýükle, ýa-da paýlaşylan baglanyşy nusgala. API'den batch işlemek we iş akymyna birikmek üçin peýdalan.
                    
                
            
        
    






    
        Metinden Söze Ullanyş Hadysalary
        AI-powered text-to-speech adamlaryň audio mazmun bilen döredijilik, sarp etmek we özara hereket etmek usulyny onlarça pudaklarda üýtgedýär.
        
            
                
                    
                        
                        Audiokitaplar
                        Bütin kitaplary ştudio hiliňde gürrüň bilen dogry sesli audiokitaplara öwür. Karakter düwmez üçin Dia bilen köp sözçi goldawy.
                    
                
            
            
                
                    
                        
                        Video Ses
                        YouTube, TikTok, Instagram Reels, we Shorts üçin professional sesleri dörediň. 100+ ses ýa-da özüňi klonlaň.
                    
                
            
            
                
                    
                        
                        Podkastlar
                        Birnäçe AI sesleri bilen skriplerden podcast bölümlerini döret. Iki sözleýji bilen dogry gürleşmek üçin Dia'dan peýdalan.
                    
                
            
            
                
                    
                        
                        Oýunlar
                        Indiý oýunlar, görkezmeli romanlar we interaktiw fantastika üçin AI ses aktýorlygy. NPC dialog, cutscene sesler, 30+ dil.
                    
                
            
            
                
                    
                        
                        E-öwreniş
                        Kurs materiallary, leksiýalar we tälim mazmuny seslere öwür. Global platformalar üçin köp dil goldawy.
                    
                
            
            
                
                    
                        
                        Elýeterlilik
                        Web saýtlary, senedleri we programleri elýeterli edäý. Ekran okaýjy API birikdirme we makaladan sese öwürme.
                    
                
            
            
                
                    
                        
                        IVR we Telefon Systemleri
                        IVR sistemleri, telefon menüleri, we müşderi hyzmaty bilen dogry AI sesleri güýçlendir. Çakyşyk merkezleri üçin az-latensyýal streaming.
                    
                
            
            
                
                    
                        
                        Sosial Media
                        TikTok gürrüňleri, Instagram Reels, Twitter/X kommentariýa, YouTube gysgajyklary. Azat modeller bilen tiz emele getiriş.
                    
                
            
            
                
                    
                        
                        _Gözle
                        Twitch TTS habarlary, gürleşip ses, AI ko-hostlar, we Discord botlar. Düşük wagt, 100+ sesler, StreamElements uýgunlaşýan.
                    
                
            
            
                
                    
                        
                        Marketing
                        Ad voiceovers, explaner videos, product demo, and sales presentations. Scale audio content production across campaigns.
                    
                
            
            
                
                    
                        
                        Dublaj we Lokallaşdyrma
                        Ses bilen deňleşen AI bilen wideolary 30+ dilde terjime et we dublaj et. Otomatik transkripsiýa we sözleýji tapmak.
                    
                
            
            
                
                    
                        
                        Meditasyon we Wellness
                        Ýörelgeli meditasyonlar, uyku hikayeleri, nefes alma tälimleri, we affirmasyonlar, rahat, rahatlandyryjy AI sesleri bilen.
                    
                
            
        
        
            Ehli Ullanyş Haltlaryny we Esbaplary Görkez
        
    






    
        Metinden Söze
        Her bir AI modeli üçin TTS.aida elýeterli detallar. Siziň proýektiňiz üçin iň gowy modeli tapmak üçin hilini, tizligini, dil goldawyny we aýratynlyklary deňeşdiriň.

        
        
            Başgalar (32)
            Boş (7)
            _Öň bellenen (18)
            Premium (7)
        

        
            
            
                
                    
                    
                        
                            
                                Kokoro
                                Free
                            
                            
                                Kokoro 82 million parametrli metinden söze modeldir we öz agramy klasyndan has gowy işleýär. Kiçijik ululygyna garamazdan, ol örän nazik we beýanly sözi döredýär. Kokoro birnäçe dilleri goldaýar, şol sanda inglizçe, ýaponça, çinçe we koreýçe, dürli beýanly sesler bilen. Ol gaty tiz işleýär — GPU-da hakykat wagtyndan 100x tiz ses döredýär.

                                
                                    
                                        Programçi::

                                        Hexgrad
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, ja, zh, ko, fr, de, it, pt, es, hi, ru
                                    
                                    
                                        VRAM:

                                        1.5GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        Boş
                                    
                                

                                
                                
                                    
                                        
                                        82M parametrler
                                        
                                        Çok tiz
                                        
                                        Äheňli sesler
                                        
                                        Birnäçe Dil
                                        
                                        Akym goldawy
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Ýokary hilli TTS, az wagtlyk, ströming programmalar
                                
                            
                            
                                
                                    Syna Kokoro
                                
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Free
                            
                            
                                Piper VITS we larynx binagärliklerden peýdalanýan Rhasspy tarapyndan işlenip çykarylan ýeňil metinden söze enjamdyr. Ol doly CPU üstünde işleýär, bu ony edge enjamlar, öý awtomatlaşdyrma we off-line TTS talap edýän programler üçin ideal edýär. 30+ dilden 100 ses bilen, Piper Raspberry Pi 4-de hem hakykat wagtyň tizliginde tebigy sesli sözi hödürleýär.

                                
                                    
                                        Programçi::

                                        Rhasspy
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                    
                                    
                                        VRAM:

                                        0 (CPU only)
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        Boş
                                    
                                

                                
                                
                                    
                                        
                                        CPU-friendly
                                        
                                        _Çyk
                                        
                                        Sesler
                                        
                                        30+ dil
                                        
                                        SSML goldawy
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Tiz öň görmeler, elýeterlilik we girizlenlen programler
                                
                            
                            
                                
                                    Syna Piper
                                
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Free
                            
                            
                                VITS (Variasion Inference with adversarial learning for end-to-end Text-to-Speech) şu wagtky iki tapgyrly modellerden has has natural sounding audio döredýän bir TTS usuly. Ol normalizing flows bilen artdyrylan variasion inference we adversarial training prosesi kabul edip, naturalness-de bir uly gowylaşma gazanýar.

                                
                                    
                                        Programçi::

                                        Jaehyeon Kim et al.
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        Boş
                                    
                                

                                
                                
                                    
                                        
                                        Sondan-sona sintez
                                        
                                        Natiral
                                        
                                        Tiz düşündirme
                                        
                                        Birnäçe sözleýjiler
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Umumy maksatly metinde-söze dogry sözlem
                                
                            
                            
                                
                                    Syna VITS
                                
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Free
                            
                            
                                MeloTTS by MyShell.ai bir köp dilli TTS kitaphanasy bolup inglizçe (Amerikan, Britanik, Hindistan, Awstralýa), ispança, fransuzça, çinçe, japonça we koreýçe goldaýar. Ol gaty tiz, metini diňe CPU bilen hakykatdan ykjam tizlikte işleýär. MeloTTS öndürijilik ulanmak üçin işlenip taýýarlanyldy we hem CPU hem GPU inference goldaýar.

                                
                                    
                                        Programçi::

                                        MyShell.ai
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, es, fr, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        0.5GB (GPU optional)
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        Boş
                                    
                                

                                
                                
                                    
                                        
                                        CPU-optimized
                                        
                                        Birnäçe Dil
                                        
                                        Birnäçe Aksent
                                        
                                        Proýekt
                                        
                                        Düşük wagt
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Gysga, köp dilli TTS'e mätäç programmalar
                                
                            
                            
                                
                                    Syna MeloTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark
                                Standard
                            
                            
                                Suno tarapyndan Bark bir transformator esaslanan metinden ses modeldir, ol ýokary realistik, köp dilli sözi hemde beýleki sesleri, ýagny müzik, arka fon gürültüsüni we ses effektlerini döredip biler. Ol gülmek, öwmek we gygyrmak ýaly sözsüz aragatnaşygy döredip biler. Bark 100den gowrak sözçi öň bellemeleri we 13den gowrak dili goldaýar.

                                
                                    
                                        Programçi::

                                        Suno
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Slow
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        5GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Ses Effekleri
                                        
                                        Gülmek/Gülmek
                                        
                                        Müzik emele getiriş
                                        
                                        100+ sözleýji
                                        
                                        Birnäçe Dil
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Täze ses mazmuny, emosiýa bilen audiokitaplar, ses effektleri
                                
                            
                            
                                
                                    Syna Bark
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Standard
                            
                            
                                Bark Small Bark modeliň bir distilllenmiş wersiýasy bolup, ol belli bir ses hilinden has çalt netije çykarmak tizligi we has az ýat talaplary üçin alyş-çalşyp bilýär. Ol Bark'yň sözi duýgular, gülüşmeler we köp dil bilen döredip bilýänligini saklaýar.

                                
                                    
                                        Programçi::

                                        Suno
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Ýagty
                                        
                                        Täzeden başla
                                        
                                        Emosional söz
                                        
                                        Birnäçe Dil
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Eň gowy ses
                                
                            
                            
                                
                                    Syna Bark Small
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Standard
                            
                            
                                Alibaba's Tongyi Lab tarapyndan döredilen CosyVoice 2 adama deňeşdirilen söz hilini aňsatlyk bilen gazanýar, ony hakykat wagtynda programmalar üçin ideal edýär. Ol ströming sintez üçin bir sonly skalar kwantlaşdyrma çemeleşmesini ulanýar we zero-shot ses klonlamany, cross-language syntez, we fin-grained emosiýa kontroly goldaýar. Ol subýektiw bahalarda köp tiz TTS sistemalardan üstün çykýar.

                                
                                    
                                        Programçi::

                                        Alibaba (Tongyi Lab)
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh, ja, ko, fr, de, it, es
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        _Gözle
                                        
                                        Zero-shot klonlamak
                                        
                                        Diller Arasy
                                        
                                        Emotikon Kontrol
                                        
                                        Adam-parity
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Hakyky wagt programmalar, TTS, ses kömekçileri
                                
                            
                            
                                
                                    Syna CosyVoice 2
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Standard
                            
                            
                                Nari Labs tarapyndan işlenip çykarylan Dia bir 1.6B parametrli metinden söze modeldir, aýratyn bir köp sözleýji dialogy döretmek üçin işlenip çykarylan. Ol iki sözleýji arasyna dogry aýlaw, prozodiya we duýgu beýany bilen dogry sesli söhbetdeşlik döretmäge ukyply. Dia podcast-style mazmun, audiokitap söhbetdeşlik, we interaktiw gürleşýän AI döretmek üçin täsindir.

                                
                                    
                                        Programçi::

                                        Nari Labs
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Birnäçe sözleýji
                                        
                                        Düýpli düwmeler
                                        
                                        Tebigy
                                        
                                        Emotikonlar
                                        
                                        Parametr
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Podkastlar, audiokitap dialoglar, gürleşiş mazmuny
                                
                            
                            
                                
                                    Syna Dia TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Standard
                            
                            
                                Parler TTS bir metinden söze modeldir, ol döredilen sözi dolandyrmak üçin tebigy dil ses beýanyny ulanýar. Ön bellenen seslerden saýlamak ýerine, islän sesi beýan ediň (m.a., "a warm female voice with a slight British accent, speaking slowly and clearly") we Parler şol beýana laýyk ses döreder. Bu ony döredijilikli programler üçin özüne mahsus elýeterli edýär.

                                
                                    
                                        Programçi::

                                        Hugging Face
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Ses beýany
                                        
                                        Takyk Dil Kontrol
                                        
                                        Sesi döred
                                        
                                        Ön bellenen sesler gerek däl
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Özüňe mahsus ses häsiýetlerine mätäç bolan döredijilikli programler
                                
                            
                            
                                
                                    Syna Parler TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                Standard
                            
                            
                                GLM-TTS Zhipu AI tarapyndan Llama binagärligi bilen öçüm deňlemeli metin-söz sistemasy. Ol açyk çeşme TTS modelleri arasynda iň az karakter hata derejesine ýetýär, munuň manysy ol iň dogry sözlemleri çykarýar. GLM-TTS 3-10 sekunt ses nusgalaryndan ses klonlama bilen ingliz we çin dilini goldaýar.

                                
                                    
                                        Programçi::

                                        Zhipu AI
                                    
                                    
                                        Lisenziýa::

                                        GLM-4 License
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        En az hata derejesi
                                        
                                        Ses klonlamak
                                        
                                        Flow matching
                                        
                                        Natiral
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Programler
                                
                            
                            
                                
                                    Syna GLM-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Standard
                            
                            
                                IndexTTS-2 bir ileri metin-söz sistemasy bolup, ol 0-şot ses sintezinde we gowy-gök emosiýa kontrol etmekde üstünlik gazanýar. Ol emosiýa spesifiki tälim bermegiň zerurlygy bolmadyk, şat, gahar, gaharlan ýa-da gorkan ýaly belli emosional tony bilen sözi döredip biler. Model, emotion vektorlary ulanyp, emotion ekspressini dogry kontrol etmek üçin sözi döredýär.

                                
                                    
                                        Programçi::

                                        Index Team
                                    
                                    
                                        Lisenziýa::

                                        Bilibili Model License
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Emotikon Kontrol
                                        
                                        Zero-shot
                                        
                                        Emotikonlar
                                        
                                        Expressive speech
                                        
                                        Kontrol
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Emosional beýan mazmuny, audiokitaplar, wirtual kömekçiler
                                
                            
                            
                                
                                    Syna IndexTTS-2
                                
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Standard
                            
                            
                                Spark TTS by SparkAudio ses klonlamany kontrol ediji emosiýa we gürleýiş stili bilen birikdirýän bir metinden-söz modeldir. Diňe 5 sekunt referens ses ulanyp, ol ses klonlap soňra dürli emosiýalar, tizlikler we stiller bilen gürleýişi döredip biler. Spark TTS bir soraga esaslanan kontrol sistemany ulanýar.

                                
                                    
                                        Programçi::

                                        SparkAudio
                                    
                                    
                                        Lisenziýa::

                                        CC BY-NC-SA 4.0
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Ses klonlamak
                                        
                                        Emotikon Kontrol
                                        
                                        Täsli Kontrol
                                        
                                        Prompt-based
                                        
                                        5 sekuntlyk klon
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Sesler we emosional kontrol bilen mazmuny döretmek
                                
                            
                            
                                
                                    Syna Spark TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Standard
                            
                            
                                GPT-SoVITS GPT-style dil modellemesini SoVITS (Singing Voice Inference via Translation and Synthesis) bilen birikdirýär güýçli az-şot ses klonlamak üçin. 5 sekuntdan az referenç ses bilen, ol ses klonlap we täze sözi döredip we sözleýjiniň özboluşly häsiýetlerini saklaýar. Ol hem gürlemekde hemem aýdym aýtmakda ses sintez etmekde örän gowy.

                                
                                    
                                        Programçi::

                                        RVC-Boss
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Slow
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        5 sekuntlyk klon
                                        
                                        Sesi Ýandyr
                                        
                                        Az-şot öwreniş
                                        
                                        Beýik
                                        
                                        Diller Arasy
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Ses klonlama, aýdym aýtmak sintez, mazmun dörediji ses replikasiýa
                                
                            
                            
                                
                                    Syna GPT-SoVITS
                                
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Standard
                            
                            
                                Orpheus bir uly ölçegli metinden söze modeldir, ol adam derejesindäki duýgulary beýan eder. 100,000 sagatdan gowrak dürli duýgular maglumaty bilen taýýarlanan, ol dogry duýgular, üns, we duýgu stilleri bilen sözi döredip bilýär. Orpheus adam ýazgylaryndan tapawutly bolmadyk sözi döredip bilýär.

                                
                                    
                                        Programçi::

                                        Canopy Labs
                                    
                                    
                                        Lisenziýa::

                                        Llama 3.2 Community
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Human-level emotion
                                        
                                        100K sagat tälim
                                        
                                        Natural emphasis
                                        
                                        Ekspresiw söz
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Beýik hilli emosional söz, audiokitap, sesli çykyş
                                
                            
                            
                                
                                    Syna Orpheus
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Resemble AI tarapyndan Chatterbox bir zero-shot ses klonlama modelidir. Ol bir ses nusgasyndan her bir sesi has dogrylyk bilen, diňe timbre däl, ýöne sözleme stili we duýgular bilen hem duýgulary saklaýar. Chatterbox şeýle hem size sesden tapawutly duýgular bilen sözlemeni düzetmäge mümkinçilik berýän duýgular kontroly bilen hem üpjün edýär.

                                
                                    
                                        Programçi::

                                        Resemble AI
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Zero-shot klonlamak
                                        
                                        Emotikon Kontrol
                                        
                                        Beýik
                                        
                                        Täze Täze
                                        
                                        Bir nusga klonlamak
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Emosional kontrol bilen professional ses klonlama, mazmun döretmek
                                
                            
                            
                                
                                    Syna Chatterbox
                                
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS bir awto-regresiw köp sesli metinden söze sistemasy bolup sesiň hiliniň tizligine öñlük berer. Ol DALL-E-den ilham alan binagärligi gowy prozody we sözleýjiň meňzeşligi bilen ýokary derejede nazik sözi döretmek üçin ulanýar. Birçok alternatiwlerden yavaşrak bolsada, Tortoise azat çeşme ekosistemasynda elýeterli iň hakykatçy sintetik sözi döretýär.

                                
                                    
                                        Programçi::

                                        James Betker
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Slow
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Beýik hili
                                        
                                        Birnäçe ses
                                        
                                        DALL-E binagärligi
                                        
                                        Ses klonlamak
                                        
                                        Otomatik Gaýd Et
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Audiokitaplar, premium mazmun, hilli-ilki programler
                                
                            
                            
                                
                                    Syna Tortoise TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2 adam derejeli TTS sintezini, uly söz dil modelleri ulanyp, stil diffýuziya bilen garşydaş tälimni birleşdirmek arkaly gazanýar. Ol bir sözleýji modelleri arasynda iň nazik sesli sözi döredýär, adam ýazgylary bilen bäsleşip. StyleTTS 2 adam sözüni üýtgetmegiň doly spektrini almak üçin diffýuziya esasly stil modellemesini ulanýar.

                                
                                    
                                        Programçi::

                                        Columbia University
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Adam derejesi
                                        
                                        _Stil:
                                        
                                        Tälim
                                        
                                        Takyklyk
                                        
                                        Beýik
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Studio-quality single-speaker synthesis, professional narration
                                
                            
                            
                                
                                    Syna StyleTTS 2
                                
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                MyShell.ai tarapyndan OpenVoice sesiň stili, emosiýa, aksent, ritmi, duralma we intonasiýa üstünden has gowy kontrol bilen sesiň tiz klonlanmagy mümkin edýär. Ol sesiň gysga ses klipinden klonlanmagy we birnäçe dillerde sözi döretmegi mümkin edýär we sözleýjiniň kimligini saklaýar. OpenVoice bir ses konverteri bolup hem işleýär, real wagt ses transformasiýasyny mümkin edýär.

                                
                                    
                                        Programçi::

                                        MyShell.ai / MIT
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh, ja, ko, fr, de, es, it
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Tiz klonlamak
                                        
                                        Ses Döwresi
                                        
                                        Emotikon Kontrol
                                        
                                        Aksent Kontrol
                                        
                                        Birnäçe Dil
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Ses klonlamak, ses öwürmek
                                
                            
                            
                                
                                    Syna OpenVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Standard
                            
                            
                                Qwen3-TTS Alibaba's Qwen team-den 1.7 milliard parametr metin-dan-söz modeldir. Ol üç mody goldaýar: emotion kontrol bilen öň bellenen sesler (9 sözleýji), ses klonlamak diňe 3 sekunt sesden, we bir özüne mahsus ses dizaýn mody siz isleýän sesi dogry dil bilen beýan edýäňiz. Ol 10 dili ýokary beýan we dogry prozodiya bilen goraýar.

                                
                                    
                                        Programçi::

                                        Alibaba (Qwen)
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh, ja, ko, de, fr, ru, pt, es, it
                                    
                                    
                                        VRAM:

                                        7GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Ses klonlamak
                                        
                                        9 öň bellenen ses
                                        
                                        Metinden ses dizaýny
                                        
                                        Emotikon Kontrol
                                        
                                        Dil
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Ses klonlama ýa-da özboluşly ses dizaýny bilen köp dilli mazmun
                                
                            
                            
                                
                                    Syna Qwen3 TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) 1 milliard parametrli modeldir, söhbetçilik üçin aýratyn işlenip düzülipdir. Ol adam söhbetçilikiň tebigy şablonlaryny, şol sanda aýlaw-almak wagtyny, arka kanal jogaplaryny, duýgu reaksiýalaryny we söhbetçilik akymyny modelleşdirýär. CSM sintetik gepçilikden has adam söhbetçilik ýaly ses döredýär.

                                
                                    
                                        Programçi::

                                        Sesame
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Slow
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Konwersasiýa
                                        
                                        Takyk wagt
                                        
                                        Döw
                                        
                                        Aşak kanal
                                        
                                        1B parametrler
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                AI kömekçi, gürleşýän botlar, gürleşýän AI programmalar
                                
                            
                            
                                
                                    Syna Sesame CSM
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Standard
                            
                            
                                Resemble AI tarapyndan Chatterbox Turbo Chatterbox üçin 350M parametr täzelemedir, 6x real wagt tizligine 200ms-den az wagtlyk gijäni getirýär. Ol [laugh], [cough], we [chuckle] ýaly paralingwistik taglary metinde dogrydan goldaýar. Perth suw markasyny ähli emele gelen seslerde içer.

                                
                                    
                                        Programçi::

                                        Resemble AI
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        200ms asty wagt geçmişi
                                        
                                        Paralingwistik tägler
                                        
                                        6x real-time
                                        
                                        Ses klonlamak
                                        
                                        Suw belgisi
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Hakyky wagt ses agentsleri, nazik sesli sözleri beýan etmek
                                
                            
                            
                                
                                    Syna Chatterbox Turbo
                                
                            
                        
                    
                    
                    
                        
                            
                                Zonos
                                Standard
                            
                            
                                Zonos v0.1 Zyphra tarapyndan 1.6B parametrli modeldir, bagt, gahar, keder, gork we şaşka üçin slaiderler bilen gowy-gök emosional kontroly bilen. Ol hem bir Transformator hemem täze SSM (hal-öz-öz-içi model) varianty hödürleýär. 200K+ sagat köp dilli sözleň bilen 10-30 sekuntlyk referans ses klonlama bilen taýýarlandy.

                                
                                    
                                        Programçi::

                                        Zyphra
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, ja, zh, fr, de
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Emotikon Kontrol
                                        
                                        Ses klonlamak
                                        
                                        SSM binagärligi
                                        
                                        Birnäçe Dil
                                        
                                        Pitch/rate kontrol
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Emosiýa kontroly bilen beýan eden söz, ses dizaýn studio
                                
                            
                            
                                
                                    Syna Zonos
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia 2
                                Standard
                            
                            
                                Dia2 Nari Labs tarapyndan Dia-a 1B we 2B parametrler bilen elýeterli bir stream-first täzelemedir. Ol sesleri ilkinji birnäçe tokenlerden sintez edip başlar, ony hakykat wagty ses agentleri we sözden söze geçirijiler üçin ideal edip goýýar. [S1]/[S2] taglar bilen köp-sözleýji dialogy we (laughs), (coughs) ýaly paralingvistik çyzgylary goldaýar.

                                
                                    
                                        Programçi::

                                        Nari Labs
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        _Çykyş
                                        
                                        Birnäçe sözleýji
                                        
                                        Az wagtlyk
                                        
                                        Paralingwistik çaklamalar
                                        
                                        2 minut çykyşa çenli
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Raýat wagty ses agentleri, dialog döret, ströming programmalar
                                
                            
                            
                                
                                    Syna Dia 2
                                
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Standard
                            
                            
                                VoxCPM 1.5 OpenBMB tarapyndan bir täze tokenizer-free TTS modeldir, ol diskret tokenlerden has dowamly boşlukda işleýär. Ol ýokary-düşünjeli 44.1kHz ses çykarýar, 3-10 sekuntdan zero-shot ses klonlama goldaýar, we paragraflar arasynda birmeňzeşligi saklaýar. Cross-language klonlama size ingliz sesini Çinçe söze ulanmak we tersine.

                                
                                    
                                        Programçi::

                                        OpenBMB
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Ses
                                        
                                        Tokenizer-free
                                        
                                        Diller arasy klonlama
                                        
                                        Kontekst-aware
                                        
                                        LoRA fin-tuning
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                ýokary-düşünjeli ses, audiokitaplar, ses bilen dowamly mazmun
                                
                            
                            
                                
                                    Syna VoxCPM
                                
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Free
                            
                            
                                OuteTTS metinde-söze ukyplary bilen uly dil modellerini giňeldýär we özbaşdak binagärligi saklaýar. Ol llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, we hatda Transformers.js arkaly brauzer inferences bilen birnäçe arkadaklar goldaýar. JSON ýaly gaýd edilen sözleýji profiller arkaly zero-shot ses klonlama aýratynlyklary bar.

                                
                                    
                                        Programçi::

                                        OuteAI
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        Boş
                                    
                                

                                
                                
                                    
                                        
                                        CPU inference
                                        
                                        _Gözlegçi
                                        
                                        Ses klonlamak
                                        
                                        Birnäçe arkaýynlar
                                        
                                        Sesçi profilleri
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Edge ulanyş, brauzer esasly TTS, az-resursly töwerekler
                                
                            
                            
                                
                                    Syna OuteTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                TADA
                                Standard
                            
                            
                                TADA (Text-Acoustic Dual Alignment) Hume AI tarapyndan Llama 3.2 üstünde bina edilen täze ikinji birikdirme binagärligi arkaly hallusinasiýalary ýok edýän bir täzelikçi TTS modelidir. 1B (Inglizçe) we 3B (çok dil) variantlarda elýeterli, TADA bir RTF 0.09 - 5x çaltlyk bilen deňeşdirilen LLM- esasly TTS modellerinden ýetişdirýär. Ol 700 sekunt audio konteksti goldaýar we standart benchmarkslarda hiç hallusinasiýalar bilen duýguly beýan eden sözi öndürýär.

                                
                                    
                                        Programçi::

                                        Hume AI
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        5GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Halusinasiýalar
                                        
                                        LLM TTS'den 5x çalt
                                        
                                        Emotikonlar
                                        
                                        700s audio context
                                        
                                        Ikinji düzme
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                ýokary hilli hallucinasiýa-mugt söz, emosional beýan, tiz netije
                                
                            
                            
                                
                                    Syna TADA
                                
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Standard
                            
                            
                                Microsoft VibeVoice iki görnüşinde gelýär: 1.5B model uzak mazmun üçin (90 minuta çenli, 4 sözleýji) we REALTIME 0.5B model ~200ms ilkinji ses geçilişi bilen ströming üçin. 1.5B variant podkastlar we audiokitaplarda uzun sözleýji geçişleri bilen üstünlik gazanýar. Ýörelge: Microsoft TTS koduny repozytoriýadan aýyrdy we döreden ses eşidilýän AI jogapkärçilikden gaça durmagy içerýär.

                                
                                    
                                        Programçi::

                                        Microsoft
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Birnäçe sözleýji
                                        
                                        90 minut
                                        
                                        Podkast emele ed
                                        
                                        Ses
                                        
                                        200ms akym
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Podkastlar, audiokitaplar, uzak-şekilli köp-sözleýji mazmuny
                                
                            
                            
                                
                                    Syna VibeVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Free
                            
                            
                                Kyutai (Moshi-niň döredijileri) tarapyndan Pocket TTS bir 100M parametrli metinde-söze modeldir. Ol CPU-da çalt işleýär, bir ses nusgasyndan zero-shot ses klonlamany goldaýar, we dogry sesli sözi döredýär. Kiçi model ululygy ony edge depleniş we az-resursly töwerekler üçin ideal edýär.

                                
                                    
                                        Programçi::

                                        Kyutai
                                    
                                    
                                        Lisenziýa::

                                        MIT
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, fr
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        Boş
                                    
                                

                                
                                
                                    
                                        
                                        100M parametrler
                                        
                                        CPU inference
                                        
                                        Ses klonlamak
                                        
                                        Bir nusgaly klon
                                        
                                        Kenar taýýar
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Gysga ulanyş, diňe CPU-ly gurşawlar, tiz ses klonlama
                                
                            
                            
                                
                                    Syna Pocket TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Free
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

                                
                                    
                                        Programçi::

                                        KittenML
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en
                                    
                                    
                                        VRAM:

                                        0GB
                                    
                                    
                                        Ses Klonlama:

                                         _Ýok
                                    
                                    
                                        1K karakter üçin töleg:

                                        Boş
                                    
                                

                                
                                
                                    
                                        
                                        CPU-only inference
                                        
                                        Under 80MB model size
                                        
                                        8 built-in voices
                                        
                                        Speed control
                                        
                                        ONNX-based
                                        
                                        24kHz output
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Fast lightweight TTS, edge deployment, low-latency applications
                                
                            
                            
                                
                                    Syna Kitten TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Standard
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

                                
                                    
                                        Programçi::

                                        Alibaba (FunAudioLLM)
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Fast
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh, ja, ko, de, es, fr, it, ru
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Bi-streaming
                                        
                                        Emotion control
                                        
                                        Voice cloning
                                        
                                        Speed/volume control
                                        
                                        Instruction following
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Multilingual production TTS, real-time applications, voice cloning
                                
                            
                            
                                
                                    Syna CosyVoice3
                                
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS
                                Premium
                            
                            
                                MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

                                
                                    
                                        Programçi::

                                        OpenMOSS
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Medium
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
                                    
                                    
                                        VRAM:

                                        16GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Ultra-long generation
                                        
                                        20 languages
                                        
                                        Voice cloning
                                        
                                        Duration control
                                        
                                        Pronunciation control
                                        
                                        Code-switching
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                Audiobooks, long-form content, multilingual production
                                
                            
                            
                                
                                    Syna MOSS-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                MegaTTS3
                                Premium
                            
                            
                                MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

                                
                                    
                                        Programçi::

                                        ByteDance
                                    
                                    
                                        Lisenziýa::

                                        Apache 2.0
                                    
                                    
                                        Tizlik:

                                        Slow
                                    
                                    
                                        _Hili::

                                        
                                    
                                    
                                        dil:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Ses Klonlama:

                                         Eý
                                    
                                    
                                        1K karakter üçin töleg:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Voice cloning
                                        
                                        Adjustable similarity
                                        
                                        Cross-lingual
                                        
                                    
                                
                                

                                
                                Saýlawlar: 
                                High-fidelity voice cloning
                                
                            
                            
                                
                                    Syna MegaTTS3
                                
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Kokoro
                                Boş
                            
                            
                                Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
                                
                                    Programçi::
Hexgrad
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Fast
                                    _Hili::

                                    dil: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
                                
                                Saýlawlar: High-quality TTS with minimal latency, streaming applications
                            
                            
                                Beýiklik
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Boş
                            
                            
                                Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
                                
                                    Programçi::
Rhasspy
                                    Lisenziýa::
MIT
                                    Tizlik:
Fast
                                    _Hili::

                                    dil: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                
                                Saýlawlar: Quick previews, accessibility, and embedded applications
                            
                            
                                Beýiklik
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Boş
                            
                            
                                VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
                                
                                    Programçi::
Jaehyeon Kim et al.
                                    Lisenziýa::
MIT
                                    Tizlik:
Fast
                                    _Hili::

                                    dil: en, zh, ja, ko
                                
                                Saýlawlar: General-purpose text-to-speech with natural prosody
                            
                            
                                Beýiklik
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Boş
                            
                            
                                MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
                                
                                    Programçi::
MyShell.ai
                                    Lisenziýa::
MIT
                                    Tizlik:
Fast
                                    _Hili::

                                    dil: en, es, fr, zh, ja, ko
                                
                                Saýlawlar: Production applications needing fast, multilingual TTS
                            
                            
                                Beýiklik
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Boş
                            
                            
                                OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
                                
                                    Programçi::
OuteAI
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Fast
                                    _Hili::

                                    dil: en
                                
                                Saýlawlar: Edge deployment, browser-based TTS, low-resource environments
                            
                            
                                Beýiklik
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Boş
                            
                            
                                Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
                                
                                    Programçi::
Kyutai
                                    Lisenziýa::
MIT
                                    Tizlik:
Fast
                                    _Hili::

                                    dil: en, fr
                                
                                Saýlawlar: Lightweight deployment, CPU-only environments, quick voice cloning
                            
                            
                                Beýiklik
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Boş
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
                                
                                    Programçi::
KittenML
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Fast
                                    _Hili::

                                    dil: en
                                
                                Saýlawlar: Fast lightweight TTS, edge deployment, low-latency applications
                            
                            
                                Beýiklik
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Bark
                                _Öň bellenen
                            
                            
                                Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
                                
                                    Programçi::
Suno
                                    Lisenziýa::
MIT
                                    Tizlik:
Slow
                                    _Hili::

                                    dil:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Ses Klonlama:
 _Ýok
                                
                                Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
                                Saýlawlar: Creative audio content, audiobooks with emotion, sound effects
                            
                            
                                Syna Bark
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                _Öň bellenen
                            
                            
                                Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
                                
                                    Programçi::
Suno
                                    Lisenziýa::
MIT
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Ses Klonlama:
 _Ýok
                                
                                LightweightFaster than full BarkEmotional speechMultilingual
                                Saýlawlar: Quick creative audio when full Bark is too slow
                            
                            
                                Syna Bark Small
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                _Öň bellenen
                            
                            
                                CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
                                
                                    Programçi::
Alibaba (Tongyi Lab)
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en, zh, ja, ko, fr, de, it, es
                                    Ses Klonlama:
 Eý
                                
                                StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
                                Saýlawlar: Real-time applications, streaming TTS, voice assistants
                            
                            
                                Syna CosyVoice 2
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                _Öň bellenen
                            
                            
                                Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
                                
                                    Programçi::
Nari Labs
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en
                                    Ses Klonlama:
 _Ýok
                                
                                Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
                                Saýlawlar: Podcasts, audiobook dialogues, conversational content
                            
                            
                                Syna Dia TTS
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                _Öň bellenen
                            
                            
                                Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
                                
                                    Programçi::
Hugging Face
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en
                                    Ses Klonlama:
 _Ýok
                                
                                Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
                                Saýlawlar: Creative applications where you need custom voice characteristics
                            
                            
                                Syna Parler TTS
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                _Öň bellenen
                            
                            
                                GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
                                
                                    Programçi::
Zhipu AI
                                    Lisenziýa::
GLM-4 License
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en, zh
                                    Ses Klonlama:
 Eý
                                
                                Lowest error rateVoice cloningFlow matchingNatural prosody
                                Saýlawlar: Applications requiring maximum pronunciation accuracy
                            
                            
                                Syna GLM-TTS
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                _Öň bellenen
                            
                            
                                IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
                                
                                    Programçi::
Index Team
                                    Lisenziýa::
Bilibili Model License
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en, zh
                                    Ses Klonlama:
 Eý
                                
                                Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
                                Saýlawlar: Emotionally expressive content, audiobooks, virtual assistants
                            
                            
                                Syna IndexTTS-2
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                _Öň bellenen
                            
                            
                                Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
                                
                                    Programçi::
SparkAudio
                                    Lisenziýa::
CC BY-NC-SA 4.0
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en, zh
                                    Ses Klonlama:
 Eý
                                
                                Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
                                Saýlawlar: Content creation with cloned voices and emotional control
                            
                            
                                Syna Spark TTS
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                _Öň bellenen
                            
                            
                                GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
                                
                                    Programçi::
RVC-Boss
                                    Lisenziýa::
MIT
                                    Tizlik:
Slow
                                    _Hili::

                                    dil:
en, zh, ja, ko
                                    Ses Klonlama:
 Eý
                                
                                5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
                                Saýlawlar: Voice cloning, singing synthesis, content creator voice replication
                            
                            
                                Syna GPT-SoVITS
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                _Öň bellenen
                            
                            
                                Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
                                
                                    Programçi::
Canopy Labs
                                    Lisenziýa::
Llama 3.2 Community
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en
                                    Ses Klonlama:
 _Ýok
                                
                                Human-level emotion100K hours trainingNatural emphasisExpressive speech
                                Saýlawlar: High-quality emotional speech, audiobooks, voice acting
                            
                            
                                Syna Orpheus
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                _Öň bellenen
                            
                            
                                Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
                                
                                    Programçi::
Alibaba (Qwen)
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en, zh, ja, ko, de, fr, ru, pt, es, it
                                    Ses Klonlama:
 Eý
                                
                                Voice cloning9 preset voicesVoice design from textEmotion control10 languages
                                Saýlawlar: Multilingual content with voice cloning or custom voice design
                            
                            
                                Syna Qwen3 TTS
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                _Öň bellenen
                            
                            
                                Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
                                
                                    Programçi::
Resemble AI
                                    Lisenziýa::
MIT
                                    Tizlik:
Fast
                                    _Hili::

                                    dil:
en
                                    Ses Klonlama:
 Eý
                                
                                Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
                                Saýlawlar: Real-time voice agents, expressive speech with natural sounds
                            
                            
                                Syna Chatterbox Turbo
                            
                        
                    
                    
                    
                        
                            
                                Zonos
                                _Öň bellenen
                            
                            
                                Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
                                
                                    Programçi::
Zyphra
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en, ja, zh, fr, de
                                    Ses Klonlama:
 Eý
                                
                                Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control
                                Saýlawlar: Expressive speech with emotion control, voice design studio
                            
                            
                                Syna Zonos
                            
                        
                    
                    
                    
                        
                            
                                Dia 2
                                _Öň bellenen
                            
                            
                                Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
                                
                                    Programçi::
Nari Labs
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Fast
                                    _Hili::

                                    dil:
en
                                    Ses Klonlama:
 _Ýok
                                
                                Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output
                                Saýlawlar: Real-time voice agents, dialogue generation, streaming applications
                            
                            
                                Syna Dia 2
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                _Öň bellenen
                            
                            
                                VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
                                
                                    Programçi::
OpenBMB
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Fast
                                    _Hili::

                                    dil:
en, zh
                                    Ses Klonlama:
 Eý
                                
                                44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
                                Saýlawlar: High-fidelity audio, audiobooks, long-form content with voice consistency
                            
                            
                                Syna VoxCPM
                            
                        
                    
                    
                    
                        
                            
                                TADA
                                _Öň bellenen
                            
                            
                                TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
                                
                                    Programçi::
Hume AI
                                    Lisenziýa::
MIT
                                    Tizlik:
Fast
                                    _Hili::

                                    dil:
en
                                    Ses Klonlama:
 _Ýok
                                
                                Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment
                                Saýlawlar: High-quality hallucination-free speech, emotional expression, fast inference
                            
                            
                                Syna TADA
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                _Öň bellenen
                            
                            
                                VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
                                
                                    Programçi::
Microsoft
                                    Lisenziýa::
MIT
                                    Tizlik:
Fast
                                    _Hili::

                                    dil:
en, zh
                                    Ses Klonlama:
 _Ýok
                                
                                Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
                                Saýlawlar: Podcasts, dialogues, long-form narration, multi-speaker content
                            
                            
                                Syna VibeVoice
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                _Öň bellenen
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
                                
                                    Programçi::
Alibaba (FunAudioLLM)
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Fast
                                    _Hili::

                                    dil:
en, zh, ja, ko, de, es, fr, it, ru
                                    Ses Klonlama:
 Eý
                                
                                Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
                                Saýlawlar: Multilingual production TTS, real-time applications, voice cloning
                            
                            
                                Syna CosyVoice3
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.
                                
                                    Programçi::
Resemble AI
                                    Lisenziýa::
MIT
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en
                                    Ses Klonlama:
 Eý
                                    VRAM:
4GB
                                    1K karakter üçin töleg:
4x
                                
                                Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
                                Saýlawlar: Professional voice cloning with emotional control, content creation
                            
                            
                                Syna Chatterbox
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.
                                
                                    Programçi::
James Betker
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Slow
                                    _Hili::

                                    dil:
en
                                    Ses Klonlama:
 Eý
                                    VRAM:
8GB
                                    1K karakter üçin töleg:
4x
                                
                                Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
                                Saýlawlar: Audiobooks, premium content, quality-first applications
                            
                            
                                Syna Tortoise TTS
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.
                                
                                    Programçi::
Columbia University
                                    Lisenziýa::
MIT
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en
                                    Ses Klonlama:
 _Ýok
                                    VRAM:
4GB
                                    1K karakter üçin töleg:
4x
                                
                                Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
                                Saýlawlar: Studio-quality single-speaker synthesis, professional narration
                            
                            
                                Syna StyleTTS 2
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.
                                
                                    Programçi::
MyShell.ai / MIT
                                    Lisenziýa::
MIT
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en, zh, ja, ko, fr, de, es, it
                                    Ses Klonlama:
 Eý
                                    VRAM:
4GB
                                    1K karakter üçin töleg:
4x
                                
                                Instant cloningVoice conversionEmotion controlAccent controlMultilingual
                                Saýlawlar: Voice cloning with fine-grained style control, voice conversion
                            
                            
                                Syna OpenVoice
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.
                                
                                    Programçi::
Sesame
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Slow
                                    _Hili::

                                    dil:
en
                                    Ses Klonlama:
 _Ýok
                                    VRAM:
8GB
                                    1K karakter üçin töleg:
4x
                                
                                ConversationalNatural timingTurn-takingBackchannel1B parameters
                                Saýlawlar: AI assistants, chatbots, conversational AI applications
                            
                            
                                Syna Sesame CSM
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS
                                Premium
                            
                            
                                MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
                                
                                    Programçi::
OpenMOSS
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Medium
                                    _Hili::

                                    dil:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
                                    Ses Klonlama:
 Eý
                                    VRAM:
16GB
                                    1K karakter üçin töleg:
4x
                                
                                Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching
                                Saýlawlar: Audiobooks, long-form content, multilingual production
                            
                            
                                Syna MOSS-TTS
                            
                        
                    
                    
                    
                        
                            
                                MegaTTS3
                                Premium
                            
                            
                                MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
                                
                                    Programçi::
ByteDance
                                    Lisenziýa::
Apache 2.0
                                    Tizlik:
Slow
                                    _Hili::

                                    dil:
en, zh
                                    Ses Klonlama:
 Eý
                                    VRAM:
8GB
                                    1K karakter üçin töleg:
4x
                                
                                Voice cloningAdjustable similarityCross-lingual
                                Saýlawlar: High-fidelity voice cloning
                            
                            
                                Syna MegaTTS3
                            
                        
                    
                    
                
            
        

        
        
            Model deňleşik täblisi
            
                
                    
                        
                            Mody
                            Programçi:
                            _Göçür
                            _Hili:
                            Tizlik
                            dil
                            Ses Klonlama
                            VRAM
                            Lisenziýa:
                            kredit
                            
                        
                    
                    
                        
                        
                            Kokoro
                            Hexgrad
                            Free
                            
                            Fast
                            11
                            
                            1.5GB
                            Apache 2.0
                            Boş
                            Ullan
                        
                        
                        
                            Piper
                            Rhasspy
                            Free
                            
                            Fast
                            31
                            
                            0 (CPU only)
                            MIT
                            Boş
                            Ullan
                        
                        
                        
                            VITS
                            Jaehyeon Kim et al.
                            Free
                            
                            Fast
                            4
                            
                            1GB
                            MIT
                            Boş
                            Ullan
                        
                        
                        
                            MeloTTS
                            MyShell.ai
                            Free
                            
                            Fast
                            6
                            
                            0.5GB (GPU optional)
                            MIT
                            Boş
                            Ullan
                        
                        
                        
                            Bark
                            Suno
                            Standard
                            
                            Slow
                            13
                            
                            5GB
                            MIT
                            2
                            Ullan
                        
                        
                        
                            Bark Small
                            Suno
                            Standard
                            
                            Medium
                            13
                            
                            2GB
                            MIT
                            2
                            Ullan
                        
                        
                        
                            CosyVoice 2
                            Alibaba (Tongyi Lab)
                            Standard
                            
                            Medium
                            8
                            
                            4GB
                            Apache 2.0
                            2
                            Ullan
                        
                        
                        
                            Dia TTS
                            Nari Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            Ullan
                        
                        
                        
                            Parler TTS
                            Hugging Face
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            Ullan
                        
                        
                        
                            GLM-TTS
                            Zhipu AI
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            GLM-4 License
                            2
                            Ullan
                        
                        
                        
                            IndexTTS-2
                            Index Team
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            Bilibili Model License
                            2
                            Ullan
                        
                        
                        
                            Spark TTS
                            SparkAudio
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            CC BY-NC-SA 4.0
                            2
                            Ullan
                        
                        
                        
                            GPT-SoVITS
                            RVC-Boss
                            Standard
                            
                            Slow
                            4
                            
                            6GB
                            MIT
                            2
                            Ullan
                        
                        
                        
                            Orpheus
                            Canopy Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Llama 3.2 Community
                            2
                            Ullan
                        
                        
                        
                            Chatterbox
                            Resemble AI
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            Ullan
                        
                        
                        
                            Tortoise TTS
                            James Betker
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            Ullan
                        
                        
                        
                            StyleTTS 2
                            Columbia University
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            Ullan
                        
                        
                        
                            OpenVoice
                            MyShell.ai / MIT
                            Premium
                            
                            Medium
                            8
                            
                            4GB
                            MIT
                            4
                            Ullan
                        
                        
                        
                            Qwen3 TTS
                            Alibaba (Qwen)
                            Standard
                            
                            Medium
                            10
                            
                            7GB
                            Apache 2.0
                            2
                            Ullan
                        
                        
                        
                            Sesame CSM
                            Sesame
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            Ullan
                        
                        
                        
                            Chatterbox Turbo
                            Resemble AI
                            Standard
                            
                            Fast
                            1
                            
                            2GB
                            MIT
                            2
                            Ullan
                        
                        
                        
                            Zonos
                            Zyphra
                            Standard
                            
                            Medium
                            5
                            
                            6GB
                            Apache 2.0
                            2
                            Ullan
                        
                        
                        
                            Dia 2
                            Nari Labs
                            Standard
                            
                            Fast
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            Ullan
                        
                        
                        
                            VoxCPM
                            OpenBMB
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            Apache 2.0
                            2
                            Ullan
                        
                        
                        
                            OuteTTS
                            OuteAI
                            Free
                            
                            Fast
                            1
                            
                            2GB
                            Apache 2.0
                            Boş
                            Ullan
                        
                        
                        
                            TADA
                            Hume AI
                            Standard
                            
                            Fast
                            1
                            
                            5GB
                            MIT
                            2
                            Ullan
                        
                        
                        
                            VibeVoice
                            Microsoft
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            MIT
                            2
                            Ullan
                        
                        
                        
                            Pocket TTS
                            Kyutai
                            Free
                            
                            Fast
                            2
                            
                            1GB
                            MIT
                            Boş
                            Ullan
                        
                        
                        
                            Kitten TTS
                            KittenML
                            Free
                            
                            Fast
                            1
                            
                            0GB
                            Apache 2.0
                            Boş
                            Ullan
                        
                        
                        
                            CosyVoice3
                            Alibaba (FunAudioLLM)
                            Standard
                            
                            Fast
                            9
                            
                            4GB
                            Apache 2.0
                            2
                            Ullan
                        
                        
                        
                            MOSS-TTS
                            OpenMOSS
                            Premium
                            
                            Medium
                            19
                            
                            16GB
                            Apache 2.0
                            4
                            Ullan
                        
                        
                        
                            MegaTTS3
                            ByteDance
                            Premium
                            
                            Slow
                            2
                            
                            8GB
                            Apache 2.0
                            4
                            Ullan
                        
                        
                    
                
            
        
    




    
        
            
                Ençeme çeper metinde ses platformy

                
                    
                        Metinden Söze Näme Uçin TTS.ai Saýlaň?
                        TTS.ai dünýäniň iň gowy açyk çeşme metinden söze modellerini bir, ulanmak aňsat platformada birikdirýär. Siziň bir ses enjininde gaplanýan hususy hyzmatlardan tapawutly TTS.ai size Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University we başgalar ýaly öňdebaryjy gözleg laboratoriýalardan 20+ modellere elýeterliligi berýär.
                        Her bir model MIT, Apache 2.0 ýa-da şonuň ýaly ygtybarly lisensiýalar astynda açyk çeşmedir, siziň proýektiňizde öndürilen sesleri ulanmak üçin doly söwda hukugyňyzy kepillendirýär. Siz tiz, ýeňil sintez üçin hakykatdanam wagtyň programmalary ýa-da premium studiýa-hilli çykdajy üçin audiokitaplar we podkastlar isleseňiz, TTS.ai her bir ulanmak ýagdaýy üçin dogry modeldir.

                        Beýiklik
                        Üç azat TTS mody bilen derhal başlaň: Piper (ultra-gyzykly, ýeňil), VITS (ýokary hilli neural sintez), we MeloTTS (çok dil goldawy). Başga hiç zat gerek däl, kredit kart gerek däl, we nesillerde çäklendirme ýok. Azat mody inglizçe we başga birçok dilleri goldaýar, aňsat sesli çykdajy bilen, köp programmalar üçin laýyk.
                    
                    
                        GPU-Tizlediş
                        Tüm TTS modelleri tiz, dogry emele gelş wagty üçin NVIDIA GPUs üstünde işleýär. Beýik modeller 2 sekuntdan az wagtyň içinde ses emele getirýär. Kokoro, CosyVoice 2, we Bark ýaly standart modeller ortaça 3-5 sekuntda. Tortoise we Chatterbox ýaly iň ýokary hilli premium modeller metin uzynlygyna bagly 5-15 sekuntda işlemeýär.

                        30+ dil goldanylýar
                        30 dilden gowrak dilde ses döret, şol sanda inglizçe, ispança, fransuzça, almança, italiýança, portugalça, çinçe, japonça, koreýçe, arapça, hindiçe, rusça we başgalar. Birnäçe modeller dilleriň arasynda sintezleri goldaýar, bu siziň dilleriň arasynda ses döretmäge mümkinçilik berýär. CosyVoice 2 we GPT-SoVITS dilleriň arasynda ses klonlamada üstünlik gazanýar.

                        Öňki
                        TTS.ai-i öz programmaňyza biziň OpenAI-a laýyk REST API bilen birleşdiriň. 20+ model üçin bir ahtar. Python, JavaScript, cURL, we Go SDKs. Hakyky wagt programmalar üçin stream goldawy. uly ölçegli mazmun döretmek üçin batch işlemek. async habarlaşmalar üçin Webhooks. Pro we Enterprise planlarda elýeterli.
                    
                
            
        
    









    



    
        
        
        Ene →
        
    










    
        Gynançly Soraglar
        
            
                
                    
                    
                        
                            
                        
                        
                            
                                Metinden söze (TTS) bir AI tehnologiýasy, ol ýazan metinleri dogry sesli sözlüge öwürýär. Kokoro, Chatterbox, we CosyVoice 2 ýaly häzirki zaman neural TTS modelleri tiz öwrenişden peýdalanyp barýarlar adama meňzeş sesli sözi, dogry prosody, emosiýa, we ritmi bilen çykarmak üçin.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bu siziň islegleriňize bagly. Tiz öň görmek üçin Piper ýa MeloTTS (mugt, tiz). Ýokary hili üçin Kokoro ýa CosyVoice 2 (standart dereje). Ses klonlamak üçin Chatterbox ýa GPT-SoVITS (premium). Dialog/podkast mazmuny üçin Dia TTS synlaň. Her bir modeliň dürli güýçleri bar - iň gowy meňzeşligi tapmak üçin synlaň.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Eý! TTS.ai Kokoro, Piper, VITS, we MeloTTS modelleri bilen mugt metinden söze hyzmaty hödürleýär. 500 karaktere we sagatda 3 nesil üçin hasap gerek däl. 15 kredit almak we ähli modellere elýeterli bolmak üçin mugt hasap üçin ýazyň.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Biziň TTS modellerimiz 30+ dili goldaýar, şol sanda ingliz, ispan, fransuz, alman, italiýa, portugal, çin, japon, koreý, arap, rus, hindi we başgalar. Dilleriň elýeterliligi modelden modele üýtgeýär.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Eý, TTS.ai arkaly döredilýän ses söwda üçin ulanylyp bilner. Biziň ähli modellerimiz açyk çeşme lisensiýalary ulanýar (MIT, Apache 2.0). Özel şertler üçin şahsy model lisensiýalaryny barlaň. Biz öz proýektiňiz üçin ulanýan şahsy modeliň lisensiýasyny gözden geçirmegi maslahat berýäris.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                TTS.ai MP3, WAV, OGG, we FLAC çykdajy formatlaryny goldaýar. MP3 web oýnamak üçin öň bellenendir. WAV has uzak ses işlemek üçin maslahat berlendir. Siz biziň ses geçiriji asty bilen formatlar arasynda geçirip bilersiňiz.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Ses klonlamak, gysga ses nusgasyndan belli bir sesiň replikasyny etmek üçin AI ulanýar (adaty 5-30 sekunt). Ýükleň maksat sesiň aşikar ýazgysyny, we Chatterbox, GPT-SoVITS, ýa-da OpenVoice ýaly modeller şol sesde täze sözi döreder. Hili arassa, uzak referenç ses bilen artýar.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Mugt ulanyjylar bir soragda 500 karaktere çenli döredip bilerler. Reýestrlenen ulanyjylar bir soragda 5000 karaktere çenli alýarlar. Uzak metinler üçin ses parçalarça döredilip we otomatik birikdirilýär. API ulanyjylar bir soragda 10000 karaktere çenli işlep bilerler.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                SSML (Speech Synthesis Markup Language) goldawy modelden modele üýtgeýär. Piper we başga käbir modeller, durmalar, üns bermek we sözlem kontrol etmek üçin esas SSML taglary goldaýar. SSML goldawy bolmadyk modeller üçin, prozodyýa täsir etmek üçin, nazik notlary we hat bölmeleri ulanyp bilersiňiz.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Eý, köp modeller tizligi 0.5x dan 2.0x çemesi düzedşi goldaýar. Bark we Parler ýaly käbir modeller hem tizlik we stil kontroly goldaýar. Tizlik parametrlerini ileridäki aňlatma panelinde ýa-da API tizlik parametri arkaly bellep bilersiňiz.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Eý, birikdirme işlemek biziň API-miz arkaly elýeterli. Birden köp metin segmentlerini bir API çagyryş ýa-da skripte iberip bilersiň, we her biri işlenip we tapawutly ses faýllary hökmünde gaýtarylar. Bu audiokitap bölümleri, e-öwreniş modülleri ýa-da oýun dialog skriptler üçin ideal.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Hasabyňyzdan bir API açaryny döretiň, soňra POST soraglary biziň REST API ahyryna siziň metini, modelini we ses parametrleri bilen iberiň. Biz Python, JavaScript, we cURL kod mysallaryny hödürleýäris. API OpenAI bilen sazlaşykly, şonuň üçin bar integrasiýalar iň az üýtgeşmeler bilen işleýär.
                            
                        
                    
                    
                
            
        
    








    
        
            
                
                
                
                
                
                
                
                
                
                
                
                
                
            
            5.0/5 (2)
        
        
            Biz nämeni gowy edip bileris? Siziň pikiriňiz bize kynçylyklary düzetmäge kömek eder.
            
                
                
                
                
            
            
                
                
            
        
    







    
        Metinden Söze Döwme
        TTS.ai ulanyp müňlerçe döredijilere goşulyşyň. Täze hasabyňyz bilen 15,000 beýik karakterleri alyň. Beýik modeller ýazgysyz elýeterli.
        
            
            Beýiklik
            Saýlawlary Görkez

Programçi:	Alibaba (Qwen)
Lisenziýa:	Apache 2.0
Tizlik	Medium
_Hili:
dil	10 dil
VRAM	7GB
Ses Klonlama	Saýlawlar

Mody	Programçi:	_Göçür	Tizlik	dil	VRAM	Lisenziýa:	kredit
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	Boş	Ullan
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	Boş	Ullan
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	Boş	Ullan
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Boş	Ullan
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Ullan
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Ullan
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Ullan
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Ullan
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Ullan
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Ullan
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Ullan
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Ullan
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Ullan
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Ullan
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Ullan
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Ullan
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Ullan
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	Ullan
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Ullan
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Ullan
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Ullan
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	Ullan
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	Ullan
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Ullan
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Boş	Ullan
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	Ullan
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Ullan
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Boş	Ullan
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Boş	Ullan
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Ullan
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	Ullan
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	Ullan