Report Bug / Feature Request

Матндан сўзга

Матнни очиқ манбали AI моделлари ёрдамида табиий товушли сўзга айлантиринг. Бепул фойдаланиш, ҳисоб талаб этилмайди.

Бепул рўйхатдан ўтиш

Бизда сизнинг тилингизда TTS овозлари ҳали йўқ. Бизга ўзингизникини қўшишимизга ёрдам беринг! Ўз овозингизни сотинг

0/500 ҳарфлар · Sign up for 5,000 per generation →

Ёзиш 5000 белги чегараси

SSML режими (Тўғри бошқариш учун сўз синтези Маркер тили)

Матнни аниқ назорат учун SSML теглар билан ўраб қўйиш:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Эмоциялар / Услуб теги

Тақдим этишга таъсир этиш учун эмотсион белгиларни қўшиш (модель қўллаб-қувватлаши ўзгаради):

Тасвирлаш луғати

Ўз нутқини белгилаш (сўз = нутқ):

Товуш баландлиги 0

-12 +12

Dia диалоги формати: [S1] ва [S2] тегларини турли овоз берувчиларни белгилаш учун ишлатинг. Мисол:

[S1] Салом! [S2] Салом, қандайсиз?



                

                
                
                    
                    
                        AI модели
                        
                    

                    
                    
                        
                            Овоз
                            
                        
                        
                            
                            
                                
                                
                                
                            
                            
                        
                    
                
                

                
                
                    
                    
                        Тил
                        
                    

                    
                    
                        Чоп қилиш формати
                        
                    

                    
                    
                        
                            Тезлик
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Piper, VITS, MeloTTS билан бепул



        
        
            
                Сизнинг яратилган аудионгиз бу ерда намоён бўлади. Модельни танланг, матнни киритинг ва Юклаш тугмасини босинг.
            
            
            
                
                
                    Юклаш муваффақиятсиз якунланди
                    
                
            
        

            
                
                    
                        Аудио муваффақиятли яратилди
                        
                    
                    
                        


    
        
            
            
                
                    
                
                
            
        
    


                        
                            
                                Аудио юклаб олиш
                            
                            
                                .srt юклаб олиш
                            
                            
                            
                            Уланиш муддати 24 соатдан сўнг тугайди
                            
                                
                                    
                                    
                                    
                                    
                                    
                                
                            
                        
                    
                
            
        

        

    
        
            
                
                    TTS.ai'ни севасанми? Дўстларингга айт!



    
    
        
        
            
                Модель тафсилотлари
            
            
                
                
                    
                    Kitten TTS
                
                Free
                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
                
                    
                        
                            Ижодкор:
                            KittenML
                        
                        
                            Лицензия:
                            Apache 2.0
                        
                        
                            Тезлик
                            
                                Fast
                            
                        
                        
                            Сифати:
                            
                                
                            
                        
                        
                            тиллар
                            1 тил
                        
                        
                            VRAM
                            0GB
                        
                        
                            Товушни клонлаш
                             Ёрдам берилмайди
                        
                    
                
                
                
                    Хусусиятлар:
                    
                        
                        CPU-only inference
                        
                        Under 80MB model size
                        
                        8 built-in voices
                        
                        Speed control
                        
                        ONNX-based
                        
                        24kHz output
                        
                    
                
                
                
                Энг яхшиси:: 
                Fast lightweight TTS, edge deployment, low-latency applications
                
                
            
        

        
        
            
                Яхши натижалар учун маслаҳатлар
            
            
                
                    Табиий тўхташлар ва интонация учун тўғри пунктуациядан фойдаланиш
                    Рақамлар ва қисқартмаларни аниқроқ талаффуз қилиш учун имло қилиш
                    Иборалар орасидаги қисқа тўхтамларни яратиш учун кома қўшиш
                    Кўп бурчакли (...) аломатини узоқроқ тўхтатиш учун ишлатинг
                    Энг табиий натижа учун Kokoro ёки CosyVoice 2'ни синаб кўринг
                    Кўп эшиттирувчили диалог ва подкастлар учун Dia'ни қўллаш
                
            
        

        
        
            
                Символлар қўлланилиши
            
            
                
                    
                        
                            Тир
                            Ҳар бир 1K ҳарф учун нарх
                        
                    
                    
                        
                            Озод
                            0 кредит (беҳисоб)
                        
                        
                            Стандарт
                            2 кредит / 1K белги
                        
                        
                            Premium
                            4 кредит / 1K белги
                        
                    
                
            
            
                Яна бир неча белги олиш

Тир	Ҳар бир 1K ҳарф учун нарх
Озод	0 кредит (беҳисоб)
Стандарт	2 кредит / 1K белги
Premium	4 кредит / 1K белги






    
        
            
                
                
                    Buy more characters
                    
    Reklama yo'q
    Маҳдудсиз фойдаланиш
    Авваллик қўллаб-қувватлаши
    Янги хусусиятларга тезкор кириш


                
                

                
                    
                        Get more characters






    
        AI Матндан сўзга қандай ишлайди
        Профессионал сифатли овозли ёзувларни учта оддий қадамда яратинг. Техник билимлар талаб этилмайди.
        
            
                
                    
                        
                            
                        
                        1-босқич
                        Матнингизни киритинг
                        Матнни ёзинг, жойланг ёки овозга айлантиришни хоҳлаган матнни юклаб олинг. Ишга кирган фойдаланувчилар учун бир генерацияда 5000 гача белги қўлланилади. Оддий матндан фойдаланинг ёки нутқ, тўхташлар ва урғуларни юқори даражада бошқариш учун SSML теги қўшинг.
                    
                
            
            
                
                    
                        
                            
                        
                        2-босқич
                        Модель ва овозни танлаш
                        20+ AI моделларидан уч даражали танланг. Сизнинг мазмунингизга мос келадиган овозни танланг, мақсад тилингизни танланг, 0.5x дан 2.0x гача бўлган тезликни созланг ва сизнинг мос чиқим форматингизни танланг (MP3, WAV, OGG ёки FLAC).
                    
                
            
            
                
                    
                        
                            
                        
                        3-босқич
                        Юклаб олиш
                        Юклаб олиш тугмасини босинг ва аудио секундлар ичида тайёр бўлади. Ички плеер билан олдиндан кўриш, танланган форматда юклаб олиш ёки ўртоқлашиш учун ҳавола нусхасини олиш. API'ни гуруҳли ишлаш ва иш жараёнига интеграциялаш учун фойдаланинг.
                    
                
            
        
    






    
        Матндан сўзга ўтиш
        ИИ ёрдамида сўзлашувга айлантирилган матн одамларнинг аудио мазмунни яратиш, истеъмол қилиш ва у билан мулоқот қилиш усулларини юзлаб саноатларда ўзгартириб юбормоқда.
        
            
                
                    
                        
                        Аудиокитобалар
                        Барча китобларни студия сифатидаги сўзлашув билан табиий товушли аудиокитобларга айлантиринг. Диа билан кўплаб сўзловчиларни қўллаб-қувватлаш.
                    
                
            
            
                
                    
                        
                        Видео овозли сўзлашувлар
                        YouTube, TikTok, Instagram Reels ва Shorts учун профессионал овозли роликларни яратинг. 100+ овоз ёки ўзингизни клон қилинг.
                    
                
            
            
                
                    
                        
                        Подкастлар
                        Скриптлардан кўплаб AI овозлари билан подкастлар яратинг. Dia'ни табиий икки овозли суҳбатлар учун ишлатинг.
                    
                
            
            
                
                    
                        
                        Ўйинлар
                        Индие ўйинлари, визуал романлар ва интерактив ҳикоялар учун AI овози. NPC диалоги, саҳна овозлари, 30 дан ортиқ тиллар.
                    
                
            
            
                
                    
                        
                        E-Ўқиш
                        Курс материаллари, маъруза ва ўқув мазмунини аудиога айлантиринг. Глобал платформалар учун кўп тилли қўллаб-қувватлаш.
                    
                
            
            
                
                    
                        
                        Қўллатиш
                        Веб-сайтлар, ҳужжатлар ва дастурларни қўлга киритиш мумкин. Экран ўқитувчиси API интеграцияси ва мақола-дан-аудиога айлантириш.
                    
                
            
            
                
                    
                        
                        IVR ва телефон тизимлари
                        IVR тизимлари, телефон менюлари ва мижозларга хизмат кўрсатишни табиий AI овозлари билан кучайтиради. Қўнғироқ марказлари учун паст latency стриминги.
                    
                
            
            
                
                    
                        
                        Ижтимоий медиа
                        TikTok ҳикоялари, Instagram Reels, Twitter/X шарҳлари, YouTube қисқа видеолари. Бепул моделлар билан тезкор яратиш.
                    
                
            
            
                
                    
                        
                        Трансляция
                        Twitch TTS огоҳлантиришлари, суҳбатдан овозга, AI ко-хостлар ва Discord ботлар. Қиммат кечикиш, 100+ овозлар, StreamElements билан мос келади.
                    
                
            
            
                
                    
                        
                        Маркетинг
                        Аудио рекламалар, тушунтириш видеолар, маҳсулотлар намойишлари ва сотиш тақдимотлари. Аудио маҳсулотлар ишлаб чиқаришни кампаниялар бўйлаб кенгайтиринг.
                    
                
            
            
                
                    
                        
                        Дубляж ва локализация
                        Видеони 30 дан ортиқ тилларга таржима қилиш ва дубляж қилиш. Авто-транскрипция ва сўзловчини аниқлаш.
                    
                
            
            
                
                    
                        
                        Медитация ва соғломлаштириш
                        Рухсат этилган медитациялар, уйқу ҳикоялари, нафас машқлари ва хотиржам, хотиржам AI овозлари билан тасдиқлар.
                    
                
            
        
        
            Ҳамма ишлатиладиган ҳолатлар ва асбобларни кўриш
        
    






    
        Ҳамма матндан сўзга моделлар
        TTS.ai'да мавжуд бўлган ҳар бир AI моделининг батафсил тавсифлари. Сўзингиз учун энг яхши моделни топиш учун сифат, тезлик, тил қўллаб-қувватлаш ва хусусиятларни таққосланг.

        
        
            Ҳаммаси (32)
            Озод (9)
            Стандарт (18)
            Premium (5)
        

        
            
            
                
                    
                    
                        
                            
                                Kokoro
                                Free
                            
                            
                                Kokoro 82 миллион параметрли матн-нутқ модели бўлиб, у ўз вазн тоифасидан анча юқори даражада ишлайди. Унинг кичик ўлчамига қарамай, у диққатга сазовор табиий ва ифодали сўзлашувни ишлаб чиқаради. Kokoro инглиз, япон, хитой ва корейс тилларини ўз ичига олган кўп тилларни қўллаб-қувватлайди ва турли ифодали овозларни қўллаб-қувватлайди. У жуда тез ишлайди — GPUда реал вақтда овозни 100 марта тезроқ ишлаб чиқаради.

                                
                                    
                                        Ижодкор::

                                        Hexgrad
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, ja, zh, fr, it, pt, es, hi
                                    
                                    
                                        VRAM:

                                        1.5GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        Озод
                                    
                                

                                
                                
                                    
                                        
                                        82M параметрлар
                                        
                                        Жуда тез
                                        
                                        Экспрессив овозлар
                                        
                                        Кўп тилли
                                        
                                        Трансляцияни қўллаб-қувватлаш
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Минимал кечикиш билан юқори сифатли TTS, стрийм дастурлари
                                
                            
                            
                                
                                    Синаб кўриш Kokoro
                                
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Free
                            
                            
                                Piper Rhasspy томонидан яратилган енгил матн-нутқ двигатели бўлиб, VITS ва laryngx архитектураларини қўллайди. У тўлиқ CPU устида ишлайди, бу уни edge қурилмалар, уй автоматизацияси ва офлайн TTS талаб қиладиган дастурлар учун идеал қилади. 30 дан ортиқ тилдаги 100 дан ортиқ овозлар билан Piper табиий товушли сўзлашувни реал вақт тезлигида, ҳатто Raspberry Pi 4да ҳам тақдим этади.

                                
                                    
                                        Ижодкор::

                                        Rhasspy
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                    
                                    
                                        VRAM:

                                        0 (CPU only)
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        Озод
                                    
                                

                                
                                
                                    
                                        
                                        CPU-friendly
                                        
                                        Офлайнга қодир
                                        
                                        100+ овозлар
                                        
                                        30+ тиллар
                                        
                                        SSML қўллаб-қувватлаши
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Тез кўриш, қўл етадиган ва ёпиқ дастурлар
                                
                            
                            
                                
                                    Синаб кўриш Piper
                                
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Free
                            
                            
                                VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) - бу ҳозирги икки босқичли моделлардан кўра табиий товушли аудиони ишлаб чиқарадиган параллел, охиридан охиригача TTS усули. У нормаллаштирувчи оқимлар ва рақобатли ўқитиш жараёни билан кучайтирилган вариацион индукцияни қабул қилади, бу табиийликни сезиларли даражада яхшилайди.

                                
                                    
                                        Ижодкор::

                                        Jaehyeon Kim et al.
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, de, es, fr, pt, nl, fi, hu, bg, uk, pl
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        Озод
                                    
                                

                                
                                
                                    
                                        
                                        Ўнгдан чапга синтез
                                        
                                        Табиий усул
                                        
                                        Тез хулоса
                                        
                                        Бир неча овоз берувчилар
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Табиий прозодия билан умумий мақсадли матндан сўзга
                                
                            
                            
                                
                                    Синаб кўриш VITS
                                
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Free
                            
                            
                                MyShell.ai томонидан яратилган MeloTTS инглиз (америкалик, инглиз, ҳинд, австралиялик), испан, француз, хитой, япон ва корейс тилларини қўллаб-қувватловчи кўп тилли TTS китобхонасидир. У жуда тез, матнларни фақатгина процессор ёрдамида реал вақт тезлигида ишлайди. MeloTTS ишлаб чиқариш учун мўлжалланган ва CPU ва GPU индукциясини қўллаб-қувватлайди.

                                
                                    
                                        Ижодкор::

                                        MyShell.ai
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, es, fr, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        0.5GB (GPU optional)
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        Озод
                                    
                                

                                
                                
                                    
                                        
                                        CPU-оптимизацияланган
                                        
                                        Кўп тилли
                                        
                                        Кўплаб акцентлар
                                        
                                        Продукция тайёр
                                        
                                        Кам кутиш вақти
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Тез, кўп тилли TTS талаб қиладиган ишлаб чиқариш дастурлари
                                
                            
                            
                                
                                    Синаб кўриш MeloTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark
                                Standard
                            
                            
                                Suno томонидан яратилган Bark - бу жуда реалистик, кўп тилли сўзлашувни ҳамда мусиқа, фон шовқини ва товуш эффектлари каби бошқа товушларни яратишга қодир бўлган трансформаторга асосланган матн-аудио моделидир. У кулиш, ҳўнграш ва йиғлаш каби сўзсиз алоқаларни яратишга қодир. Bark 100 дан ортиқ сўзловчини ва 13 дан ортиқ тилларни қўллаб-қувватлайди.

                                
                                    
                                        Ижодкор::

                                        Suno
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Slow
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        5GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Овоз эффектлари
                                        
                                        Кўкрак чўзиш
                                        
                                        Мусиқа яратиш
                                        
                                        100+ овозли
                                        
                                        Кўп тилли
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Ижодкор аудио мазмун, ҳис-туйғулар билан аудиокитоблар, товуш эффектлари
                                
                            
                            
                                
                                    Синаб кўриш Bark
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Standard
                            
                            
                                Bark Small Bark моделининг бироз аудио сифатини тезроқ хулоса чиқариш тезлиги ва хотира талабларини камайтириш учун алмаштирадиган дистилляцияланган версиясидир. У Barkнинг ҳис-туйғу, кулги ва кўп тилли сўзлашувни яратиш қобилиятини сақлаб қолади.

                                
                                    
                                        Ижодкор::

                                        Suno
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Оғир
                                        
                                        Барча барглардан тезроқ
                                        
                                        Эмоцион сўзлашув
                                        
                                        Кўп тилли
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Барк жуда секин бўлганда тезкор ижодий аудио
                                
                            
                            
                                
                                    Синаб кўриш Bark Small
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Standard
                            
                            
                                Alibaba's Tongyi Lab томонидан яратилган CosyVoice 2 инсонга ўхшаш сўзлаш сифатига жуда паст кечикиш билан эришиб, уни реал вақт дастурлари учун идеал қилади. У стрийм синтези учун чекланган скаляр квантлаш усулини қўллаб-қувватлайди ва овозни 0-шотли клонлаш, тиллараро синтезни ва майда-чуйда ҳис-туйғуларни назорат қилишни қўллаб-қувватлайди. У субъектив баҳолашларда кўплаб савдо TTS тизимларидан устун туради.

                                
                                    
                                        Ижодкор::

                                        Alibaba (Tongyi Lab)
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh, ja, ko, fr, de, it, es
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Трансляция
                                        
                                        Zero-shot клонлаш
                                        
                                        Тиллараро
                                        
                                        Эмоциялар бошқаруви
                                        
                                        Инсон-паритет
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Реал вақт дастурлари, TTS стримини узатиш, овозли ёрдамчилар
                                
                            
                            
                                
                                    Синаб кўриш CosyVoice 2
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Standard
                            
                            
                                Dia Nari Labs томонидан яратилган 1.6B параметрли матн-нутқ модели бўлиб, кўплаб сўзловчилар ўртасидаги диалогни яратиш учун махсус яратилган. У иккита сўзловчи ўртасидаги табиий товушли суҳбатларни тўғри айланиш, прозодия ва ҳиссий ифода билан яратиши мумкин. Dia podcast-стилидаги мазмун, аудиокитоб диалоглари ва интерактив суҳбатли AI яратиш учун идеал.

                                
                                    
                                        Ижодкор::

                                        Nari Labs
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Кўп эшиттирувчи
                                        
                                        Диалоги яратиш
                                        
                                        Табиий айланиш
                                        
                                        Эмоцион ифода
                                        
                                        1.6B параметрлари
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Подкастлар, аудиокитоб диалоглари, суҳбат мазмуни
                                
                            
                            
                                
                                    Синаб кўриш Dia TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Standard
                            
                            
                                Parler TTS - бу матндан сўзга ўтиш модели бўлиб, у яратилган сўзни бошқариш учун табиий тил овоз таърифларини қўллайди. Олдиндан белгиланган овозлардан танлаш ўрнига, сиз хоҳлаган овозни таърифлайсиз (масалан, "бир оз инглиз акценти билан иссиқ аёл овози, секин ва аниқ гапиради") ва Parler бу таърифга мос сўзни яратади. Бу уни яратувчи дастурлар учун ажойиб даражада мукаммал қилади.

                                
                                    
                                        Ижодкор::

                                        Hugging Face
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Овоз тавсифи
                                        
                                        Табиий тил бошқаруви
                                        
                                        Юқори даражадаги овоз яратиш
                                        
                                        Ўрнатилган овозлар керак эмас
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Ўзингизга мос овоз хусусиятларига эҳтиёж сезадиган ижодкор дастурлар
                                
                            
                            
                                
                                    Синаб кўриш Parler TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                Standard
                            
                            
                                GLM-TTS Zhipu AI томонидан - Llama архитектураси асосида оқувчи мувофиқлаштириш билан қурилган матн-нутқ тизимидир. У очиқ манбали TTS моделлари орасида энг паст хато даражасига эришади, яъни у энг аниқ талаффузни ишлаб чиқаради. GLM-TTS инглиз ва хитой тилларини 3-10 сониялик аудио намуналардан овозни клонлаш билан қўллаб-қувватлайди.

                                
                                    
                                        Ижодкор::

                                        Zhipu AI
                                    
                                    
                                        Лицензия::

                                        GLM-4 License
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Энг кам хато даражаси
                                        
                                        Овозни клонлаш
                                        
                                        Оқибат мослашуви
                                        
                                        Табиий усул
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Максимал талаффуз аниқлигини талаб қиладиган дастурлар
                                
                            
                            
                                
                                    Синаб кўриш GLM-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Standard
                            
                            
                                IndexTTS-2 - бу юқори даражадаги матн-нутқ тизими бўлиб, у нутқ синтезида юқори даражадаги ҳис-туйғуларни бошқаришга қодир. У ҳис-туйғуларга оид махсус билимларсиз ҳам хурсанд, қайғу, ғазаб ёки қўрқув каби ҳис-туйғуларни ҳосил қилиши мумкин. Модель ҳосил қилинган нутқнинг ҳис-туйғуларини аниқ назорат қилиш учун ҳис-туйғу векторларини қўллайди.

                                
                                    
                                        Ижодкор::

                                        Index Team
                                    
                                    
                                        Лицензия::

                                        Bilibili Model License
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Эмоциялар бошқаруви
                                        
                                        Zero-shot
                                        
                                        Эмоция вектори
                                        
                                        Экспрессив сўзлашув
                                        
                                        Юқори сифатли бошқарув
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Ҳаяжонли мазмун, аудиокитоблар, виртуал ёрдамчилар
                                
                            
                            
                                
                                    Синаб кўриш IndexTTS-2
                                
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Standard
                            
                            
                                Spark TTS, SparkAudio томонидан яратилган, овозни клонлашни бошқариладиган ҳиссиёт ва сўзлаш услуби билан бирлаштирувчи матн-нутқ моделидир. У фақатгина 5 сониялик манба аудиоси ёрдамида овозни клонлаши ва сўнгра клонланган овознинг ўзига хослигини сақлаган ҳолда турли ҳиссиётлар, тезликлар ва услублар билан сўзлашни яратиши мумкин. Spark TTS савол-жавобга асосланган бошқарув тизимидан фойдаланади.

                                
                                    
                                        Ижодкор::

                                        SparkAudio
                                    
                                    
                                        Лицензия::

                                        CC BY-NC-SA 4.0
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Овозни клонлаш
                                        
                                        Эмоцияларни бошқариш
                                        
                                        Услубни бошқариш
                                        
                                        Сўров асосида
                                        
                                        5-сониялик клонлаш
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Клонланган овозлар ва ҳиссий назорат билан мазмун яратиш
                                
                            
                            
                                
                                    Синаб кўриш Spark TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Standard
                            
                            
                                GPT-SoVITS GPT-стилидаги тил моделлаштиришни SoVITS (Таржима ва синтез орқали овозни талаффуз қилиш) билан кучли, бир неча мартали овозни клонлаш учун бирлаштиради. 5 сониялик аудио манбаи билан у овозни аниқ клонлаш ва сўзловчининг ўзига хос хусусиятларини сақлаб туриб, янги сўзни яратиш имконини беради. У сўзлаш ва қўшиқ айтиш овоз синтезида ҳам яхши натижа беради.

                                
                                    
                                        Ижодкор::

                                        RVC-Boss
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Slow
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        5-сониялик клонлаш
                                        
                                        Ёзувчи овози
                                        
                                        Фақат озгина ўрганиш
                                        
                                        Юқори аниқлик
                                        
                                        Тиллараро
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Товушни клонлаш, қўшиқларни синтезлаш, мазмун яратувчисининг овозини такрорлаш
                                
                            
                            
                                
                                    Синаб кўриш GPT-SoVITS
                                
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Standard
                            
                            
                                Orpheus инсон даражасидаги ҳис-туйғуларни ифодалашга қодир катта миқёсли матн-нутқ моделидир. 100,000 соатдан ортиқ турли сўзлашув маълумотлари асосида тайёрланган, у табиий ҳис-туйғулар, урғу ва сўзлашув услублари билан сўзлашувни яратишда аъло даражада. Orpheus инсон ёзувларидан деярли фарқланмайдиган сўзлашувни яратиши мумкин.

                                
                                    
                                        Ижодкор::

                                        Canopy Labs
                                    
                                    
                                        Лицензия::

                                        Llama 3.2 Community
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Инсон даражасидаги ҳиссиёт
                                        
                                        100K соатлик машғулот
                                        
                                        Табиий ёритиш
                                        
                                        Экспрессив сўзлашув
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Юқори сифатли ҳиссий сўзлашув, аудиокитоблар, овозли актёрлик
                                
                            
                            
                                
                                    Синаб кўриш Orpheus
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Chatterbox by Resemble AI - бу энг сўнгги нуқтали овозни клонлаш моделидир. У биргина аудио намунадан ҳар қандай овозни диққатга сазовор аниқлик билан, нафақат товушнинг оҳангини, балки сўзлаш услубини ва ҳиссий нуқталарни ҳам олиши мумкин. Chatterbox шунингдек, сизга овознинг ўзидан мустақил равишда яратилган сўзнинг ҳиссий оҳангини созлашга имкон берадиган чуқур ҳиссий назоратни ҳам тақдим этади.

                                
                                    
                                        Ижодкор::

                                        Resemble AI
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Zero-shot клонлаш
                                        
                                        Эмоциялар бошқаруви
                                        
                                        Юқори аниқлик
                                        
                                        Услубни кўчириш
                                        
                                        Бир намунани клонлаш
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Профессионал овозни клонлаш, ҳиссий назорат, мазмун яратиш
                                
                            
                            
                                
                                    Синаб кўриш Chatterbox
                                
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS тезликдан кўра аудио сифатини афзал кўрадиган, кўп овозли матн-нутқ тизимидир. У DALL-E дан илҳомланган архитектурани фойдаланиб, жуда табиий ва яхши прозодия ва сўзловчининг ўхшашлиги билан сўзлашувни яратади. Бироқ, кўплаб бошқа вариантлардан секинроқ бўлса-да, Tortoise очиқ манбали экосистемада мавжуд бўлган энг реалистик синтетик сўзлашувни яратади.

                                
                                    
                                        Ижодкор::

                                        James Betker
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Slow
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Энг юқори сифат
                                        
                                        Кўп овозли
                                        
                                        DALL-E архитектураси
                                        
                                        Овозни клонлаш
                                        
                                        Авторегрессив
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Аудиокитобалар, юқори сифатли мазмун, сифатли дастурлар
                                
                            
                            
                                
                                    Синаб кўриш Tortoise TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2 инсон даражасидаги TTS синтезини стил диффузиясини катта гапириш тил моделларини қўллаган ҳолда рақобатли машқлар билан бирлаштириш орқали амалга оширади. У инсон ёзувларига рақобатчи бўлган бир сўзловчи моделлари орасида энг табиий товушли сўзлашувни яратади. StyleTTS 2 инсон гапиришининг барча хилма-хиллигини олиш учун диффузияга асосланган стил моделлаштиришни қўллайди.

                                
                                    
                                        Ижодкор::

                                        Columbia University
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Инсон даражаси
                                        
                                        Услуб диффузия
                                        
                                        Мунозара машғулоти
                                        
                                        Табиий ўзгариш
                                        
                                        Юқори аниқлик
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Студия сифатидаги бир овозли синтез, профессионал сўзлашув
                                
                            
                            
                                
                                    Синаб кўриш StyleTTS 2
                                
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                OpenVoice by MyShell.ai овоз услуби, эмоционаллиги, акценти, ритми, тўхташлари ва интонациясини аниқ назорат қилиш билан овозни тезкор клонлашни таъминлайди. У қисқа аудио клипдан овозни клонлаши ва сўзловчининг шахсийлигини сақлаб қолиш билан бир вақтда кўп тилларда сўзлашувни яратиши мумкин. OpenVoice шунингдек, овозни реал вақтда ўзгартиришга имкон берувчи овоз конвертери сифатида ҳам ишлайди.

                                
                                    
                                        Ижодкор::

                                        MyShell.ai / MIT
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh, ja, ko, fr, es
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Дарҳол клонлаш
                                        
                                        Товушни ўзгартириш
                                        
                                        Эмоциялар бошқаруви
                                        
                                        Акцент бошқаруви
                                        
                                        Кўп тилли
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Товушни клонлаш, овозни ўзгартириш
                                
                            
                            
                                
                                    Синаб кўриш OpenVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Standard
                            
                            
                                Qwen3-TTS Alibaba'нинг Qwen жамоаси томонидан яратилган 1.7 миллиард параметрли матн-нутқ моделидир. У учта ҳолатни қўллаб-қувватлайди: ҳис-туйғуларни бошқариш билан олдиндан белгиланган овозлар (9 овозли), 3 сониялик аудиодан овозни клонлаш ва сиз хоҳлаган овозни табиий тилда тасвирлайдиган ўзига хос овоз дизайни ҳолати. У 10 та тилни юқори ифодалилик ва табиий прозодия билан қамраб олади.

                                
                                    
                                        Ижодкор::

                                        Alibaba (Qwen)
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh, ja, ko, de, fr, ru, pt, es, it
                                    
                                    
                                        VRAM:

                                        7GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Овозни клонлаш
                                        
                                        9 та олдиндан ўрнатилган овозлар
                                        
                                        Матндан овоз дизайни
                                        
                                        Эмоциялар бошқаруви
                                        
                                        Тиллар
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Гапни клонлаш ёки мос овоз дизайни билан кўп тилли мазмун
                                
                            
                            
                                
                                    Синаб кўриш Qwen3 TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) - бу суҳбат сўзлашувини яратиш учун махсус яратилган 1 миллиард параметрли моделдир. У инсон суҳбатининг табиий намуналарини, жумладан, навбатни олиш вақтини, каналлар жавобларини, ҳиссий реакцияларни ва суҳбат оқимини моделлаштиради. CSM синтетик сўзлашув ўрнига табиий инсон суҳбатига ўхшаш овозни яратади.

                                
                                    
                                        Ижодкор::

                                        Sesame
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Slow
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Мулоқот
                                        
                                        Табиий вақт
                                        
                                        Қаторга олиш
                                        
                                        Орқа канал
                                        
                                        1B параметрлари
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                AI ёрдамчилари, чатботлар, суҳбатлашиш AI дастурлари
                                
                            
                            
                                
                                    Синаб кўриш Sesame CSM
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Standard
                            
                            
                                Chatterbox Turbo by Resemble AI - Chatterbox'нинг 350М параметрли янгиланиши бўлиб, 200мс дан камроқ кутиш вақти билан 6x реал вақт тезлигини таъминлайди. У матнда [лаugh], [cough] ва [chuckle] каби паралингвистик тегларни қўллаб-қувватлайди. Манбани кузатиш учун барча яратилган аудиода Perth сув белгисини ўз ичига олади.

                                
                                    
                                        Ижодкор::

                                        Resemble AI
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        200ms дан кам кутиш вақти
                                        
                                        Паралингвистик теглар
                                        
                                        6x реал вақт
                                        
                                        Товушни клонлаш
                                        
                                        Сув белгиси
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Тўғридан-тўғри овоз агентлари, табиий товушлар билан ифодали сўзлашув
                                
                            
                            
                                
                                    Синаб кўриш Chatterbox Turbo
                                
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Standard
                            
                            
                                OpenBMB томонидан яратилган VoxCPM 1.5 - бу дискрет токенлар ўрнига доимий фазода ишлайдиган янги, токенизаторсиз TTS моделидир. У юқори аниқликдаги 44.1kHz аудиони ишлаб чиқаради, 3-10 сония давомида овозни клонлашни қўллаб-қувватлайди ва абзацлар орасидаги мувофиқликни сақлаб туради. Тиллараро клонлаш сизга инглиз овозини хитойча сўзлашувга ва аксинча қўллашингизга имкон беради.

                                
                                    
                                        Ижодкор::

                                        OpenBMB
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        44.1kHz аудио
                                        
                                        Токенизаторсиз
                                        
                                        Тиллараро клонлаш
                                        
                                        Контекстга қараб
                                        
                                        LoRA яхшилаш
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                High-fidelity аудио, аудиокитоблар, овоз бир хиллиги билан узун шаклдаги мазмун
                                
                            
                            
                                
                                    Синаб кўриш VoxCPM
                                
                            
                        
                    
                    
                    
                        
                            
                                Kani TTS 2
                                Free
                            
                            
                                Kani-TTS-2 by NineNineSix NVIDIA NanoCodec билан Liquid AI LFM2 backbone устида қурилган 400M параметрли жуда енгил моделдир. У фақат 3GB VRAMда ишлайди ва A100 (RTF 0.2)да ~2 сония ичида ~10 сония гапиришни ҳосил қилади. Ҳозирги жамоатчилик версияси фақат инглиз тилидаги `kani-tts-2-en` чеклаш нуқтасини етказиб беради ва овозни клонлаш учун керакли овозни монтаж қилиш тугмасини кўрсатмайди — клонлаш учун Chatterbox / IndexTTS2 / F5-TTS ёки инглиз тилидан бошқа тиллардаги учун Kokoro / MeloTTS ни ишлатинг.

                                
                                    
                                        Ижодкор::

                                        NineNineSix
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en
                                    
                                    
                                        VRAM:

                                        3GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        Озод
                                    
                                

                                
                                
                                    
                                        
                                        3GB VRAM
                                        
                                        Жуда тез
                                        
                                        Оғир
                                        
                                        NanoCodec
                                        
                                        Оқ
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Оғир VRAM жиҳозларда тез инглизча яратиш, тезкор кўринишлар
                                
                            
                            
                                
                                    Синаб кўриш Kani TTS 2
                                
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Free
                            
                            
                                OuteTTS матн-нутқ имкониятлари билан катта тил моделларини кенгайтиради, бироқ асл архитектурани сақлаб қолади. У llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM ва ҳатто Transformers.js орқали браузер индукциясини қўллаб-қувватлайди. JSON сифатида сақланадиган сўзловчи профиллари орқали овозни 0-шотли клонлаш хусусиятлари.

                                
                                    
                                        Ижодкор::

                                        OuteAI
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        Озод
                                    
                                

                                
                                
                                    
                                        
                                        CPU хулосаси
                                        
                                        Браузер хулосаси
                                        
                                        Овозни клонлаш
                                        
                                        Кўплаб backendлар
                                        
                                        Овозли профиллар
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Edge тарқатиш, браузерга асосланган TTS, ресурслар кам бўлган муҳитлар
                                
                            
                            
                                
                                    Синаб кўриш OuteTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Standard
                            
                            
                                Microsoft VibeVoice икки хил вариантда келади: узун шаклдаги мазмун учун 1.5B модели (90 дақиқагача, 4 овозли) ва ~200ms биринчи аудио кечикиши билан стрийм учун реал вақт 0.5B модели. 1.5B варианти подкастлар ва аудиокитобларда узун абзацларда овозли бир хиллик билан ажралиб туради. Эътибор беринг: Microsoft TTS кодини репозиторийдан олиб ташлади ва яратилган аудио эшитиладиган AI рад этишларни ўз ичига олади.

                                
                                    
                                        Ижодкор::

                                        Microsoft
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Кўп эшиттирувчи
                                        
                                        90 дақиқагача
                                        
                                        Подкаст яратиш
                                        
                                        Сўҳбатдошнинг бир хиллиги
                                        
                                        200ms узатиш
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Подкастлар, аудиокитоблар, узун шаклли кўп эшиттирувчили мазмун
                                
                            
                            
                                
                                    Синаб кўриш VibeVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Free
                            
                            
                                Kyutai (Moshi яратувчилари) томонидан яратилган Pocket TTS – бу ўзининг оғирлигидан анча юқори бўлган 100М параметрли матн-нутқ моделидир. У CPUда самарали ишлайди, битта аудио намунадан овозни 0-шотли клонлашни қўллаб-қувватлайди ва табиий товушли сўзлашувни ишлаб чиқаради. Кичик модел ўлчамлари уни қиррали тарқатиш ва ресурслар кам бўлган муҳитлар учун идеал қилади.

                                
                                    
                                        Ижодкор::

                                        Kyutai
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, fr
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        Озод
                                    
                                

                                
                                
                                    
                                        
                                        100M параметрлар
                                        
                                        CPU хулосаси
                                        
                                        Овозни клонлаш
                                        
                                        Бир намунали клонлаш
                                        
                                        Эгишга тайёр
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Оғир юклаш, фақат CPU муҳитлари, тез овозни клонлаш
                                
                            
                            
                                
                                    Синаб кўриш Pocket TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Free
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

                                
                                    
                                        Ижодкор::

                                        KittenML
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en
                                    
                                    
                                        VRAM:

                                        0GB
                                    
                                    
                                        Товушни клонлаш:

                                         Йўқ
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        Озод
                                    
                                

                                
                                
                                    
                                        
                                        CPU-only inference
                                        
                                        Under 80MB model size
                                        
                                        8 built-in voices
                                        
                                        Speed control
                                        
                                        ONNX-based
                                        
                                        24kHz output
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Fast lightweight TTS, edge deployment, low-latency applications
                                
                            
                            
                                
                                    Синаб кўриш Kitten TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Standard
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

                                
                                    
                                        Ижодкор::

                                        Alibaba (FunAudioLLM)
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Fast
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh, ja, ko, de, es, fr, it, ru
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Bi-streaming
                                        
                                        Emotion control
                                        
                                        Voice cloning
                                        
                                        Speed/volume control
                                        
                                        Instruction following
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Multilingual production TTS, real-time applications, voice cloning
                                
                            
                            
                                
                                    Синаб кўриш CosyVoice3
                                
                            
                        
                    
                    
                    
                        
                            
                                NAMAA Saudi TTS
                                Standard
                            
                            
                                NAMAA Saudi TTS - бу Resemble AI's ChatterboxMultilingual'нинг Сауд Арабистони TTS'и. NAMAA Space томонидан ҳақиқий Сауд Арабистони диалекти сўзлашуви бўйича тайёрланган, у табиий замонавий стандарт араб ва Сауд Арабистонининг гаплашув талаффузини ишлаб чиқаради, бу эса кўп тилли моделлар билан мос келмайди. Chatterbox'нинг нуқтали овоз клонлаш ва руҳий назоратни мисол аудио илтимоси орқали мерос олади. Биринчи очиқ вазнли араб TTS TTS.ai'да ўрнатилган.

                                
                                    
                                        Ижодкор::

                                        NAMAA Space
                                    
                                    
                                        Лицензия::

                                        MIT
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        ar
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Саудия Арабистони диалекти
                                        
                                        Замонавий стандарт арабча
                                        
                                        Zero-shot овозни клонлаш
                                        
                                        Эмоциялар бошқаруви
                                        
                                        Ўзбекча талаффуз
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Араб тилидаги мазмунлар, MSA сўзлашуви, Khaleeji-dialect овоз агентлари, араб тилидаги аудиокитоблар
                                
                            
                            
                                
                                    Синаб кўриш NAMAA Saudi TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Darwin TTS
                                Standard
                            
                            
                                Darwin-TTS-1.7B-Cross by FINAL-Bench - Qwen3-TTS-1.7Bнинг тадқиқот варианти бўлиб, унда 84 та гапирувчи-FFN тензорлари (8.6%) Qwen3-1.7B-Base дан мос келувчи тензорлар билан α=3% га аралаштирилган. Бу аралашма қайта тайёрлашсиз яратилган ва корейс, инглиз, япон ва хитой тилларида сезиларли равишда аниқроқ тиллараро овоз клонлашини ҳосил қилади. Нул-шот овоз клонлаш режимида ишлайди (3 сония мисол аудио).

                                
                                    
                                        Ижодкор::

                                        FINAL-Bench
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, ko, ja, zh
                                    
                                    
                                        VRAM:

                                        7GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Овозни клонлаш
                                        
                                        Тиллараро
                                        
                                        FFN-бирлашган
                                        
                                        4 асосий тил
                                        
                                        Qwen3 орқа қисми
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Инглизча / корейсча / японча / хитойча орасида бир хил тилдаги овозларни бир хил овоз билан клонлаш
                                
                            
                            
                                
                                    Синаб кўриш Darwin TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTSD
                                Standard
                            
                            
                                MOSS-TTSD v1.0 OpenMOSS дан 7B диалог матн-сўз модел бўлиб, қисқа аудио саволдан суҳбатни давом эттиради. [S1]/[S2] теглар орқали 5 тагача бир вақтда гапирувчини қўллаб-қувватлайди, 3-10с мисол аудиодан zero-shot овозни клонлашни ва 20 тилда 60 дақиқагача бир хил кўп мартали диалогни қўллаб-қувватлайди. MOSS-TTS дан фарқли ўлароқ — TTSD подкаст/аудиокитоб/дубллаш иш жараёнларига ихтисослашган.

                                
                                    
                                        Ижодкор::

                                        OpenMOSS
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        12GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Кўп эшиттирувчили диалог
                                        
                                        5 тагача баландпарвоз
                                        
                                        60min когерент аудио
                                        
                                        Овозни клонлаш
                                        
                                        Подкастларни оптималлаштириш
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Подкастлар, аудиокитоблар, дубляж қилинган диалоглар, кўп овозли суҳбатлар
                                
                            
                            
                                
                                    Синаб кўриш MOSS-TTSD
                                
                            
                        
                    
                    
                    
                        
                            
                                Ming-Omni TTS
                                Free
                            
                            
                                InclusionAI томонидан ишлаб чиқилган Ming-omni-tts-0.5B BailingMM ёпиқ оқсиллари асосида Patch-by-Patch оқим-мослашувчи аудио декодери билан қурилган компакт омни-модал сўзлашув моделидир. 44.1kHz чиқиндини (CD сифатига яқин) таъминлайди, 3+ сониялик манбадан zero-shot овозни клонлашни қўллаб-қувватлайди ва JSON буйруқлари орқали эмоционал / диалект / BGM бошқарувни ўз ичига олади. Мукаммал барқарорлик — Хитой бенчмаркларида 0.83% WER.

                                
                                    
                                        Ижодкор::

                                        inclusionAI
                                    
                                    
                                        Лицензия::

                                        Apache 2.0
                                    
                                    
                                        Тезлик:

                                        Medium
                                    
                                    
                                        Сифати::

                                        
                                    
                                    
                                        тиллар:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        3GB
                                    
                                    
                                        Товушни клонлаш:

                                         Ҳа
                                    
                                    
                                        Ҳар бир 1K ҳарф учун нарх:

                                        Озод
                                    
                                

                                
                                
                                    
                                        
                                        44.1kHz чиқим
                                        
                                        Овозни клонлаш
                                        
                                        Эмоциялар бошқаруви
                                        
                                        Диалект бошқаруви
                                        
                                        BGM яратиш
                                        
                                        Компакт 0.5B
                                        
                                    
                                
                                

                                
                                Энг яхшиси:: 
                                Икки тилли юқори аниқликдаги ҳикоя, ҳис-туйғу бошқарувидаги овоз ижрочиси, Хитойча аудиокитоб мазмуни
                                
                            
                            
                                
                                    Синаб кўриш Ming-Omni TTS
                                
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Kokoro
                                Озод
                            
                            
                                Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
                                
                                    Ижодкор::
Hexgrad
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар: en, ja, zh, fr, it, pt, es, hi
                                
                                Энг яхшиси:: High-quality TTS with minimal latency, streaming applications
                            
                            
                                Бепул синаш
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Озод
                            
                            
                                Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
                                
                                    Ижодкор::
Rhasspy
                                    Лицензия::
MIT
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                
                                Энг яхшиси:: Quick previews, accessibility, and embedded applications
                            
                            
                                Бепул синаш
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Озод
                            
                            
                                VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
                                
                                    Ижодкор::
Jaehyeon Kim et al.
                                    Лицензия::
MIT
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl
                                
                                Энг яхшиси:: General-purpose text-to-speech with natural prosody
                            
                            
                                Бепул синаш
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Озод
                            
                            
                                MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
                                
                                    Ижодкор::
MyShell.ai
                                    Лицензия::
MIT
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар: en, es, fr, zh, ja, ko
                                
                                Энг яхшиси:: Production applications needing fast, multilingual TTS
                            
                            
                                Бепул синаш
                            
                        
                    
                    
                    
                        
                            
                                Kani TTS 2
                                Озод
                            
                            
                                Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.
                                
                                    Ижодкор::
NineNineSix
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар: en
                                
                                Энг яхшиси:: Fast English generation on low-VRAM hardware, quick previews
                            
                            
                                Бепул синаш
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Озод
                            
                            
                                OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
                                
                                    Ижодкор::
OuteAI
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар: en
                                
                                Энг яхшиси:: Edge deployment, browser-based TTS, low-resource environments
                            
                            
                                Бепул синаш
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Озод
                            
                            
                                Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
                                
                                    Ижодкор::
Kyutai
                                    Лицензия::
MIT
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар: en, fr
                                
                                Энг яхшиси:: Lightweight deployment, CPU-only environments, quick voice cloning
                            
                            
                                Бепул синаш
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Озод
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
                                
                                    Ижодкор::
KittenML
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар: en
                                
                                Энг яхшиси:: Fast lightweight TTS, edge deployment, low-latency applications
                            
                            
                                Бепул синаш
                            
                        
                    
                    
                    
                        
                            
                                Ming-Omni TTS
                                Озод
                            
                            
                                Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.
                                
                                    Ижодкор::
inclusionAI
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар: en, zh
                                
                                Энг яхшиси:: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content
                            
                            
                                Бепул синаш
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Bark
                                Стандарт
                            
                            
                                Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
                                
                                    Ижодкор::
Suno
                                    Лицензия::
MIT
                                    Тезлик:
Slow
                                    Сифати::

                                    тиллар:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Товушни клонлаш:
 Йўқ
                                
                                Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
                                Энг яхшиси:: Creative audio content, audiobooks with emotion, sound effects
                            
                            
                                Синаб кўриш Bark
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Стандарт
                            
                            
                                Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
                                
                                    Ижодкор::
Suno
                                    Лицензия::
MIT
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Товушни клонлаш:
 Йўқ
                                
                                LightweightFaster than full BarkEmotional speechMultilingual
                                Энг яхшиси:: Quick creative audio when full Bark is too slow
                            
                            
                                Синаб кўриш Bark Small
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Стандарт
                            
                            
                                CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
                                
                                    Ижодкор::
Alibaba (Tongyi Lab)
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en, zh, ja, ko, fr, de, it, es
                                    Товушни клонлаш:
 Ҳа
                                
                                StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
                                Энг яхшиси:: Real-time applications, streaming TTS, voice assistants
                            
                            
                                Синаб кўриш CosyVoice 2
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Стандарт
                            
                            
                                Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
                                
                                    Ижодкор::
Nari Labs
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en
                                    Товушни клонлаш:
 Йўқ
                                
                                Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
                                Энг яхшиси:: Podcasts, audiobook dialogues, conversational content
                            
                            
                                Синаб кўриш Dia TTS
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Стандарт
                            
                            
                                Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
                                
                                    Ижодкор::
Hugging Face
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en
                                    Товушни клонлаш:
 Йўқ
                                
                                Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
                                Энг яхшиси:: Creative applications where you need custom voice characteristics
                            
                            
                                Синаб кўриш Parler TTS
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                Стандарт
                            
                            
                                GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
                                
                                    Ижодкор::
Zhipu AI
                                    Лицензия::
GLM-4 License
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en, zh
                                    Товушни клонлаш:
 Ҳа
                                
                                Lowest error rateVoice cloningFlow matchingNatural prosody
                                Энг яхшиси:: Applications requiring maximum pronunciation accuracy
                            
                            
                                Синаб кўриш GLM-TTS
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Стандарт
                            
                            
                                IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
                                
                                    Ижодкор::
Index Team
                                    Лицензия::
Bilibili Model License
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en, zh
                                    Товушни клонлаш:
 Ҳа
                                
                                Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
                                Энг яхшиси:: Emotionally expressive content, audiobooks, virtual assistants
                            
                            
                                Синаб кўриш IndexTTS-2
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Стандарт
                            
                            
                                Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
                                
                                    Ижодкор::
SparkAudio
                                    Лицензия::
CC BY-NC-SA 4.0
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en, zh
                                    Товушни клонлаш:
 Ҳа
                                
                                Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
                                Энг яхшиси:: Content creation with cloned voices and emotional control
                            
                            
                                Синаб кўриш Spark TTS
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Стандарт
                            
                            
                                GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
                                
                                    Ижодкор::
RVC-Boss
                                    Лицензия::
MIT
                                    Тезлик:
Slow
                                    Сифати::

                                    тиллар:
en, zh, ja, ko
                                    Товушни клонлаш:
 Ҳа
                                
                                5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
                                Энг яхшиси:: Voice cloning, singing synthesis, content creator voice replication
                            
                            
                                Синаб кўриш GPT-SoVITS
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Стандарт
                            
                            
                                Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
                                
                                    Ижодкор::
Canopy Labs
                                    Лицензия::
Llama 3.2 Community
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en
                                    Товушни клонлаш:
 Йўқ
                                
                                Human-level emotion100K hours trainingNatural emphasisExpressive speech
                                Энг яхшиси:: High-quality emotional speech, audiobooks, voice acting
                            
                            
                                Синаб кўриш Orpheus
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Стандарт
                            
                            
                                Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
                                
                                    Ижодкор::
Alibaba (Qwen)
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en, zh, ja, ko, de, fr, ru, pt, es, it
                                    Товушни клонлаш:
 Ҳа
                                
                                Voice cloning9 preset voicesVoice design from textEmotion control10 languages
                                Энг яхшиси:: Multilingual content with voice cloning or custom voice design
                            
                            
                                Синаб кўриш Qwen3 TTS
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Стандарт
                            
                            
                                Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
                                
                                    Ижодкор::
Resemble AI
                                    Лицензия::
MIT
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар:
en
                                    Товушни клонлаш:
 Ҳа
                                
                                Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
                                Энг яхшиси:: Real-time voice agents, expressive speech with natural sounds
                            
                            
                                Синаб кўриш Chatterbox Turbo
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Стандарт
                            
                            
                                VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
                                
                                    Ижодкор::
OpenBMB
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар:
en, zh
                                    Товушни клонлаш:
 Ҳа
                                
                                44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
                                Энг яхшиси:: High-fidelity audio, audiobooks, long-form content with voice consistency
                            
                            
                                Синаб кўриш VoxCPM
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Стандарт
                            
                            
                                VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
                                
                                    Ижодкор::
Microsoft
                                    Лицензия::
MIT
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар:
en, zh
                                    Товушни клонлаш:
 Йўқ
                                
                                Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
                                Энг яхшиси:: Podcasts, dialogues, long-form narration, multi-speaker content
                            
                            
                                Синаб кўриш VibeVoice
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Стандарт
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
                                
                                    Ижодкор::
Alibaba (FunAudioLLM)
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Fast
                                    Сифати::

                                    тиллар:
en, zh, ja, ko, de, es, fr, it, ru
                                    Товушни клонлаш:
 Ҳа
                                
                                Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
                                Энг яхшиси:: Multilingual production TTS, real-time applications, voice cloning
                            
                            
                                Синаб кўриш CosyVoice3
                            
                        
                    
                    
                    
                        
                            
                                NAMAA Saudi TTS
                                Стандарт
                            
                            
                                NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.
                                
                                    Ижодкор::
NAMAA Space
                                    Лицензия::
MIT
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
ar
                                    Товушни клонлаш:
 Ҳа
                                
                                Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation
                                Энг яхшиси:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks
                            
                            
                                Синаб кўриш NAMAA Saudi TTS
                            
                        
                    
                    
                    
                        
                            
                                Darwin TTS
                                Стандарт
                            
                            
                                Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).
                                
                                    Ижодкор::
FINAL-Bench
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en, ko, ja, zh
                                    Товушни клонлаш:
 Ҳа
                                
                                Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone
                                Энг яхшиси:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice
                            
                            
                                Синаб кўриш Darwin TTS
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTSD
                                Стандарт
                            
                            
                                MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.
                                
                                    Ижодкор::
OpenMOSS
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en, zh
                                    Товушни клонлаш:
 Ҳа
                                
                                Multi-speaker dialogueUp to 5 speakers60min coherent audioVoice cloningPodcast-optimised
                                Энг яхшиси:: Podcasts, audiobooks, dubbed dialogue, conversational content with multiple voices
                            
                            
                                Синаб кўриш MOSS-TTSD
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.
                                
                                    Ижодкор::
Resemble AI
                                    Лицензия::
MIT
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en
                                    Товушни клонлаш:
 Ҳа
                                    VRAM:
4GB
                                    Ҳар бир 1K ҳарф учун нарх:
4x
                                
                                Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
                                Энг яхшиси:: Professional voice cloning with emotional control, content creation
                            
                            
                                Синаб кўриш Chatterbox
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.
                                
                                    Ижодкор::
James Betker
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Slow
                                    Сифати::

                                    тиллар:
en
                                    Товушни клонлаш:
 Ҳа
                                    VRAM:
8GB
                                    Ҳар бир 1K ҳарф учун нарх:
4x
                                
                                Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
                                Энг яхшиси:: Audiobooks, premium content, quality-first applications
                            
                            
                                Синаб кўриш Tortoise TTS
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.
                                
                                    Ижодкор::
Columbia University
                                    Лицензия::
MIT
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en
                                    Товушни клонлаш:
 Йўқ
                                    VRAM:
4GB
                                    Ҳар бир 1K ҳарф учун нарх:
4x
                                
                                Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
                                Энг яхшиси:: Studio-quality single-speaker synthesis, professional narration
                            
                            
                                Синаб кўриш StyleTTS 2
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.
                                
                                    Ижодкор::
MyShell.ai / MIT
                                    Лицензия::
MIT
                                    Тезлик:
Medium
                                    Сифати::

                                    тиллар:
en, zh, ja, ko, fr, es
                                    Товушни клонлаш:
 Ҳа
                                    VRAM:
4GB
                                    Ҳар бир 1K ҳарф учун нарх:
4x
                                
                                Instant cloningVoice conversionEmotion controlAccent controlMultilingual
                                Энг яхшиси:: Voice cloning with fine-grained style control, voice conversion
                            
                            
                                Синаб кўриш OpenVoice
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.
                                
                                    Ижодкор::
Sesame
                                    Лицензия::
Apache 2.0
                                    Тезлик:
Slow
                                    Сифати::

                                    тиллар:
en
                                    Товушни клонлаш:
 Йўқ
                                    VRAM:
8GB
                                    Ҳар бир 1K ҳарф учун нарх:
4x
                                
                                ConversationalNatural timingTurn-takingBackchannel1B parameters
                                Энг яхшиси:: AI assistants, chatbots, conversational AI applications
                            
                            
                                Синаб кўриш Sesame CSM
                            
                        
                    
                    
                
            
        

        
        
            Модель таққосламаси жадвали
            
                
                    
                        
                            Модель
                            Ижодкор:
                            Тир
                            Сифати:
                            Тезлик
                            тиллар
                            Товушни клонлаш
                            VRAM
                            Лицензия:
                            кредитлар
                            
                        
                    
                    
                        
                        
                            Kokoro
                            Hexgrad
                            Free
                            
                            Fast
                            8
                            
                            1.5GB
                            Apache 2.0
                            Озод
                            _Қўлланиш
                        
                        
                        
                            Piper
                            Rhasspy
                            Free
                            
                            Fast
                            29
                            
                            0 (CPU only)
                            MIT
                            Озод
                            _Қўлланиш
                        
                        
                        
                            VITS
                            Jaehyeon Kim et al.
                            Free
                            
                            Fast
                            11
                            
                            1GB
                            MIT
                            Озод
                            _Қўлланиш
                        
                        
                        
                            MeloTTS
                            MyShell.ai
                            Free
                            
                            Fast
                            6
                            
                            0.5GB (GPU optional)
                            MIT
                            Озод
                            _Қўлланиш
                        
                        
                        
                            Bark
                            Suno
                            Standard
                            
                            Slow
                            13
                            
                            5GB
                            MIT
                            2
                            _Қўлланиш
                        
                        
                        
                            Bark Small
                            Suno
                            Standard
                            
                            Medium
                            13
                            
                            2GB
                            MIT
                            2
                            _Қўлланиш
                        
                        
                        
                            CosyVoice 2
                            Alibaba (Tongyi Lab)
                            Standard
                            
                            Medium
                            8
                            
                            4GB
                            Apache 2.0
                            2
                            _Қўлланиш
                        
                        
                        
                            Dia TTS
                            Nari Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            _Қўлланиш
                        
                        
                        
                            Parler TTS
                            Hugging Face
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            _Қўлланиш
                        
                        
                        
                            GLM-TTS
                            Zhipu AI
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            GLM-4 License
                            2
                            _Қўлланиш
                        
                        
                        
                            IndexTTS-2
                            Index Team
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            Bilibili Model License
                            2
                            _Қўлланиш
                        
                        
                        
                            Spark TTS
                            SparkAudio
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            CC BY-NC-SA 4.0
                            2
                            _Қўлланиш
                        
                        
                        
                            GPT-SoVITS
                            RVC-Boss
                            Standard
                            
                            Slow
                            4
                            
                            6GB
                            MIT
                            2
                            _Қўлланиш
                        
                        
                        
                            Orpheus
                            Canopy Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Llama 3.2 Community
                            2
                            _Қўлланиш
                        
                        
                        
                            Chatterbox
                            Resemble AI
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            _Қўлланиш
                        
                        
                        
                            Tortoise TTS
                            James Betker
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            _Қўлланиш
                        
                        
                        
                            StyleTTS 2
                            Columbia University
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            _Қўлланиш
                        
                        
                        
                            OpenVoice
                            MyShell.ai / MIT
                            Premium
                            
                            Medium
                            6
                            
                            4GB
                            MIT
                            4
                            _Қўлланиш
                        
                        
                        
                            Qwen3 TTS
                            Alibaba (Qwen)
                            Standard
                            
                            Medium
                            10
                            
                            7GB
                            Apache 2.0
                            2
                            _Қўлланиш
                        
                        
                        
                            Sesame CSM
                            Sesame
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            _Қўлланиш
                        
                        
                        
                            Chatterbox Turbo
                            Resemble AI
                            Standard
                            
                            Fast
                            1
                            
                            2GB
                            MIT
                            2
                            _Қўлланиш
                        
                        
                        
                            VoxCPM
                            OpenBMB
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            Apache 2.0
                            2
                            _Қўлланиш
                        
                        
                        
                            Kani TTS 2
                            NineNineSix
                            Free
                            
                            Fast
                            1
                            
                            3GB
                            Apache 2.0
                            Озод
                            _Қўлланиш
                        
                        
                        
                            OuteTTS
                            OuteAI
                            Free
                            
                            Fast
                            1
                            
                            2GB
                            Apache 2.0
                            Озод
                            _Қўлланиш
                        
                        
                        
                            VibeVoice
                            Microsoft
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            MIT
                            2
                            _Қўлланиш
                        
                        
                        
                            Pocket TTS
                            Kyutai
                            Free
                            
                            Fast
                            2
                            
                            1GB
                            MIT
                            Озод
                            _Қўлланиш
                        
                        
                        
                            Kitten TTS
                            KittenML
                            Free
                            
                            Fast
                            1
                            
                            0GB
                            Apache 2.0
                            Озод
                            _Қўлланиш
                        
                        
                        
                            CosyVoice3
                            Alibaba (FunAudioLLM)
                            Standard
                            
                            Fast
                            9
                            
                            4GB
                            Apache 2.0
                            2
                            _Қўлланиш
                        
                        
                        
                            NAMAA Saudi TTS
                            NAMAA Space
                            Standard
                            
                            Medium
                            1
                            
                            6GB
                            MIT
                            2
                            _Қўлланиш
                        
                        
                        
                            Darwin TTS
                            FINAL-Bench
                            Standard
                            
                            Medium
                            4
                            
                            7GB
                            Apache 2.0
                            2
                            _Қўлланиш
                        
                        
                        
                            MOSS-TTSD
                            OpenMOSS
                            Standard
                            
                            Medium
                            2
                            
                            12GB
                            Apache 2.0
                            2
                            _Қўлланиш
                        
                        
                        
                            Ming-Omni TTS
                            inclusionAI
                            Free
                            
                            Medium
                            2
                            
                            3GB
                            Apache 2.0
                            Озод
                            _Қўлланиш
                        
                        
                    
                
            
        
    




    
        
            
                Энг кенг қамровли AI матндан сўзга платформаси

                
                    
                        Нима учун TTS.ai ни матндан сўзга ўтказиш учун танлаш керак?
                        TTS.ai дунёдаги энг яхши очиқ манбали матн-нутқ моделларини бирлаштиради, биргина, осон фойдаланиладиган платформада. Сизни биргина овоз моторига боғлаб қўйган хусусий хизматлардан фарқли равишда, TTS.ai сизга Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University ва бошқалар каби етакчи тадқиқот лабораторияларидан 20+ моделларга кириш имконини беради.
                        Ҳар бир модел MIT, Apache 2.0 ёки шунга ўхшаш рухсат берувчи лицензиялар остида очиқ манбали бўлиб, сиз ўз лойиҳаларингизда яратилган аудиони фойдаланиш учун тўлиқ савдо ҳуқуқларига эга бўлишингизга кафолат беради. Сизга реал вақт дастурлари учун тезкор, енгил синтез ёки аудиокитоблар ва подкастлар учун студия сифатидаги юқори сифатли чиқинди керак бўлса, TTS.ai ҳар бир иш учун тўғри моделга эга.

                        Бепул моделлар, ҳисоб талаб қилинмайди
                        Учта бепул TTS моделлари билан дарҳол иш бошланг: Piper (юлдузча тез, енгил), VITS (яхши сифатли нейрон синтези) ва MeloTTS (кўп тилли қўллаб-қувватлаш). Қўшилиш, кредит картаси, авлодлар учун чекловлар йўқ. Бепул моделлар инглиз ва бошқа кўплаб тилларни қўллаб-қувватлайди, кўплаб дастурлар учун мос келадиган табиий овозли чиқинди билан.
                    
                    
                        GPU тезлаштирилган ишлов бериш
                        Барча TTS моделлари тезкор, бир хил генерация вақти учун ажратилган NVIDIA GPUларида ишлайди. Бепул моделлар одатда 2 сониядан камроқ вақтда аудиони генерация қилади. Kokoro, CosyVoice 2 ва Bark каби стандарт моделлар ўртача 3-5 сонияда. Tortoise ва Chatterbox каби энг юқори сифатли Premium моделлар матн узунлигига қараб 5-15 сонияда ишлайди.

                        30+ тиллар қўлланилади
                        Инглиз, испан, француз, немис, итальян, португал, хитой, япон, корейс, араб, ҳинд, рус ва бошқа 30 дан ортиқ тилларда сўзларни яратиш. Бир неча моделлар тиллараро синтезни қўллаб-қувватлайди, бу сиз аслида овоз тайёрланмаган тилда сўзларни яратишингиз мумкин дегани. CosyVoice 2 ва GPT-SoVITS тиллараро овозларни клонлашда аъло даражада.

                        Ижодкорлар учун тайёр API
                        Integrate TTS.ai into your applications with our OpenAI-compatible REST API. One endpoint for all 20+ models. Python, JavaScript, cURL, and Go SDKs. Streaming support for real-time applications. Batch processing for large-scale content generation. Webhooks for async notifications. API access included on every plan including free.
                    
                
            
        
    









    



    
        
        
        Кўпроқ билиш →
        
    










    
        Кўп бериладиган саволлар
        
            
                
                    
                    
                        
                            
                        
                        
                            
                                Матндан сўзга (TTS) - ёзма матнни табиий товушли сўзланган аудиога айлантирувчи AI технологиясидир. Kokoro, Chatterbox ва CosyVoice 2 каби замонавий нейрон TTS моделлари табиий прозодия, ҳис-туйғу ва ритм билан ажойиб инсоний товушли сўзлашувни яратиш учун чуқур ўрганишдан фойдаланади.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Бу сизнинг эҳтиёжингизга боғлиқ. Тез кўриш учун Piper ёки MeloTTS (пулли, тезкор) ни ишлатинг. Юқори сифат учун Kokoro ёки CosyVoice 2 (стандарт даража) ни ишлатинг. Товушни клонлаш учун Chatterbox ёки GPT-SoVITS (премиум) ни ишлатинг. Диалог/подкаст учун Dia TTS ни ишлатинг. Ҳар бир моделнинг ўз кучи бор — энг яхшисини топиш учун синовдан ўтказинг.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Ҳа! TTS.ai Kokoro, Piper, VITS ва MeloTTS моделлари билан бепул матн-нутқни таклиф қилади. 500 тагача ҳарф ва соатига 3 та авлод учун ҳисоб талаб этилмайди. 15 кредит олиш ва барча моделларга кириш учун бепул ҳисобга рўйхатдан ўтинг.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Бизнинг TTS моделларимиз инглиз, испан, француз, немис, итальян, португал, хитой, япон, корейс, араб, рус, ҳинд ва бошқа 30 дан ортиқ тилларни қўллаб-қувватлайди. Тиллар моделга қараб ўзгаради.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Ҳа, TTS.ai орқали яратилган аудиони савдо мақсадларида фойдаланиш мумкин. Бизнинг барча моделларимиз очиқ манбали лицензиялар (MIT, Apache 2.0) остида ишлайди. Айрим моделлар лицензияларини алоҳида шартлар учун текширинг. Биз сиз ўз лойиҳангиз учун фойдаланаётган моделнинг лицензиясини кўриб чиқишни тавсия қиламиз.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                TTS.ai MP3, WAV, OGG ва FLAC чиқим форматларини қўллаб-қувватлайди. MP3 веб-ўйин учун стандарт ҳисобланади. WAV аудиони кейинчалик ишлаш учун тавсия этилади. Сиз Audio Converter асбоби ёрдамида форматлар орасида алмаштиришни амалга оширишингиз мумкин.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Товушни клонлаш қисқа аудио намунадан (одатда 5-30 сония) аниқ овозни нусхалаш учун AI'ни фойдаланади. Мақсад овознинг аниқ ёзувини юклаб олинг, ва Chatterbox, GPT-SoVITS ёки OpenVoice каби моделлар бу овозда янги гапни яратади. Тўғри, узоқроқ мисол аудиоси билан сифат яхшиланади.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Бепул фойдаланувчилар бир сўров учун 500 тагача белги яратиши мумкин. Регистрланган фойдаланувчилар бир сўров учун 5000 тагача белги олиши мумкин. Умумий матнлар учун аудио қисмларга ажратилиб, автоматик равишда бирлаштирилади. API фойдаланувчилари бир сўров учун 10000 тагача белгини ишлашлари мумкин.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                SSML (Speech Synthesis Markup Language) қўллаб-қувватлаши моделга қараб ўзгаради. Piper ва бошқа моделлар тўхтатишлар, урғу ва талаффузни назорат қилиш учун SSML теги қўллаб-қувватлайди. SSML қўллаб-қувватланмайдиган моделлар учун, сиз прозодияга таъсир кўрсатиш учун табиий пунктуация ва сатрлар оралиғини қўллашингиз мумкин.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Ҳа, кўплаб моделлар тезликни 0.5x дан 2.0x гача ўзгартиришни қўллаб-қувватлайди. Bark ва Parler каби баъзи моделлар ҳам баландлик ва услубни бошқаришга имкон беради. Сиз тезлик параметрларини юқори параметрлар панелида ёки API тезлик параметри орқали ўрнатишингиз мумкин.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Ҳа, бизнинг API орқали пакетли ишлов бериш мумкин. Биргина API чақириқ ёки скриптда кўплаб матн сегментларини юборишингиз мумкин, ҳар бири алоҳида аудио файллар сифатида ишлов берилади ва қайтарилади. Бу аудиокитоб боблари, электрон ўқув модуллари ёки ўйин диалог скриптлари учун идеал.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Ҳисобингиз панелидан API калитини яратинг, сўнгра матн, модел ва овоз параметрлари билан бизнинг REST API охирги нуқтасига POST талабларини юборинг. Биз Python, JavaScript ва cURL код намуналарини тақдим этамиз. API OpenAI-га мос келади, шунинг учун мавжуд интеграциялар минимал ўзгаришлар билан ишлайди.
                            
                        
                    
                    
                
            
        
    








    
        
            
                
                
                
                
                
                
                
                
                
                
                
                
                
            
            5.0/5 (4)
        
        
            Биз нимани яхшилашимиз мумкин? Сизнинг фикрингиз бизга муаммоларни ҳал қилишга ёрдам беради.
            
                
                
                
                
            
            
                
                
            
        
    







    
        Матнни сўзга айлантиришни ҳозироқ бошлаш
        TTS.ai ни фойдаланиб минглаб яратувчиларга қўшилинг. Янги ҳисоб билан 15000 та бепул персонажни олинг. Бепул моделлар рўйхатдан ўтмасдан ҳам мавжуд.
        
            
            Бепул рўйхатдан ўтиш
            Нархларни кўриш

Ижодкор:	KittenML
Лицензия:	Apache 2.0
Тезлик	Fast
Сифати:
тиллар	1 тил
VRAM	0GB
Товушни клонлаш	Ёрдам берилмайди

Модель	Ижодкор:	Тир	Тезлик	тиллар	VRAM	Лицензия:	кредитлар
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	Озод	_Қўлланиш
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	Озод	_Қўлланиш
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Озод	_Қўлланиш
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Озод	_Қўлланиш
Bark	Suno	Standard	Slow	13	5GB	MIT	2	_Қўлланиш
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	_Қўлланиш
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	_Қўлланиш
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	_Қўлланиш
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	_Қўлланиш
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	_Қўлланиш
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	_Қўлланиш
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	_Қўлланиш
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	_Қўлланиш
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	_Қўлланиш
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	_Қўлланиш
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	_Қўлланиш
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	_Қўлланиш
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	_Қўлланиш
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	_Қўлланиш
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	_Қўлланиш
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	_Қўлланиш
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	_Қўлланиш
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	Озод	_Қўлланиш
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Озод	_Қўлланиш
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	_Қўлланиш
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Озод	_Қўлланиш
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Озод	_Қўлланиш
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	_Қўлланиш
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	_Қўлланиш
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	_Қўлланиш
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	_Қўлланиш
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Озод	_Қўлланиш