Nahlásiť chybu / požiadavku na funkciu

Prevod textu na reč

Konvertujte text na prirodzene znejúcu reč pomocou modelov umelej inteligencie s otvoreným zdrojovým kódom. Používanie je bezplatné, nevyžaduje sa žiadny účet.

Zaregistrujte sa zdarma

Text
Súbory

0/500 znaky · Zaregistrujte sa za 5 000 za generáciu →

Prihlásiť sa na odber Limit 5 000 znakov

Režim SSML (Syntéza reči Markup Language pre jemné ovládanie)

Zabaliť text do SSML značiek pre presnú kontrolu:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emoce / štýl Tagy

Pridajte značky emócií na ovplyvnenie doručenia (podpora modelov sa líši):

Slovník výslovnosti

Definovať vlastné výslovnosti (slovo = výslovnosť):

Rozstup 0

-12 +12

Dia Dialóg formát: Použite [S1] a [S2] značky na označenie rôznych reproduktorov. Príklad:

[S1] Ahoj tam! [S2] Ahoj, ako sa máš?



                

                
                
                    
                    
                        Model umelej inteligencie
                        
                    

                    
                    
                        
                            Hlas
                            
                        
                        
                            
                            
                                
                                
                                
                            
                            
                        
                    
                
                

                
                
                    
                    
                        Jazyk
                        
                    

                    
                    
                        Formát výstupu
                        
                    

                    
                    
                        
                            Rýchlosť
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Zadarmo s Piper, VITS, MeloTTS



        
        
            
                Vyberte si model, zadajte text a kliknite na tlačidlo Generovať.Generate.
            
            
            
                
                
                    Generovanie zlyhalo
                    
                
            
        

            
                
                    
                        Audio generované úspešne
                        
                    
                    
                        


    
        
            
            
                
                    
                
                
            
        
    


                        
                            
                                Stiahnuť audio na stiahnutie
                            
                            
                                Stiahnuť.srt súbor
                            
                            
                            
                            Platnosť odkazu vyprší za 24h
                            
                                
                                    
                                    
                                    
                                    
                                    
                                
                            
                        
                    
                
            
        

        

    
        
            
                
                    Láska TTS.ai? Povedzte svojim priateľom!



    
    
        
        
            
                Podrobnosti o modeli
            
            
                
                
                    
                    CosyVoice3
                
                Standard
                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
                
                    
                        
                            Názov vývojára:
                            Alibaba (FunAudioLLM)
                        
                        
                            Licencia:
                            Apache 2.0
                        
                        
                            Rýchlosť
                            
                                Fast
                            
                        
                        
                            Kvalita:
                            
                                
                            
                        
                        
                            jazyky
                            9 Jazyky
                        
                        
                            VRAM
                            4GB
                        
                        
                            Klonovanie hlasu
                             Podporované
                        
                    
                
                
                
                    Vlastnosti:
                    
                        
                        Bi-streaming
                        
                        Emotion control
                        
                        Voice cloning
                        
                        Speed/volume control
                        
                        Instruction following
                        
                    
                
                
                
                Najlepšie pre:: 
                Multilingual production TTS, real-time applications, voice cloning
                
                
            
        

        
        
            
                Tipy pre lepšie výsledky
            
            
                
                    Použite správnu interpunkciu pre prirodzené pauzy a intonáciu
                    Hláskovanie čísel a skratiek pre jasnejšiu výslovnosť
                    Pridanie čiarky na vytvorenie krátkych prestávok medzi frázami
                    Použite tri bodky (...) pre dlhšie dramatické pauzy
                    Skúste Kokoro alebo CosyVoice 2 pre najprirodzenejšie výsledky
                    Použitie Dia pre dialógy s viacerými reproduktormi a podcastový obsah
                
            
        

        
        
            
                Použitie znakov
            
            
                
                    
                        
                            Zvieratá
                            Cena za 1K znakov
                        
                    
                    
                        
                            Zadarmo
                            0 kreditov (neobmedzené)
                        
                        
                            Štandardné
                            2 kredity / 1K znakov
                        
                        
                            Prémia
                            4 kredity / 1K znakov
                        
                    
                
            
            
                Získať viac znakov

Zvieratá	Cena za 1K znakov
Zadarmo	0 kreditov (neobmedzené)
Štandardné	2 kredity / 1K znakov
Prémia	4 kredity / 1K znakov






    
        
            
                
                
                    Kúpiť viac znakov
                    
    Žiadne inzeráty
    Neobmedzené využitie
    Prioritná podpora
    Včasný prístup k novým funkciám


                
                

                
                    
                        Získať viac znakov






    
        Ako funguje prevod textu na reč pomocou umelej inteligencie
        Vytvorte profesionálne kvalitné komentáre v troch jednoduchých krokoch. Nie sú potrebné žiadne technické znalosti.
        
            
                
                    
                        
                            
                        
                        Krok 1
                        Zadajte svoj text
                        Zadajte, prilepte alebo nahrajte text, ktorý chcete previesť na reč.Podporuje až 5 000 znakov na generáciu pre prihlásených používateľov.Použite obyčajný text alebo pridajte značky SSML na rozšírenú kontrolu nad výslovnosťou, pauzami a dôrazom.
                    
                
            
            
                
                    
                        
                            
                        
                        Krok 2
                        Vyberte si model a hlas
                        Vyberte si z viac ako 20 modelov umelej inteligencie v troch úrovniach, vyberte si hlas, ktorý zodpovedá vášmu obsahu, vyberte cieľový jazyk, nastavte rýchlosť prehrávania od 0,5x do 2,0x a vyberte preferovaný výstupný formát (MP3, WAV, OGG alebo FLAC).
                    
                
            
            
                
                    
                        
                            
                        
                        Krok 3
                        Generovať & stiahnuť
                        Kliknite na tlačidlo Generovať a vaše audio bude pripravené v priebehu niekoľkých sekúnd.Náhľad pomocou vstavaného prehrávača, stiahnuť vo zvolenom formáte, alebo skopírovať zdieľateľný odkaz. Použite API pre dávkové spracovanie a integráciu do svojho pracovného postupu.
                    
                
            
        
    






    
        Prípady použitia prevodu textu na reč
        Prevod textu na reč využívajúci umelú inteligenciu mení spôsob, akým ľudia vytvárajú, konzumujú a interagujú so zvukovým obsahom v desiatkach odvetví.
        
            
                
                    
                        
                        Audioknihy
                        Prevod celých kníh na prirodzene znejúce audioknihy s rozprávaním v štúdiovej kvalite. Podpora viacerých reproduktorov s Dia pre dialógy s postavami.
                    
                
            
            
                
                    
                        
                        Voiceovery pre video
                        Vytvorte profesionálne hlasy pre YouTube, TikTok, Instagram Reels a Shorts.100+ hlasov alebo klonujte svoje vlastné.
                    
                
            
            
                
                    
                        
                        Podcasty
                        Vytvárajte podcastové epizódy zo skriptov s viacerými hlasmi umelej inteligencie. Použite Dia na prirodzené konverzácie s dvoma reproduktormi.
                    
                
            
            
                
                    
                        
                        Hranie hier
                        AI hlasový herectvo pre nezávislé hry, vizuálne romány a interaktívnu beletriu.NPC dialóg, cutscene hlasy, 30 + jazykov.
                    
                
            
            
                
                    
                        
                        Elektronické vzdelávanie
                        Konvertujte materiály kurzu, prednášky a školiaci obsah na zvuk. Podpora viacerých jazykov pre globálne platformy.
                    
                
            
            
                
                    
                        
                        Prístupnosť
                        Zjednodušte prístup k webovým lokalitám, dokumentom a aplikáciám. Integrácia rozhrania API čítačky obrazovky a konverzia článkov na zvuk.
                    
                
            
            
                
                    
                        
                        IVR a telefónne systémy
                        Poskytnite systémom IVR, telefónnym ponukám a zákazníckym službám prirodzené hlasy umelej inteligencie.
                    
                
            
            
                
                    
                        
                        Sociálne médiá a marketing
                        TikTok rozprávanie, Instagram Reels, Twitter / X komentár, YouTube Shorts. Rýchla generácia s bezplatnými modelmi.
                    
                
            
            
                
                    
                        
                        Streamovanie
                        Twitch TTS upozornenia, chat-to-voice, AI co-hosts a Discord boty.Nízka latencia, 100+ hlasov, StreamElements kompatibilné.
                    
                
            
            
                
                    
                        
                        Marketing
                        Voiceovery pre reklamy, vysvetľujúce videá, ukážky produktov a predajné prezentácie. Škálujte produkciu zvukového obsahu v rámci kampaní.
                    
                
            
            
                
                    
                        
                        Dabing & lokalizácia
                        Prekladajte a nahrávajte videá do viac ako 30 jazykov pomocou umelej inteligencie, ktorá rozpoznáva hlas.
                    
                
            
            
                
                    
                        
                        Meditácia & wellness
                        Riadené meditácie, spánok príbehy, dychové cvičenia a affirmatívy s pokojnými, upokojujúcimi AI hlasy.
                    
                
            
        
        
            Zobraziť všetky prípady použitia a nástroje
        
    






    
        Všetky modely prevodu textu na reč
        Podrobné špecifikácie pre každý model AI dostupný na TTS.ai.Porovnajte kvalitu, rýchlosť, jazykovú podporu a funkcie, aby ste našli dokonalý model pre váš projekt.

        
        
            Všetko (32)
            Zadarmo (10)
            Štandardné (17)
            Prémia (5)
        

        
            
            
                
                    
                    
                        
                            
                                Kokoro
                                Free
                            
                            
                                Kokoro je model prevodu textu na reč s 82 miliónmi parametrov, ktorý výrazne prevyšuje svoju hmotnostnú triedu. Napriek svojej malej veľkosti produkuje pozoruhodne prirodzenú a expresívnu reč. Kokoro podporuje viacero jazykov vrátane angličtiny, japončiny, čínštiny a kórejčiny s rôznymi expresívnymi hlasmi. Beží neuveriteľne rýchlo - generuje zvuk takmer 100x rýchlejšie ako v reálnom čase na GPU.

                                
                                    
                                        Názov vývojára::

                                        Hexgrad
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, ja, zh, fr, it, pt, es, hi
                                    
                                    
                                        VRAM:

                                        1.5GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        Zadarmo
                                    
                                

                                
                                
                                    
                                        
                                        Parametre 82M
                                        
                                        Ultra rýchly
                                        
                                        Expresívne hlasy
                                        
                                        Viacjazyčné
                                        
                                        Podpora pre streaming
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Vysoko kvalitný TTS s minimálnou latenciou, streaming aplikácie
                                
                            
                            
                                
                                    Skúste Kokoro
                                
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Free
                            
                            
                                Piper je ľahký text-to-speech engine vyvinutý spoločnosťou Rhasspy, ktorý využíva VITS a larynx architektúry.Beží výlučne na CPU, takže je ideálny pre hraničné zariadenia, domácu automatizáciu a aplikácie vyžadujúce offline TTS. S viac ako 100 hlasmi v 30+ jazykoch, Piper prináša prirodzene znejúcu reč v reálnom čase aj na Raspberry Pi 4.

                                
                                    
                                        Názov vývojára::

                                        Rhasspy
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                    
                                    
                                        VRAM:

                                        0 (CPU only)
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        Zadarmo
                                    
                                

                                
                                
                                    
                                        
                                        Priateľský k CPU
                                        
                                        Offline schopný
                                        
                                        100 + hlasy
                                        
                                        Viac ako 30 jazykov
                                        
                                        Podpora pre SSML
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Rýchle náhľady, prístupnosť a vložené aplikácie
                                
                            
                            
                                
                                    Skúste Piper
                                
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Free
                            
                            
                                VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) je paralelná metóda prekladu textu na reč, ktorá generuje prirodzenejšie znejúci zvuk ako súčasné dvojstupňové modely.Prijíma variačnú inferenciu rozšírenú o normalizačné toky a proces konkurenčného tréningu, čím sa dosiahne výrazné zlepšenie prirodzenosti.

                                
                                    
                                        Názov vývojára::

                                        Jaehyeon Kim et al.
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, de, es, fr, pt, nl, fi, hu, bg, ja, pl
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        Zadarmo
                                    
                                

                                
                                
                                    
                                        
                                        End-to-end syntéza
                                        
                                        Prirodzená prozódia
                                        
                                        Rýchla dedukcia
                                        
                                        Viacnásobné reproduktory
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Všeobecný prevod textu na reč s prirodzenou prozódiou
                                
                            
                            
                                
                                    Skúste VITS
                                
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Free
                            
                            
                                MeloTTS od MyShell.ai je viacjazyčná knižnica TTS podporujúca angličtinu (americká, britská, indická, austrálska), španielčinu, francúzštinu, čínštinu, japončinu a kórejčinu.Je extrémne rýchla, spracúva text rýchlosťou takmer v reálnom čase len na CPU.MeloTTS je navrhnutý pre produkčné použitie a podporuje odvodenie CPU aj GPU.

                                
                                    
                                        Názov vývojára::

                                        MyShell.ai
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, es, fr, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        0.5GB (GPU optional)
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        Zadarmo
                                    
                                

                                
                                
                                    
                                        
                                        Optimalizované pre CPU
                                        
                                        Viacjazyčné
                                        
                                        Viacnásobné prízvuky
                                        
                                        Pripravené na výrobu
                                        
                                        S nízkou latenciou
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Produkčné aplikácie vyžadujúce rýchly, viacjazyčný TTS
                                
                            
                            
                                
                                    Skúste MeloTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark
                                Standard
                            
                            
                                Bark od Suno je model pre transformáciu textu na zvuk, ktorý dokáže generovať vysoko realistickú viacjazyčnú reč, ako aj iné zvuky, ako je hudba, hluk na pozadí a zvukové efekty. Môže produkovať neverbálnu komunikáciu, ako je smiech, vzdychanie a plač.Bark podporuje viac ako 100 predvolieb reproduktorov a 13+ jazykov.

                                
                                    
                                        Názov vývojára::

                                        Suno
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Slow
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        5GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Zvukové efekty
                                        
                                        Smiech / vzdychanie
                                        
                                        Generácia hudby
                                        
                                        Viac ako 100 reproduktorov
                                        
                                        Viacjazyčné
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Kreatívny audio obsah, audioknihy s emóciami, zvukové efekty
                                
                            
                            
                                
                                    Skúste Bark
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Standard
                            
                            
                                Bark Small je destilovaná verzia modelu Bark, ktorý vymieňa určitú kvalitu zvuku za výrazne rýchlejšie rýchlosti odvodzovania a nižšie požiadavky na pamäť.Zachováva schopnosť Bark generovať reč s emóciami, smiechom a viacerými jazykmi.

                                
                                    
                                        Názov vývojára::

                                        Suno
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Ľahký
                                        
                                        Rýchlejšie ako plná kôra
                                        
                                        Emocionálna reč
                                        
                                        Viacjazyčné
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Rýchly kreatívny zvuk, keď plná kôra je príliš pomalý
                                
                            
                            
                                
                                    Skúste Bark Small
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Standard
                            
                            
                                CosyVoice 2 od Tongyi Lab spoločnosti Alibaba dosahuje kvalitu reči porovnateľnú s ľudskou s extrémne nízkou latenciou, čo je ideálne pre aplikácie v reálnom čase. Používa konečný skalárny kvantizačný prístup pre streamovanú syntézu a podporuje klonovanie hlasu s nulovým výstrelom, syntézu medzi jazykmi a jemnozrnnú kontrolu emócií.

                                
                                    
                                        Názov vývojára::

                                        Alibaba (Tongyi Lab)
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh, ja, ko, fr, de, it, es
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Streamovanie
                                        
                                        Klonovanie s nulovým výstrelom
                                        
                                        Cross-language
                                        
                                        Ovládanie emócií
                                        
                                        Human- parity
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Aplikácie v reálnom čase, streamovanie TTS, hlasové asistenty
                                
                            
                            
                                
                                    Skúste CosyVoice 2
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Standard
                            
                            
                                Dia od Nari Labs je 1.6B parametrový model premeny textu na reč, ktorý je špeciálne navrhnutý na generovanie dialógu medzi viacerými rečníkmi. Môže produkovať prirodzene znejúce konverzácie medzi dvoma rečníkmi s vhodným ťahaním, prozódiou a emocionálnym vyjadrením.Dia je ideálny na vytváranie obsahu v štýle podcastov, dialógov audiokníh a interaktívnej konverzačnej umelej inteligencie.

                                
                                    
                                        Názov vývojára::

                                        Nari Labs
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Multi- reproduktor
                                        
                                        Generovanie dialógu
                                        
                                        Prirodzené odbočovanie
                                        
                                        Emocionálne vyjadrenie
                                        
                                        Parametre 1.6B
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Podcasty, dialógy audiokníh, konverzačný obsah
                                
                            
                            
                                
                                    Skúste Dia TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Standard
                            
                            
                                Parler TTS je model prevodu textu na reč, ktorý používa hlasové popisy prirodzeného jazyka na ovládanie generovaného prejavu. Namiesto výberu z prednastavených hlasov, môžete opísať hlas, ktorý chcete (napr. "teplý ženský hlas s miernym britským prízvukom, hovorí pomaly a jasne") a Parler generuje reč zodpovedajúcu tomuto popisu.

                                
                                    
                                        Názov vývojára::

                                        Hugging Face
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Popis hlasu
                                        
                                        Kontrola prirodzeného jazyka
                                        
                                        Flexibilné vytváranie hlasu
                                        
                                        Nie sú potrebné žiadne prednastavené hlasy
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Kreatívne aplikácie, kde potrebujete vlastné hlasové charakteristiky
                                
                            
                            
                                
                                    Skúste Parler TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Standard
                            
                            
                                IndexTTS-2 je pokročilý systém premeny textu na reč, ktorý vyniká v oblasti nulovej syntézy hlasu s jemnozrnným ovládaním emócií. Môže generovať reč so špecifickými emočnými tónmi, ako je šťastný, smutný, nahnevaný alebo strach, bez toho, aby vyžadoval špecifické tréningové dáta emócií.

                                
                                    
                                        Názov vývojára::

                                        Index Team
                                    
                                    
                                        Licencia::

                                        Bilibili Model License
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Ovládanie emócií
                                        
                                        Zero-shot
                                        
                                        Vektory emócií
                                        
                                        Expresívna reč
                                        
                                        Jemnozrnná kontrola
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Emocionálne expresívny obsah, audioknihy, virtuálni asistenti
                                
                            
                            
                                
                                    Skúste IndexTTS-2
                                
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Standard
                            
                            
                                Spark TTS od spoločnosti SparkAudio je model prevodu textu na reč, ktorý kombinuje klonovanie hlasu s ovládaním emócií a štýlu reči. Použitím iba 5 sekúnd referenčného zvuku dokáže naklonovať hlas a potom generovať reč s rôznymi emóciami, rýchlosťou a štýlmi pri zachovaní identity klonovaného hlasu.

                                
                                    
                                        Názov vývojára::

                                        SparkAudio
                                    
                                    
                                        Licencia::

                                        CC BY-NC-SA 4.0
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Klonovanie hlasu
                                        
                                        Ovládanie emócií
                                        
                                        Ovládanie štýlu
                                        
                                        Na základe výzvy
                                        
                                        Klonovanie za 5 sekúnd
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Tvorba obsahu s klonovanými hlasmi a emočnou kontrolou
                                
                            
                            
                                
                                    Skúste Spark TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Standard
                            
                            
                                GPT-SoVITS kombinuje jazykové modelovanie v štýle GPT s SoVITS (Singing Voice Inference via Translation and Synthesis) pre výkonné klonovanie hlasu v niekoľkých záberoch. S takmer 5 sekundami referenčného zvuku dokáže presne naklonovať hlas a generovať novú reč pri zachovaní jedinečných charakteristík reproduktora.

                                
                                    
                                        Názov vývojára::

                                        RVC-Boss
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Slow
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Klonovanie za 5 sekúnd
                                        
                                        Spievajúci hlas
                                        
                                        Učenie v niekoľkých záberoch
                                        
                                        Vysoká vernosť zvuku
                                        
                                        Cross-language
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Klonovanie hlasu, syntéza spevu, replikácia hlasu tvorcu obsahu
                                
                            
                            
                                
                                    Skúste GPT-SoVITS
                                
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Standard
                            
                            
                                Orpheus je rozsiahly model prevodu textu na reč, ktorý dokáže vyjadriť emócie na ľudskej úrovni. Je trénovaný na viac ako 100 000 hodinách rôznorodých údajov o reči a vyniká v generovaní reči s prirodzenými emóciami, dôrazom a štýlmi reči.Orpheus dokáže produkovať reč, ktorá je prakticky nerozoznateľná od ľudských nahrávok.

                                
                                    
                                        Názov vývojára::

                                        Canopy Labs
                                    
                                    
                                        Licencia::

                                        Llama 3.2 Community
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Emócie na ľudskej úrovni
                                        
                                        100K hodín školenia
                                        
                                        Prirodzený dôraz
                                        
                                        Expresívna reč
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Vysoko kvalitná emocionálna reč, audioknihy, hlasové herectvo
                                
                            
                            
                                
                                    Skúste Orpheus
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Chatterbox od Resemble AI je špičkový model na klonovanie hlasu, ktorý dokáže replikovať akýkoľvek hlas z jedinej zvukovej vzorky s pozoruhodnou presnosťou, pričom zachytáva nielen farbu hlasu, ale aj štýl reči a emocionálne nuansy. Chatterbox tiež ponúka jemné ovládanie emócií, ktoré vám umožňuje upraviť emocionálny tón generovaného prejavu nezávisle od hlasovej identity.

                                
                                    
                                        Názov vývojára::

                                        Resemble AI
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Klonovanie s nulovým výstrelom
                                        
                                        Ovládanie emócií
                                        
                                        Vysoká vernosť zvuku
                                        
                                        Prenos štýlu
                                        
                                        Klonovanie jednej vzorky
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Profesionálne klonovanie hlasu s emocionálnou kontrolou, tvorba obsahu
                                
                            
                            
                                
                                    Skúste Chatterbox
                                
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS je autoregresívny viachlasový systém premeny textu na reč, ktorý uprednostňuje kvalitu zvuku pred rýchlosťou.Používa architektúru inšpirovanú DALL-E na generovanie vysoko prirodzenej reči s vynikajúcou prozódiou a podobnosťou hovoriaceho. Aj keď je pomalší ako mnohé alternatívy, Tortoise produkuje jednu z najrealistickejších syntetických rečí dostupných v ekosystéme open source.

                                
                                    
                                        Názov vývojára::

                                        James Betker
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Slow
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Najvyššia kvalita
                                        
                                        Viachlasý
                                        
                                        Architektúra DALL-E
                                        
                                        Klonovanie hlasu
                                        
                                        Autoregresívna
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Audioknihy, prémiový obsah, aplikácie s najvyššou kvalitou
                                
                            
                            
                                
                                    Skúste Tortoise TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2 dosahuje syntézu TTS na ľudskej úrovni kombináciou difúzie štýlu s konkurenčným tréningom pomocou veľkých modelov reči. Vytvára najprirodzenejšie znejúcu reč medzi modelmi s jedným reproduktorom, ktoré súperia s ľudskými nahrávkami.

                                
                                    
                                        Názov vývojára::

                                        Columbia University
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Na ľudskej úrovni
                                        
                                        Difúzia štýlu
                                        
                                        Konfrontačný tréning
                                        
                                        Prirodzená variácia
                                        
                                        Vysoká vernosť zvuku
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Syntéza jedného reproduktora v štúdiovej kvalite, profesionálny rozprávač
                                
                            
                            
                                
                                    Skúste StyleTTS 2
                                
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                OpenVoice od MyShell.ai umožňuje okamžité klonovanie hlasu s granulárnou kontrolou nad hlasom, emóciami, prízvukom, rytmom, pauzami a intonáciou. Môže klonovať hlas z krátkeho zvukového klipu a generovať reč vo viacerých jazykoch pri zachovaní identity hovoriaceho.OpenVoice tiež funguje ako hlasový konvertor, ktorý umožňuje transformáciu hlasu v reálnom čase.

                                
                                    
                                        Názov vývojára::

                                        MyShell.ai / MIT
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh, ja, ko, fr, es
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Okamžité klonovanie
                                        
                                        Konverzia hlasu
                                        
                                        Ovládanie emócií
                                        
                                        Ovládanie prízvuku
                                        
                                        Viacjazyčné
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Klonovanie hlasu s jemne zrnitou kontrolou štýlu, konverzia hlasu
                                
                            
                            
                                
                                    Skúste OpenVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Standard
                            
                            
                                Qwen3-TTS je model premeny textu na reč s 1,7 miliardou parametrov od tímu Qwen spoločnosti Alibaba. Podporuje tri režimy: prednastavené hlasy s ovládaním emócií (9 reproduktorov), klonovanie hlasu z iba 3 sekúnd zvuku a jedinečný režim návrhu hlasu, kde môžete opísať požadovaný hlas v prirodzenom jazyku.

                                
                                    
                                        Názov vývojára::

                                        Alibaba (Qwen)
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh, ja, ko, de, fr, ru, pt, es, it
                                    
                                    
                                        VRAM:

                                        7GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Klonovanie hlasu
                                        
                                        9 prednastavených hlasov
                                        
                                        Hlasový dizajn z textu
                                        
                                        Ovládanie emócií
                                        
                                        10 jazykov
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Viacjazyčný obsah s klonovaním hlasu alebo vlastným hlasovým dizajnom
                                
                            
                            
                                
                                    Skúste Qwen3 TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) je model s miliardou parametrov navrhnutý špeciálne na generovanie konverzačnej reči. Modeluje prirodzené vzory ľudskej konverzácie vrátane načasovania ťahov, odozvy spätných kanálov, emocionálnych reakcií a toku konverzácie.CSM generuje zvuk, ktorý skôr ako syntetická reč znie ako prirodzená ľudská konverzácia.

                                
                                    
                                        Názov vývojára::

                                        Sesame
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Slow
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Konverzačné
                                        
                                        Prirodzené načasovanie
                                        
                                        Prestupovanie
                                        
                                        Backchannel
                                        
                                        Parametre 1B
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                AI asistenti, chatboty, konverzačné aplikácie AI
                                
                            
                            
                                
                                    Skúste Sesame CSM
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Standard
                            
                            
                                Chatterbox Turbo od Resemble AI je 350M parametrický upgrade na Chatterbox, ktorý poskytuje až 6x rýchlejšie spracovanie v reálnom čase s latenciou menšou ako 200 ms. Podporuje paralingvistické značky ako [smiech], [kašeľ] a [chuckle] priamo v texte.

                                
                                    
                                        Názov vývojára::

                                        Resemble AI
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Sub-200 ms latencia
                                        
                                        Paralingvistické značky
                                        
                                        6x v reálnom čase
                                        
                                        Klonovanie hlasu
                                        
                                        Vodoznak
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Hlasoví agenti v reálnom čase, expresívna reč s prirodzenými zvukmi
                                
                            
                            
                                
                                    Skúste Chatterbox Turbo
                                
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Standard
                            
                            
                                VoxCPM 1.5 od OpenBMB je nový model TTS bez tokenizátora, ktorý pracuje v súvislom priestore namiesto diskrétnych tokenov. Produkuje vysoko verný zvuk 44,1 kHz, podporuje klonovanie hlasu bez výstrelu od 3 do 10 sekúnd a udržuje konzistenciu v odsekoch.

                                
                                    
                                        Názov vývojára::

                                        OpenBMB
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        44,1 kHz zvuk
                                        
                                        Bez tokenizátora
                                        
                                        Cross-language klonovanie
                                        
                                        Kontextovo citlivé
                                        
                                        Jemné ladenie LoRA
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Vysoko verný zvuk, audioknihy, dlhý obsah s konzistenciou hlasu
                                
                            
                            
                                
                                    Skúste VoxCPM
                                
                            
                        
                    
                    
                    
                        
                            
                                Kani TTS 2
                                Free
                            
                            
                                Kani-TTS-2 od NineNineSix je ultraľahký model s parametrami 400M postavený na chrbtici Liquid AI LFM2 s NVIDIA NanoCodec.Beží v 3GB VRAM a produkuje ~ 10 sekúnd reči za ~ 2 sekundy na A100 (RTF 0.2). Aktuálne verejné vydanie obsahuje kontrolný bod `kani-tts-2-en` len v angličtine a nevystavuje háčik na vloženie reproduktorov potrebný na klonovanie hlasu - použite Chatterbox / IndexTTS2 / F5-TTS na klonovanie alebo Kokoro / MeloTTS pre neanglický jazyk.

                                
                                    
                                        Názov vývojára::

                                        NineNineSix
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en
                                    
                                    
                                        VRAM:

                                        3GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        Zadarmo
                                    
                                

                                
                                
                                    
                                        
                                        3GB VRAM
                                        
                                        Ultra rýchly
                                        
                                        Ľahký
                                        
                                        NanoCodec
                                        
                                        Voľný
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Rýchla generácia angličtiny na hardvéri s nízkou pamäťou VRAM, rýchle náhľady
                                
                            
                            
                                
                                    Skúste Kani TTS 2
                                
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Free
                            
                            
                                OuteTTS rozširuje veľké jazykové modely o schopnosti premeny textu na reč pri zachovaní pôvodnej architektúry. Podporuje viacero backendov vrátane llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM a dokonca aj odvodenie z prehliadača prostredníctvom Transformers.js.

                                
                                    
                                        Názov vývojára::

                                        OuteAI
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        Zadarmo
                                    
                                

                                
                                
                                    
                                        
                                        CPU inference
                                        
                                        Dedukcia z prehliadača
                                        
                                        Klonovanie hlasu
                                        
                                        Viacnásobné backendy
                                        
                                        Profily reproduktorov
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Edge nasadenie, TTS na báze prehliadača, prostredia s nízkymi zdrojmi
                                
                            
                            
                                
                                    Skúste OuteTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Standard
                            
                            
                                VibeVoice od Microsoftu je dostupný v dvoch variantoch: 1.5B model pre dlhý obsah (až 90 minút, 4 reproduktory) a Realtime 0.5B model pre streamovanie s latenciou prvého zvuku ~ 200 ms. Variant 1.5B vyniká pri podcastoch a audioknihách s konzistenciou reproduktorov v dlhých pasážach. Poznámka: Microsoft odstránil kód TTS z úložiska a generovaný zvuk obsahuje počuteľné odmietnutie zodpovednosti za umelú inteligenciu.

                                
                                    
                                        Názov vývojára::

                                        Microsoft
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Multi- reproduktor
                                        
                                        Až 90 min
                                        
                                        Generovanie podcastov
                                        
                                        Konzistencia reproduktorov
                                        
                                        200 ms streamovanie
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Podcasty, audioknihy, dlhý obsah pre viacerých reproduktorov
                                
                            
                            
                                
                                    Skúste VibeVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Free
                            
                            
                                Pocket TTS od Kyutai (tvorcovia Moshi) je kompaktný model premeny textu na reč s parametrami 100M, ktorý je oveľa ťažší ako jeho hmotnosť. Beží efektívne na CPU, podporuje klonovanie hlasu z jednej zvukovej vzorky a produkuje prirodzene znejúcu reč.

                                
                                    
                                        Názov vývojára::

                                        Kyutai
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, fr
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        Zadarmo
                                    
                                

                                
                                
                                    
                                        
                                        Parametre 100M
                                        
                                        CPU inference
                                        
                                        Klonovanie hlasu
                                        
                                        Klonovanie jednej vzorky
                                        
                                        Edge- ready
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Jednoduché nasadenie, prostredia len s procesorom, rýchle klonovanie hlasu
                                
                            
                            
                                
                                    Skúste Pocket TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Free
                            
                            
                                Kitten TTS od KittenML je ultraľahký model premeny textu na reč postavený na ONNX. S variantmi od 15M do 80M parametrov (25-80 MB na disku) poskytuje vysokokvalitnú syntézu hlasu na CPU bez potreby GPU. Obsahuje 8 vstavaných hlasov, nastaviteľnú rýchlosť reči a vstavané predspracovanie textu pre čísla, meny a jednotky. Ideálne pre nasadenie na hranici a aplikácie s nízkou latenciou.

                                
                                    
                                        Názov vývojára::

                                        KittenML
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en
                                    
                                    
                                        VRAM:

                                        0GB
                                    
                                    
                                        Klonovanie hlasu:

                                         - Nie.
                                    
                                    
                                        Cena za 1K znakov:

                                        Zadarmo
                                    
                                

                                
                                
                                    
                                        
                                        Inferencia len na CPU
                                        
                                        Menej ako 80MB veľkosť modelu
                                        
                                        8 vstavaných hlasov
                                        
                                        Regulácia otáčok
                                        
                                        Na báze ONNX
                                        
                                        Výstup 24 kHz
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Rýchly ľahký TTS, nasadenie na hraniciach, aplikácie s nízkou latenciou
                                
                            
                            
                                
                                    Skúste Kitten TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Standard
                            
                            
                                CosyVoice3 je najnovší vývoj od tímu Alibaba FunAudioLLM. Je vybavený bi-streaming inferenciou s latenciou ~ 150 ms, inštrukčným ovládaním pre emócie / rýchlosť / hlasitosť a vylepšenou podobnosťou reproduktorov pre klonovanie nulového záberu. Podporuje 9 jazykov plus 18 čínskych dialektov.

                                
                                    
                                        Názov vývojára::

                                        Alibaba (FunAudioLLM)
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh, ja, ko, de, es, fr, it, ru
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Bi-streaming
                                        
                                        Ovládanie emócií
                                        
                                        Klonovanie hlasu
                                        
                                        Ovládanie rýchlosti/hlasitosti
                                        
                                        Pokyny nasledujú
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Viacjazyčná produkcia TTS, aplikácie v reálnom čase, klonovanie hlasu
                                
                            
                            
                                
                                    Skúste CosyVoice3
                                
                            
                        
                    
                    
                    
                        
                            
                                NAMAA Saudi TTS
                                Standard
                            
                            
                                NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

                                
                                    
                                        Názov vývojára::

                                        NAMAA Space
                                    
                                    
                                        Licencia::

                                        MIT
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        ar
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Saudská arabčina
                                        
                                        Moderná štandardná arabčina
                                        
                                        Klonovanie hlasu bez záberu
                                        
                                        Ovládanie emócií
                                        
                                        Native výslovnosť
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Arabský obsah pre saudské publikum, MSA rozprávanie, Khaleeji-dialekt hlasové agenti, arabské audioknihy
                                
                            
                            
                                
                                    Skúste NAMAA Saudi TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Darwin TTS
                                Standard
                            
                            
                                Darwin-TTS-1.7B-Cross od FINAL-Bench je výskumná verzia Qwen3-TTS-1.7B, kde je 84 tenzorov hovorcu-FFN (8,6%) zmiešaných pri α=3% s príslušnými tenzormi z Qwen3-1.7B-Base. Zmes je vytvorená bez pretrénovania a produkuje viditeľne ostrejšie klonovanie hlasu medzi jazykmi v kórejčine, angličtine, japončine a čínštine.

                                
                                    
                                        Názov vývojára::

                                        FINAL-Bench
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, ko, ja, zh
                                    
                                    
                                        VRAM:

                                        7GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Klonovanie hlasu
                                        
                                        Cross-language
                                        
                                        Zmes s FFN
                                        
                                        4 základné jazyky
                                        
                                        Qwen3 chrbtica
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Klonovanie hlasu medzi angličtinou, kórejčinou, japončinou a čínštinou s jedným referenčným hlasom
                                
                            
                            
                                
                                    Skúste Darwin TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTSD
                                Standard
                            
                            
                                MOSS-TTSD v1.0 od OpenMOSS je 7B model premeny textu na reč, ktorý pokračuje v konverzácii z krátkej zvukovej výzvy.Podporuje až 5 simultánnych hovoriacich cez [S1] / [S2] tagy, klonovanie hlasu bez záberu z 3-10s referenčného zvuku a až 60 minút koherentného viacnásobného dialógu v 20 jazykoch. Na rozdiel od MOSS-TTS — TTSD sa špecializuje na podcasty / audioknihy / dabingové pracovné postupy.

                                
                                    
                                        Názov vývojára::

                                        OpenMOSS
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        12GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Dialóg s viacerými rečníkmi
                                        
                                        Až 5 reproduktorov
                                        
                                        60min koherentný zvuk
                                        
                                        Klonovanie hlasu
                                        
                                        Optimalizácia pre podcasty
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Podcasty, audioknihy, dabing dialógov, konverzačný obsah s viacerými hlasmi
                                
                            
                            
                                
                                    Skúste MOSS-TTSD
                                
                            
                        
                    
                    
                    
                        
                            
                                Ming-Omni TTS
                                Free
                            
                            
                                Ming-omni-tts-0.5B od inclusionAI je kompaktný omnimodálny model reči postavený na hustej chrbtici BailingMM s Patch-by-Patch audio dekodérom, ktorý poskytuje výstup 44,1 kHz (blízko CD kvality), podporuje klonovanie hlasu s nulovým výstrelom z 3 + sekundovej referencie a obsahuje zabudované ovládanie emócií / dialektu / BGM prostredníctvom inštrukcií JSON. Vynikajúca stabilita - 0,83% WER na čínskych benchmarkoch.

                                
                                    
                                        Názov vývojára::

                                        inclusionAI
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Medium
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        3GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        Zadarmo
                                    
                                

                                
                                
                                    
                                        
                                        44,1 kHz výstup
                                        
                                        Klonovanie hlasu
                                        
                                        Ovládanie emócií
                                        
                                        Kontrola dialektu
                                        
                                        Generácia BGM
                                        
                                        Kompaktný 0,5 B
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Vysoko verný dvojjazyčný rozprávač, emočne kontrolované hlasové herectvo, čínsky obsah audioknihy
                                
                            
                            
                                
                                    Skúste Ming-Omni TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS Nano
                                Free
                            
                            
                                MOSS-TTS-Nano-100M is OpenMOSS's compact 100M-parameter variant of the MOSS-TTS family, sharing the delay-transformer architecture. Trades the 8B model's peak quality for ~80x smaller weights and dramatically lower per-request VRAM, making it suitable for free-tier and high-throughput deployments. Same 20-language reach.

                                
                                    
                                        Názov vývojára::

                                        OpenMOSS
                                    
                                    
                                        Licencia::

                                        Apache 2.0
                                    
                                    
                                        Rýchlosť:

                                        Fast
                                    
                                    
                                        Kvalita::

                                        
                                    
                                    
                                        jazyky:

                                        en, zh, de, es, fr, ja, it, ko, ru, ar, pt
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Klonovanie hlasu:

                                         Áno
                                    
                                    
                                        Cena za 1K znakov:

                                        Zadarmo
                                    
                                

                                
                                
                                    
                                        
                                        Compact 100M
                                        
                                        Fast inference
                                        
                                        Multilingual
                                        
                                        Voice cloning
                                        
                                        Same MOSS family
                                        
                                    
                                
                                

                                
                                Najlepšie pre:: 
                                Free-tier TTS, high-volume production, low-latency interactive use
                                
                            
                            
                                
                                    Skúste MOSS-TTS Nano
                                
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Kokoro
                                Zadarmo
                            
                            
                                Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
                                
                                    Názov vývojára::
Hexgrad
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky: en, ja, zh, fr, it, pt, es, hi
                                
                                Najlepšie pre:: High-quality TTS with minimal latency, streaming applications
                            
                            
                                Vyskúšajte zadarmo
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Zadarmo
                            
                            
                                Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
                                
                                    Názov vývojára::
Rhasspy
                                    Licencia::
MIT
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                
                                Najlepšie pre:: Quick previews, accessibility, and embedded applications
                            
                            
                                Vyskúšajte zadarmo
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Zadarmo
                            
                            
                                VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
                                
                                    Názov vývojára::
Jaehyeon Kim et al.
                                    Licencia::
MIT
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky: en, de, es, fr, pt, nl, fi, hu, bg, ja, pl
                                
                                Najlepšie pre:: General-purpose text-to-speech with natural prosody
                            
                            
                                Vyskúšajte zadarmo
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Zadarmo
                            
                            
                                MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
                                
                                    Názov vývojára::
MyShell.ai
                                    Licencia::
MIT
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky: en, es, fr, zh, ja, ko
                                
                                Najlepšie pre:: Production applications needing fast, multilingual TTS
                            
                            
                                Vyskúšajte zadarmo
                            
                        
                    
                    
                    
                        
                            
                                Kani TTS 2
                                Zadarmo
                            
                            
                                Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.
                                
                                    Názov vývojára::
NineNineSix
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky: en
                                
                                Najlepšie pre:: Fast English generation on low-VRAM hardware, quick previews
                            
                            
                                Vyskúšajte zadarmo
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Zadarmo
                            
                            
                                OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
                                
                                    Názov vývojára::
OuteAI
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky: en
                                
                                Najlepšie pre:: Edge deployment, browser-based TTS, low-resource environments
                            
                            
                                Vyskúšajte zadarmo
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Zadarmo
                            
                            
                                Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
                                
                                    Názov vývojára::
Kyutai
                                    Licencia::
MIT
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky: en, fr
                                
                                Najlepšie pre:: Lightweight deployment, CPU-only environments, quick voice cloning
                            
                            
                                Vyskúšajte zadarmo
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Zadarmo
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
                                
                                    Názov vývojára::
KittenML
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky: en
                                
                                Najlepšie pre:: Fast lightweight TTS, edge deployment, low-latency applications
                            
                            
                                Vyskúšajte zadarmo
                            
                        
                    
                    
                    
                        
                            
                                Ming-Omni TTS
                                Zadarmo
                            
                            
                                Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.
                                
                                    Názov vývojára::
inclusionAI
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky: en, zh
                                
                                Najlepšie pre:: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content
                            
                            
                                Vyskúšajte zadarmo
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS Nano
                                Zadarmo
                            
                            
                                MOSS-TTS-Nano-100M is OpenMOSS's compact 100M-parameter variant of the MOSS-TTS family, sharing the delay-transformer architecture. Trades the 8B model's peak quality for ~80x smaller weights and dramatically lower per-request VRAM, making it suitable for free-tier and high-throughput deployments. Same 20-language reach.
                                
                                    Názov vývojára::
OpenMOSS
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
                                
                                Najlepšie pre:: Free-tier TTS, high-volume production, low-latency interactive use
                            
                            
                                Vyskúšajte zadarmo
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Bark
                                Štandardné
                            
                            
                                Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
                                
                                    Názov vývojára::
Suno
                                    Licencia::
MIT
                                    Rýchlosť:
Slow
                                    Kvalita::

                                    jazyky:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Klonovanie hlasu:
 - Nie.
                                
                                Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
                                Najlepšie pre:: Creative audio content, audiobooks with emotion, sound effects
                            
                            
                                Skúste Bark
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Štandardné
                            
                            
                                Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
                                
                                    Názov vývojára::
Suno
                                    Licencia::
MIT
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Klonovanie hlasu:
 - Nie.
                                
                                LightweightFaster than full BarkEmotional speechMultilingual
                                Najlepšie pre:: Quick creative audio when full Bark is too slow
                            
                            
                                Skúste Bark Small
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Štandardné
                            
                            
                                CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
                                
                                    Názov vývojára::
Alibaba (Tongyi Lab)
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en, zh, ja, ko, fr, de, it, es
                                    Klonovanie hlasu:
 Áno
                                
                                StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
                                Najlepšie pre:: Real-time applications, streaming TTS, voice assistants
                            
                            
                                Skúste CosyVoice 2
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Štandardné
                            
                            
                                Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
                                
                                    Názov vývojára::
Nari Labs
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en
                                    Klonovanie hlasu:
 - Nie.
                                
                                Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
                                Najlepšie pre:: Podcasts, audiobook dialogues, conversational content
                            
                            
                                Skúste Dia TTS
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Štandardné
                            
                            
                                Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
                                
                                    Názov vývojára::
Hugging Face
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en
                                    Klonovanie hlasu:
 - Nie.
                                
                                Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
                                Najlepšie pre:: Creative applications where you need custom voice characteristics
                            
                            
                                Skúste Parler TTS
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Štandardné
                            
                            
                                IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
                                
                                    Názov vývojára::
Index Team
                                    Licencia::
Bilibili Model License
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en, zh
                                    Klonovanie hlasu:
 Áno
                                
                                Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
                                Najlepšie pre:: Emotionally expressive content, audiobooks, virtual assistants
                            
                            
                                Skúste IndexTTS-2
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Štandardné
                            
                            
                                Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
                                
                                    Názov vývojára::
SparkAudio
                                    Licencia::
CC BY-NC-SA 4.0
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en, zh
                                    Klonovanie hlasu:
 Áno
                                
                                Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
                                Najlepšie pre:: Content creation with cloned voices and emotional control
                            
                            
                                Skúste Spark TTS
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Štandardné
                            
                            
                                GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
                                
                                    Názov vývojára::
RVC-Boss
                                    Licencia::
MIT
                                    Rýchlosť:
Slow
                                    Kvalita::

                                    jazyky:
en, zh, ja, ko
                                    Klonovanie hlasu:
 Áno
                                
                                5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
                                Najlepšie pre:: Voice cloning, singing synthesis, content creator voice replication
                            
                            
                                Skúste GPT-SoVITS
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Štandardné
                            
                            
                                Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
                                
                                    Názov vývojára::
Canopy Labs
                                    Licencia::
Llama 3.2 Community
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en
                                    Klonovanie hlasu:
 - Nie.
                                
                                Human-level emotion100K hours trainingNatural emphasisExpressive speech
                                Najlepšie pre:: High-quality emotional speech, audiobooks, voice acting
                            
                            
                                Skúste Orpheus
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Štandardné
                            
                            
                                Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
                                
                                    Názov vývojára::
Alibaba (Qwen)
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en, zh, ja, ko, de, fr, ru, pt, es, it
                                    Klonovanie hlasu:
 Áno
                                
                                Voice cloning9 preset voicesVoice design from textEmotion control10 languages
                                Najlepšie pre:: Multilingual content with voice cloning or custom voice design
                            
                            
                                Skúste Qwen3 TTS
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Štandardné
                            
                            
                                Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
                                
                                    Názov vývojára::
Resemble AI
                                    Licencia::
MIT
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky:
en
                                    Klonovanie hlasu:
 Áno
                                
                                Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
                                Najlepšie pre:: Real-time voice agents, expressive speech with natural sounds
                            
                            
                                Skúste Chatterbox Turbo
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Štandardné
                            
                            
                                VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
                                
                                    Názov vývojára::
OpenBMB
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky:
en, zh
                                    Klonovanie hlasu:
 Áno
                                
                                44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
                                Najlepšie pre:: High-fidelity audio, audiobooks, long-form content with voice consistency
                            
                            
                                Skúste VoxCPM
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Štandardné
                            
                            
                                VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
                                
                                    Názov vývojára::
Microsoft
                                    Licencia::
MIT
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky:
en, zh
                                    Klonovanie hlasu:
 - Nie.
                                
                                Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
                                Najlepšie pre:: Podcasts, dialogues, long-form narration, multi-speaker content
                            
                            
                                Skúste VibeVoice
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Štandardné
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
                                
                                    Názov vývojára::
Alibaba (FunAudioLLM)
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Fast
                                    Kvalita::

                                    jazyky:
en, zh, ja, ko, de, es, fr, it, ru
                                    Klonovanie hlasu:
 Áno
                                
                                Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
                                Najlepšie pre:: Multilingual production TTS, real-time applications, voice cloning
                            
                            
                                Skúste CosyVoice3
                            
                        
                    
                    
                    
                        
                            
                                NAMAA Saudi TTS
                                Štandardné
                            
                            
                                NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.
                                
                                    Názov vývojára::
NAMAA Space
                                    Licencia::
MIT
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
ar
                                    Klonovanie hlasu:
 Áno
                                
                                Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation
                                Najlepšie pre:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks
                            
                            
                                Skúste NAMAA Saudi TTS
                            
                        
                    
                    
                    
                        
                            
                                Darwin TTS
                                Štandardné
                            
                            
                                Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).
                                
                                    Názov vývojára::
FINAL-Bench
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en, ko, ja, zh
                                    Klonovanie hlasu:
 Áno
                                
                                Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone
                                Najlepšie pre:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice
                            
                            
                                Skúste Darwin TTS
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTSD
                                Štandardné
                            
                            
                                MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.
                                
                                    Názov vývojára::
OpenMOSS
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en, zh
                                    Klonovanie hlasu:
 Áno
                                
                                Multi-speaker dialogueUp to 5 speakers60min coherent audioVoice cloningPodcast-optimised
                                Najlepšie pre:: Podcasts, audiobooks, dubbed dialogue, conversational content with multiple voices
                            
                            
                                Skúste MOSS-TTSD
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Chatterbox
                                Prémia
                            
                            
                                Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.
                                
                                    Názov vývojára::
Resemble AI
                                    Licencia::
MIT
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en
                                    Klonovanie hlasu:
 Áno
                                    VRAM:
4GB
                                    Cena za 1K znakov:
4x
                                
                                Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
                                Najlepšie pre:: Professional voice cloning with emotional control, content creation
                            
                            
                                Skúste Chatterbox
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Prémia
                            
                            
                                Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.
                                
                                    Názov vývojára::
James Betker
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Slow
                                    Kvalita::

                                    jazyky:
en
                                    Klonovanie hlasu:
 Áno
                                    VRAM:
8GB
                                    Cena za 1K znakov:
4x
                                
                                Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
                                Najlepšie pre:: Audiobooks, premium content, quality-first applications
                            
                            
                                Skúste Tortoise TTS
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Prémia
                            
                            
                                StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.
                                
                                    Názov vývojára::
Columbia University
                                    Licencia::
MIT
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en
                                    Klonovanie hlasu:
 - Nie.
                                    VRAM:
4GB
                                    Cena za 1K znakov:
4x
                                
                                Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
                                Najlepšie pre:: Studio-quality single-speaker synthesis, professional narration
                            
                            
                                Skúste StyleTTS 2
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Prémia
                            
                            
                                OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.
                                
                                    Názov vývojára::
MyShell.ai / MIT
                                    Licencia::
MIT
                                    Rýchlosť:
Medium
                                    Kvalita::

                                    jazyky:
en, zh, ja, ko, fr, es
                                    Klonovanie hlasu:
 Áno
                                    VRAM:
4GB
                                    Cena za 1K znakov:
4x
                                
                                Instant cloningVoice conversionEmotion controlAccent controlMultilingual
                                Najlepšie pre:: Voice cloning with fine-grained style control, voice conversion
                            
                            
                                Skúste OpenVoice
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Prémia
                            
                            
                                Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.
                                
                                    Názov vývojára::
Sesame
                                    Licencia::
Apache 2.0
                                    Rýchlosť:
Slow
                                    Kvalita::

                                    jazyky:
en
                                    Klonovanie hlasu:
 - Nie.
                                    VRAM:
8GB
                                    Cena za 1K znakov:
4x
                                
                                ConversationalNatural timingTurn-takingBackchannel1B parameters
                                Najlepšie pre:: AI assistants, chatbots, conversational AI applications
                            
                            
                                Skúste Sesame CSM
                            
                        
                    
                    
                
            
        

        
        
            Tabuľka porovnania modelov
            
                
                    
                        
                            Model
                            Názov vývojára:
                            Zvieratá
                            Kvalita:
                            Rýchlosť
                            jazyky
                            Klonovanie hlasu
                            VRAM
                            Licencia:
                            kredity
                            
                        
                    
                    
                        
                        
                            Kokoro
                            Hexgrad
                            Free
                            
                            Fast
                            8
                            
                            1.5GB
                            Apache 2.0
                            Zadarmo
                            Použitie
                        
                        
                        
                            Piper
                            Rhasspy
                            Free
                            
                            Fast
                            29
                            
                            0 (CPU only)
                            MIT
                            Zadarmo
                            Použitie
                        
                        
                        
                            VITS
                            Jaehyeon Kim et al.
                            Free
                            
                            Fast
                            11
                            
                            1GB
                            MIT
                            Zadarmo
                            Použitie
                        
                        
                        
                            MeloTTS
                            MyShell.ai
                            Free
                            
                            Fast
                            6
                            
                            0.5GB (GPU optional)
                            MIT
                            Zadarmo
                            Použitie
                        
                        
                        
                            Bark
                            Suno
                            Standard
                            
                            Slow
                            13
                            
                            5GB
                            MIT
                            2
                            Použitie
                        
                        
                        
                            Bark Small
                            Suno
                            Standard
                            
                            Medium
                            13
                            
                            2GB
                            MIT
                            2
                            Použitie
                        
                        
                        
                            CosyVoice 2
                            Alibaba (Tongyi Lab)
                            Standard
                            
                            Medium
                            8
                            
                            4GB
                            Apache 2.0
                            2
                            Použitie
                        
                        
                        
                            Dia TTS
                            Nari Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            Použitie
                        
                        
                        
                            Parler TTS
                            Hugging Face
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            Použitie
                        
                        
                        
                            IndexTTS-2
                            Index Team
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            Bilibili Model License
                            2
                            Použitie
                        
                        
                        
                            Spark TTS
                            SparkAudio
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            CC BY-NC-SA 4.0
                            2
                            Použitie
                        
                        
                        
                            GPT-SoVITS
                            RVC-Boss
                            Standard
                            
                            Slow
                            4
                            
                            6GB
                            MIT
                            2
                            Použitie
                        
                        
                        
                            Orpheus
                            Canopy Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Llama 3.2 Community
                            2
                            Použitie
                        
                        
                        
                            Chatterbox
                            Resemble AI
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            Použitie
                        
                        
                        
                            Tortoise TTS
                            James Betker
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            Použitie
                        
                        
                        
                            StyleTTS 2
                            Columbia University
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            Použitie
                        
                        
                        
                            OpenVoice
                            MyShell.ai / MIT
                            Premium
                            
                            Medium
                            6
                            
                            4GB
                            MIT
                            4
                            Použitie
                        
                        
                        
                            Qwen3 TTS
                            Alibaba (Qwen)
                            Standard
                            
                            Medium
                            10
                            
                            7GB
                            Apache 2.0
                            2
                            Použitie
                        
                        
                        
                            Sesame CSM
                            Sesame
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            Použitie
                        
                        
                        
                            Chatterbox Turbo
                            Resemble AI
                            Standard
                            
                            Fast
                            1
                            
                            2GB
                            MIT
                            2
                            Použitie
                        
                        
                        
                            VoxCPM
                            OpenBMB
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            Apache 2.0
                            2
                            Použitie
                        
                        
                        
                            Kani TTS 2
                            NineNineSix
                            Free
                            
                            Fast
                            1
                            
                            3GB
                            Apache 2.0
                            Zadarmo
                            Použitie
                        
                        
                        
                            OuteTTS
                            OuteAI
                            Free
                            
                            Fast
                            1
                            
                            2GB
                            Apache 2.0
                            Zadarmo
                            Použitie
                        
                        
                        
                            VibeVoice
                            Microsoft
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            MIT
                            2
                            Použitie
                        
                        
                        
                            Pocket TTS
                            Kyutai
                            Free
                            
                            Fast
                            2
                            
                            1GB
                            MIT
                            Zadarmo
                            Použitie
                        
                        
                        
                            Kitten TTS
                            KittenML
                            Free
                            
                            Fast
                            1
                            
                            0GB
                            Apache 2.0
                            Zadarmo
                            Použitie
                        
                        
                        
                            CosyVoice3
                            Alibaba (FunAudioLLM)
                            Standard
                            
                            Fast
                            9
                            
                            4GB
                            Apache 2.0
                            2
                            Použitie
                        
                        
                        
                            NAMAA Saudi TTS
                            NAMAA Space
                            Standard
                            
                            Medium
                            1
                            
                            6GB
                            MIT
                            2
                            Použitie
                        
                        
                        
                            Darwin TTS
                            FINAL-Bench
                            Standard
                            
                            Medium
                            4
                            
                            7GB
                            Apache 2.0
                            2
                            Použitie
                        
                        
                        
                            MOSS-TTSD
                            OpenMOSS
                            Standard
                            
                            Medium
                            2
                            
                            12GB
                            Apache 2.0
                            2
                            Použitie
                        
                        
                        
                            Ming-Omni TTS
                            inclusionAI
                            Free
                            
                            Medium
                            2
                            
                            3GB
                            Apache 2.0
                            Zadarmo
                            Použitie
                        
                        
                        
                            MOSS-TTS Nano
                            OpenMOSS
                            Free
                            
                            Fast
                            11
                            
                            2GB
                            Apache 2.0
                            Zadarmo
                            Použitie
                        
                        
                    
                
            
        
    




    
        
            
                Najkomplexnejšia AI platforma pre prevod textu na reč

                
                    
                        Prečo si vybrať TTS.ai pre prevod textu na reč?
                        TTS.ai spája najlepšie open-source text-to-speech modely na svete v jednej, ľahko použiteľnej platforme.Na rozdiel od proprietárnych služieb, ktoré vás uzamknú do jedného hlasového motora, TTS.ai vám dáva prístup k viac ako 20 modelom z popredných výskumných laboratórií, vrátane Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University a ďalšie.
                        Každý model je open source pod MIT, Apache 2.0 alebo podobné povolené licencie, čo zaručuje plné komerčné práva na použitie generovaného zvuku vo vašich projektoch.Či už potrebujete rýchlu, ľahkú syntézu pre aplikácie v reálnom čase alebo prémiový výstup štúdiovej kvality pre audioknihy a podcasty, TTS.ai má ten správny model pre každý prípad použitia.

                        Bezplatné modelky, nie je potrebný žiadny účet
                        Začnite okamžite s tromi bezplatnými modelmi TTS: Piper (ultra rýchly, ľahký), VITS (vysoko kvalitná neurónová syntéza) a MeloTTS (podpora viacerých jazykov).Žiadna registrácia, žiadna kreditná karta, žiadne obmedzenia na generácie.Bezplatné modely podporujú angličtinu a niekoľko ďalších jazykov s prirodzene znejúcim výstupom vhodným pre väčšinu aplikácií.
                    
                    
                        GPU-zrýchlené spracovanie
                        Všetky modely TTS bežia na špecializovaných grafických procesoroch NVIDIA, ktoré zabezpečujú rýchle a konzistentné generovanie. Bezplatné modely zvyčajne generujú zvuk za menej ako 2 sekundy. Štandardné modely ako Kokoro, CosyVoice 2 a Bark v priemere 3-5 sekúnd. Prémiové modely s najvyššou kvalitou, ako sú Tortoise a Chatterbox, spracúvajú za 5-15 sekúnd v závislosti od dĺžky textu.

                        30+ jazykov podporovaných
                        Generujte reč vo viac ako 30 jazykoch vrátane angličtiny, španielčiny, francúzštiny, nemčiny, taliančiny, portugalčiny, čínštiny, japončiny, kórejčiny, arabčiny, hindčiny, ruštiny a mnohých ďalších. Niektoré modely podporujú syntézu medzi jazykmi, čo znamená, že môžete generovať reč v jazyku, v ktorom pôvodný hlas nebol nikdy trénovaný.

                        API pripravené pre vývojárov
                        Integrujte TTS.ai do svojich aplikácií pomocou nášho rozhrania REST API kompatibilného s technológiou OpenAI. Jeden koncový bod pre všetkých 20+ modelov. Súpravy SDK pre jazyky Python, JavaScript, cURL a Go. Podpora streamovania pre aplikácie v reálnom čase. Dávkové spracovanie na generovanie rozsiahleho obsahu. Webhooky pre asynchrónne oznámenia.
                    
                
            
        
    









    



    
        
        
        Dozvedieť sa viac →
        
    










    
        Často kladené otázky
        
            
                
                    
                    
                        
                            
                        
                        
                            
                                Prevod textu na reč (TTS) je technológia umelej inteligencie, ktorá konvertuje písaný text na prirodzene znejúci hovorený zvuk.Moderné neurónové modely TTS ako Kokoro, Chatterbox a CosyVoice 2 využívajú hlboké učenie na vytváranie reči, ktorá znie pozoruhodne ľudsky, s prirodzenou prozódiou, emóciami a rytmom.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Záleží na vašich potrebách. Na rýchle náhľady použite Piper alebo MeloTTS (bezplatné, rýchle). Na vysokú kvalitu vyskúšajte Kokoro alebo CosyVoice 2 (štandardná úroveň). Na klonovanie hlasu použite Chatterbox alebo GPT-SoVITS (prémiové). Na dialógy/podcastový obsah vyskúšajte Dia TTS. Každý model má iné silné stránky — experimentujte, aby ste našli ten najlepší.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Áno! TTS.ai ponúka bezplatnú konverziu textu na reč s modelmi Kokoro, Piper, VITS a MeloTTS.Nevyžaduje sa žiadny účet až do 500 znakov a 3 generácie za hodinu.Zaregistrujte sa na bezplatný účet, aby ste získali 15 kreditov a prístup ku všetkým modelom.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Naše modely TTS podporujú viac ako 30 jazykov vrátane angličtiny, španielčiny, francúzštiny, nemčiny, taliančiny, portugalčiny, čínštiny, japončiny, kórejčiny, arabčiny, ruštiny, hindčiny a mnohých ďalších.Jazyková dostupnosť sa líši podľa modelu.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Áno, zvuk generovaný cez TTS.ai môže byť komerčne použitý.Všetky naše modely používajú open source licencie (MIT, Apache 2.0).Skontrolujte jednotlivé modelové licencie pre špecifické podmienky.Odporúčame skontrolovať licenciu konkrétneho modelu, ktorý používate pre váš projekt.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                TTS.ai podporuje výstupné formáty MP3, WAV, OGG a FLAC. MP3 je predvolený formát pre prehrávanie na webe. WAV sa odporúča pre ďalšie spracovanie zvuku. Môžete konvertovať medzi formátmi pomocou nášho nástroja Audio Converter.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Klonovanie hlasu využíva umelú inteligenciu na replikáciu konkrétneho hlasu z krátkej zvukovej vzorky (zvyčajne 5 až 30 sekúnd). Nahrajte jasnú nahrávku cieľového hlasu a modely ako Chatterbox, GPT-SoVITS alebo OpenVoice vygenerujú novú reč v tomto hlase.Kvalita sa zlepšuje s čistejším, dlhším referenčným zvukom.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Bezplatní používatelia môžu generovať až 500 znakov na požiadavku. Registrovaní používatelia môžu generovať až 5 000 znakov na požiadavku. Pri dlhších textoch sa zvuk generuje v kusoch a automaticky sa spája. Používatelia API môžu spracovať až 10 000 znakov na požiadavku.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Podpora SSML (Speech Synthesis Markup Language) sa líši v závislosti od modelu. Piper a niektoré ďalšie modely podporujú základné značky SSML na ovládanie prestávok, dôrazu a výslovnosti.V prípade modelov bez natívnej podpory SSML môžete na ovplyvnenie prozódie použiť prirodzenú interpunkciu a zlomy riadkov.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Áno, väčšina modelov podporuje nastavenie rýchlosti od 0,5x do 2,0x. Niektoré modely ako Bark a Parler tiež umožňujú ovládanie výšky a štýlu.Parametre rýchlosti môžete nastaviť v paneli pokročilých nastavení alebo prostredníctvom parametra rýchlosti API.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Áno, dávkové spracovanie je k dispozícii prostredníctvom nášho rozhrania API. Môžete odoslať viacero textových segmentov v rámci jedného volania rozhrania API alebo skriptu a každý z nich bude spracovaný a vrátený ako samostatný zvukový súbor.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Vygenerujte kľúč rozhrania API z riadiaceho panela účtu a potom odošlite požiadavky POST na náš koncový bod rozhrania REST API s parametrami textu, modelu a hlasu.Poskytujeme vzorové kódy v jazykoch Python, JavaScript a cURL. Rozhranie API je kompatibilné s OpenAI, takže existujúce integrácie fungujú s minimálnymi zmenami.
                            
                        
                    
                    
                
            
        
    








    
        
            
                
                
                
                
                
                
                
                
                
                
                
                
                
            
            5.0/5 (4)
        
        
            Čo by sme mohli zlepšiť? Vaše pripomienky nám pomáhajú riešiť problémy.
            
                
                
                
                
            
            
                
                
            
        
    







    
        Začnite konvertovať text na reč teraz
        Pridajte sa k tisícom tvorcov, ktorí používajú TTS.ai. Získajte 15 000 znakov zadarmo s novým účtom.
        
            
            Zaregistrujte sa zdarma
            Zobraziť cenové ponuky

Názov vývojára:	Alibaba (FunAudioLLM)
Licencia:	Apache 2.0
Rýchlosť	Fast
Kvalita:
jazyky	9 Jazyky
VRAM	4GB
Klonovanie hlasu	Podporované

Model	Názov vývojára:	Zvieratá	Rýchlosť	jazyky	VRAM	Licencia:	kredity
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	Zadarmo	Použitie
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	Zadarmo	Použitie
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Zadarmo	Použitie
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Zadarmo	Použitie
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Použitie
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Použitie
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Použitie
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Použitie
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Použitie
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Použitie
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Použitie
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Použitie
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Použitie
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Použitie
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Použitie
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Použitie
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	Použitie
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Použitie
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Použitie
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Použitie
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Použitie
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	Zadarmo	Použitie
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Zadarmo	Použitie
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Použitie
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Zadarmo	Použitie
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Zadarmo	Použitie
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Použitie
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	Použitie
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	Použitie
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	Použitie
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Zadarmo	Použitie
MOSS-TTS Nano	OpenMOSS	Free	Fast	11	2GB	Apache 2.0	Zadarmo	Použitie