AI Text to SpeechName

Konvèti tèks nan pale son natirèl ak 24 + open-source modèl AI. Gratis pou itilize, pa gen okenn kont nesesè.

Enskri pou gratis

Nou fè Vann Voy ou

0/500 karaktè · Sign up for 5,000 per generation →

Enskri Limit pou 5,000 karaktè

Mod SSML (Speech Synthesis Markup Language pou kontwolè fin)

Wrap ou tèks nan SSML tags pou presizyon kontwòl:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emosyon / Style Tags

Ajoute marqueurs emotion pou enfliyanse livrezon (modele sipò varye):

Diksyonè Pronunciation

Define prononciations Custom (mot = prononciation):

Pitch 0

-12 +12

Dia Dialog Format: Itilize [S1] ak [S2] atik pou make diferan pale. Egzanp:

[S1] Bonjou! [S2] Bonjou, kijan ou ye?



                
                
                    
                    
                        Modèl AI
                        
                    

                    
                    
                        Voy
                        
                    
                
                

                
                
                    
                    
                        Lang
                        
                    

                    
                    
                        Format de sortie
                        
                    

                    
                    
                        
                            Vitès
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Gratis ak Piper, VITS, MeloTTS



        
        
            
                Son ou kreye a ap parèt isit la. Chwazi yon modèl, antre tèks la, epi klike Kreye.
            
            
            
                
                
                    Génération a échoué
                    
                
            
        

            
                
                    
                        Audio Generated Successfully
                        
                    
                    
                        


    
        
            
            
                
                    
                
                
            
        
    


                        
                            
                                Telechaje son
                            
                            
                            
                            Link expires in 24h
                            
                                
                                    
                                    
                                    
                                    
                                    
                                
                            
                        
                    
                
            
        

        

    
        
            
                
                    Love TTS.ai? Di zanmi ou yo!



    
    
        
        
            
                Detay modèl
            
            
                
                
                    
                    Spark TTS
                
                Standard
                Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
                
                    
                        
                            Pwogramè:
                            SparkAudio
                        
                        
                            Lisans:
                            CC BY-NC-SA 4.0
                        
                        
                            Vitès
                            
                                Medium
                            
                        
                        
                            Kalite:
                            
                                
                            
                        
                        
                            lang
                            2 lang
                        
                        
                            VRAM
                            4GB
                        
                        
                            Klonaj Vokal
                             Soti nan
                        
                    
                
                
                
                    Fonksyon:
                    
                        
                        Voice cloning
                        
                        Emotion control
                        
                        Style control
                        
                        Prompt-based
                        
                        5-second cloning
                        
                    
                
                
                
                Pi bon pou:: 
                Content creation with cloned voices and emotional control
                
                
            
        

        
        
            
                Konsèy pou pi bon rezilta
            
            
                
                    Itilize ponktiasyon kòrèk pou pause ak intonasyon natirèl
                    Espelye nimewo ak abreviasyon pou yon prononsyasyon pi klè
                    Ajoute virgo pou kreye pauze kout ant fraz
                    Itilize ellips (...) pou pauze dramatik pi long
                    Eseye Kokoro oswa CosyVoice 2 pou rezilta ki pi natirèl
                    Itilize Dia pou dyalòg ak kontni podcast
                
            
        

        
        
            
                Kout kredi
            
            
                
                    
                        
                            Nivo
                            Koute pou chak 1K karaktè
                        
                    
                    
                        
                            Gratis
                            0 kredi (sans limit)
                        
                        
                            Standart
                            2 kredi / 1K karaktè
                        
                        
                            Premium
                            4 kredi / 1K karaktè
                        
                    
                
            
            
                Jwenn plis Kredi

Nivo	Koute pou chak 1K karaktè
Gratis	0 kredi (sans limit)
Standart	2 kredi / 1K karaktè
Premium	4 kredi / 1K karaktè






    
        
            
                
                
                    
                    
    Pa gen piblisite
    Itilizasyon san limit
    Priyorite
    Akses pi bonè pou karakteristik nouvo


                
                

                
                    
                        Jwenn plis Kredi






    
        Kijan AI Text to Speech travay
        Pwodui voiceovers pwofesyonèl-kalite nan twa etap senp. Pa gen konesans teknik ki nesesè.
        
            
                
                    
                        
                            
                        
                        Eta 1
                        Enter Your Text
                        Tape, kole, oswa upload tèks ou vle konvèti nan pale. Supports jiska 5, 000 karaktè pa jenerasyon pou itilizatè ki anrejistre. Sèvi ak tèks senp oswa ajoute atik SSML pou kontwòl avanse sou prononciation, pause, ak enfatize.
                    
                
            
            
                
                    
                        
                            
                        
                        Eta 2
                        Chwazi Modèl & Voy
                        Chwazi soti nan 20 + AI modèl sou twa nivo.Choose yon vwa ki matche ak kontni ou, chwazi lang ou, ajiste vitès playback de 0.5x a 2.0x, epi chwazi fòma ou pi renmen (MP3, WAV, OGG, oswa FLAC).
                    
                
            
            
                
                    
                        
                            
                        
                        Eta 3
                        Kreye & Enstale
                        Klike sou Pwodui e son ou pral pare nan kèk segonn. Preview ak jwè a enkòpore, telechaje nan fòma ou chwazi a, oswa kopye yon lyen ki ka pataje. Itilize API pou pwosesis batch ak integrasyon nan travay ou.
                    
                
            
        
    






    
        Konvèti tèks nan pale
        Tekst-a-parole ki sipòte pa AI ap chanje fason moun kreye, itilize, ak entèraksyon ak kontni odyo nan dè santèn de endistri.
        
            
                
                    
                        
                        Liv son
                        Konvèti tout liv nan liv son ki gen son natirèl ak naryasyon ki gen bon jan kalite studio.
                    
                
            
            
                
                    
                        
                        Voiceovers Videyo
                        Kreye voiceovers pwofesyonèl pou YouTube, TikTok, Instagram Reels, ak Shorts. 100 + vwa oswa klone pwòp ou a.
                    
                
            
            
                
                    
                        
                        Podkast
                        Pwodui podcast epizòd soti nan scripts ak anpil vwa AI. Itilize Dia pou konvèsasyon natirèl ak de paleur.
                    
                
            
            
                
                    
                        
                        Jwèt
                        AI vwa acting pou jwèt indie, romans vizyèl, ak fiksyon interactive.NPC dyalòg, cutscene vwa, 30 + lang.
                    
                
            
            
                
                    
                        
                        E-Learning
                        Konvèti materyèl kou, konferans, ak kontni fòmasyon nan son. Multi-lang sipò pou platfòm mondyal.
                    
                
            
            
                
                    
                        
                        Aksesibilite
                        Fè sit entènèt, dokiman, ak aplikasyon ki aksesib. Entègrasyon API lektè ekran ak konvèsyon atik-a-son.
                    
                
            
            
                
                    
                        
                        IVR & sistèm telefòn
                        Power sistèm IVR, meni telefòn, ak sèvis kliyan ak vwa natirèl AI.Low-latency streaming pou call centers.
                    
                
            
            
                
                    
                        
                        Rezo sosyal
                        Narrations TikTok, Instagram Reels, kòmantè Twitter / X, YouTube Shorts. Pwodiksyon rapid ak modèl gratis.
                    
                
            
            
                
                    
                        
                        Difizyon
                        Alertes Twitch TTS, chat-a-voix, AI co-hosts, ak bots Discord. Low latency, 100+ voix, StreamElements compatible.
                    
                
            
            
                
                    
                        
                        Maketing
                        Ad voiceovers, esplike videyo, demos pwodwi, ak prezantasyon lavant.Scale pwodiksyon kontni odyo sou tout kanpay.
                    
                
            
            
                
                    
                        
                        Dubbing & lokalizasyon
                        Tradiksyon ak doub videyo nan plis pase 30 lang ak AI ki matche ak vwa. Auto-transkriptyon ak deteksyon oratè.
                    
                
            
            
                
                    
                        
                        Meditasyon & byennèt
                        Meditasyon gid, istwa dòmi, egzèsis respire, ak affirmations ak kalm, kalme vwa AI.
                    
                
            
        
        
            Gade tout ka itilize ak zouti
        
    






    
        Tout modèl tèks-a-vokal
        Espesifikasyon detaye pou chak modèl AI ki disponib sou TTS.ai.Compare bon jan kalite, vitès, sipò lang, ak karakteristik pou jwenn modèl la ideyal pou pwojè ou.

        
        
            Tout (32)
            Gratis (7)
            Standart (18)
            Premium (7)
        

        
            
            
                
                    
                    
                        
                            
                                Kokoro
                                Free
                            
                            
                                Kokoro se yon 82 milyon paramèt tèks-a-parole modèl ki punches byen pi wo pase klas pwa li. Pandan ke gwosè li ti, li pwodwi pale remarkabman natirèl ak ekspresif. Kokoro sipòte plizyè lang ki gen ladan angle, Japonè, Chinwa, ak Koreyen ak yon varyete de vwa ekspresif. Li kouri incredibly vit — jenere son prèske 100x pi vit pase tan reyèl sou yon GPU.

                                
                                    
                                        Pwogramè::

                                        Hexgrad
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, ja, zh, ko, fr, de, it, pt, es, hi, ru
                                    
                                    
                                        VRAM:

                                        1.5GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        Gratis
                                    
                                

                                
                                
                                    
                                        
                                        Paramèt 82M
                                        
                                        Ultra- vit
                                        
                                        Vokal ekspresif
                                        
                                        Multilang
                                        
                                        Streaming sipò
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                TTS bon jan kalite segondè ak latency minimòm, aplikasyon streaming
                                
                            
                            
                                
                                    Eseye Kokoro
                                
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Free
                            
                            
                                Piper se yon motè tèks-a-parole limyè devlope pa Rhasspy ki itilize VITS ak larynx achitekti. Li kouri konplètman sou CPU, ki fè li ideyal pou aparèy edge, automatisation kay, ak aplikasyon ki mande TTS offline. Avèk plis pase 100 vwa nan plis pase 30 lang, Piper bay pale son natirèl nan vitès tan reyèl menm sou yon Raspberry Pi 4.

                                
                                    
                                        Pwogramè::

                                        Rhasspy
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                    
                                    
                                        VRAM:

                                        0 (CPU only)
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        Gratis
                                    
                                

                                
                                
                                    
                                        
                                        CPU- amizan
                                        
                                        Kapab travay san koneksyon
                                        
                                        100+ vwa
                                        
                                        30+ lang
                                        
                                        Sipò SSML
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Previews rapid, accessibility, and embedded applications
                                
                            
                            
                                
                                    Eseye Piper
                                
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Free
                            
                            
                                VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) se yon metòd TTS paralèl bout-a-bòd ki kreye yon son ki pi natirèl pase modèl aktyèl ki baze sou de etap. Li adopte inférence variational ki ogmante ak koule normalisation ak yon pwosesis antrenman adversarial, rive jwenn yon amelyorasyon siyifikatif nan natiralizasyon.

                                
                                    
                                        Pwogramè::

                                        Jaehyeon Kim et al.
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        Gratis
                                    
                                

                                
                                
                                    
                                        
                                        Sintez bout-a-bòt
                                        
                                        Prosodi natirèl
                                        
                                        Inferans rapid
                                        
                                        Divès oratè
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Text-to-speech pou rezon jeneral ak prozodi natirèlName
                                
                            
                            
                                
                                    Eseye VITS
                                
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Free
                            
                            
                                MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

                                
                                    
                                        Pwogramè::

                                        MyShell.ai
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, es, fr, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        0.5GB (GPU optional)
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        Gratis
                                    
                                

                                
                                
                                    
                                        
                                        Optimized-CPU
                                        
                                        Multilang
                                        
                                        KCharselect unicode block name
                                        
                                        Prèt pou pwodiksyon
                                        
                                        Low latency
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Aplikasyon pwodiksyon ki bezwen TTS rapid, multilenguage
                                
                            
                            
                                
                                    Eseye MeloTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark
                                Standard
                            
                            
                                Bark pa Suno se yon modèl tèks-a-son ki baze sou transformateur ki ka jenere pale trè reyèl, multi-lang kòm byen ke lòt son tankou mizik, bri fon, ak efè son. Li ka pwodwi kominikasyon nonverbal tankou ri, souf, ak plezi. Bark sipòte plis pase 100 preset oratè ak 13 + lang.

                                
                                    
                                        Pwogramè::

                                        Suno
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Slow
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        5GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Efè son
                                        
                                        Ri/souf
                                        
                                        Kreyasyon mizik
                                        
                                        100+ pale
                                        
                                        Multilang
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Creative kontni odyo, liv odyo ak emosyon, efè son
                                
                            
                            
                                
                                    Eseye Bark
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Standard
                            
                            
                                Bark Small se yon vèsyon distilasyon nan modèl Bark ki echanj kèk bon jan kalite son pou vitès infèrans ki pi vit ak kondisyon memwa ki pi ba.Li rete kapasite Bark a pou jenere pale ak emosyon, ri, ak plizyè lang.

                                
                                    
                                        Pwogramè::

                                        Suno
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Lightweight
                                        
                                        Pi vit pase kòt plen
                                        
                                        Diskou emosyonèl
                                        
                                        Multilang
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Rapid kreyatif son lè plen Bark se twò lent
                                
                            
                            
                                
                                    Eseye Bark Small
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Standard
                            
                            
                                CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications.It uses a finite scalar quantification approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control.It outperforms many commercial TTS systems in subjective evaluations.

                                
                                    
                                        Pwogramè::

                                        Alibaba (Tongyi Lab)
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh, ja, ko, fr, de, it, es
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Difizyon
                                        
                                        Klonaj Zero-Shot
                                        
                                        Kreyolizasyon
                                        
                                        Kontwòl emosyonèl
                                        
                                        Parite-moun
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Aplikasyon tan reyèl, streaming TTS, asistans vwa
                                
                            
                            
                                
                                    Eseye CosyVoice 2
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Standard
                            
                            
                                Dia pa Nari Labs se yon 1.6B paramèt tèks-a-parole modèl ki fèt espesyalman pou jenere dyalòg multi-pale. Li ka pwodwi konvèsasyon son natirèl ant de pale ak approprié turn-taking, prosody, ak ekspresyon emosyonèl. Dia se pafè pou kreye kontni podcast-estil, dyalòg audiobook, ak konvèsasyon entèaktif AI.

                                
                                    
                                        Pwogramè::

                                        Nari Labs
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Multi- oratè
                                        
                                        Kreyasyon bwat dyalòg
                                        
                                        Tournage natirèl
                                        
                                        Ekspresyon emosyonèl
                                        
                                        Paramèt 1.6B
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Podcasts, dialogues audiobook, conversational content
                                
                            
                            
                                
                                    Eseye Dia TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Standard
                            
                            
                                Parler TTS se yon modèl tèks-a-vokal ki sèvi ak dekriman vwa lang natif natal pou kontwole vwa ki pwodwi a. An plas pou chwazi soti nan vwa presegondè, ou dekri vwa ou vle a (e. g., "yon vwa fanm cho ak yon ti aksan Britanik, ki pale byen vit ak klèman") epi Parler jenere vwa ki sanble ak dekriman sa a. Sa fè li inikman fleksib pou aplikasyon kreyatif.

                                
                                    
                                        Pwogramè::

                                        Hugging Face
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Deskripsyon vwa
                                        
                                        Kontwòl lang natirèl
                                        
                                        Kreyasyon vwa fleksib
                                        
                                        Pa gen vwa presegondè ki nesesè
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Aplikasyon kreyatif kote ou bezwen karakteristik vwa Custom
                                
                            
                            
                                
                                    Eseye Parler TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                Standard
                            
                            
                                GLM-TTS pa Zhipu AI se yon sistèm tèks-a-parole ki bati sou achitekti Llama ak matche ak koule. Li rive nan pi ba pousantaj erè karaktè nan mitan modèl TTS ki gen sous louvri, sa vle di li pwodwi prononsyasyon ki pi egzat. GLM-TTS sipòte angle ak Chinwa ak klonaj vwa soti nan 3-10 dezyèm echantiyon son.

                                
                                    
                                        Pwogramè::

                                        Zhipu AI
                                    
                                    
                                        Lisans::

                                        GLM-4 License
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Pi ba pousantaj erè
                                        
                                        Klonaj vwa
                                        
                                        Flow matching
                                        
                                        Prosodi natirèl
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Applications requiring maximum pronunciation accuracy
                                
                            
                            
                                
                                    Eseye GLM-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Standard
                            
                            
                                IndexTTS-2 se yon sistèm avanse tèks-a-parole ki ekselan nan sintèz vwa zero-shot ak kontwòl emosyon fine-grained. Li ka jenere pale ak ton emosyonèl espesifik tankou kè kontan, trist, kole, oswa terib san yo pa mande done fòmasyon emosyonèl espesifik. Modèl la itilize vektè emosyonèl pou kontwole egzakteman ekspresyon emosyonèl nan pale jenere.

                                
                                    
                                        Pwogramè::

                                        Index Team
                                    
                                    
                                        Lisans::

                                        Bilibili Model License
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Kontwòl emosyonèl
                                        
                                        Zero-shot
                                        
                                        Vektè Emosyon
                                        
                                        Diskou ekspresif
                                        
                                        Fine-grained control
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Kontni ekspresif emosyonèlman, liv son, asistan vityèl
                                
                            
                            
                                
                                    Eseye IndexTTS-2
                                
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Standard
                            
                            
                                Spark TTS pa SparkAudio se yon modèl tèks-a-parole ki konbine klonaj vwa ak efè ki ka kontwole ak style pale. Avèk jis 5 segonn nan son referans, li ka klone yon vwa epi Lè sa a, jenere pale ak diferan efè, vitès, ak style pandan y ap kenbe idantite vwa klone. Spark TTS itilize yon sistèm kontwòl ki baze sou pwompt.

                                
                                    
                                        Pwogramè::

                                        SparkAudio
                                    
                                    
                                        Lisans::

                                        CC BY-NC-SA 4.0
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Klonaj vwa
                                        
                                        Kontwòl emosyonèl
                                        
                                        Style control
                                        
                                        Prompt-based
                                        
                                        Klonaj 5-segondè
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Kreyasyon kontni ak vwa klone ak kontwòl emosyonèl
                                
                            
                            
                                
                                    Eseye Spark TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Standard
                            
                            
                                GPT-SoVITS konbine modélisation langaj GPT-style ak SoVITS (Singing Voice Inference via Translation and Synthesis) pou yon klonaj voyifikatif. Avèk sèlman 5 segonn son referans, li kapab klone yon voyi ak presizyon epi jenere yon nouvo pale pandan l ap kenbe karakteristik unike pale a.

                                
                                    
                                        Pwogramè::

                                        RVC-Boss
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Slow
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Klonaj 5-segondè
                                        
                                        Voyeurs
                                        
                                        Aprann nan ti bout tan
                                        
                                        High fidelity
                                        
                                        Kreyolizasyon
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Klonaj vwa, sentèz chante, repitasyon vwa kreyatè kontni
                                
                            
                            
                                
                                    Eseye GPT-SoVITS
                                
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Standard
                            
                            
                                Orpheus se yon modèl tèks-a-parole gwo-echèl ki rive jwenn ekspresyon emosyonèl nan nivo moun. Trete sou plis pase 100,000 èdtan nan done pale divès, li ekselans nan jenerasyon pale ak emosyon natirèl, enpak, ak style pale. Orpheus ka pwodwi pale ki se prèske indistinguishable de enregistrements moun.

                                
                                    
                                        Pwogramè::

                                        Canopy Labs
                                    
                                    
                                        Lisans::

                                        Llama 3.2 Community
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Emosyon nivo imen
                                        
                                        100K èdtan fòmasyon
                                        
                                        Enfatize natirèl
                                        
                                        Diskou ekspresif
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Diskou emosyonèl bon jan kalite segondè, liv son, wòl vwa
                                
                            
                            
                                
                                    Eseye Orpheus
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Chatterbox by Resemble AI se yon modèl klonaj vwa ki pi avanse. Li kapab replike nenpòt vwa soti nan yon echantiyon odyo sèl ak yon presizyon resanblans, kaptive pa sèlman timbre men tou style pale ak nuans emosyonèl. Chatterbox gen tou kontwòl emosyonèl fin-grained, ki pèmèt ou ajiste ton emosyonèl nan pale jenere endepandan de idantite vwa.

                                
                                    
                                        Pwogramè::

                                        Resemble AI
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Klonaj Zero-Shot
                                        
                                        Kontwòl emosyonèl
                                        
                                        High fidelity
                                        
                                        Estil transfè
                                        
                                        Klonaj echantiyon sèl
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Klonaj vwa pwofesyonèl ak kontwòl emosyonèl, kreyasyon kontni
                                
                            
                            
                                
                                    Eseye Chatterbox
                                
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS se yon sistèm tèks-a-parole multi-vokal autoregressif ki bay priyorite a bon jan kalite odyo sou vitès. Li itilize DALL-E-inspired achitekti pou jenere pale trè natirèl ak ekselan prosody ak pale similitude. Pandan ke pi lejè pase anpil altènativ, Tortoise pwodwi kèk nan pale sintèz ki pi reyèl disponib nan open-source ekosistem.

                                
                                    
                                        Pwogramè::

                                        James Betker
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Slow
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Kalite ki pi wo
                                        
                                        Multi-voix
                                        
                                        DALL-E achitekti
                                        
                                        Klonaj vwa
                                        
                                        Regresif otomatik
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Audiobooks, kontni prim, kalite-an premye aplikasyon
                                
                            
                            
                                
                                    Eseye Tortoise TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2 reyalize TTS sentez nivo moun pa konbine difizyon estil ak antrenè kontwovèsyal ki itilize gwo modèl lang pale. Li jenere pale sonje ki pi natirèl ant modèl yon sèl-pale, rival enregistrements moun. StyleTTS 2 itilize difizyon-ki baze sou modélisation estil pou capture la gamme complète de varyasyon pale moun.

                                
                                    
                                        Pwogramè::

                                        Columbia University
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Nivo moun
                                        
                                        Style diffusion
                                        
                                        Adversarial antrenman
                                        
                                        Variasyon natirèl
                                        
                                        High fidelity
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Sintez ak yon sèl oratè ak bon jan kalite studio, naratif pwofesyonèl
                                
                            
                            
                                
                                    Eseye StyleTTS 2
                                
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                OpenVoice pa MyShell.ai pèmèt klonaj vwa imedyat ak kontwòl granulaire sou style vwa, emosyon, aksan, rythme, pause, ak intonasyon. Li ka klone yon vwa soti nan yon clip son kout ak jenere pale nan plizyè lang pandan y ap kenbe idantite pale a. OpenVoice tou fonksyone kòm yon konvètisè vwa, ki pèmèt transformasyon vwa nan tan reyèl.

                                
                                    
                                        Pwogramè::

                                        MyShell.ai / MIT
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh, ja, ko, fr, de, es, it
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Klonaj instantane
                                        
                                        Konvèsyon vwa
                                        
                                        Kontwòl emosyonèl
                                        
                                        Kontwòl aksan
                                        
                                        Multilang
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Klonaj vwa ak kontwolè style fine-grained, konvèsyon vwa
                                
                            
                            
                                
                                    Eseye OpenVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Standard
                            
                            
                                Qwen3-TTS se yon modèl 1.7 milya dola paramèt tèks-a-parole ki soti nan ekip Qwen Alibaba a. Li sipòte twa mòd: vwa preset ak kontwòl emosyon (9 oratè), klonaj vwa soti nan jis 3 segonn odyo, ak yon mòd konsepsyon vwa inik kote ou dekri vwa ou vle nan lang natirèl.

                                
                                    
                                        Pwogramè::

                                        Alibaba (Qwen)
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh, ja, ko, de, fr, ru, pt, es, it
                                    
                                    
                                        VRAM:

                                        7GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Klonaj vwa
                                        
                                        9 preset vwa
                                        
                                        Konsepsyon vwa soti nan tèks
                                        
                                        Kontwòl emosyonèl
                                        
                                        Lang
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Kontni multilenguage ak klonaj vwa oswa konsepsyon vwa Custom
                                
                            
                            
                                
                                    Eseye Qwen3 TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) se yon modèl 1 milya dola paramèt ki fèt espesyalman pou jenere pale konvèsasyon. Li modènize modèl natirèl konvèsasyon imen an ki gen ladan tan pran vire, repons backchannel, reaksyon emosyonèl, ak koule konvèsasyon. CSM jenere son ki son tankou yon konvèsasyon imen natirèl plis pase pale sintètik.

                                
                                    
                                        Pwogramè::

                                        Sesame
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Slow
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Konvèsatif
                                        
                                        Tan natirèl
                                        
                                        Turn-taking
                                        
                                        Backchannel
                                        
                                        Paramèt 1B
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Asistan AI, chatbots, aplikasyon AI konvèsatif
                                
                            
                            
                                
                                    Eseye Sesame CSM
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Standard
                            
                            
                                Chatterbox Turbo by Resemble AI se yon ajou paramèt 350M pou Chatterbox, ki bay jiska 6x vitès tan reyèl ak latency sub-200ms. Li sipòte atik paralingwistik tankou [laugh], [cough], ak [chuckle] dirèkteman nan tèks. Gen ladann Perth watermarking sou tout odyo jenere pou suivi provenance.

                                
                                    
                                        Pwogramè::

                                        Resemble AI
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Sub-200ms latency
                                        
                                        Baliz paralengwistik
                                        
                                        6x tan reyèl
                                        
                                        Klonaj vwa
                                        
                                        Watermarking
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Ajans vwa nan tan reyèl, pale ekspresif ak son natirèl
                                
                            
                            
                                
                                    Eseye Chatterbox Turbo
                                
                            
                        
                    
                    
                    
                        
                            
                                Zonos
                                Standard
                            
                            
                                Zonos v0.1 pa Zyphra se yon modèl paramèt 1.6B ki gen ladan kontwòl emosyon fine-grained ak sliders pou kè kontan, kòlè, tristès, rèv, ak surpris. Li ofri tou de yon Transformateur ak yon nouvo SSM (modèl eta-espasyal) varyasyon. Antrene sou 200K + èdtan nan pale multilingual ak zero-shot klonaj vwa soti nan 10-30 segonn nan referans son.

                                
                                    
                                        Pwogramè::

                                        Zyphra
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, ja, zh, fr, de
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Kontwòl emosyonèl
                                        
                                        Klonaj vwa
                                        
                                        SSM achitekti
                                        
                                        Multilang
                                        
                                        Pitch/rate kontwòl
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Diskou ekspresif ak kontwòl emosyon, studio konsepsyon vwa
                                
                            
                            
                                
                                    Eseye Zonos
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia 2
                                Standard
                            
                            
                                Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).

                                
                                    
                                        Pwogramè::

                                        Nari Labs
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Rezoud
                                        
                                        Multi- oratè
                                        
                                        Low latency
                                        
                                        Atik sa a gen ladan:
                                        
                                        Output jiska 2 min
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Ajan vwa nan tan reyèl, jenerasyon dyalòg, aplikasyon streaming
                                
                            
                            
                                
                                    Eseye Dia 2
                                
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Standard
                            
                            
                                VoxCPM 1. 5 pa OpenBMB se yon nouvo modèl TTS san tokenizer ki opere nan espas kontinyèl plis ke tokens diskrèt. Li pwodwi 44. 1kHz son segondè- fidélité, sipòte klonaj vwa zero- shot soti nan 3- 10 segonn, ak kenbe konstans ant paragraf. Cross- lang klonaj pèmèt ou aplike yon vwa angle nan pale Chinwa ak vice versa.

                                
                                    
                                        Pwogramè::

                                        OpenBMB
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        44.1kHz son
                                        
                                        Tokenizer-free
                                        
                                        Klonaj ant lang
                                        
                                        Kontèks-sensitif
                                        
                                        LoRA fine-tuning
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                High-fidelity audio, audiobooks, long-form kontni ak konstan vwa
                                
                            
                            
                                
                                    Eseye VoxCPM
                                
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Free
                            
                            
                                OuteTTS pwolonje gwo modèl lang ak kapasite tèks-a-parole pandan l ap kenbe achitekti orijinal la. Li sipòte backends multiple ki gen ladan llama.cpp (CPU / GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ak menm infèrans navigatè via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

                                
                                    
                                        Pwogramè::

                                        OuteAI
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        Gratis
                                    
                                

                                
                                
                                    
                                        
                                        CPU infèrans
                                        
                                        Inferans navigatè
                                        
                                        Klonaj vwa
                                        
                                        Multiple backends
                                        
                                        Profils de haut-parleurs
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Edge deployment, TTS ki baze sou navigatè, environnements ki ba-resous
                                
                            
                            
                                
                                    Eseye OuteTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                TADA
                                Standard
                            
                            
                                TADA (Text-Acoustic Dual Alignment) pa Hume AI se yon modèl TTS inovatè ki elimine alucination a travers yon achitekti alignement doub nouvo bati sou Llama 3.2. Disponib nan 1B (an Anglè) ak 3B (multilingual) varyete, TADA rive yon RTF nan 0.09 — 5x pi vit pase modèl TTS ki baze sou LLM konparab.

                                
                                    
                                        Pwogramè::

                                        Hume AI
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        5GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Zèro alucination
                                        
                                        5x pi vit pase LLM TTS
                                        
                                        Ekspresyon emosyonèl
                                        
                                        700s audio context
                                        
                                        Alignment
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Diskou san hallucination de bon jan kalite, ekspresyon emosyonèl, infèrans rapid
                                
                            
                            
                                
                                    Eseye TADA
                                
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Standard
                            
                            
                                VibeVoice by Microsoft vini nan de varyasyon: yon modèl 1.5B pou kontni long-fòm (jouk a 90 minit, 4 oratè) ak yon Realtime 0.5B modèl pou streaming ak ~ 200ms premye latency son. varyasyon 1.5B excels nan podcasts ak liv son ak konstanson oratè sou long pasaj.

                                
                                    
                                        Pwogramè::

                                        Microsoft
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Multi- oratè
                                        
                                        jiska 90 min
                                        
                                        Podcast jenerasyon
                                        
                                        Konsistens oratè
                                        
                                        200ms streaming
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Podcasts, audiobooks, long-form multi-speaker content
                                
                            
                            
                                
                                    Eseye VibeVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Free
                            
                            
                                Pocket TTS pa Kyutai (kreyatè Moshi) se yon modèl tèks-a-parole 100M paramèt ki koube byen pi wo pase pwa li. Li kouri efikasman sou CPU, sipòte klonaj vwa zero-shot soti nan yon sèl echantiyon son, epi pwodwi pale natirèl-son. Ti gwosè modèl la fè li ideyal pou deployment edge ak anviwònman ki ba-resous.

                                
                                    
                                        Pwogramè::

                                        Kyutai
                                    
                                    
                                        Lisans::

                                        MIT
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, fr
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        Gratis
                                    
                                

                                
                                
                                    
                                        
                                        Paramèt 100M
                                        
                                        CPU infèrans
                                        
                                        Klonaj vwa
                                        
                                        Klonaj echantiyon sèl
                                        
                                        Edge- Ready
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Deployman limyè, environnements CPU-only, klonaj vwa rapid
                                
                            
                            
                                
                                    Eseye Pocket TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Free
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

                                
                                    
                                        Pwogramè::

                                        KittenML
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en
                                    
                                    
                                        VRAM:

                                        0GB
                                    
                                    
                                        Klonaj Vokal:

                                         Non
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        Gratis
                                    
                                

                                
                                
                                    
                                        
                                        CPU-only inference
                                        
                                        Under 80MB model size
                                        
                                        8 built-in voices
                                        
                                        Speed control
                                        
                                        ONNX-based
                                        
                                        24kHz output
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Fast lightweight TTS, edge deployment, low-latency applications
                                
                            
                            
                                
                                    Eseye Kitten TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Standard
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

                                
                                    
                                        Pwogramè::

                                        Alibaba (FunAudioLLM)
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Fast
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh, ja, ko, de, es, fr, it, ru
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Bi-streaming
                                        
                                        Emotion control
                                        
                                        Voice cloning
                                        
                                        Speed/volume control
                                        
                                        Instruction following
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Multilingual production TTS, real-time applications, voice cloning
                                
                            
                            
                                
                                    Eseye CosyVoice3
                                
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS
                                Premium
                            
                            
                                MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

                                
                                    
                                        Pwogramè::

                                        OpenMOSS
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Medium
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
                                    
                                    
                                        VRAM:

                                        16GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Ultra-long generation
                                        
                                        20 languages
                                        
                                        Voice cloning
                                        
                                        Duration control
                                        
                                        Pronunciation control
                                        
                                        Code-switching
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                Audiobooks, long-form content, multilingual production
                                
                            
                            
                                
                                    Eseye MOSS-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                MegaTTS3
                                Premium
                            
                            
                                MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

                                
                                    
                                        Pwogramè::

                                        ByteDance
                                    
                                    
                                        Lisans::

                                        Apache 2.0
                                    
                                    
                                        Vitès:

                                        Slow
                                    
                                    
                                        Kalite::

                                        
                                    
                                    
                                        lang:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        Klonaj Vokal:

                                         Wi
                                    
                                    
                                        Koute pou chak 1K karaktè:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Voice cloning
                                        
                                        Adjustable similarity
                                        
                                        Cross-lingual
                                        
                                    
                                
                                

                                
                                Pi bon pou:: 
                                High-fidelity voice cloning
                                
                            
                            
                                
                                    Eseye MegaTTS3
                                
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Kokoro
                                Gratis
                            
                            
                                Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
                                
                                    Pwogramè::
Hexgrad
                                    Lisans::
Apache 2.0
                                    Vitès:
Fast
                                    Kalite::

                                    lang: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
                                
                                Pi bon pou:: High-quality TTS with minimal latency, streaming applications
                            
                            
                                Eseye gratis
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Gratis
                            
                            
                                Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
                                
                                    Pwogramè::
Rhasspy
                                    Lisans::
MIT
                                    Vitès:
Fast
                                    Kalite::

                                    lang: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                
                                Pi bon pou:: Quick previews, accessibility, and embedded applications
                            
                            
                                Eseye gratis
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Gratis
                            
                            
                                VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
                                
                                    Pwogramè::
Jaehyeon Kim et al.
                                    Lisans::
MIT
                                    Vitès:
Fast
                                    Kalite::

                                    lang: en, zh, ja, ko
                                
                                Pi bon pou:: General-purpose text-to-speech with natural prosody
                            
                            
                                Eseye gratis
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Gratis
                            
                            
                                MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
                                
                                    Pwogramè::
MyShell.ai
                                    Lisans::
MIT
                                    Vitès:
Fast
                                    Kalite::

                                    lang: en, es, fr, zh, ja, ko
                                
                                Pi bon pou:: Production applications needing fast, multilingual TTS
                            
                            
                                Eseye gratis
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Gratis
                            
                            
                                OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
                                
                                    Pwogramè::
OuteAI
                                    Lisans::
Apache 2.0
                                    Vitès:
Fast
                                    Kalite::

                                    lang: en
                                
                                Pi bon pou:: Edge deployment, browser-based TTS, low-resource environments
                            
                            
                                Eseye gratis
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Gratis
                            
                            
                                Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
                                
                                    Pwogramè::
Kyutai
                                    Lisans::
MIT
                                    Vitès:
Fast
                                    Kalite::

                                    lang: en, fr
                                
                                Pi bon pou:: Lightweight deployment, CPU-only environments, quick voice cloning
                            
                            
                                Eseye gratis
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Gratis
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
                                
                                    Pwogramè::
KittenML
                                    Lisans::
Apache 2.0
                                    Vitès:
Fast
                                    Kalite::

                                    lang: en
                                
                                Pi bon pou:: Fast lightweight TTS, edge deployment, low-latency applications
                            
                            
                                Eseye gratis
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Bark
                                Standart
                            
                            
                                Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
                                
                                    Pwogramè::
Suno
                                    Lisans::
MIT
                                    Vitès:
Slow
                                    Kalite::

                                    lang:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Klonaj Vokal:
 Non
                                
                                Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
                                Pi bon pou:: Creative audio content, audiobooks with emotion, sound effects
                            
                            
                                Eseye Bark
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Standart
                            
                            
                                Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
                                
                                    Pwogramè::
Suno
                                    Lisans::
MIT
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    Klonaj Vokal:
 Non
                                
                                LightweightFaster than full BarkEmotional speechMultilingual
                                Pi bon pou:: Quick creative audio when full Bark is too slow
                            
                            
                                Eseye Bark Small
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Standart
                            
                            
                                CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
                                
                                    Pwogramè::
Alibaba (Tongyi Lab)
                                    Lisans::
Apache 2.0
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en, zh, ja, ko, fr, de, it, es
                                    Klonaj Vokal:
 Wi
                                
                                StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
                                Pi bon pou:: Real-time applications, streaming TTS, voice assistants
                            
                            
                                Eseye CosyVoice 2
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Standart
                            
                            
                                Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
                                
                                    Pwogramè::
Nari Labs
                                    Lisans::
Apache 2.0
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en
                                    Klonaj Vokal:
 Non
                                
                                Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
                                Pi bon pou:: Podcasts, audiobook dialogues, conversational content
                            
                            
                                Eseye Dia TTS
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Standart
                            
                            
                                Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
                                
                                    Pwogramè::
Hugging Face
                                    Lisans::
Apache 2.0
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en
                                    Klonaj Vokal:
 Non
                                
                                Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
                                Pi bon pou:: Creative applications where you need custom voice characteristics
                            
                            
                                Eseye Parler TTS
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                Standart
                            
                            
                                GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
                                
                                    Pwogramè::
Zhipu AI
                                    Lisans::
GLM-4 License
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en, zh
                                    Klonaj Vokal:
 Wi
                                
                                Lowest error rateVoice cloningFlow matchingNatural prosody
                                Pi bon pou:: Applications requiring maximum pronunciation accuracy
                            
                            
                                Eseye GLM-TTS
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Standart
                            
                            
                                IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
                                
                                    Pwogramè::
Index Team
                                    Lisans::
Bilibili Model License
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en, zh
                                    Klonaj Vokal:
 Wi
                                
                                Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
                                Pi bon pou:: Emotionally expressive content, audiobooks, virtual assistants
                            
                            
                                Eseye IndexTTS-2
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Standart
                            
                            
                                Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
                                
                                    Pwogramè::
SparkAudio
                                    Lisans::
CC BY-NC-SA 4.0
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en, zh
                                    Klonaj Vokal:
 Wi
                                
                                Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
                                Pi bon pou:: Content creation with cloned voices and emotional control
                            
                            
                                Eseye Spark TTS
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Standart
                            
                            
                                GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
                                
                                    Pwogramè::
RVC-Boss
                                    Lisans::
MIT
                                    Vitès:
Slow
                                    Kalite::

                                    lang:
en, zh, ja, ko
                                    Klonaj Vokal:
 Wi
                                
                                5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
                                Pi bon pou:: Voice cloning, singing synthesis, content creator voice replication
                            
                            
                                Eseye GPT-SoVITS
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Standart
                            
                            
                                Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
                                
                                    Pwogramè::
Canopy Labs
                                    Lisans::
Llama 3.2 Community
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en
                                    Klonaj Vokal:
 Non
                                
                                Human-level emotion100K hours trainingNatural emphasisExpressive speech
                                Pi bon pou:: High-quality emotional speech, audiobooks, voice acting
                            
                            
                                Eseye Orpheus
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Standart
                            
                            
                                Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
                                
                                    Pwogramè::
Alibaba (Qwen)
                                    Lisans::
Apache 2.0
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en, zh, ja, ko, de, fr, ru, pt, es, it
                                    Klonaj Vokal:
 Wi
                                
                                Voice cloning9 preset voicesVoice design from textEmotion control10 languages
                                Pi bon pou:: Multilingual content with voice cloning or custom voice design
                            
                            
                                Eseye Qwen3 TTS
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Standart
                            
                            
                                Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
                                
                                    Pwogramè::
Resemble AI
                                    Lisans::
MIT
                                    Vitès:
Fast
                                    Kalite::

                                    lang:
en
                                    Klonaj Vokal:
 Wi
                                
                                Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
                                Pi bon pou:: Real-time voice agents, expressive speech with natural sounds
                            
                            
                                Eseye Chatterbox Turbo
                            
                        
                    
                    
                    
                        
                            
                                Zonos
                                Standart
                            
                            
                                Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
                                
                                    Pwogramè::
Zyphra
                                    Lisans::
Apache 2.0
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en, ja, zh, fr, de
                                    Klonaj Vokal:
 Wi
                                
                                Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control
                                Pi bon pou:: Expressive speech with emotion control, voice design studio
                            
                            
                                Eseye Zonos
                            
                        
                    
                    
                    
                        
                            
                                Dia 2
                                Standart
                            
                            
                                Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
                                
                                    Pwogramè::
Nari Labs
                                    Lisans::
Apache 2.0
                                    Vitès:
Fast
                                    Kalite::

                                    lang:
en
                                    Klonaj Vokal:
 Non
                                
                                Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output
                                Pi bon pou:: Real-time voice agents, dialogue generation, streaming applications
                            
                            
                                Eseye Dia 2
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Standart
                            
                            
                                VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
                                
                                    Pwogramè::
OpenBMB
                                    Lisans::
Apache 2.0
                                    Vitès:
Fast
                                    Kalite::

                                    lang:
en, zh
                                    Klonaj Vokal:
 Wi
                                
                                44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
                                Pi bon pou:: High-fidelity audio, audiobooks, long-form content with voice consistency
                            
                            
                                Eseye VoxCPM
                            
                        
                    
                    
                    
                        
                            
                                TADA
                                Standart
                            
                            
                                TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
                                
                                    Pwogramè::
Hume AI
                                    Lisans::
MIT
                                    Vitès:
Fast
                                    Kalite::

                                    lang:
en
                                    Klonaj Vokal:
 Non
                                
                                Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment
                                Pi bon pou:: High-quality hallucination-free speech, emotional expression, fast inference
                            
                            
                                Eseye TADA
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Standart
                            
                            
                                VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
                                
                                    Pwogramè::
Microsoft
                                    Lisans::
MIT
                                    Vitès:
Fast
                                    Kalite::

                                    lang:
en, zh
                                    Klonaj Vokal:
 Non
                                
                                Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
                                Pi bon pou:: Podcasts, dialogues, long-form narration, multi-speaker content
                            
                            
                                Eseye VibeVoice
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Standart
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
                                
                                    Pwogramè::
Alibaba (FunAudioLLM)
                                    Lisans::
Apache 2.0
                                    Vitès:
Fast
                                    Kalite::

                                    lang:
en, zh, ja, ko, de, es, fr, it, ru
                                    Klonaj Vokal:
 Wi
                                
                                Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
                                Pi bon pou:: Multilingual production TTS, real-time applications, voice cloning
                            
                            
                                Eseye CosyVoice3
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.
                                
                                    Pwogramè::
Resemble AI
                                    Lisans::
MIT
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en
                                    Klonaj Vokal:
 Wi
                                    VRAM:
4GB
                                    Koute pou chak 1K karaktè:
4x
                                
                                Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
                                Pi bon pou:: Professional voice cloning with emotional control, content creation
                            
                            
                                Eseye Chatterbox
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.
                                
                                    Pwogramè::
James Betker
                                    Lisans::
Apache 2.0
                                    Vitès:
Slow
                                    Kalite::

                                    lang:
en
                                    Klonaj Vokal:
 Wi
                                    VRAM:
8GB
                                    Koute pou chak 1K karaktè:
4x
                                
                                Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
                                Pi bon pou:: Audiobooks, premium content, quality-first applications
                            
                            
                                Eseye Tortoise TTS
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.
                                
                                    Pwogramè::
Columbia University
                                    Lisans::
MIT
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en
                                    Klonaj Vokal:
 Non
                                    VRAM:
4GB
                                    Koute pou chak 1K karaktè:
4x
                                
                                Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
                                Pi bon pou:: Studio-quality single-speaker synthesis, professional narration
                            
                            
                                Eseye StyleTTS 2
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.
                                
                                    Pwogramè::
MyShell.ai / MIT
                                    Lisans::
MIT
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en, zh, ja, ko, fr, de, es, it
                                    Klonaj Vokal:
 Wi
                                    VRAM:
4GB
                                    Koute pou chak 1K karaktè:
4x
                                
                                Instant cloningVoice conversionEmotion controlAccent controlMultilingual
                                Pi bon pou:: Voice cloning with fine-grained style control, voice conversion
                            
                            
                                Eseye OpenVoice
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.
                                
                                    Pwogramè::
Sesame
                                    Lisans::
Apache 2.0
                                    Vitès:
Slow
                                    Kalite::

                                    lang:
en
                                    Klonaj Vokal:
 Non
                                    VRAM:
8GB
                                    Koute pou chak 1K karaktè:
4x
                                
                                ConversationalNatural timingTurn-takingBackchannel1B parameters
                                Pi bon pou:: AI assistants, chatbots, conversational AI applications
                            
                            
                                Eseye Sesame CSM
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS
                                Premium
                            
                            
                                MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
                                
                                    Pwogramè::
OpenMOSS
                                    Lisans::
Apache 2.0
                                    Vitès:
Medium
                                    Kalite::

                                    lang:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
                                    Klonaj Vokal:
 Wi
                                    VRAM:
16GB
                                    Koute pou chak 1K karaktè:
4x
                                
                                Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching
                                Pi bon pou:: Audiobooks, long-form content, multilingual production
                            
                            
                                Eseye MOSS-TTS
                            
                        
                    
                    
                    
                        
                            
                                MegaTTS3
                                Premium
                            
                            
                                MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
                                
                                    Pwogramè::
ByteDance
                                    Lisans::
Apache 2.0
                                    Vitès:
Slow
                                    Kalite::

                                    lang:
en, zh
                                    Klonaj Vokal:
 Wi
                                    VRAM:
8GB
                                    Koute pou chak 1K karaktè:
4x
                                
                                Voice cloningAdjustable similarityCross-lingual
                                Pi bon pou:: High-fidelity voice cloning
                            
                            
                                Eseye MegaTTS3
                            
                        
                    
                    
                
            
        

        
        
            Model Tab Komparasyon
            
                
                    
                        
                            Modèl
                            Pwogramè:
                            Nivo
                            Kalite:
                            Vitès
                            lang
                            Klonaj Vokal
                            VRAM
                            Lisans:
                            Kredi
                            
                        
                    
                    
                        
                        
                            Kokoro
                            Hexgrad
                            Free
                            
                            Fast
                            11
                            
                            1.5GB
                            Apache 2.0
                            Gratis
                            Itilize
                        
                        
                        
                            Piper
                            Rhasspy
                            Free
                            
                            Fast
                            31
                            
                            0 (CPU only)
                            MIT
                            Gratis
                            Itilize
                        
                        
                        
                            VITS
                            Jaehyeon Kim et al.
                            Free
                            
                            Fast
                            4
                            
                            1GB
                            MIT
                            Gratis
                            Itilize
                        
                        
                        
                            MeloTTS
                            MyShell.ai
                            Free
                            
                            Fast
                            6
                            
                            0.5GB (GPU optional)
                            MIT
                            Gratis
                            Itilize
                        
                        
                        
                            Bark
                            Suno
                            Standard
                            
                            Slow
                            13
                            
                            5GB
                            MIT
                            2
                            Itilize
                        
                        
                        
                            Bark Small
                            Suno
                            Standard
                            
                            Medium
                            13
                            
                            2GB
                            MIT
                            2
                            Itilize
                        
                        
                        
                            CosyVoice 2
                            Alibaba (Tongyi Lab)
                            Standard
                            
                            Medium
                            8
                            
                            4GB
                            Apache 2.0
                            2
                            Itilize
                        
                        
                        
                            Dia TTS
                            Nari Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            Itilize
                        
                        
                        
                            Parler TTS
                            Hugging Face
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            Itilize
                        
                        
                        
                            GLM-TTS
                            Zhipu AI
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            GLM-4 License
                            2
                            Itilize
                        
                        
                        
                            IndexTTS-2
                            Index Team
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            Bilibili Model License
                            2
                            Itilize
                        
                        
                        
                            Spark TTS
                            SparkAudio
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            CC BY-NC-SA 4.0
                            2
                            Itilize
                        
                        
                        
                            GPT-SoVITS
                            RVC-Boss
                            Standard
                            
                            Slow
                            4
                            
                            6GB
                            MIT
                            2
                            Itilize
                        
                        
                        
                            Orpheus
                            Canopy Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Llama 3.2 Community
                            2
                            Itilize
                        
                        
                        
                            Chatterbox
                            Resemble AI
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            Itilize
                        
                        
                        
                            Tortoise TTS
                            James Betker
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            Itilize
                        
                        
                        
                            StyleTTS 2
                            Columbia University
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            Itilize
                        
                        
                        
                            OpenVoice
                            MyShell.ai / MIT
                            Premium
                            
                            Medium
                            8
                            
                            4GB
                            MIT
                            4
                            Itilize
                        
                        
                        
                            Qwen3 TTS
                            Alibaba (Qwen)
                            Standard
                            
                            Medium
                            10
                            
                            7GB
                            Apache 2.0
                            2
                            Itilize
                        
                        
                        
                            Sesame CSM
                            Sesame
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            Itilize
                        
                        
                        
                            Chatterbox Turbo
                            Resemble AI
                            Standard
                            
                            Fast
                            1
                            
                            2GB
                            MIT
                            2
                            Itilize
                        
                        
                        
                            Zonos
                            Zyphra
                            Standard
                            
                            Medium
                            5
                            
                            6GB
                            Apache 2.0
                            2
                            Itilize
                        
                        
                        
                            Dia 2
                            Nari Labs
                            Standard
                            
                            Fast
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            Itilize
                        
                        
                        
                            VoxCPM
                            OpenBMB
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            Apache 2.0
                            2
                            Itilize
                        
                        
                        
                            OuteTTS
                            OuteAI
                            Free
                            
                            Fast
                            1
                            
                            2GB
                            Apache 2.0
                            Gratis
                            Itilize
                        
                        
                        
                            TADA
                            Hume AI
                            Standard
                            
                            Fast
                            1
                            
                            5GB
                            MIT
                            2
                            Itilize
                        
                        
                        
                            VibeVoice
                            Microsoft
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            MIT
                            2
                            Itilize
                        
                        
                        
                            Pocket TTS
                            Kyutai
                            Free
                            
                            Fast
                            2
                            
                            1GB
                            MIT
                            Gratis
                            Itilize
                        
                        
                        
                            Kitten TTS
                            KittenML
                            Free
                            
                            Fast
                            1
                            
                            0GB
                            Apache 2.0
                            Gratis
                            Itilize
                        
                        
                        
                            CosyVoice3
                            Alibaba (FunAudioLLM)
                            Standard
                            
                            Fast
                            9
                            
                            4GB
                            Apache 2.0
                            2
                            Itilize
                        
                        
                        
                            MOSS-TTS
                            OpenMOSS
                            Premium
                            
                            Medium
                            19
                            
                            16GB
                            Apache 2.0
                            4
                            Itilize
                        
                        
                        
                            MegaTTS3
                            ByteDance
                            Premium
                            
                            Slow
                            2
                            
                            8GB
                            Apache 2.0
                            4
                            Itilize
                        
                        
                    
                
            
        
    




    
        
            
                Pi gwo platfòm AI Text to Speech

                
                    
                        Poukisa chwazi TTS.ai pou Text to Speech?
                        TTS.ai pote ansanm mond lan
                        Chak modèl se sous louvri anba MIT, Apache 2.0, oswa lisans permissive similaire, asire w ke ou gen tout dwa komèsyal pou itilize son jenere nan pwojè ou yo.Si ou bezwen rapid, sintezis limyè pou aplikasyon an tan reyèl oswa ekstraksyon kalite studio-premium pou audiobooks ak podcasts, TTS.ai gen modèl la dwa pou chak ka itilize.

                        Modèl gratis, pa gen kont mande
                        Kòmanse imedyatman ak twa modèl TTS gratis: Piper (ultra-vitès, limyè), VITS (sintez nève bon jan kalite segondè), ak MeloTTS (sipò pou plizyè lang). Pa gen enskripsyon, pa gen kat kredi, pa gen limit sou jenerasyon. Modèl gratis yo sipòte angle ak plizyè lòt lang ak rezilta son natirèl ki apwopriye pou pifò aplikasyon.
                    
                    
                        Pwosesis akselere pa GPU
                        Tout modèl TTS yo kouri sou GPU NVIDIA dedikatè pou tan jenerasyon vit ak konstan. Modèl gratis yo jeneralman jenere odyo nan mwens pase 2 segonn. Modèl estanda tankou Kokoro, CosyVoice 2, ak Bark gen yon mwayèn de 3-5 segonn. Modèl Premium ak pi bon kalite a, tankou Tortoise ak Chatterbox, trete nan 5-15 segonn depann de longè tèks la.

                        30+ lang sipòte
                        Kreye pale nan plis pase 30 lang ki gen ladan angle, Espay, franse, Alman, Italyen, Pòtigè, Chinwa, Japonè, Koreyen, Arab, Hindi, Ris, ak anpil lòt. Diferan modèl sipòte sintezis lang, sa vle di ou ka kreye pale nan yon lang ke vwa orijinal la pa janm te antrene sou. CosyVoice 2 ak GPT-SoVITS ekselan nan klonaj vwa lang.

                        Developer-Ready API
                        Enkòpore TTS.ai nan aplikasyon ou yo ak OpenAI-kompatib REST API nou an. Yon pwen fen pou tout 20 + modèl. Python, JavaScript, cURL, ak Go SDKs. Streaming sipò pou aplikasyon an tan reyèl. Pwosesis batch pou jenerasyon kontni gwo-echèl. Webhooks pou notifikasyon async. Disponib sou Pro ak Enterprise plan.
                    
                
            
        
    









    



    
        
        
        Pou aprann plis →
        
    










    
        Kesyon ki poze souvan
        
            
                
                    
                    
                        
                            
                        
                        
                            
                                Tèks pou pale (TTS) se yon teknoloji AI ki konvèti tèks ekri nan odyo pale ki son natirèl.Modèl TTS newonik modèn tankou Kokoro, Chatterbox, ak CosyVoice 2 itilize aprann fon pou pwodwi pale ki son reyèlman imen, ak prozodi, emosyon, ak rythme natirèl.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Sa depann de bezwen ou yo. Pou yon aperçu rapid, sèvi ak Piper oswa MeloTTS (gratis, vit). Pou yon bon jan kalite, eseye Kokoro oswa CosyVoice 2 (estandard). Pou klone vwa, sèvi ak Chatterbox oswa GPT-SoVITS (premium). Pou kontni dyalòg/podcast, eseye Dia TTS. Chak modèl gen diferan fòs — eseye pou jwenn pi bon an.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Wi! TTS.ai ofri gratis tèks-a-parole ak Kokoro, Piper, VITS, ak MeloTTS modèl. Pa gen kont mande pou jiska 500 karaktè ak 3 jenerasyon pa èdtan. Enskri pou yon kont gratis pou jwenn 50 kredi ak aksè a tout modèl.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Nou TTS modèl kolekte sipòte 30 + lang ki gen ladan angle, Espay, franse, Alman, Italyen, Pòtigè, Chinwa, Japonè, Koreyen, Arab, Ris, Hindi, ak anpil plis.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Wi, son ki pwodwi pa TTS.ai ka itilize pou rezon komèsyal. Tout modèl nou yo itilize lisans sous louvri (MIT, Apache 2.0). Tcheke lisans chak modèl pou kondisyon espesifik. Nou rekòmande pou w revize lisans modèl espesifik ou itilize pou pwojè w la.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                TTS.ai sipòte MP3, WAV, OGG, ak FLAC fòma sortie. MP3 se pa défaut pou web playback. WAV se rekòmande pou plis pwosesis son. Ou ka konvèti ant fòma ki itilize nou Audio Convertisseur zouti.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Klonaj vwa itilize AI pou replike yon vwa espesifik soti nan yon echantiyon odyo kout (tipikman 5-30 segonn). Upload yon enskri klè nan vwa a objektif, ak modèl tankou Chatterbox, GPT-SoVITS, oswa OpenVoice pral jenere nouvo pale nan sa a vwa.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Itilizatè gratis ka kreye jiska 500 karaktè pou chak demann. Itilizatè ki enskri ka kreye jiska 5,000 karaktè pou chak demann. Pou tèks ki pi long, son an ka kreye an gwoup epi li ka kole ansanm otomatikman. Itilizatè API ka kreye jiska 10,000 karaktè pou chak demann.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Sipò pou SSML (Speech Synthesis Markup Language) varye selon modèl la. Piper ak kèk lòt modèl sipòte étiquettes SSML debaz pou pause, emphasis, ak kontwòl prononciation. Pou modèl san sipò SSML natif, ou ka itilize ponktiyasyon natirèl ak retounen liy pou enfliyanse prosodia.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Wi, pifò modèl yo sipòte ajisteman vitès soti nan 0.5x a 2.0x. Gen kèk modèl tankou Bark ak Parler ki pèmèt tou kontwòl ton ak style. Ou ka defini paramèt vitès nan panèl paramèt avanse a oswa via paramèt vitès API a.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Wi, pwosesis batch disponib atravè API nou an. Ou ka soumèt plizyè pati tèks nan yon sèl apèl API oswa script, epi chak pral trete epi retounen kòm dosye son separe. Sa a se ideyal pou chapit liv son, mòdul e-lekòl, oswa scripts dyalòg jwèt.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                Pwodui yon kle API soti nan tablodbò kont ou, Lè sa a, voye demann POST a REST nou an API pwen depa ak tèks ou, modèl, ak paramèt vwa.Nou bay egzanp kòd nan Python, JavaScript, ak cURL.API a se OpenAI-kompatib, se konsa entegrasyon ki egziste deja travay ak chanjman minimòm.
                            
                        
                    
                    
                
            
        
    








    
        
            
                
                
                
                
                
                
                
                
                
                
                
                
                
            
            5.0/5 (3)
        
        
            What could we improve? Your feedback helps us fix issues.
            
                
                
                
                
            
            
                
                
            
        
    







    
        Kòmanse konvèti tèks nan pale kounye a
        Join milye de kreyatè ki itilize TTS.ai. Obtenn 15,000 karaktè gratis ak yon nouvo kont. Modèles gratis ki disponib san yo pa enskripsyon.
        
            
            Enskri pou gratis
            View Pri

Pwogramè:	SparkAudio
Lisans:	CC BY-NC-SA 4.0
Vitès	Medium
Kalite:
lang	2 lang
VRAM	4GB
Klonaj Vokal	Soti nan

Modèl	Pwogramè:	Nivo	Vitès	lang	VRAM	Lisans:	Kredi
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	Gratis	Itilize
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	Gratis	Itilize
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	Gratis	Itilize
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Gratis	Itilize
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Itilize
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Itilize
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Itilize
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Itilize
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Itilize
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Itilize
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Itilize
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Itilize
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Itilize
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Itilize
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Itilize
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Itilize
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Itilize
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	Itilize
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Itilize
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Itilize
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Itilize
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	Itilize
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	Itilize
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Itilize
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Gratis	Itilize
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	Itilize
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Itilize
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Gratis	Itilize
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Gratis	Itilize
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Itilize
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	Itilize
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	Itilize