Rapò erè / demann fonksyonèl

CosyVoice3 TTS

Alibaba FunAudioLLM's latest multilingual model with ~150ms bi-streaming, instruction control, and zero-shot cloning.

0/500 karaktè · Enskri pou 5,000 pou chak jenerasyon →

Enskri Limit pou 5,000 karaktè

Mod SSML (Speech Synthesis Markup Language pou kontwolè fin)

Wrap ou tèks nan SSML tags pou presizyon kontwòl:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emosyon / Style Tags

Tags ke modèl la chwazi konprann — klike pou mete yon nan tèks ou kote li rive:

Diksyonè Pronunciation

Define prononciations Custom (mot = prononciation):

Pitch 0

-12 +12

Dia Dialog Format: Itilize [S1] ak [S2] atik pou make diferan pale. Egzanp:

[S1] Bonjou! [S2] Bonjou, kijan ou ye?



                

                
                
                    
                    
                        Modèl AI
                        
                    

                    
                    
                        
                            Voy
                            
                        
                        
                            
                            
                                
                                
                                
                            
                            
                        
                    
                
                

                
                
                    
                    
                        Lang
                        
                    

                    
                    
                        Format de sortie
                        
                    

                    
                    
                        
                            Vitès
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Gratis ak Piper, VITS, MeloTTS



        
        
            
                Son ou kreye a ap parèt isit la. Chwazi yon modèl, antre tèks la, epi klike Kreye.
            
            
            
                
                
                    Génération a échoué
                    
                
            
        

            
                
                    
                        
                            Audio Generated Successfully
                            
                        
                        






    
        
            
                
                
                
                0:00
                
                    
                    
                        
                    
                
                
                    
                
                
            
        
    



                        
                            
                                Telechaje son
                            
                            
                                Telechaje.srt
                            
                            
                            
                            Link expires in 24h
                            
                                
                                
                                
                                
                                
                            
                        
                        
                        
                            Free tier: itilize pèsonèl. Lisans Komèsyal soti nan $5/mo
                        
                        
                    
                
            
        

        
        
            
                
                    Karakteris ki disponib yo ba
                    Jwenn 200K karaktè chak mwa — $5/mo
                    oswa yon pake 100K yon sèl fwa pou $5
                
            
            
                
                    Fè sa a ou pwòp vwa ou
                    Klone yon vwa nan 30 segonn
                    
                
            
        

        

    
        
            
                
                    Love TTS.ai? Di zanmi ou yo!





    
        
            
                ✨ Modèl Voy Premium
                
            
            
                Sa a se yon modèl vwa premium, disponib sou nenpòt plan peye. Ou ka toujou wè voyi li yo gratis ak bouton jwe a bò kote chwazi vwa a.
                
                    Deblotché voyis prim — $5/mo
                    Konpare plan
                
            
        
    





    
        
            
                
                
                    Achte plis karaktè
                    
    Pa gen piblisite
    Itilizasyon san limit
    Priyorite
    Akses pi bonè pou karakteristik nouvo


                
                

                
                    
                        Obtenn plis karaktè






    
    
        
            Atik CosyVoice3
            CosyVoice3 is the newest generation from Alibaba's FunAudioLLM team and a clear step up from CosyVoice 2. It introduces bi-streaming inference with roughly 150ms latency and instruction-based control, letting you steer emotion, speed, and volume through prompts. Speaker similarity for zero-shot voice cloning is improved, and coverage spans 9 languages plus 18 Chinese dialects. An RL-tuned variant pushes prosody to a state-of-the-art level. With a 5,000-character ceiling, fast generation, and strong cloning, it's geared toward multilingual production TTS and real-time applications.
            
            Pi bon pou: Multilingual production TTS, real-time applications, voice cloning
            
            Navigue tout CosyVoice3 Voy
        
        
            
                
                    Yon ti gade
                    
                        Pwogramè
Alibaba (FunAudioLLM)
                        Lisans
Apache 2.0
                        Nivo
standard
                        Vitès
fast
                        Klonaj vwa
Wi
                        Lang
English, Chinese, Japanese, Korean, German, Spanish, French, Italian, Russian
                        Karakteris maksimòm
5000
                    
                
            
        
    

    
    
    CosyVoice3 Voy
    
        
        
            
                
                    
                        
                            Chinese Female
                            Chinese
                        
                        
                        
                        
                    
                    
                        Standart
                        Female
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Chinese Male
                            Chinese
                        
                        
                        
                        
                    
                    
                        Standart
                        Male
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            English Female
                            English
                        
                        
                        
                        
                    
                    
                        Standart
                        Female
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            English Male
                            English
                        
                        
                        
                        
                    
                    
                        Standart
                        Male
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            French Female
                            French
                        
                        
                        
                        
                    
                    
                        Standart
                        Female
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            German Female
                            German
                        
                        
                        
                        
                    
                    
                        Standart
                        Female
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Italian Female
                            Italian
                        
                        
                        
                        
                    
                    
                        Standart
                        Female
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Japanese Female
                            Japanese
                        
                        
                        
                        
                    
                    
                        Standart
                        Female
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Korean Female
                            Korean
                        
                        
                        
                        
                    
                    
                        Standart
                        Female
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Russian Female
                            Russian
                        
                        
                        
                        
                    
                    
                        Standart
                        Female
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Spanish Female
                            Spanish
                        
                        
                        
                        
                    
                    
                        Standart
                        Female
                    
                    
                    
                    
                
            
        
        
    
    

    
    
    CosyVoice3 TTS — FAQ
    
        
        
            
                
            
            
                CosyVoice3 adds bi-streaming inference at around 150ms latency, instruction-based control over emotion/speed/volume, improved speaker similarity for cloning, and coverage of 9 languages plus 18 Chinese dialects, with an RL-tuned variant for state-of-the-art prosody.
            
        
        
        
            
                
            
            
                Yes. It supports zero-shot voice cloning from a reference clip (around 3 seconds minimum) with improved speaker similarity over the previous generation.
            
        
        
        
            
                
            
            
                Yes. CosyVoice3 is licensed under Apache 2.0, permitting commercial use.
            
        
        
    
    

    ← Tout vwa

CosyVoice3 TTS

Love TTS.ai? Di zanmi ou yo!

Atik CosyVoice3

Yon ti gade

CosyVoice3 Voy

Chinese Female

Chinese Male

English Female

English Male

French Female

German Female

Italian Female

Japanese Female

Korean Female

Russian Female

Spanish Female

CosyVoice3 TTS — FAQ

What makes CosyVoice3 different from CosyVoice 2?

Does CosyVoice3 support voice cloning?

Is CosyVoice3 free for commercial use?