VoxCPM TTS

A tokenizer-free TTS model that works in continuous space, outputs 44.1kHz audio, and stays consistent across paragraphs.

0/500 karakterek · Feliratkozás 5000 generációnként →

Regisztrálj! 5000 karakterhatárra

SSML- mód (Beszédszintézis Markup Nyelv a finom kontroll)

Írja be a szöveget az SSML címkékbe a pontos vezérlés érdekében:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Érzelmi / stílus címkék

A kijelölt modell tagjeiben a ~ kattintson az alábbi szövegbe:

Kiejtési szótár

Definiáld az egyéni kiejtéseket (szó = kiejtés):

Szurok 0

-12 +12

Dia- dialog formátum: Használjon

[S1]  és [S2]  címkéket a különböző hangszórók megjelölésére. Példa: [S1] Hello there! [S2] Szia, hogy vagy?



                

                
                
                    
                    
                        AI-modell
                        
                    

                    
                    
                        
                            Hang
                            
                        
                        
                            
                            
                                
                                
                                
                            
                            
                        
                    
                
                

                
                
                    
                    
                        Nyelv
                        
                    

                    
                    
                        Kimeneti formátum
                        
                    

                    
                    
                        
                            Sebesség
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Szabad Piper, VITS, MelotTS



        
        
            
                A generált audio jelenik meg itt. Válasszon ki egy modellt, írja be a szöveget, és kattintson a Generate gombra.
            
            
            
                
                
                    Nem sikerült generáció
                    
                
            
        

            
                
                    
                        
                            Audio generált sikeresen
                            
                        
                        






    
        
            
                
                
                
                0:00
                
                    
                    
                        
                    
                
                
                    
                
                
            
        
    



                        
                            
                                Audio letöltése
                            
                            
                                Letöltés.srt
                            
                            
                            
                            A kapcsolat 24 órán belül lejár
                            
                                
                                
                                
                                
                                
                            
                        
                        
                        
                            Ingyenes szint: személyes használat. Kereskedelmi engedély 5 dollárról
                        
                        
                    
                
            
        

        
        
            
                
                    A szabad karakterek alacsony száma
                    Kap 200 ezer karakter minden hónapban ~ $5/mo
                    vagy egyszer 100 ezer dolláros csomag 5 dollárért
                
            
            
                
                    Tedd ezt a saját hangoddá.
                    Klón egy hang 30 másodperc múlva
                    
                
            
        

        

    
        
            
                
                    Mondd el a barátaidnak!





    
        
            
                ✨ Premium hangmodell
                
            
            
                Ez egy prémium hangmodell, elérhető bármely fizetett terv. Még mindig megtekintheti a hangokat ingyen a lejátszás gomb mellett a hangszedő.
                
                    Nyisd ki a prémium hangokat ~ $5/mo
                    Összehasonlító tervek
                
            
        
    





    
        
            
                
                
                    Vásároljon több karaktert
                    
    Nincs hirdetés.
    Korlátlan használat
    Prioritási támogatás
    Az új funkciókhoz való korai hozzáférés


                
                

                
                    
                        Szerezz több karaktert






    
    
        
            About VoxCPM
            VoxCPM 1.5 by OpenBMB takes an unusual approach: instead of converting speech into discrete tokens, it operates directly in continuous space, which helps it preserve fine acoustic detail. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from three to ten seconds of reference, and maintains a consistent voice across long passages — a common failure point for other models on multi-paragraph text. Its cross-language cloning lets an English reference voice speak Chinese and vice versa. With Apache 2.0 licensing and LoRA fine-tuning support, it is well suited to audiobooks and long-form content where voice consistency over many paragraphs is essential.
            
            Legjobb: High-fidelity audio, audiobooks, long-form content with voice consistency
            
            Összes böngészés VoxCPM hangok
        
        
            
                
                    Egy pillantásra
                    
                        Fejlesztő
OpenBMB
                        Jogosítvány
Apache 2.0
                        Tier
standard
                        Sebesség
fast
                        Hang klónozása
Igen.
                        Nyelvek
English, Chinese
                        Max. karakterek
2000
                    
                
            
        
    

    
    
    VoxCPM hangok
    
        
        
            
                
                    
                        
                            Default
                            English
                        
                        
                        
                        
                    
                    
                        Szabvány
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Default Chinese
                            Chinese
                        
                        
                        
                        
                    
                    
                        Szabvány
                        Neutral
                    
                    
                    
                    
                
            
        
        
    
    

    
    
    VoxCPM TTS - FAQCharselect unicode block name (optional, probably does not need a translation)
    
        
        
            
                
            
            
                Rather than discretizing speech into tokens, VoxCPM models audio in continuous space using flow matching. This helps it retain subtle acoustic detail and produce clean 44.1kHz output.
            
        
        
        
            
                
            
            
                Yes. It is specifically designed to keep the voice consistent across paragraphs, which makes it well suited to audiobooks and other long passages where other models tend to drift.
            
        
        
        
            
                
            
            
                Yes. It supports cross-lingual cloning between English and Chinese — for example applying an English reference voice to Chinese speech — from three to ten seconds of audio.
            
        
        
    
    

    ← Minden hang

VoxCPM TTS

Mondd el a barátaidnak!

About VoxCPM

Egy pillantásra

VoxCPM hangok

Default

Default Chinese

VoxCPM TTS - FAQCharselect unicode block name (optional, probably does not need a translation)

What does "tokenizer-free" mean for VoxCPM?

Is VoxCPM good for long-form content?

Can VoxCPM clone voices across languages?