MOSS-TTSD TTS

A 7B dialogue model that continues conversations from an audio prompt — up to five speakers and 60 minutes of coherent audio.

0/500 karakterek · Feliratkozás 5000 generációnként →

Regisztrálj! 5000 karakterhatárra

SSML- mód (Beszédszintézis Markup Nyelv a finom kontroll)

Írja be a szöveget az SSML címkékbe a pontos vezérlés érdekében:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Érzelmi / stílus címkék

A kijelölt modell tagjeiben a ~ kattintson az alábbi szövegbe:

Kiejtési szótár

Definiáld az egyéni kiejtéseket (szó = kiejtés):

Szurok 0

-12 +12

Dia- dialog formátum: Használjon

[S1]  és [S2]  címkéket a különböző hangszórók megjelölésére. Példa: [S1] Hello there! [S2] Szia, hogy vagy?



                

                
                
                    
                    
                        AI-modell
                        
                    

                    
                    
                        
                            Hang
                            
                        
                        
                            
                            
                                
                                
                                
                            
                            
                        
                    
                
                

                
                
                    
                    
                        Nyelv
                        
                    

                    
                    
                        Kimeneti formátum
                        
                    

                    
                    
                        
                            Sebesség
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Szabad Piper, VITS, MelotTS



        
        
            
                A generált audio jelenik meg itt. Válasszon ki egy modellt, írja be a szöveget, és kattintson a Generate gombra.
            
            
            
                
                
                    Nem sikerült generáció
                    
                
            
        

            
                
                    
                        
                            Audio generált sikeresen
                            
                        
                        






    
        
            
                
                
                
                0:00
                
                    
                    
                        
                    
                
                
                    
                
                
            
        
    



                        
                            
                                Audio letöltése
                            
                            
                                Letöltés.srt
                            
                            
                            
                            A kapcsolat 24 órán belül lejár
                            
                                
                                
                                
                                
                                
                            
                        
                        
                        
                            Ingyenes szint: személyes használat. Kereskedelmi engedély 5 dollárról
                        
                        
                    
                
            
        

        
        
            
                
                    A szabad karakterek alacsony száma
                    Kap 200 ezer karakter minden hónapban ~ $5/mo
                    vagy egyszer 100 ezer dolláros csomag 5 dollárért
                
            
            
                
                    Tedd ezt a saját hangoddá.
                    Klón egy hang 30 másodperc múlva
                    
                
            
        

        

    
        
            
                
                    Mondd el a barátaidnak!





    
        
            
                ✨ Premium hangmodell
                
            
            
                Ez egy prémium hangmodell, elérhető bármely fizetett terv. Még mindig megtekintheti a hangokat ingyen a lejátszás gomb mellett a hangszedő.
                
                    Nyisd ki a prémium hangokat ~ $5/mo
                    Összehasonlító tervek
                
            
        
    





    
        
            
                
                
                    Vásároljon több karaktert
                    
    Nincs hirdetés.
    Korlátlan használat
    Prioritási támogatás
    Az új funkciókhoz való korai hozzáférés


                
                

                
                    
                        Szerezz több karaktert






    
    
        
            About MOSS-TTSD
            MOSS-TTSD v1.0 from OpenMOSS is a 7-billion-parameter dialogue text-to-speech model that continues a conversation from a short audio prompt rather than reading isolated lines. It handles up to five simultaneous speakers via [S1]/[S2]-style tags, zero-shot voice cloning from 3-to-10-second references, and stretches of coherent multi-turn dialogue up to 60 minutes long. It is distinct from the OpenMOSS MOSS-TTS model — the TTSD variant is specialized for podcast, audiobook, and dubbing workflows where long, consistent conversational audio is the goal. Released under Apache 2.0, it needs around 12GB of VRAM given its size.
            
            Legjobb: Podcasts, audiobooks, dubbed dialogue, conversational content with multiple voices
            
            Összes böngészés MOSS-TTSD hangok
        
        
            
                
                    Egy pillantásra
                    
                        Fejlesztő
OpenMOSS
                        Jogosítvány
Apache 2.0
                        Tier
standard
                        Sebesség
medium
                        Hang klónozása
Igen.
                        Nyelvek
English, Chinese
                        Max. karakterek
5000
                    
                
            
        
    

    
    
    MOSS-TTSD hangok
    
        
        
            
                
                    
                        
                            Default (Chinese)
                            Chinese
                        
                        
                        
                        
                    
                    
                        Szabvány
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Default Speaker
                            English
                        
                        
                        
                        
                    
                    
                        Szabvány
                        Neutral
                    
                    
                    
                    
                
            
        
        
    
    

    
    
    MOSS-TTSD TTS - FAQCharselect unicode block name (optional, probably does not need a translation)
    
        
        
            
                
            
            
                Up to five simultaneous speakers, addressed via speaker tags like [S1] and [S2], with the ability to clone each voice from a short reference clip.
            
        
        
        
            
                
            
            
                It can produce up to 60 minutes of coherent multi-turn dialogue, which is what makes it suited to full podcast episodes and audiobook chapters rather than short clips.
            
        
        
        
            
                
            
            
                MOSS-TTSD is a dialogue-specialized variant that continues conversations from an audio prompt and targets podcast, audiobook, and dubbing workflows, whereas the base MOSS-TTS is a general single-voice synthesis model.
            
        
        
    
    

    ← Minden hang

MOSS-TTSD TTS

Mondd el a barátaidnak!

About MOSS-TTSD

Egy pillantásra

MOSS-TTSD hangok

Default (Chinese)

Default Speaker

MOSS-TTSD TTS - FAQCharselect unicode block name (optional, probably does not need a translation)

How many speakers can MOSS-TTSD generate?

How long can MOSS-TTSD audio be?

How is MOSS-TTSD different from MOSS-TTS?