Adrodd Nam / Cais Nodweddion

Ming-Omni TTS TTS

A compact 0.5B omni-modal speech model with near-CD-quality 44.1kHz output and zero-shot voice cloning.

0/500 Nodau · Cofrestru am 5,000 y genhedlaeth →

Cofrestru am gyfyngiad 5,000 nod

Modd SSML (Iaith Marcio Cyfansoddiad Lleferydd ar gyfer rheoli manwlName)

Amlapio' ch testun mewn tagiau SSML er mwyn cael rheoli cywir:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Teitl:

Tags y deall y model dewisiedig - cliciwch i daflu un i' ch testun lle mae' n digwydd:

Geiriadur Ynganiad

Diffinio ynganiad addasiedig (gair = ynganiad):

Pwynt 0

-12 +12

Fformat Ymgom Dia: Defnyddiwch y tagiau [S1] a [S2] i nodi siaradwyr gwahanol. Enghraifft:

[S1] Helo! [S2] Helo, sut ydych chi?



                

                
                
                    
                    
                        Model AI
                        
                    

                    
                    
                        
                            Llais
                            
                        
                        
                            
                            
                                
                                
                                
                            
                            
                        
                    
                
                

                
                
                    
                    
                        Iaith
                        
                    

                    
                    
                        Fformat Allbwn
                        
                    

                    
                    
                        
                            Cyflymder
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Am ddim gyda Piper, VITS, MeloTTS



        
        
            
                Bydd eich sain a gynhyrchwyd yn ymddangos yma. Dewiswch ddull, rhowch destun, a chliciwch Creu.
            
            
            
                
                
                    Methodd y Creu
                    
                
            
        

            
                
                    
                        
                            Creuwyd Sain yn Llwyddiannus
                            
                        
                        






    
        
            
                
                
                
                0:00
                
                    
                    
                        
                    
                
                
                    
                
                
            
        
    



                        
                            
                                Lawrlwytho Sain
                            
                            
                                Lawrlwytho.srt
                            
                            
                            
                            Mae'r cyswllt yn darfod mewn 24 awr
                            
                                
                                
                                
                                
                                
                            
                        
                        
                        
                            Haen rhad: defnydd personol. Trwydded fasnachol o $5/mis
                        
                        
                    
                
            
        

        
        
            
                
                    Yn rhedeg i lawr o nodau gwag
                    Derbyn 200K o nodau bob mis - $5/mis
                    neu becyn 100K am $5
                
            
            
                
                    Gwneud hwn yn eich llais eich hun
                    Clonio llais mewn 30 eiliad
                    
                
            
        

        

    
        
            
                
                    Hoffwch TTS.ai? Meddwl am eich ffrindiau!





    
        
            
                ✨ Model Llyw Premium
                
            
            
                Model llais premiwm yw hwn, ar gael ar unrhyw gynllun talu. Gallwch dal i ragolygu ei llais am ddim gyda'r botwm chwarae wrth ochr y dewisydd llais.
                
                    Datgloi lleisiau premiwm — $5/mis
                    Cymharu cynlluniau
                
            
        
    





    
        
            
                
                
                    Prynu mwy o nodau
                    
    Dim hysbysebion
    Defnydd diderfyn
    Cynhaliaeth blaenoriaeth
    Cyrchiad cynnar i nodweddion newydd


                
                

                
                    
                        Nôl Nodau






    
    
        
            Am Ming-Omni TTS
            Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a patch-by-patch flow-matching audio decoder. Despite its small 500M-parameter size, it outputs 44.1kHz audio approaching CD quality and supports zero-shot voice cloning from a reference of three seconds or more. It includes built-in emotion, dialect, and even background-music control driven by JSON instructions, and is notably stable — reporting a 0.83% word error rate on Chinese benchmarks. With Apache 2.0 licensing and modest 3GB VRAM needs, it fits high-fidelity bilingual narration, emotion-controlled voice acting, and Chinese audiobook production.
            
            Gorau ar gyfer: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content
            
            Pori Popeth Ming-Omni TTS Saesneg
        
        
            
                
                    Yn syth
                    
                        Datblygwr
inclusionAI
                        Trwydded
Apache 2.0
                        o Fawrth
free
                        Cyflymder
medium
                        Clonio llais
IeQShortcut
                        Iaith:
English, Chinese
                        Uchafswm nodau
1000
                    
                
            
        
    

    
    
    Ming-Omni TTS Saesneg
    
        
        
            
                
                    
                        
                            Default
                            English
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Default (Chinese)
                            Chinese
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
    
    

    
    
    Ming-Omni TTS TTS - Cwestiynau Cyffredin
    
        
        
            
                
            
            
                It outputs 44.1kHz audio, close to CD quality — high for a model of only 0.5B parameters — thanks to its patch-by-patch flow-matching audio decoder.
            
        
        
        
            
                
            
            
                Beyond voice cloning, it supports emotion, dialect, and background-music control via JSON instructions, and it is very stable, reporting a 0.83% word error rate on Chinese benchmarks.
            
        
        
        
            
                
            
            
                English and Chinese, with zero-shot voice cloning from a reference clip of three seconds or longer.
            
        
        
    
    

    ← Pob llais

Ming-Omni TTS TTS

Hoffwch TTS.ai? Meddwl am eich ffrindiau!

Am Ming-Omni TTS

Yn syth

Ming-Omni TTS Saesneg

Default

Default (Chinese)

Ming-Omni TTS TTS - Cwestiynau Cyffredin

What audio quality does Ming-Omni TTS produce?

What control does Ming-Omni TTS offer?

Which languages does Ming-Omni TTS support?