Adrodd Nam / Cais Nodweddion

VITS TTS

The end-to-end TTS architecture that combines a variational autoencoder, normalizing flows, and adversarial training.

0/500 Nodau · Cofrestru am 5,000 y genhedlaeth →

Cofrestru am gyfyngiad 5,000 nod

Modd SSML (Iaith Marcio Cyfansoddiad Lleferydd ar gyfer rheoli manwlName)

Amlapio' ch testun mewn tagiau SSML er mwyn cael rheoli cywir:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Teitl:

Tags y deall y model dewisiedig - cliciwch i daflu un i' ch testun lle mae' n digwydd:

Geiriadur Ynganiad

Diffinio ynganiad addasiedig (gair = ynganiad):

Pwynt 0

-12 +12

Fformat Ymgom Dia: Defnyddiwch y tagiau [S1] a [S2] i nodi siaradwyr gwahanol. Enghraifft:

[S1] Helo! [S2] Helo, sut ydych chi?



                

                
                
                    
                    
                        Model AI
                        
                    

                    
                    
                        
                            Llais
                            
                        
                        
                            
                            
                                
                                
                                
                            
                            
                        
                    
                
                

                
                
                    
                    
                        Iaith
                        
                    

                    
                    
                        Fformat Allbwn
                        
                    

                    
                    
                        
                            Cyflymder
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Am ddim gyda Piper, VITS, MeloTTS



        
        
            
                Bydd eich sain a gynhyrchwyd yn ymddangos yma. Dewiswch ddull, rhowch destun, a chliciwch Creu.
            
            
            
                
                
                    Methodd y Creu
                    
                
            
        

            
                
                    
                        
                            Creuwyd Sain yn Llwyddiannus
                            
                        
                        






    
        
            
                
                
                
                0:00
                
                    
                    
                        
                    
                
                
                    
                
                
            
        
    



                        
                            
                                Lawrlwytho Sain
                            
                            
                                Lawrlwytho.srt
                            
                            
                            
                            Mae'r cyswllt yn darfod mewn 24 awr
                            
                                
                                
                                
                                
                                
                            
                        
                        
                        
                            Haen rhad: defnydd personol. Trwydded fasnachol o $5/mis
                        
                        
                    
                
            
        

        
        
            
                
                    Yn rhedeg i lawr o nodau gwag
                    Derbyn 200K o nodau bob mis - $5/mis
                    neu becyn 100K am $5
                
            
            
                
                    Gwneud hwn yn eich llais eich hun
                    Clonio llais mewn 30 eiliad
                    
                
            
        

        

    
        
            
                
                    Hoffwch TTS.ai? Meddwl am eich ffrindiau!





    
        
            
                ✨ Model Llyw Premium
                
            
            
                Model llais premiwm yw hwn, ar gael ar unrhyw gynllun talu. Gallwch dal i ragolygu ei llais am ddim gyda'r botwm chwarae wrth ochr y dewisydd llais.
                
                    Datgloi lleisiau premiwm — $5/mis
                    Cymharu cynlluniau
                
            
        
    





    
        
            
                
                
                    Prynu mwy o nodau
                    
    Dim hysbysebion
    Defnydd diderfyn
    Cynhaliaeth blaenoriaeth
    Cyrchiad cynnar i nodweddion newydd


                
                

                
                    
                        Nôl Nodau






    
    
        
            Am VITS
            VITS — Variational Inference with adversarial learning for end-to-end Text-to-Speech — was introduced by Jaehyeon Kim and collaborators in 2021 and became a foundational architecture for modern neural speech. Rather than the older two-stage pipeline, it synthesizes audio in a single parallel end-to-end pass, pairing a variational autoencoder with normalizing flows and a GAN-style adversarial training process to lift naturalness. At about 25M parameters and trained on ~585 hours, it produces natural prosody at fast inference speeds and supports multiple speakers. It serves as a solid general-purpose, free baseline and underpins many later models such as Piper and MeloTTS.
            
            Gorau ar gyfer: General-purpose text-to-speech with natural prosody
            
            Pori Popeth VITS Saesneg
        
        
            
                
                    Yn syth
                    
                        Datblygwr
Jaehyeon Kim et al.
                        Trwydded
MIT
                        o Fawrth
free
                        Cyflymder
fast
                        Clonio llais
Na
                        Iaith:
English, German, Spanish, French, Portuguese, Dutch, Finnish, Hungarian, Bulgarian, Japanese, Polish
                        Uchafswm nodau
2000
                    
                
            
        
    

    
    
    VITS Saesneg
    
        
        
            
                
                    
                        
                            CSS10 (Dutch)
                            Dutch
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            CSS10 (Finnish)
                            Finnish
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            CSS10 (French)
                            French
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            CSS10 (German)
                            German
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            CSS10 (Hungarian)
                            Hungarian
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            CSS10 (Spanish)
                            Spanish
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Common Voice (Bulgarian)
                            Bulgarian
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Common Voice (Portuguese)
                            Portuguese
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            Default
                            English
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            MAI (Polish)
                            Polish
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Female
                    
                    
                    
                    
                
            
        
        
        
            
                
                    
                        
                            MAI (Ukrainian)
                            Ukrainian
                        
                        
                        
                        
                    
                    
                        Rhydd
                        
                        Neutral
                    
                    
                    
                    
                
            
        
        
    
    

    
    
    VITS TTS - Cwestiynau Cyffredin
    
        
        
            
                
            
            
                VITS means Variational Inference with adversarial learning for end-to-end Text-to-Speech. It generates audio in a single parallel pass using a variational autoencoder, normalizing flows, and adversarial (GAN) training, rather than a two-stage pipeline.
            
        
        
        
            
                
            
            
                Yes. VITS is MIT-licensed and in the free tier, so it can be used commercially.
            
        
        
        
            
                
            
            
                On TTS.ai, VITS covers 11 languages including English, German, Spanish, French, Portuguese, Dutch, Finnish, Hungarian, Bulgarian, Japanese, and Polish, with multi-speaker support. It does not do voice cloning.
            
        
        
    
    

    ← Pob llais

VITS TTS

Hoffwch TTS.ai? Meddwl am eich ffrindiau!

Am VITS

Yn syth

VITS Saesneg

CSS10 (Dutch)

CSS10 (Finnish)

CSS10 (French)

CSS10 (German)

CSS10 (Hungarian)

CSS10 (Spanish)

Common Voice (Bulgarian)

Common Voice (Portuguese)

Default

MAI (Polish)

MAI (Ukrainian)

VITS TTS - Cwestiynau Cyffredin

What does VITS stand for and how does it work?

Is VITS free for commercial use?

What languages does VITS support?