Rapportera fel/funktionsförfrågan

VITS TTS-värden

The end-to-end TTS architecture that combines a variational autoencoder, normalizing flows, and adversarial training.

Texten
Filer

0/500 tecken · Anmäl dig till 5000 per generation →

Registrera dig för 5 000 teckengräns

SSML- läge (Talsyntes Markup Språk för fin kontroll)

Radera din text i SSML-taggar för exakt kontroll:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Känslor / stiltaggar

Taggar den valda modellen förstår — klicka för att släppa en i din text där det händer:

Uttalsordbok

Definiera egna uttal (ord = uttal):

Pitch 0

-12 +12

Förlaga till AI

Röst

Språk

Utmatningsformat

Varvtal 1.0x

0.5x 2.0x

Gratis med Piper, VITS, Melotts

Ditt genererade ljud visas här. Välj en modell, skriv in text och klicka på Generera.

Om jag inte kan VITS

VITS — Variational Inference with adversarial learning for end-to-end Text-to-Speech — was introduced by Jaehyeon Kim and collaborators in 2021 and became a foundational architecture for modern neural speech. Rather than the older two-stage pipeline, it synthesizes audio in a single parallel end-to-end pass, pairing a variational autoencoder with normalizing flows and a GAN-style adversarial training process to lift naturalness. At about 25M parameters and trained on ~585 hours, it produces natural prosody at fast inference speeds and supports multiple speakers. It serves as a solid general-purpose, free baseline and underpins many later models such as Piper and MeloTTS.

Bäst för: General-purpose text-to-speech with natural prosody

Bläddra alla VITS röster

Med en blick

Utvecklare: Jaehyeon Kim et al.
Licens: MIT
Nivå: free
Varvtal: fast
Röstkloning: Ej tillämpligt
Språk: English, German, Spanish, French, Portuguese, Dutch, Finnish, Hungarian, Bulgarian, Japanese, Polish
Max tecken: 2000

VITS röster

CSS10 (Dutch)

Dutch

Avgiftsfri Neutral

CSS10 (Finnish)

Finnish

Avgiftsfri Neutral

CSS10 (French)

French

Avgiftsfri Neutral

CSS10 (German)

German

Avgiftsfri Neutral

CSS10 (Hungarian)

Hungarian

Avgiftsfri Neutral

CSS10 (Spanish)

Spanish

Avgiftsfri Neutral

Common Voice (Bulgarian)

Bulgarian

Avgiftsfri Neutral

Common Voice (Portuguese)

Portuguese

Avgiftsfri Neutral

Default

English

Avgiftsfri Neutral

MAI (Polish)

Polish

Avgiftsfri Female

MAI (Ukrainian)

Ukrainian

Avgiftsfri Neutral

VITS TTS – FAQ

VITS means Variational Inference with adversarial learning for end-to-end Text-to-Speech. It generates audio in a single parallel pass using a variational autoencoder, normalizing flows, and adversarial (GAN) training, rather than a two-stage pipeline.

Yes. VITS is MIT-licensed and in the free tier, so it can be used commercially.

On TTS.ai, VITS covers 11 languages including English, German, Spanish, French, Portuguese, Dutch, Finnish, Hungarian, Bulgarian, Japanese, and Polish, with multi-speaker support. It does not do voice cloning.

← Alla röster

VITS TTS-värden

Berätta för dina vänner!

Om jag inte kan VITS

Med en blick

VITS röster

CSS10 (Dutch)

CSS10 (Finnish)

CSS10 (French)

CSS10 (German)

CSS10 (Hungarian)

CSS10 (Spanish)

Common Voice (Bulgarian)

Common Voice (Portuguese)

Default

MAI (Polish)

MAI (Ukrainian)

VITS TTS – FAQ

What does VITS stand for and how does it work?

Is VITS free for commercial use?

What languages does VITS support?