AI Text-zu-Sprooch
Konvertéiert Text a Sprooch mat méi wéi 24 Open-Source AI Modeller. Gratis ze benotzen, kee Kont néideg.
Wrap your text in SSML tags for precise control:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Emoticon-Marker hinzufügen fir d'Liesung ze beaflossen (Modellunterstützung variéiert):
Eegen Aussproochen definéieren (Wuert = Aussprooch):
Modelldetailer
CosyVoice3
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
| Entwéckler: | Alibaba (FunAudioLLM) |
| Lizenz: | Apache 2.0 |
| Geschwindegkeet | Fast |
| Qualitéit: | |
| Sproochen | 9 Sproochen |
| VRAM | 4GB |
| Stëmmklonung | Ënnerstëtzt |
Tipps fir besser Resultater
- Korrekt Zeichensetzung fir natierlech Pausen a Intonatioun benotzen
- Zifferen an Ofkierzunge fir eng kloer Aussprooch buchstabéieren
- Komma'en bäifügen fir kuerz Pausen tëscht Sätz ze kreéieren
- Benotzt Elipsen (...) fir méi laang dramatesch Pausen
- Probéiert Kokoro oder CosyVoice 2 fir déi natierlechst Resultater
- Dia fir Multi-Sprecher-Dialog a Podcast-Inhalt benotze
Kreditkoart
| Tier | Präis pro 1K Zeichen |
|---|---|
| Fräi | 1:1 (fräi) |
| Standard | 2x Zeichen |
| Premium | 4x Zeichen |
Lëscht vu lëtzebuergesche Schrëftsteller
Generéiert professionell Voiceoveren an dräi einfache Schrëtt. Keng technesch Kenntnisser néideg.
Gitt Ären Text an
Tippen, fügen oder laden de Text deen Dir an Sprooch ëmwandelen wëllt. Ënnerstëtzt bis zu 5. 000 Zeichen pro Generatioun fir ugemellt Benotzer. Benotzt einfache Text oder fügt SSML Tags fir erweidert Kontroll iwwer Aussprooch, Pausen a Betonung.
Modell a Stëmm auswielen
Wielt aus méi wéi 20 KI-Modeller op dräi Niveauen. Wielt eng Stëmm, déi Ärem Inhalt entsprécht, wielt Är Zilsprooch, passt d'Wiedergabegeschwindegkeet vun 0,5x op 2,0x un, a wielt Äert bevorzugt Ausgabeformat (MP3, WAV, OGG oder FLAC).
Erstelle & Herunterladen
Klickt op Generéieren an Ären Audio ass an e puer Sekonnen fäerdeg. Kuckt eng Virschau mat dem integréierte Player, lued et am Format vun Ärer Wiel erof, oder kopéiert e Link fir ze deelen. Benotzt d'API fir Batchveraarbechtung an d'Integratioun an Äre Workflow.
Text zu Sprooch
D'Sproochewëssenschaft beschäftegt sech mat der Entwécklung, der Entwécklung an der Entwécklung vun de Sproochen.
Text-zu-Sprooch-Modeller
Detailléiert Spezifikatiounen fir all KI-Modell verfügbar op TTS.ai. Verglach Qualitéit, Geschwindegkeet, Sproochunterstützung an Features fir de perfekte Modell fir Äert Projet ze fannen.
Kokoro
Free
Kokoro ass en Text-zu-Sprooch-Modell mat 82 Milliounen Parameteren, deen iwwer seng Gewiichtsklass erauskënnt. Trotz senger klenger Gréisst produzéiert et bemierkenswäert natierlech a expressiv Sprooch. Kokoro ënnerstëtzt verschidde Sproochen, dorënner Englesch, Japanesch, Chinesesch a Koreanesch mat enger Vielfalt expressiver Stimmen. Et leeft onheemlech séier - et generéiert Audio bal 100x méi séier wéi Echtzäit op enger GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Nee
Fräi
Piper
Free
Piper ass eng liicht Text-zu-Sprooch-Engine, déi vu Rhasspy entwéckelt gouf an déi VITS an larynx Architekturen benotzt. Si leeft komplett op CPU, wat se ideal fir Edge-Geräter, Home Automation an Applikatiounen mécht, déi offline TTS erfuerderen. Mat méi wéi 100 Stimmen a méi wéi 30 Sproochen, liwwert Piper natierlech klingend Sprooch mat Echtzäitgeschwindegkeet och op engem Raspberry Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Nee
Fräi
VITS
Free
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) ass eng parallel End-to-End TTS-Methode, déi méi natierlech klengen Audio generéiert wéi aktuell zweestufig Modeller. Et hëlt variational Inference mat normaliséierende Flëssegkeeten an engem adversarialen Trainingsprozess un, wat eng bedeitend Verbesserung an der Natierlechkeet erzielt.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Nee
Fräi
MeloTTS
Free
MeloTTS by MyShell. ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at almost real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Nee
Fräi
Bark
Standard
Bark vum Suno ass e Transformator-baséierte Text-zu-Audio-Modell, dat héich realistisch, méisproocheg Sprooch souwéi aner Audio wéi Musek, Hintergrundgeräischer a Klangeffekter generéiere kann. Et kann nonverbal Kommunikatioun wéi Lachen, Seufzen a Weinen produzéieren. Bark ënnerstëtzt iwwer 100 Sprecher-Voreinstellungen a méi wéi 13 Sproochen.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Nee
2x
Bark Small
Standard
Bark Small ass eng destilléiert Versioun vum Bark-Modell, dat e puer Audioqualitéit fir wesentlech méi séier Inferenzgeschwindegkeeten a manner Speicherbedierfnesser austauscht. Et behält d'Fäegkeet vu Bark fir Sprooch mat Emotiounen, Lachen a méi Sproochen ze generéieren.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Nee
2x
CosyVoice 2
Standard
CosyVoice 2 vum Alibaba's Tongyi Lab erreecht eng Sproochqualitéit déi mat där vun engem Mënsch verglach ka ginn, mat extrem niddereg Latenz, wat et ideal fir Echtzäit-Applikatiounen mécht. Et benotzt eng finit skalär Quantiséierung fir Streaming-Synthese an ënnerstëtzt Zero-Shot Sproochklonen, Synthese tëscht Sproochen, a fein-grained Emotiounskontroll. Et iwwerhëlt vill kommerziell TTS-Systemer an subjektiven Evaluatiounen.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Ja
2x
Dia TTS
Standard
Dia vun Nari Labs ass e 1.6B Parameter Text-zu-Sprooch Modell speziell entwéckelt fir Multi-Sprecher Dialoger ze generéieren. Et kann natierlech klingend Gespréicher tëscht zwee Sprecher mat passenden Turn-taking, Prosody, an emotionalen Ausdrock produzéieren. Dia ass perfekt fir Podcast-Stil Inhalt, Audiobook Dialoger, an interaktiv Konversatioun KI ze kreéieren.
Nari Labs
Apache 2.0
Medium
en
4GB
Nee
2x
Parler TTS
Standard
Parler TTS ass en Text-zu-Sprooch-Modell, dat Stimmbeschreiwungen aus der natierlecher Sprooch benotzt, fir d'generéiert Sprooch ze kontrolléieren. Anstatt aus virdefinierte Stimmen auszewielen, beschreift Dir d'Stëmm déi Dir wëllt (z. B. "eng waarm weiblech Stëmm mat engem liichte britesche Akzent, déi lues a kloer schwätzt") a Parler generéiert Sprooch déi mat dëser Beschreiwung entsprécht. Dat mécht et eenzegaarteg flexibel fir kreativ Applikatiounen.
Hugging Face
Apache 2.0
Medium
en
4GB
Nee
2x
GLM-TTS
Standard
GLM- TTS by Zhipu AI ass e Text-zu-Sprooch-System, dat op der Llama-Architektur mat Flow-Match baséiert. Et huet déi geringst Zeichenfehlerrate vun allen Open-Source-TTS-Modeller, dat heescht et produzéiert déi präzisst Aussprooch. GLM-TTS ënnerstëtzt Englesch a Chinesesch mat Sproochklonen aus 3-10 Sekonnen Audiosamples.
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
Ja
2x
IndexTTS-2
Standard
IndexTTS-2 ass e fortgeschrattenen Text-zu-Sprooch-System, dat an der Null-Schoss-Stëmmsynthese mat enger feinkörniger Emotiounskontroll exzellent ass. Et kann Sprooch mat spezifesche emotionalen Tonen wéi glécklech, traureg, verärgert oder ängstlech generéieren, ouni datt emotiounsspezifesch Trainingsdaten néideg sinn. De Modell benotzt Emotiounsvektoren, fir den emotionalen Ausdrock vun der generéierter Sprooch präzis ze kontrolléieren.
Index Team
Bilibili Model License
Medium
en, zh
4GB
Ja
2x
Spark TTS
Standard
Spark TTS vun SparkAudio ass en Text-zu-Sprooch-Modell, dat Sproochklonen mat kontrolléierbaren Emotiounen a Sproochstil kombinéiert. Mat nëmme 5 Sekonnen Referenzaudio kann et eng Sprooch klonen an da Sprooch mat verschiddenen Emotiounen, Geschwindegkeeten a Stiler generéieren, wärend et d'geklont Sproochidentitéit behält. Spark TTS benotzt e Prompt-baséiert Kontrollsystem.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
Ja
2x
GPT-SoVITS
Standard
GPT-SoVITS kombinéiert Sproochmodelléierung am GPT-Stil mat SoVITS (Singing Voice Inference via Translation and Synthesis) fir e mächtegt Stëmmklonen an e puer Schëss. Mat sou wéineg wéi 5 Sekonnen Referenzaudio kann et eng Stëmm klonen an eng nei Sprooch generéieren, wärend et d'eenzegaarteg Charakteristike vum Sprecher behält. Et ass exzellent an der Synthese vu gesot a gesot Stëmm.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Ja
2x
Orpheus
Standard
Orpheus ass e groussen Text-zu-Sprooch-Modell, deen emotionalen Ausdrock op mënschlechem Niveau erreecht. Trainéiert op méi wéi 100.000 Stonnen vu verschiddene Sproochdaten, ass et exzellent am Generéieren vu Sprooch mat natierlechen Emotiounen, Betonung a Sproochstiler. Orpheus kann Sprooch produzéieren, déi praktesch net vu mënschleche Opnamen ze ënnerscheeden ass.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Nee
2x
Chatterbox
Premium
Chatterbox vum Resemble AI ass e modernt Zero-Shot-Stëmm-Klon-Modell. Et kann all Stëmm aus engem eenzegen Audio-Sampling mat bemierkenswäerter Genauegkeet replizéieren, an net nëmmen de Klang, mee och de Sproochstil an d'emotionell Nuancen erfaassen. Chatterbox bitt och eng feingranuléiert Emotiounskontroll, déi Iech erlaabt, den emotionalen Ton vun der generéierter Sprooch onofhängeg vun der Stëmmidentitéit unzepassen.
Resemble AI
MIT
Medium
en
4GB
Ja
4x
Tortoise TTS
Premium
Tortoise TTS ass en autoregressivt Text-zu-Sprooch-System mat ville Stëmmen, dat d'Audioqualitéit virun der Geschwindegkeet stellt. Et benotzt eng DALL-E-inspiréiert Architektur fir ganz natierlech Sprooch mat exzellenter Prosodie a Sprechergläichheet ze generéieren. Wärend et méi lues ass wéi vill aner Alternativen, produzéiert Tortoise eng vun de realisteschsten syntheteschen Sproochen, déi am Open-Source-Ëmfeld verfügbar sinn.
James Betker
Apache 2.0
Slow
en
8GB
Ja
4x
StyleTTS 2
Premium
StyleTTS 2 realiséiert eng TTS-Synthese op mënschlechem Niveau duerch d' Kombinatioun vu Stil-Diffusioun mat antagonisteschem Training mat grousse Sproochmodeller. Et generéiert déi natierlechst Sprooch tëscht Single-Speaker-Modeller, déi mat mënschlechen Opnamen konkurréieren. StyleTTS 2 benotzt Diffusion-baséiert Stilmodelléierung fir d'ganz Palette vu mënschlecher Sproochvariatioun z'erfaassen.
Columbia University
MIT
Medium
en
4GB
Nee
4x
OpenVoice
Premium
OpenVoice vun MyShell.ai erméiglecht d'Sofort-Stëmmklonen mat granulärer Kontroll iwwer Stëmmstil, Emotioun, Akzent, Rhythmus, Pausen an Intonatioun. Et kann eng Stëmm aus engem kuerzen Audioclip klonen an Sprooch a méi Sproochen erzeugen, während d'Sprecheridentitéit behalen gëtt. OpenVoice funktionéiert och als Stëmmkonverter, wat d'Stëmmtransformatioun an Echtzäit erlaabt.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Ja
4x
Qwen3 TTS
Standard
Qwen3-TTS ass en Text-zu-Sprooch-Modell mat 1,7 Milliarde Parameter vum Qwen-Team vun Alibaba. Et ënnerstëtzt dräi Modus: virprogramméiert Stimmen mat Emotiounskontroll (9 Sprecher), Stimmklonen aus nëmmen 3 Sekonnen Audio, an en eenzegaartege Stimmdesignmodus wou Dir d'Stëmm déi Dir wëllt an der natierlecher Sprooch beschreift. Et deckt 10 Sproochen mat héijer Ausdrockskraaft an natierlecher Prosodie.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Ja
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) ass e Modell mat 1 Milliard Parameteren, dat speziell fir d'Generatioun vu Gespréichssprooch entwéckelt gouf. Et modelléiert d'natierlech Mustere vu mënschleche Gespréicher, dorënner Turn-taking Timing, Backchannel Reaktiounen, emotional Reaktiounen a Gespréichsfloss. CSM generéiert Audio, deen wéi eng natierlech mënschlech Gespréichssprooch kléngt an net wéi synthetesch Sprooch.
Sesame
Apache 2.0
Slow
en
8GB
Nee
4x
Chatterbox Turbo
Standard
Chatterbox Turbo vum Resemble AI ass eng 350M Parameter-Upgrade fir Chatterbox, déi bis zu 6x Echtzäitgeschwindegkeet mat enger Latenz vun ënner 200ms liwwert. Et ënnerstëtzt paralinguistesch Tags wéi [laugh], [cough] an [chuckle] direkt am Text. Et enthält Perth Waasserzeechen op all generéierten Audio fir d'Provenience Tracking.
Resemble AI
MIT
Fast
en
2GB
Ja
2x
Zonos
Standard
Zonos v0. 1 vum Zyphra ass e 1. 6B Parametermodell mat enger feinkorneger Emotiounskontroll mat Schieberegler fir Gléck, Wut, Trauregkeet, Angst a Iwwerraschung. Et bitt souwuel e Transformer wéi och eng nei SSM (State-space model) Variant. Trainéiert op 200K+ Stonnen vu méisproocheger Sprooch mat Null-Shot Stimmklonen aus 10-30 Sekonnen Referenzaudio.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
6GB
Ja
2x
Dia 2
Standard
Dia2 vun Nari Labs ass e Streaming-first Upgrade op Dia, verfügbar an 1B an 2B Parameter Varianten. Et fänkt un Audio aus den éischte puer Token ze synthetiséieren, wat et ideal fir Echtzäit Sproochagenten a Sprooch-zu-Sprooch Pipelines mécht. Ënnerstëtzt Multi-Sprecher Dialog mat [S1] / [S2] Tags a paralinguistesche Cues wéi (laughs), (coughs).
Nari Labs
Apache 2.0
Fast
en
4GB
Nee
2x
VoxCPM
Standard
VoxCPM 1. 5 vun OpenBMB ass e neit Tokenizer-fräi TTS-Modell, dat an engem kontinuéierleche Raum funktionnéiert an net an diskrete Token. Et produzéiert High-Fidelity 44. 1kHz Audio, ënnerstëtzt Zero-Shot Stëmmklonen vun 3-10 Sekonnen, a behält d'Konsistenz iwwer Absätz. Cross-Language Cloning erlaabt Iech eng englesch Stëmm op chinesesch Sprooch unzewenden an ëmgedréit.
OpenBMB
Apache 2.0
Fast
en, zh
4GB
Ja
2x
OuteTTS
Free
OuteTTS erweidert grouss Sproochmodeller mat Text-zu-Sprooch Fäegkeeten, während d'Original Architektur behalen gëtt. Et ënnerstëtzt verschidde Backends, dorënner llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, an och Browser Inferenz via Transformers.js. Features zero-shot Stëmm Klonen duerch Sprecherprofiler als JSON gespäichert.
OuteAI
Apache 2.0
Fast
en
2GB
Ja
Fräi
TADA
Standard
TADA (Text-Acoustic Dual Alignment) vum Hume AI ass e revolutionäre TTS-Modell, deen Halluzinatiounen duerch eng nei Architektur eliminéiert, déi op Llama 3.2 baséiert ass. TADA ass verfügbar an 1B (Englesch) a 3B (méisproocheg) Varianten, an et erzielt en RTF vun 0,09 - 5x méi séier wéi vergläichbar LLM-baséiert TTS-Modeller. Et ënnerstëtzt bis zu 700 Sekonnen Audiokontext a produzéiert emotional expressiv Sprooch mat Null Halluzinatiounen op Standard Benchmarks.
Hume AI
MIT
Fast
en
5GB
Nee
2x
VibeVoice
Standard
VibeVoice vu Microsoft kënnt an zwou Varianten: e 1.5B-Modell fir laang Inhalter (bis zu 90 Minutten, 4 Lautsprecher) an e Realtime 0.5B-Modell fir Streaming mat ~200 ms éischter Audiolatenz. D'1.5B-Variante exceléiert bei Podcasts an Audiobicher mat Sprecherkonsistenz iwwer laang Passagen. Notiz: Microsoft huet TTS-Code aus dem Repository ewechgeholl an de generéierten Audio enthält héieren AI Disclaimer.
Microsoft
MIT
Fast
en, zh
4GB
Nee
2x
Pocket TTS
Free
Pocket TTS vum Kyutai (Moshi-Schrëftsteller) ass e kompakte 100M Parameter Text-zu-Sprooch-Modell, deen iwwer säi Gewiicht erauskënnt. Et leeft effizient op der CPU, ënnerstëtzt Zero-Shot-Stëmmklonen aus engem eenzegen Audiosample, a produzéiert eng natierlech klengen Sprooch. D'Kleiner Modellgréisst mécht et ideal fir Edge-Deployment an Ëmfeld mat wéinege Ressourcen.
Kyutai
MIT
Fast
en, fr
1GB
Ja
Fräi
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
Nee
Fräi
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
4GB
Ja
2x
MOSS-TTS
Premium
MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
OpenMOSS
Apache 2.0
Medium
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
16GB
Ja
4x
MegaTTS3
Premium
MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
ByteDance
Apache 2.0
Slow
en, zh
8GB
Ja
4x
Kokoro
Fräi
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Fräi
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Fräi
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Fräi
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
OuteTTS
Fräi
OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
OuteAI
Apache 2.0
Fast
Pocket TTS
Fräi
Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
Kyutai
MIT
Fast
Kitten TTS
Fräi
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
Standard
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nee
Bark Small
Standard
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nee
CosyVoice 2
Standard
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Ja
Dia TTS
Standard
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Nee
Parler TTS
Standard
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Nee
GLM-TTS
Standard
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
Ja
IndexTTS-2
Standard
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
Ja
Spark TTS
Standard
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
Ja
GPT-SoVITS
Standard
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Ja
Orpheus
Standard
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Nee
Qwen3 TTS
Standard
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Ja
Chatterbox Turbo
Standard
Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
Resemble AI
MIT
Fast
en
Ja
Zonos
Standard
Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
Zyphra
Apache 2.0
Medium
en, ja, zh, fr, de
Ja
Dia 2
Standard
Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
Nari Labs
Apache 2.0
Fast
en
Nee
VoxCPM
Standard
VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
OpenBMB
Apache 2.0
Fast
en, zh
Ja
TADA
Standard
TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
Hume AI
MIT
Fast
en
Nee
VibeVoice
Standard
VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
Microsoft
MIT
Fast
en, zh
Nee
CosyVoice3
Standard
CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
Alibaba (FunAudioLLM)
Apache 2.0
Fast
en, zh, ja, ko, de, es, fr, it, ru
Ja
Modellverglachstabell
| Modell | Entwéckler: | Tier | Qualitéit: | Geschwindegkeet | Sproochen | Stëmmklonung | VRAM | Lizenz: | Käschte | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Fräi | Verwenden | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Fräi | Verwenden | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Fräi | Verwenden | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Fräi | Verwenden | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Verwenden | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Verwenden | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Verwenden | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Verwenden | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Verwenden | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | Verwenden | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | Verwenden | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | Verwenden | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Verwenden | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Verwenden | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Verwenden | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Verwenden | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Verwenden | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Verwenden | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Verwenden | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Verwenden | ||
| Chatterbox Turbo | Resemble AI | Standard | Fast | 1 | 2GB | MIT | 2 | Verwenden | ||
| Zonos | Zyphra | Standard | Medium | 5 | 6GB | Apache 2.0 | 2 | Verwenden | ||
| Dia 2 | Nari Labs | Standard | Fast | 1 | 4GB | Apache 2.0 | 2 | Verwenden | ||
| VoxCPM | OpenBMB | Standard | Fast | 2 | 4GB | Apache 2.0 | 2 | Verwenden | ||
| OuteTTS | OuteAI | Free | Fast | 1 | 2GB | Apache 2.0 | Fräi | Verwenden | ||
| TADA | Hume AI | Standard | Fast | 1 | 5GB | MIT | 2 | Verwenden | ||
| VibeVoice | Microsoft | Standard | Fast | 2 | 4GB | MIT | 2 | Verwenden | ||
| Pocket TTS | Kyutai | Free | Fast | 2 | 1GB | MIT | Fräi | Verwenden | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | Fräi | Verwenden | ||
| CosyVoice3 | Alibaba (FunAudioLLM) | Standard | Fast | 9 | 4GB | Apache 2.0 | 2 | Verwenden | ||
| MOSS-TTS | OpenMOSS | Premium | Medium | 19 | 16GB | Apache 2.0 | 4 | Verwenden | ||
| MegaTTS3 | ByteDance | Premium | Slow | 2 | 8GB | Apache 2.0 | 4 | Verwenden |
Lëscht vu lëtzebuergesche Filmer Lëscht vu lëtzebuergesche Filmer
Firwat TTS.ai fir Text-zu-Sprooch wielen?
TTS.ai bréngt d'Welt zesummen
All Modell ass Open Source ënner MIT, Apache 2.0, oder ähnlech permissive Lizenzen, sou datt Dir déi voll kommerziell Rechter hutt fir de generéierten Audio an Äre Projeten ze benotzen. Ob Dir eng séier, liicht Synthese fir Echtzäitapplikatiounen oder eng Premium-Studio-Qualitéit fir Audiobicher a Podcasts braucht, TTS.ai huet dat richtegt Modell fir all Uwendungsfall.
Free Models, kee Kont néideg
Start direkt mat dräi gratis TTS Modeller: Piper (ultra-schnell, liicht), VITS (qualitatiiv héich neuraler Synthese), an MeloTTS (méi Sproochen Ënnerstëtzung). Keng Registréierung, keng Kreditkaart, keng Begrenzung op Generatiounen. Gratis Modeller ënnerstëtzen Englesch a vill aner Sproochen mat natierlech-klingender Ausgabe passend fir déi meescht Uwendungen.
GPU-beschleunegt Veraarbechtung
All TTS-Modeller lafen op dedizéierte NVIDIA-GPUen fir séier, konsistent Generéierungszäiten. Gratis Modeller generéieren normalerweis Audio a manner wéi 2 Sekonnen. Standard Modeller wéi Kokoro, CosyVoice 2, a Bark am Duerchschnëtt 3-5 Sekonnen. Premium Modeller mat der héchster Qualitéit, wéi Tortoise a Chatterbox, verschaffen an 5-15 Sekonnen, ofhängeg vun der Textlängt.
30+ Sproochen ënnerstëtzt
Generéiert Sprooch a méi wéi 30 Sproochen, dorënner Englesch, Spuenesch, Franséisch, Däitsch, Italienesch, Portugiesesch, Chinesesch, Japanesch, Koreanesch, Arabisch, Hindi, Russesch a vill méi. E puer Modeller ënnerstëtzen d'Synthese tëscht verschiddene Sproochen, dat heescht Dir kënnt Sprooch a Sprooche generéieren, an deenen d'Originalstëmm nach ni trainéiert gouf. CosyVoice 2 a GPT-SoVITS sinn exzellent beim Klonen tëscht verschiddene Sproochen.
Entwéckler-fäeg API
Integréiert TTS.ai an Är Applikatiounen mat eiser OpenAI-kompatibler REST API. Een Endpunkt fir all 20+ Modeller. Python, JavaScript, cURL, a Go SDKs. Streaming Ënnerstëtzung fir Echtzäitapplikatiounen. Batchveraarbechtung fir d'Generatioun vu groussen Inhalter. Webhooks fir asynchron Notifikatiounen. Verfügbar op Pro an Enterprise Pläng.
Häufig gestallte Froen
What could we improve? Your feedback helps us fix issues.
Text an Sprooch ëmwandelen
Join thousands of creators using TTS.ai. Get 15,000 free characters with a new account. Free models available without signup.