AI Text-zu-Sprooch

Konvertéiert Text a Sprooch mat méi wéi 24 Open-Source AI Modeller. Gratis ze benotzen, kee Kont néideg.

Anmelden Limit fir 5. 000 Zeichen

Wrap your text in SSML tags for precise control:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Emoticon-Marker hinzufügen fir d'Liesung ze beaflossen (Modellunterstützung variéiert):

Eegen Aussproochen definéieren (Wuert = Aussprooch):

-12 +12
0.5x 2.0x
Free mat Piper, VITS, MeloTTS
Your generated audio will appear here. Choose a model, enter text, and click Generate.
Audio gouf erfollegräich generéiert
0:00 0:00
Audio erofgelueden Link expires in 24h
Wéi TTS.ai? Erzielt Är Frënn!

Modelldetailer

MeloTTS

MeloTTS

Free

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Entwéckler: MyShell.ai
Lizenz: MIT
Geschwindegkeet Fast
Qualitéit:
Sproochen 6 Sproochen
VRAM 0.5GB (GPU optional)
Stëmmklonung Net ënnerstëtzt
Eegeschafte:
CPU-optimized Multilingual Multiple accents Production-ready Low latency
Bescht fir:: Production applications needing fast, multilingual TTS

Tipps fir besser Resultater

  • Korrekt Zeichensetzung fir natierlech Pausen a Intonatioun benotzen
  • Zifferen an Ofkierzunge fir eng kloer Aussprooch buchstabéieren
  • Komma'en bäifügen fir kuerz Pausen tëscht Sätz ze kreéieren
  • Benotzt Elipsen (...) fir méi laang dramatesch Pausen
  • Probéiert Kokoro oder CosyVoice 2 fir déi natierlechst Resultater
  • Dia fir Multi-Sprecher-Dialog a Podcast-Inhalt benotze

Kreditkoart

Tier Präis pro 1K Zeichen
Fräi 0 Credits (onlimitéiert)
Standard 2 Credits / 1K Zeilen
Premium 4 Credits / 1K Zeilen

Lëscht vu lëtzebuergesche Schrëftsteller

Generéiert professionell Voiceoveren an dräi einfache Schrëtt. Keng technesch Kenntnisser néideg.

Schrëtt 1

Gitt Ären Text an

Tippen, fügen oder laden de Text deen Dir an Sprooch ëmwandelen wëllt. Ënnerstëtzt bis zu 5. 000 Zeichen pro Generatioun fir ugemellt Benotzer. Benotzt einfache Text oder fügt SSML Tags fir erweidert Kontroll iwwer Aussprooch, Pausen a Betonung.

Schrëtt 2

Modell a Stëmm auswielen

Wielt aus méi wéi 24 KI-Modeller op dräi Niveauen. Wielt eng Stëmm, déi Ärem Inhalt entsprécht, wielt Är Zilsprooch, passt d'Wiedergabegeschwindegkeet vun 0,5x op 2,0x un, a wielt Äert bevorzugt Ausgabeformat (MP3, WAV, OGG oder FLAC).

Schrëtt 3

Erstelle & Herunterladen

Klickt op Generéieren an Ären Audio ass an e puer Sekonnen fäerdeg. Kuckt eng Virschau mat dem integréierte Player, lued et am Format vun Ärer Wiel erof, oder kopéiert e Link fir ze deelen. Benotzt d'API fir Batchveraarbechtung an d'Integratioun an Äre Workflow.

Text zu Sprooch

D'Sproochewëssenschaft beschäftegt sech mat der Entwécklung, der Entwécklung an der Entwécklung vun de Sproochen.

Text-zu-Sprooch-Modeller

Detailléiert Spezifikatiounen fir all KI-Modell verfügbar op TTS.ai. Verglach Qualitéit, Geschwindegkeet, Sproochunterstützung an Features fir de perfekte Modell fir Äert Projet ze fannen.

KokoroKokoro

Free

Kokoro ass en Text-zu-Sprooch-Modell mat 82 Milliounen Parameteren, deen iwwer seng Gewiichtsklass erauskënnt. Trotz senger klenger Gréisst produzéiert et bemierkenswäert natierlech a expressiv Sprooch. Kokoro ënnerstëtzt verschidde Sproochen, dorënner Englesch, Japanesch, Chinesesch a Koreanesch mat enger Vielfalt expressiver Stimmen. Et leeft onheemlech séier - et generéiert Audio bal 100x méi séier wéi Echtzäit op enger GPU.

Entwéckler::
Hexgrad
Lizenz::
Apache 2.0
Geschwindegkeet:
Fast
Qualitéit::
Sproochen:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
VRAM:
1.5GB
Stëmmklonung:
Nee
Präis pro 1K Zeichen:
Fräi
82M Parameter Ultraschnell Lëscht vu Sproochen Mehrsprachig Streaming-Unterstützung
Bescht fir:: High-Quality TTS mat minimaler Latenz, Streaming-Applikatiounen

PiperPiper

Free

Piper ass eng liicht Text-zu-Sprooch-Engine, déi vu Rhasspy entwéckelt gouf an déi VITS an larynx Architekturen benotzt. Si leeft komplett op CPU, wat se ideal fir Edge-Geräter, Home Automation an Applikatiounen mécht, déi offline TTS erfuerderen. Mat méi wéi 100 Stimmen a méi wéi 30 Sproochen, liwwert Piper natierlech klingend Sprooch mat Echtzäitgeschwindegkeet och op engem Raspberry Pi 4.

Entwéckler::
Rhasspy
Lizenz::
MIT
Geschwindegkeet:
Fast
Qualitéit::
Sproochen:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
VRAM:
0 (CPU only)
Stëmmklonung:
Nee
Präis pro 1K Zeichen:
Fräi
CPU-freundlich Offline fäeg 100 Stëmmen 30+ Sproochen SSML-Unterstützung
Bescht fir:: Schnell Virschauen, Accessibilitéit, an abegraff Applikatiounen

VITSVITS

Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) ass eng parallel End-to-End TTS-Methode, déi méi natierlech klengen Audio generéiert wéi aktuell zweestufig Modeller. Et hëlt variational Inference mat normaliséierende Flëssegkeeten an engem adversarialen Trainingsprozess un, wat eng bedeitend Verbesserung an der Natierlechkeet erzielt.

Entwéckler::
Jaehyeon Kim et al.
Lizenz::
MIT
Geschwindegkeet:
Fast
Qualitéit::
Sproochen:
en, zh, ja, ko
VRAM:
1GB
Stëmmklonung:
Nee
Präis pro 1K Zeichen:
Fräi
End-to-End Synthese Naturschutzgebitt Lëscht vun den Inselen Mehrere Lautsprecher
Bescht fir:: General Purpose Text-to-Speech mat natürlicher Prosodie

MeloTTSMeloTTS

Free

MeloTTS by MyShell. ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at almost real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Entwéckler::
MyShell.ai
Lizenz::
MIT
Geschwindegkeet:
Fast
Qualitéit::
Sproochen:
en, es, fr, zh, ja, ko
VRAM:
0.5GB (GPU optional)
Stëmmklonung:
Nee
Präis pro 1K Zeichen:
Fräi
CPU-optiméiert Mehrsprachig Mehrere Akzente Produktioun Niddreg Latenz
Bescht fir:: Produktiounsapplikatiounen déi séier, méisproocheg TTS brauchen

BarkBark

Standard

Bark vum Suno ass e Transformator-baséierte Text-zu-Audio-Modell, dat héich realistisch, méisproocheg Sprooch souwéi aner Audio wéi Musek, Hintergrundgeräischer a Klangeffekter generéiere kann. Et kann nonverbal Kommunikatioun wéi Lachen, Seufzen a Weinen produzéieren. Bark ënnerstëtzt iwwer 100 Sprecher-Voreinstellungen a méi wéi 13 Sproochen.

Entwéckler::
Suno
Lizenz::
MIT
Geschwindegkeet:
Slow
Qualitéit::
Sproochen:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
5GB
Stëmmklonung:
Nee
Präis pro 1K Zeichen:
2
Klangeffekter Lachen/Seufzen Musekgeneréierung 100 Säiten Mehrsprachig
Bescht fir:: Lëscht vu lëtzebuergesche Filmer, Serien an Audio-CDen

Bark SmallBark Small

Standard

Bark Small ass eng destilléiert Versioun vum Bark-Modell, dat e puer Audioqualitéit fir wesentlech méi séier Inferenzgeschwindegkeeten a manner Speicherbedierfnesser austauscht. Et behält d'Fäegkeet vu Bark fir Sprooch mat Emotiounen, Lachen a méi Sproochen ze generéieren.

Entwéckler::
Suno
Lizenz::
MIT
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
2GB
Stëmmklonung:
Nee
Präis pro 1K Zeichen:
2
Liicht Den Haaptuert ass Bar-le-Duc. Emotionale Sprooch Mehrsprachig
Bescht fir:: Schnell kreativen Audio wann voll Bark ze lues ass

CosyVoice 2CosyVoice 2

Standard

CosyVoice 2 vum Alibaba's Tongyi Lab erreecht eng Sproochqualitéit déi mat där vun engem Mënsch verglach ka ginn, mat extrem niddereg Latenz, wat et ideal fir Echtzäit-Applikatiounen mécht. Et benotzt eng finit skalär Quantiséierung fir Streaming-Synthese an ënnerstëtzt Zero-Shot Sproochklonen, Synthese tëscht Sproochen, a fein-grained Emotiounskontroll. Et iwwerhëlt vill kommerziell TTS-Systemer an subjektiven Evaluatiounen.

Entwéckler::
Alibaba (Tongyi Lab)
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh, ja, ko, fr, de, it, es
VRAM:
4GB
Stëmmklonung:
Ja
Präis pro 1K Zeichen:
2
Streaming Lëscht vu Schrëftsteller Sproochen Emotion Kontroll Human-Parity
Bescht fir:: Echtzäit-Applikatiounen, Streaming TTS, Sproochassistenten

Dia TTSDia TTS

Standard

Dia vun Nari Labs ass e 1.6B Parameter Text-zu-Sprooch Modell speziell entwéckelt fir Multi-Sprecher Dialoger ze generéieren. Et kann natierlech klingend Gespréicher tëscht zwee Sprecher mat passenden Turn-taking, Prosody, an emotionalen Ausdrock produzéieren. Dia ass perfekt fir Podcast-Stil Inhalt, Audiobook Dialoger, an interaktiv Konversatioun KI ze kreéieren.

Entwéckler::
Nari Labs
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en
VRAM:
4GB
Stëmmklonung:
Nee
Präis pro 1K Zeichen:
2
Multi-Sprecher Dialoggeneréierung Lëscht vun Naturdenkmäler Emotionaler Ausdrock Parameter
Bescht fir:: Podcasts, Audiobook Dialogen, Konversatiounsinhalt

Parler TTSParler TTS

Standard

Parler TTS ass en Text-zu-Sprooch-Modell, dat Stimmbeschreiwungen aus der natierlecher Sprooch benotzt, fir d'generéiert Sprooch ze kontrolléieren. Anstatt aus virdefinierte Stimmen auszewielen, beschreift Dir d'Stëmm déi Dir wëllt (z. B. "eng waarm weiblech Stëmm mat engem liichte britesche Akzent, déi lues a kloer schwätzt") a Parler generéiert Sprooch déi mat dëser Beschreiwung entsprécht. Dat mécht et eenzegaarteg flexibel fir kreativ Applikatiounen.

Entwéckler::
Hugging Face
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en
VRAM:
4GB
Stëmmklonung:
Nee
Präis pro 1K Zeichen:
2
Stëmmbeschreiwung Natierlech Sprooch Kontroll Flexibel Stëmmerstellung Keng virdefinierte Stimmen néideg
Bescht fir:: Kreativ Uwendungen wou Dir eege Stëmmeigenschaften braucht

IndexTTS-2IndexTTS-2

Standard

IndexTTS-2 ass e fortgeschrattenen Text-zu-Sprooch-System, dat an der Null-Schoss-Stëmmsynthese mat enger feinkörniger Emotiounskontroll exzellent ass. Et kann Sprooch mat spezifesche emotionalen Tonen wéi glécklech, traureg, verärgert oder ängstlech generéieren, ouni datt emotiounsspezifesch Trainingsdaten néideg sinn. De Modell benotzt Emotiounsvektoren, fir den emotionalen Ausdrock vun der generéierter Sprooch präzis ze kontrolléieren.

Entwéckler::
Index Team
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh
VRAM:
4GB
Stëmmklonung:
Ja
Präis pro 1K Zeichen:
2
Emotion Kontroll Zero-Shot Emotion Vektoren Lëscht vu Sproochen Fine-grained Kontroll
Bescht fir:: Lëscht vu lëtzebuergesche Filmregisseuren, Dréibuchauteuren a Filmproduzenten

Spark TTSSpark TTS

Standard

Spark TTS vun SparkAudio ass en Text-zu-Sprooch-Modell, dat Sproochklonen mat kontrolléierbaren Emotiounen a Sproochstil kombinéiert. Mat nëmme 5 Sekonnen Referenzaudio kann et eng Sprooch klonen an da Sprooch mat verschiddenen Emotiounen, Geschwindegkeeten a Stiler generéieren, wärend et d'geklont Sproochidentitéit behält. Spark TTS benotzt e Prompt-baséiert Kontrollsystem.

Entwéckler::
SparkAudio
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh
VRAM:
4GB
Stëmmklonung:
Ja
Präis pro 1K Zeichen:
2
Stëmmklonung Emotion Kontroll Stilkontrolle Prompt-baséiert 5-Sekonnen Klonen
Bescht fir:: Inhaltserschaffung mat klonéierte Stëmmen an emotionaler Kontroll

GPT-SoVITSGPT-SoVITS

Standard

GPT-SoVITS kombinéiert Sproochmodelléierung am GPT-Stil mat SoVITS (Singing Voice Inference via Translation and Synthesis) fir e mächtegt Stëmmklonen an e puer Schëss. Mat sou wéineg wéi 5 Sekonnen Referenzaudio kann et eng Stëmm klonen an eng nei Sprooch generéieren, wärend et d'eenzegaarteg Charakteristike vum Sprecher behält. Et ass exzellent an der Synthese vu gesot a gesot Stëmm.

Entwéckler::
RVC-Boss
Lizenz::
MIT
Geschwindegkeet:
Slow
Qualitéit::
Sproochen:
en, zh, ja, ko
VRAM:
6GB
Stëmmklonung:
Ja
Präis pro 1K Zeichen:
2
5-Sekonnen Klonen Lëscht vu Sängerinnen Lëscht vu Schrëftsteller High Fidelity Sproochen
Bescht fir:: Lëscht vu lëtzebuergesche Komponisten Lëscht vu lëtzebuergesche Komponisten

OrpheusOrpheus

Standard

Orpheus ass e groussen Text-zu-Sprooch-Modell, deen emotionalen Ausdrock op mënschlechem Niveau erreecht. Trainéiert op méi wéi 100.000 Stonnen vu verschiddene Sproochdaten, ass et exzellent am Generéieren vu Sprooch mat natierlechen Emotiounen, Betonung a Sproochstiler. Orpheus kann Sprooch produzéieren, déi praktesch net vu mënschleche Opnamen ze ënnerscheeden ass.

Entwéckler::
Canopy Labs
Lizenz::
Llama 3.2 Community
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en
VRAM:
4GB
Stëmmklonung:
Nee
Präis pro 1K Zeichen:
2
Lëscht vu lëtzebuergesche Politiker 100.000 Stonnen Training Naturschutzgebitt Lëscht vu Sproochen
Bescht fir:: Lëscht vu lëtzebuergesche Filmregisseuren, Schauspiller, Dréibuchauteuren

ChatterboxChatterbox

Premium

Chatterbox vum Resemble AI ass e modernt Zero-Shot-Stëmm-Klon-Modell. Et kann all Stëmm aus engem eenzegen Audio-Sampling mat bemierkenswäerter Genauegkeet replizéieren, an net nëmmen de Klang, mee och de Sproochstil an d'emotionell Nuancen erfaassen. Chatterbox bitt och eng feingranuléiert Emotiounskontroll, déi Iech erlaabt, den emotionalen Ton vun der generéierter Sprooch onofhängeg vun der Stëmmidentitéit unzepassen.

Entwéckler::
Resemble AI
Lizenz::
MIT
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en
VRAM:
4GB
Stëmmklonung:
Ja
Präis pro 1K Zeichen:
4
Lëscht vu Schrëftsteller Emotion Kontroll High Fidelity Stiliwwerdroung Lëscht vu lëtzebuergeschen Dichter
Bescht fir:: Professionell Stëmm Klonen mat emotionaler Kontroll, Inhalt Kreatioun

Tortoise TTSTortoise TTS

Premium

Tortoise TTS ass en autoregressivt Text-zu-Sprooch-System mat ville Stëmmen, dat d'Audioqualitéit virun der Geschwindegkeet stellt. Et benotzt eng DALL-E-inspiréiert Architektur fir ganz natierlech Sprooch mat exzellenter Prosodie a Sprechergläichheet ze generéieren. Wärend et méi lues ass wéi vill aner Alternativen, produzéiert Tortoise eng vun de realisteschsten syntheteschen Sproochen, déi am Open-Source-Ëmfeld verfügbar sinn.

Entwéckler::
James Betker
Lizenz::
Apache 2.0
Geschwindegkeet:
Slow
Qualitéit::
Sproochen:
en
VRAM:
8GB
Stëmmklonung:
Ja
Präis pro 1K Zeichen:
4
Héchst Qualitéit Multi-Stëmm Lëscht vun Architekten Stëmmklonung Autoregressiv
Bescht fir:: Audiobicher, Premium-Inhalt, qualitativ héichwäerteg Uwendungen

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 realiséiert eng TTS-Synthese op mënschlechem Niveau duerch d' Kombinatioun vu Stil-Diffusioun mat antagonisteschem Training mat grousse Sproochmodeller. Et generéiert déi natierlechst Sprooch tëscht Single-Speaker-Modeller, déi mat mënschlechen Opnamen konkurréieren. StyleTTS 2 benotzt Diffusion-baséiert Stilmodelléierung fir d'ganz Palette vu mënschlecher Sproochvariatioun z'erfaassen.

Entwéckler::
Columbia University
Lizenz::
MIT
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en
VRAM:
4GB
Stëmmklonung:
Nee
Präis pro 1K Zeichen:
4
Human-level Stildiffusion Konkurrenzrecht Natierlech Variatioun High Fidelity
Bescht fir:: Lëscht vun de lëtzebuergesche Professer, Professuren a Professuren

OpenVoiceOpenVoice

Premium

OpenVoice vun MyShell.ai erméiglecht d'Sofort-Stëmmklonen mat granulärer Kontroll iwwer Stëmmstil, Emotioun, Akzent, Rhythmus, Pausen an Intonatioun. Et kann eng Stëmm aus engem kuerzen Audioclip klonen an Sprooch a méi Sproochen erzeugen, während d'Sprecheridentitéit behalen gëtt. OpenVoice funktionéiert och als Stëmmkonverter, wat d'Stëmmtransformatioun an Echtzäit erlaabt.

Entwéckler::
MyShell.ai / MIT
Lizenz::
MIT
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh, ja, ko, fr, de, es, it
VRAM:
4GB
Stëmmklonung:
Ja
Präis pro 1K Zeichen:
4
Sofortiges Klonen Sproochkonvertéierung Emotion Kontroll Akzentsteuerung Mehrsprachig
Bescht fir:: Stëmmklonen mat fein-grainéierter Stilkontroll, Stëmmkonversioun

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS ass en Text-zu-Sprooch-Modell mat 1,7 Milliarde Parameter vum Qwen-Team vun Alibaba. Et ënnerstëtzt dräi Modus: virprogramméiert Stimmen mat Emotiounskontroll (9 Sprecher), Stimmklonen aus nëmmen 3 Sekonnen Audio, an en eenzegaartege Stimmdesignmodus wou Dir d'Stëmm déi Dir wëllt an der natierlecher Sprooch beschreift. Et deckt 10 Sproochen mat héijer Ausdrockskraaft an natierlecher Prosodie.

Entwéckler::
Alibaba (Qwen)
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh, ja, ko, de, fr, ru, pt, es, it
VRAM:
7GB
Stëmmklonung:
Ja
Präis pro 1K Zeichen:
2
Stëmmklonung 9 virgesat Stimmen Lëscht vu lëtzebuergeschen Texter Emotion Kontroll Däitsch Sprooch
Bescht fir:: Multilingual Inhalt mat Sprooch klonen oder eegestänneg Sprooch Design

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) ass e Modell mat 1 Milliard Parameteren, dat speziell fir d'Generatioun vu Gespréichssprooch entwéckelt gouf. Et modelléiert d'natierlech Mustere vu mënschleche Gespréicher, dorënner Turn-taking Timing, Backchannel Reaktiounen, emotional Reaktiounen a Gespréichsfloss. CSM generéiert Audio, deen wéi eng natierlech mënschlech Gespréichssprooch kléngt an net wéi synthetesch Sprooch.

Entwéckler::
Sesame
Lizenz::
Apache 2.0
Geschwindegkeet:
Slow
Qualitéit::
Sproochen:
en
VRAM:
8GB
Stëmmklonung:
Nee
Präis pro 1K Zeichen:
4
Konversatioun Natierlech Timing Turn-taking Backchannel Parameter
Bescht fir:: Lëscht vu lëtzebuergesche Moler, Sculpteuren, Architekten

KokoroKokoro

Fräi

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Entwéckler::
Hexgrad
Lizenz::
Apache 2.0
Geschwindegkeet:
Fast
Qualitéit::
Sproochen: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
Bescht fir:: High-quality TTS with minimal latency, streaming applications

PiperPiper

Fräi

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Entwéckler::
Rhasspy
Lizenz::
MIT
Geschwindegkeet:
Fast
Qualitéit::
Sproochen: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
Bescht fir:: Quick previews, accessibility, and embedded applications

VITSVITS

Fräi

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Entwéckler::
Jaehyeon Kim et al.
Lizenz::
MIT
Geschwindegkeet:
Fast
Qualitéit::
Sproochen: en, zh, ja, ko
Bescht fir:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

Fräi

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Entwéckler::
MyShell.ai
Lizenz::
MIT
Geschwindegkeet:
Fast
Qualitéit::
Sproochen: en, es, fr, zh, ja, ko
Bescht fir:: Production applications needing fast, multilingual TTS

BarkBark

Standard

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

Entwéckler::
Suno
Lizenz::
MIT
Geschwindegkeet:
Slow
Qualitéit::
Sproochen:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Stëmmklonung:
Nee
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
Bescht fir:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

Standard

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

Entwéckler::
Suno
Lizenz::
MIT
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Stëmmklonung:
Nee
LightweightFaster than full BarkEmotional speechMultilingual
Bescht fir:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

Standard

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

Entwéckler::
Alibaba (Tongyi Lab)
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh, ja, ko, fr, de, it, es
Stëmmklonung:
Ja
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
Bescht fir:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

Standard

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

Entwéckler::
Nari Labs
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en
Stëmmklonung:
Nee
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
Bescht fir:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

Standard

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

Entwéckler::
Hugging Face
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en
Stëmmklonung:
Nee
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
Bescht fir:: Creative applications where you need custom voice characteristics

IndexTTS-2IndexTTS-2

Standard

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

Entwéckler::
Index Team
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh
Stëmmklonung:
Ja
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
Bescht fir:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

Standard

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

Entwéckler::
SparkAudio
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh
Stëmmklonung:
Ja
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
Bescht fir:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

Standard

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

Entwéckler::
RVC-Boss
Lizenz::
MIT
Geschwindegkeet:
Slow
Qualitéit::
Sproochen:
en, zh, ja, ko
Stëmmklonung:
Ja
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
Bescht fir:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

Standard

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

Entwéckler::
Canopy Labs
Lizenz::
Llama 3.2 Community
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en
Stëmmklonung:
Nee
Human-level emotion100K hours trainingNatural emphasisExpressive speech
Bescht fir:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

Entwéckler::
Alibaba (Qwen)
Lizenz::
Apache 2.0
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh, ja, ko, de, fr, ru, pt, es, it
Stëmmklonung:
Ja
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
Bescht fir:: Multilingual content with voice cloning or custom voice design

ChatterboxChatterbox

Premium

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

Entwéckler::
Resemble AI
Lizenz::
MIT
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en
Stëmmklonung:
Ja
VRAM:
4GB
Präis pro 1K Zeichen:
4
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
Bescht fir:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

Premium

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

Entwéckler::
James Betker
Lizenz::
Apache 2.0
Geschwindegkeet:
Slow
Qualitéit::
Sproochen:
en
Stëmmklonung:
Ja
VRAM:
8GB
Präis pro 1K Zeichen:
4
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
Bescht fir:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

Entwéckler::
Columbia University
Lizenz::
MIT
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en
Stëmmklonung:
Nee
VRAM:
4GB
Präis pro 1K Zeichen:
4
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
Bescht fir:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

Premium

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

Entwéckler::
MyShell.ai / MIT
Lizenz::
MIT
Geschwindegkeet:
Medium
Qualitéit::
Sproochen:
en, zh, ja, ko, fr, de, es, it
Stëmmklonung:
Ja
VRAM:
4GB
Präis pro 1K Zeichen:
4
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
Bescht fir:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

Entwéckler::
Sesame
Lizenz::
Apache 2.0
Geschwindegkeet:
Slow
Qualitéit::
Sproochen:
en
Stëmmklonung:
Nee
VRAM:
8GB
Präis pro 1K Zeichen:
4
ConversationalNatural timingTurn-takingBackchannel1B parameters
Bescht fir:: AI assistants, chatbots, conversational AI applications

Modellverglachstabell

Modell Entwéckler: Tier Qualitéit: Geschwindegkeet Sproochen Stëmmklonung VRAM Lizenz: Credits
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 Fräi Verwenden
Piper Rhasspy Free Fast 31 0 (CPU only) MIT Fräi Verwenden
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT Fräi Verwenden
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT Fräi Verwenden
Bark Suno Standard Slow 13 5GB MIT 2 Verwenden
Bark Small Suno Standard Medium 13 2GB MIT 2 Verwenden
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 Verwenden
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 Verwenden
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 Verwenden
IndexTTS-2 Index Team Standard Medium 2 4GB Apache 2.0 2 Verwenden
Spark TTS SparkAudio Standard Medium 2 4GB Apache 2.0 2 Verwenden
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 Verwenden
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 Verwenden
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 Verwenden
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 Verwenden
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 Verwenden
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 Verwenden
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 Verwenden
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 Verwenden

Lëscht vu lëtzebuergesche Filmer Lëscht vu lëtzebuergesche Filmer

D'Sprooch gëtt och als Text-zu-Sprooch (Text-to-Speech) bezeechent.

Lëscht vun de Stären op der Welt

All Modell ass Open Source ënner MIT, Apache 2.0, oder ähnlech permissive Lizenzen, sou datt Dir déi voll kommerziell Rechter hutt fir de generéierten Audio an Äre Projeten ze benotzen. Ob Dir eng séier, liicht Synthese fir Echtzäitapplikatiounen oder eng Premium-Studio-Qualitéit fir Audiobicher a Podcasts braucht, TTS.ai huet dat richtegt Modell fir all Uwendungsfall.

Free Models, kee Kont néideg

Start direkt mat dräi gratis TTS Modeller: Piper (ultra-schnell, liicht), VITS (qualitatiiv héich neuraler Synthese), an MeloTTS (méi Sproochen Ënnerstëtzung). Keng Registréierung, keng Kreditkaart, keng Begrenzung op Generatiounen. Gratis Modeller ënnerstëtzen Englesch a vill aner Sproochen mat natierlech-klingender Ausgabe passend fir déi meescht Uwendungen.

GPU-beschleunegt Veraarbechtung

All TTS-Modeller lafen op dedizéierte NVIDIA-GPUen fir séier, konsistent Generéierungszäiten. Gratis Modeller generéieren normalerweis Audio a manner wéi 2 Sekonnen. Standard Modeller wéi Kokoro, CosyVoice 2, a Bark am Duerchschnëtt 3-5 Sekonnen. Premium Modeller mat der héchster Qualitéit, wéi Tortoise a Chatterbox, verschaffen an 5-15 Sekonnen, ofhängeg vun der Textlängt.

30+ Sproochen ënnerstëtzt

Generéiert Sprooch a méi wéi 30 Sproochen, dorënner Englesch, Spuenesch, Franséisch, Däitsch, Italienesch, Portugiesesch, Chinesesch, Japanesch, Koreanesch, Arabisch, Hindi, Russesch a vill méi. E puer Modeller ënnerstëtzen d'Synthese tëscht verschiddene Sproochen, dat heescht Dir kënnt Sprooch a Sprooche generéieren, an deenen d'Originalstëmm nach ni trainéiert gouf. CosyVoice 2 a GPT-SoVITS sinn exzellent beim Klonen tëscht verschiddene Sproochen.

Entwéckler-fäeg API

Integréiert TTS.ai an Är Applikatiounen mat eiser OpenAI-kompatibler REST API. Een Endpunkt fir all 24+ Modeller. Python, JavaScript, cURL, a Go SDKs. Streaming Ënnerstëtzung fir Echtzäit-Applikatiounen. Batchveraarbechtung fir d'Generatioun vu groussen Inhalter. Webhooks fir asynchron Notifikatiounen. Verfügbar op Pro an Enterprise Pläng.

Häufig gestallte Froen

Text to Speech (TTS) ass eng KI-Technologie, déi geschriwwene Text a gesot Audio ëmwandelt. Modern neuraal TTS-Modeller wéi Kokoro, Chatterbox a CosyVoice 2 benotzen déift Léiere fir Sprooch ze produzéieren, déi bemierkenswäert mënschlech kléngt, mat natierlecher Prosodie, Emotioun a Rhythmus.

Et hänkt vun Äre Bedierfnesser of. Fir séier Virschauen, benotzt Piper oder MeloTTS (gratis, séier). Fir héich Qualitéit, probéiert Kokoro oder CosyVoice 2 (Standardniveau). Fir Stëmmklonen, benotzt Chatterbox oder GPT-SoVITS (Premium). Fir Dialog/Podcast Inhalt, probéiert Dia TTS. All Modell huet verschidde Stäerkten - experimentéiert fir déi bescht Passform ze fannen.

Ja! TTS.ai bitt gratis Text-to-Speech mat Kokoro, Piper, VITS, a MeloTTS Modeller un. Fir bis zu 500 Zeichen an 3 Generatiounen pro Stonn ass kee Kont néideg. Registréiert Iech fir e gratis Kont fir 50 Credits ze kréien an op all Modeller ze kréien.

Eis TTS-Modeller ënnerstëtzen zesummen 30+ Sproochen, dorënner Englesch, Spuenesch, Franséisch, Däitsch, Italienesch, Portugisesch, Chinesesch, Japanesch, Koreanesch, Arabisch, Russesch, Hindi a vill méi.

Ja, Audio, deen duerch TTS.ai generéiert gëtt, kann kommerziell benotzt ginn. All eis Modeller benotzen Open-Source-Lizenzen (MIT, Apache 2.0). Kontrolléiert déi individuell Modelllizenzen fir spezifesch Konditiounen. Mir empfeelen, d'Lizenz vum spezifesche Modell, dat Dir fir Äert Projet benotzt, ze iwwerpréiwen.

TTS.ai ënnerstëtzt d'Ausgabeformater MP3, WAV, OGG a FLAC. MP3 ass de Standard fir d'Webwiedergabe. WAV gëtt fir weider Audioveraarbechtung empfohlen. Dir kënnt tëscht de Formater mat eisem Audiokonverter ëmwandelen.

Stëmm klonen benotzt KI fir eng spezifesch Stëmm aus enger kuerzer Audioprobe (normalerweis 5-30 Sekonnen) ze replizéieren. Luet eng kloer Opnam vun der Zilstëmm erop, a Modeller wéi Chatterbox, GPT-SoVITS oder OpenVoice generéieren nei Sprooch an där Stëmm. D'Qualitéit verbessert sech mat méi sauberem, méi laange Referenzaudio.

Free Users can generate up to 500 characters per request. Registered Users get up to 5,000 characters per request. For longer texts, the audio is generated in chunks and stitched together automatically. API Users can process up to 10,000 characters per request.

D' SSML (Speech Synthesis Markup Language) Ënnerstëtzung ass jee no Modell ënnerschiddlech. Piper an e puer aner Modeller ënnerstëtzen einfach SSML Tags fir Pausen, Betonung an Aussproochkontroll. Fir Modeller ouni nativ SSML Ënnerstëtzung, kënnt Dir natierlech Interpunktioun a Zeilenumbréch benotze fir d' Prosodie ze beaflossen.

Ja, déi meescht Modeller ënnerstëtzen eng Geschwindegkeetsanpassung vun 0,5x bis 2,0x. E puer Modeller wéi Bark a Parler erlaben och d'Tonhéicht- a Stilkontroll. Dir kënnt d'Geschwindegkeetsparameter an den erweiterten Astellungen oder iwwer den API-Geschwindegkeetsparameter astellen.

Ja, Batch-Veraarbechtung ass iwwer eis API verfügbar. Dir kënnt méi Textsegmenter an engem eenzege API-Uruff oder Skript schécken, an all gëtt veraarbecht an als eegestänneg Audiodateien zréckginn. Dat ass ideal fir Audiobuchkapitelen, E-Léiermoduler oder Spilldialogskripten.

Generéiert en API Schlëssel vun Ärem Kont Dashboard, da schéckt POST Ufroen un eise REST API Endpoint mat Ärem Text, Modell, a Stëmmparameteren. Mir bidden Code Beispiller an Python, JavaScript, a cURL. D'API ass OpenAI-kompatibel, sou datt existent Integratiounen mat minimalen Ännerungen schaffen.
5.0/5 (1)

Text an Sprooch ëmwandelen

D'Lëscht vun de lëtzebuergesche Gemengen ass eng Lëscht vun de Gemengen an der Gemeng Esch-Uelzecht an der Provënz Lëtzebuerg.