AI Text-zu-Sprooch
Konvertéiert Text a Sprooch mat méi wéi 24 Open-Source AI Modeller. Gratis ze benotzen, kee Kont néideg.
Wrap your text in SSML tags for precise control:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Emoticon-Marker hinzufügen fir d'Liesung ze beaflossen (Modellunterstützung variéiert):
Eegen Aussproochen definéieren (Wuert = Aussprooch):
Modelldetailer
MeloTTS
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
| Entwéckler: | MyShell.ai |
| Lizenz: | MIT |
| Geschwindegkeet | Fast |
| Qualitéit: | |
| Sproochen | 6 Sproochen |
| VRAM | 0.5GB (GPU optional) |
| Stëmmklonung | Net ënnerstëtzt |
Tipps fir besser Resultater
- Korrekt Zeichensetzung fir natierlech Pausen a Intonatioun benotzen
- Zifferen an Ofkierzunge fir eng kloer Aussprooch buchstabéieren
- Komma'en bäifügen fir kuerz Pausen tëscht Sätz ze kreéieren
- Benotzt Elipsen (...) fir méi laang dramatesch Pausen
- Probéiert Kokoro oder CosyVoice 2 fir déi natierlechst Resultater
- Dia fir Multi-Sprecher-Dialog a Podcast-Inhalt benotze
Kreditkoart
| Tier | Präis pro 1K Zeichen |
|---|---|
| Fräi | 0 Credits (onlimitéiert) |
| Standard | 2 Credits / 1K Zeilen |
| Premium | 4 Credits / 1K Zeilen |
Lëscht vu lëtzebuergesche Schrëftsteller
Generéiert professionell Voiceoveren an dräi einfache Schrëtt. Keng technesch Kenntnisser néideg.
Gitt Ären Text an
Tippen, fügen oder laden de Text deen Dir an Sprooch ëmwandelen wëllt. Ënnerstëtzt bis zu 5. 000 Zeichen pro Generatioun fir ugemellt Benotzer. Benotzt einfache Text oder fügt SSML Tags fir erweidert Kontroll iwwer Aussprooch, Pausen a Betonung.
Modell a Stëmm auswielen
Wielt aus méi wéi 24 KI-Modeller op dräi Niveauen. Wielt eng Stëmm, déi Ärem Inhalt entsprécht, wielt Är Zilsprooch, passt d'Wiedergabegeschwindegkeet vun 0,5x op 2,0x un, a wielt Äert bevorzugt Ausgabeformat (MP3, WAV, OGG oder FLAC).
Erstelle & Herunterladen
Klickt op Generéieren an Ären Audio ass an e puer Sekonnen fäerdeg. Kuckt eng Virschau mat dem integréierte Player, lued et am Format vun Ärer Wiel erof, oder kopéiert e Link fir ze deelen. Benotzt d'API fir Batchveraarbechtung an d'Integratioun an Äre Workflow.
Text zu Sprooch
D'Sproochewëssenschaft beschäftegt sech mat der Entwécklung, der Entwécklung an der Entwécklung vun de Sproochen.
Text-zu-Sprooch-Modeller
Detailléiert Spezifikatiounen fir all KI-Modell verfügbar op TTS.ai. Verglach Qualitéit, Geschwindegkeet, Sproochunterstützung an Features fir de perfekte Modell fir Äert Projet ze fannen.
Kokoro
Free
Kokoro ass en Text-zu-Sprooch-Modell mat 82 Milliounen Parameteren, deen iwwer seng Gewiichtsklass erauskënnt. Trotz senger klenger Gréisst produzéiert et bemierkenswäert natierlech a expressiv Sprooch. Kokoro ënnerstëtzt verschidde Sproochen, dorënner Englesch, Japanesch, Chinesesch a Koreanesch mat enger Vielfalt expressiver Stimmen. Et leeft onheemlech séier - et generéiert Audio bal 100x méi séier wéi Echtzäit op enger GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
Nee
Fräi
Piper
Free
Piper ass eng liicht Text-zu-Sprooch-Engine, déi vu Rhasspy entwéckelt gouf an déi VITS an larynx Architekturen benotzt. Si leeft komplett op CPU, wat se ideal fir Edge-Geräter, Home Automation an Applikatiounen mécht, déi offline TTS erfuerderen. Mat méi wéi 100 Stimmen a méi wéi 30 Sproochen, liwwert Piper natierlech klingend Sprooch mat Echtzäitgeschwindegkeet och op engem Raspberry Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
Nee
Fräi
VITS
Free
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) ass eng parallel End-to-End TTS-Methode, déi méi natierlech klengen Audio generéiert wéi aktuell zweestufig Modeller. Et hëlt variational Inference mat normaliséierende Flëssegkeeten an engem adversarialen Trainingsprozess un, wat eng bedeitend Verbesserung an der Natierlechkeet erzielt.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
Nee
Fräi
MeloTTS
Free
MeloTTS by MyShell. ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at almost real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
Nee
Fräi
Bark
Standard
Bark vum Suno ass e Transformator-baséierte Text-zu-Audio-Modell, dat héich realistisch, méisproocheg Sprooch souwéi aner Audio wéi Musek, Hintergrundgeräischer a Klangeffekter generéiere kann. Et kann nonverbal Kommunikatioun wéi Lachen, Seufzen a Weinen produzéieren. Bark ënnerstëtzt iwwer 100 Sprecher-Voreinstellungen a méi wéi 13 Sproochen.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
Nee
2
Bark Small
Standard
Bark Small ass eng destilléiert Versioun vum Bark-Modell, dat e puer Audioqualitéit fir wesentlech méi séier Inferenzgeschwindegkeeten a manner Speicherbedierfnesser austauscht. Et behält d'Fäegkeet vu Bark fir Sprooch mat Emotiounen, Lachen a méi Sproochen ze generéieren.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
Nee
2
CosyVoice 2
Standard
CosyVoice 2 vum Alibaba's Tongyi Lab erreecht eng Sproochqualitéit déi mat där vun engem Mënsch verglach ka ginn, mat extrem niddereg Latenz, wat et ideal fir Echtzäit-Applikatiounen mécht. Et benotzt eng finit skalär Quantiséierung fir Streaming-Synthese an ënnerstëtzt Zero-Shot Sproochklonen, Synthese tëscht Sproochen, a fein-grained Emotiounskontroll. Et iwwerhëlt vill kommerziell TTS-Systemer an subjektiven Evaluatiounen.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
Ja
2
Dia TTS
Standard
Dia vun Nari Labs ass e 1.6B Parameter Text-zu-Sprooch Modell speziell entwéckelt fir Multi-Sprecher Dialoger ze generéieren. Et kann natierlech klingend Gespréicher tëscht zwee Sprecher mat passenden Turn-taking, Prosody, an emotionalen Ausdrock produzéieren. Dia ass perfekt fir Podcast-Stil Inhalt, Audiobook Dialoger, an interaktiv Konversatioun KI ze kreéieren.
Nari Labs
Apache 2.0
Medium
en
4GB
Nee
2
Parler TTS
Standard
Parler TTS ass en Text-zu-Sprooch-Modell, dat Stimmbeschreiwungen aus der natierlecher Sprooch benotzt, fir d'generéiert Sprooch ze kontrolléieren. Anstatt aus virdefinierte Stimmen auszewielen, beschreift Dir d'Stëmm déi Dir wëllt (z. B. "eng waarm weiblech Stëmm mat engem liichte britesche Akzent, déi lues a kloer schwätzt") a Parler generéiert Sprooch déi mat dëser Beschreiwung entsprécht. Dat mécht et eenzegaarteg flexibel fir kreativ Applikatiounen.
Hugging Face
Apache 2.0
Medium
en
4GB
Nee
2
IndexTTS-2
Standard
IndexTTS-2 ass e fortgeschrattenen Text-zu-Sprooch-System, dat an der Null-Schoss-Stëmmsynthese mat enger feinkörniger Emotiounskontroll exzellent ass. Et kann Sprooch mat spezifesche emotionalen Tonen wéi glécklech, traureg, verärgert oder ängstlech generéieren, ouni datt emotiounsspezifesch Trainingsdaten néideg sinn. De Modell benotzt Emotiounsvektoren, fir den emotionalen Ausdrock vun der generéierter Sprooch präzis ze kontrolléieren.
Index Team
Apache 2.0
Medium
en, zh
4GB
Ja
2
Spark TTS
Standard
Spark TTS vun SparkAudio ass en Text-zu-Sprooch-Modell, dat Sproochklonen mat kontrolléierbaren Emotiounen a Sproochstil kombinéiert. Mat nëmme 5 Sekonnen Referenzaudio kann et eng Sprooch klonen an da Sprooch mat verschiddenen Emotiounen, Geschwindegkeeten a Stiler generéieren, wärend et d'geklont Sproochidentitéit behält. Spark TTS benotzt e Prompt-baséiert Kontrollsystem.
SparkAudio
Apache 2.0
Medium
en, zh
4GB
Ja
2
GPT-SoVITS
Standard
GPT-SoVITS kombinéiert Sproochmodelléierung am GPT-Stil mat SoVITS (Singing Voice Inference via Translation and Synthesis) fir e mächtegt Stëmmklonen an e puer Schëss. Mat sou wéineg wéi 5 Sekonnen Referenzaudio kann et eng Stëmm klonen an eng nei Sprooch generéieren, wärend et d'eenzegaarteg Charakteristike vum Sprecher behält. Et ass exzellent an der Synthese vu gesot a gesot Stëmm.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
Ja
2
Orpheus
Standard
Orpheus ass e groussen Text-zu-Sprooch-Modell, deen emotionalen Ausdrock op mënschlechem Niveau erreecht. Trainéiert op méi wéi 100.000 Stonnen vu verschiddene Sproochdaten, ass et exzellent am Generéieren vu Sprooch mat natierlechen Emotiounen, Betonung a Sproochstiler. Orpheus kann Sprooch produzéieren, déi praktesch net vu mënschleche Opnamen ze ënnerscheeden ass.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
Nee
2
Chatterbox
Premium
Chatterbox vum Resemble AI ass e modernt Zero-Shot-Stëmm-Klon-Modell. Et kann all Stëmm aus engem eenzegen Audio-Sampling mat bemierkenswäerter Genauegkeet replizéieren, an net nëmmen de Klang, mee och de Sproochstil an d'emotionell Nuancen erfaassen. Chatterbox bitt och eng feingranuléiert Emotiounskontroll, déi Iech erlaabt, den emotionalen Ton vun der generéierter Sprooch onofhängeg vun der Stëmmidentitéit unzepassen.
Resemble AI
MIT
Medium
en
4GB
Ja
4
Tortoise TTS
Premium
Tortoise TTS ass en autoregressivt Text-zu-Sprooch-System mat ville Stëmmen, dat d'Audioqualitéit virun der Geschwindegkeet stellt. Et benotzt eng DALL-E-inspiréiert Architektur fir ganz natierlech Sprooch mat exzellenter Prosodie a Sprechergläichheet ze generéieren. Wärend et méi lues ass wéi vill aner Alternativen, produzéiert Tortoise eng vun de realisteschsten syntheteschen Sproochen, déi am Open-Source-Ëmfeld verfügbar sinn.
James Betker
Apache 2.0
Slow
en
8GB
Ja
4
StyleTTS 2
Premium
StyleTTS 2 realiséiert eng TTS-Synthese op mënschlechem Niveau duerch d' Kombinatioun vu Stil-Diffusioun mat antagonisteschem Training mat grousse Sproochmodeller. Et generéiert déi natierlechst Sprooch tëscht Single-Speaker-Modeller, déi mat mënschlechen Opnamen konkurréieren. StyleTTS 2 benotzt Diffusion-baséiert Stilmodelléierung fir d'ganz Palette vu mënschlecher Sproochvariatioun z'erfaassen.
Columbia University
MIT
Medium
en
4GB
Nee
4
OpenVoice
Premium
OpenVoice vun MyShell.ai erméiglecht d'Sofort-Stëmmklonen mat granulärer Kontroll iwwer Stëmmstil, Emotioun, Akzent, Rhythmus, Pausen an Intonatioun. Et kann eng Stëmm aus engem kuerzen Audioclip klonen an Sprooch a méi Sproochen erzeugen, während d'Sprecheridentitéit behalen gëtt. OpenVoice funktionéiert och als Stëmmkonverter, wat d'Stëmmtransformatioun an Echtzäit erlaabt.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
Ja
4
Qwen3 TTS
Standard
Qwen3-TTS ass en Text-zu-Sprooch-Modell mat 1,7 Milliarde Parameter vum Qwen-Team vun Alibaba. Et ënnerstëtzt dräi Modus: virprogramméiert Stimmen mat Emotiounskontroll (9 Sprecher), Stimmklonen aus nëmmen 3 Sekonnen Audio, an en eenzegaartege Stimmdesignmodus wou Dir d'Stëmm déi Dir wëllt an der natierlecher Sprooch beschreift. Et deckt 10 Sproochen mat héijer Ausdrockskraaft an natierlecher Prosodie.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
Ja
2
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) ass e Modell mat 1 Milliard Parameteren, dat speziell fir d'Generatioun vu Gespréichssprooch entwéckelt gouf. Et modelléiert d'natierlech Mustere vu mënschleche Gespréicher, dorënner Turn-taking Timing, Backchannel Reaktiounen, emotional Reaktiounen a Gespréichsfloss. CSM generéiert Audio, deen wéi eng natierlech mënschlech Gespréichssprooch kléngt an net wéi synthetesch Sprooch.
Sesame
Apache 2.0
Slow
en
8GB
Nee
4
Kokoro
Fräi
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Fräi
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Fräi
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Fräi
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Bark
Standard
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nee
Bark Small
Standard
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Nee
CosyVoice 2
Standard
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
Ja
Dia TTS
Standard
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
Nee
Parler TTS
Standard
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
Nee
IndexTTS-2
Standard
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Apache 2.0
Medium
en, zh
Ja
Spark TTS
Standard
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
Apache 2.0
Medium
en, zh
Ja
GPT-SoVITS
Standard
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
Ja
Orpheus
Standard
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
Nee
Qwen3 TTS
Standard
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
Ja
Modellverglachstabell
| Modell | Entwéckler: | Tier | Qualitéit: | Geschwindegkeet | Sproochen | Stëmmklonung | VRAM | Lizenz: | Credits | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Fräi | Verwenden | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Fräi | Verwenden | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Fräi | Verwenden | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Fräi | Verwenden | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Verwenden | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Verwenden | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Verwenden | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Verwenden | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Verwenden | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | Verwenden | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | Verwenden | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Verwenden | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Verwenden | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Verwenden | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Verwenden | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Verwenden | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Verwenden | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Verwenden | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Verwenden |
Lëscht vu lëtzebuergesche Filmer Lëscht vu lëtzebuergesche Filmer
D'Sprooch gëtt och als Text-zu-Sprooch (Text-to-Speech) bezeechent.
Lëscht vun de Stären op der Welt
All Modell ass Open Source ënner MIT, Apache 2.0, oder ähnlech permissive Lizenzen, sou datt Dir déi voll kommerziell Rechter hutt fir de generéierten Audio an Äre Projeten ze benotzen. Ob Dir eng séier, liicht Synthese fir Echtzäitapplikatiounen oder eng Premium-Studio-Qualitéit fir Audiobicher a Podcasts braucht, TTS.ai huet dat richtegt Modell fir all Uwendungsfall.
Free Models, kee Kont néideg
Start direkt mat dräi gratis TTS Modeller: Piper (ultra-schnell, liicht), VITS (qualitatiiv héich neuraler Synthese), an MeloTTS (méi Sproochen Ënnerstëtzung). Keng Registréierung, keng Kreditkaart, keng Begrenzung op Generatiounen. Gratis Modeller ënnerstëtzen Englesch a vill aner Sproochen mat natierlech-klingender Ausgabe passend fir déi meescht Uwendungen.
GPU-beschleunegt Veraarbechtung
All TTS-Modeller lafen op dedizéierte NVIDIA-GPUen fir séier, konsistent Generéierungszäiten. Gratis Modeller generéieren normalerweis Audio a manner wéi 2 Sekonnen. Standard Modeller wéi Kokoro, CosyVoice 2, a Bark am Duerchschnëtt 3-5 Sekonnen. Premium Modeller mat der héchster Qualitéit, wéi Tortoise a Chatterbox, verschaffen an 5-15 Sekonnen, ofhängeg vun der Textlängt.
30+ Sproochen ënnerstëtzt
Generéiert Sprooch a méi wéi 30 Sproochen, dorënner Englesch, Spuenesch, Franséisch, Däitsch, Italienesch, Portugiesesch, Chinesesch, Japanesch, Koreanesch, Arabisch, Hindi, Russesch a vill méi. E puer Modeller ënnerstëtzen d'Synthese tëscht verschiddene Sproochen, dat heescht Dir kënnt Sprooch a Sprooche generéieren, an deenen d'Originalstëmm nach ni trainéiert gouf. CosyVoice 2 a GPT-SoVITS sinn exzellent beim Klonen tëscht verschiddene Sproochen.
Entwéckler-fäeg API
Integréiert TTS.ai an Är Applikatiounen mat eiser OpenAI-kompatibler REST API. Een Endpunkt fir all 24+ Modeller. Python, JavaScript, cURL, a Go SDKs. Streaming Ënnerstëtzung fir Echtzäit-Applikatiounen. Batchveraarbechtung fir d'Generatioun vu groussen Inhalter. Webhooks fir asynchron Notifikatiounen. Verfügbar op Pro an Enterprise Pläng.
Häufig gestallte Froen
Text an Sprooch ëmwandelen
D'Lëscht vun de lëtzebuergesche Gemengen ass eng Lëscht vun de Gemengen an der Gemeng Esch-Uelzecht an der Provënz Lëtzebuerg.