Lëscht vun den Asteroiden Text- op- Sprooch

31+ Open-Source-Modeller, 231+ Stimmen, 34+ Sproochen. Keen Kont erfuerderlech.

8K+
Ersteller
30K+
Generatiounen
31+
Lëscht vu Modellen
231+
Stimmen
0/500 Zeichen · Sign up for 5,000 per generation → Fräi
Liewe TTS.ai? Erzielt Är Frënn!

Alles wat Dir wësse musst

30+ Tools baséiert op Open-Source AI Modeller

31+ Lëscht vu Sproochen

Déi gréisst Sammlung vun Open-Source TTS-Modeller op enger Plattform

KokoroKokoro Free

Kokoro ass en Text-zu-Sprooch-Modell mat 82 Milliounen Parameteren, deen iwwer seng Gewiichtsklass erauskënnt. Trotz senger klenger Gréisst produzéiert et bemierkenswäert natierlech a expressiv Sprooch. Kokoro ënnerstëtzt verschidde Sproochen, dorënner Englesch, Japanesch, Chinesesch a Koreanesch mat enger Vielfalt expressiver Stimmen. Et leeft onheemlech séier - et generéiert Audio bal 100x méi séier wéi Echtzäit op enger GPU.

Bescht fir: High-Quality TTS mat minimaler Latenz, Streaming-Applikatiounen

Gratis probéieren

PiperPiper Free

Piper ass eng liicht Text-zu-Sprooch-Engine, déi vu Rhasspy entwéckelt gouf an déi VITS an larynx Architekturen benotzt. Si leeft komplett op CPU, wat se ideal fir Edge-Geräter, Home Automation an Applikatiounen mécht, déi offline TTS erfuerderen. Mat méi wéi 100 Stimmen a méi wéi 30 Sproochen, liwwert Piper natierlech klingend Sprooch mat Echtzäitgeschwindegkeet och op engem Raspberry Pi 4.

Bescht fir: Schnell Virschauen, Accessibilitéit, an abegraff Applikatiounen

Gratis probéieren

VITSVITS Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) ass eng parallel End-to-End TTS-Methode, déi méi natierlech klengen Audio generéiert wéi aktuell zweestufig Modeller. Et hëlt variational Inference mat normaliséierende Flëssegkeeten an engem adversarialen Trainingsprozess un, wat eng bedeitend Verbesserung an der Natierlechkeet erzielt.

Bescht fir: General Purpose Text-to-Speech mat natürlicher Prosodie

Gratis probéieren

MeloTTSMeloTTS Free

MeloTTS by MyShell. ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at almost real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Bescht fir: Produktiounsapplikatiounen déi séier, méisproocheg TTS brauchen

Gratis probéieren

OuteTTSOuteTTS Free

OuteTTS erweidert grouss Sproochmodeller mat Text-zu-Sprooch Fäegkeeten, während d'Original Architektur behalen gëtt. Et ënnerstëtzt verschidde Backends, dorënner llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, an och Browser Inferenz via Transformers.js. Features zero-shot Stëmm Klonen duerch Sprecherprofiler als JSON gespäichert.

Bescht fir: Lëscht vun de lëtzebuergesche Schrëftsteller, Literaturkritiker, Auteuren

Gratis probéieren

Pocket TTSPocket TTS Free

Pocket TTS vum Kyutai (Moshi-Schrëftsteller) ass e kompakte 100M Parameter Text-zu-Sprooch-Modell, deen iwwer säi Gewiicht erauskënnt. Et leeft effizient op der CPU, ënnerstëtzt Zero-Shot-Stëmmklonen aus engem eenzegen Audiosample, a produzéiert eng natierlech klengen Sprooch. D'Kleiner Modellgréisst mécht et ideal fir Edge-Deployment an Ëmfeld mat wéinege Ressourcen.

Bescht fir: D'Sprooch ass eng einfach, einfach ze verstoen, einfach ze léieren, einfach ze léieren.

Gratis probéieren

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Bescht fir: Fast lightweight TTS, edge deployment, low-latency applications

Gratis probéieren

BarkBark Standard

D'Architektur vum Gebai ass eng Kombination aus moderner Architektur, traditioneller Architektur a moderner Musek.

Entwéckler: Suno · Lizenz: MIT

Probéieren

Bark SmallBark Small Standard

D'Gréisst vun der Uewerfläch ass méi kleng wéi déi vun der Uewerfläch vun der Äerd.

Entwéckler: Suno · Lizenz: MIT

Probéieren

CosyVoice 2CosyVoice 2 Standard

D'Atmosphär vun der Äerd besteet haaptsächlech aus Sauerstoff a Waasserdamp.

Entwéckler: Alibaba (Tongyi Lab) · Lizenz: Apache 2.0

Probéieren

Dia TTSDia TTS Standard

Et gëtt verschidden Aarte vu Gespréichstechniken, déi an der Kommunikatioun benotzt ginn.

Entwéckler: Nari Labs · Lizenz: Apache 2.0

Probéieren

Parler TTSParler TTS Standard

D'Lëtzebuerger Sprooch ass déi offiziell Sprooch an d'Lëtzebuergescht ass déi offiziell Sprooch am Land.

Entwéckler: Hugging Face · Lizenz: Apache 2.0

Probéieren

GLM-TTSGLM-TTS Standard

Et ass déi klengst vun de 4 bekannte Stärekéip am Stärebild.

Entwéckler: Zhipu AI · Lizenz: GLM-4 License

Probéieren

IndexTTS-2IndexTTS-2 Standard

D'Gréisst vun de Stären huet och e groussen Impakt op d'Gréisst vun der Äerd.

Entwéckler: Index Team · Lizenz: Bilibili Model License

Probéieren

Spark TTSSpark TTS Standard

D'Klassifikatioun vun de Sprooche gëtt duerch d'Sproochewëssenschaft an d'Sproochewëssenschaftler gemaach.

Entwéckler: SparkAudio · Lizenz: CC BY-NC-SA 4.0

Probéieren

GPT-SoVITSGPT-SoVITS Standard

D'Klassifikatioun vun de Stären no der Spektralklass gëtt all 500 Joer aktualiséiert.

Entwéckler: RVC-Boss · Lizenz: MIT

Probéieren

OrpheusOrpheus Standard

D'Zuel vun den Asteroiden am Stärebild ass ongeféier 100.000.

Entwéckler: Canopy Labs · Lizenz: Llama 3.2 Community

Probéieren

Qwen3 TTSQwen3 TTS Standard

D'Sprooch huet eng grouss Varietéit u Sproochen, Dialekter a Sproochegruppen.

Entwéckler: Alibaba (Qwen) · Lizenz: Apache 2.0

Probéieren

Chatterbox TurboChatterbox Turbo Standard

D'Spill huet eng 200 Säiten a besteet aus 1200 verschiddene Figuren, déi sech ënnerschiddlech beweegen, lafen, fléien, fléien, fléien, fléien, fléien.

Entwéckler: Resemble AI · Lizenz: MIT

Probéieren

Dia 2Dia 2 Standard

D'Sprooche vun der Grupp sinn d'Sprooche vun der Proto-Sprooch, der Proto-Sprooch an der Proto-Sprooch.

Entwéckler: Nari Labs · Lizenz: Apache 2.0

Probéieren

VoxCPMVoxCPM Standard

Den CR344 ass e Chemin repris am Kanton Réiden an der Gemeng Réiden.

Entwéckler: OpenBMB · Lizenz: Apache 2.0

Probéieren

TADATADA Standard

D'Spill ass op engem 2D-Computer-Modul baséiert, deen op engem 3D-Computer-Modul baséiert.

Entwéckler: Hume AI · Lizenz: MIT

Probéieren

VibeVoiceVibeVoice Standard

Et gëtt eng grouss Varietéit vun Audio- a Videoformater.

Entwéckler: Microsoft · Lizenz: MIT

Probéieren

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Entwéckler: Alibaba (FunAudioLLM) · Lizenz: Apache 2.0

Probéieren

ChatterboxChatterbox Premium

D'Klassifikatioun vun de Stären no hirer visueller Magnitude gëtt duerch d'Spektralklass ausgedréckt.

Qualitéit:

Probéieren

Tortoise TTSTortoise TTS Premium

Et gëtt verschidden Aarte vun Architektur a verschidden Aarte vun Architekten.

Qualitéit:

Probéieren

StyleTTS 2StyleTTS 2 Premium

D'Sproochewëssenschaft ass d'Wëssenschaft vun de Sproochen an hirer Verbreedung an Entwécklung.

Qualitéit:

Probéieren

OpenVoiceOpenVoice Premium

D'Klassifikatioun vun de Stären ënnerscheet sech no der Gréisst, der Form an dem Stil.

Qualitéit:

Probéieren

Sesame CSMSesame CSM Premium

D'Resultat vun dësem Gespréich ass e Gespréichsmodell, deen och als Dialog bezeechent gëtt.

Qualitéit:

Probéieren

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Qualitéit:

Probéieren

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Qualitéit:

Probéieren

CosyVoice 2CosyVoice 2

D'Atmosphär vun der Äerd besteet haaptsächlech aus Sauerstoff a Waasserdamp.

Sproochen: en, zh, ja, ko, fr, de, it, es

Stëmm klonen

GLM-TTSGLM-TTS

Et ass déi klengst vun de 4 bekannte Stärekéip am Stärebild.

Sproochen: en, zh

Stëmm klonen

IndexTTS-2IndexTTS-2

D'Gréisst vun de Stären huet och e groussen Impakt op d'Gréisst vun der Äerd.

Sproochen: en, zh

Stëmm klonen

Spark TTSSpark TTS

D'Klassifikatioun vun de Sprooche gëtt duerch d'Sproochewëssenschaft an d'Sproochewëssenschaftler gemaach.

Sproochen: en, zh

Stëmm klonen

GPT-SoVITSGPT-SoVITS

D'Klassifikatioun vun de Stären no der Spektralklass gëtt all 500 Joer aktualiséiert.

Sproochen: en, zh, ja, ko

Stëmm klonen

ChatterboxChatterbox

D'Klassifikatioun vun de Stären no hirer visueller Magnitude gëtt duerch d'Spektralklass ausgedréckt.

Sproochen: en

Stëmm klonen

Tortoise TTSTortoise TTS

Et gëtt verschidden Aarte vun Architektur a verschidden Aarte vun Architekten.

Sproochen: en

Stëmm klonen

OpenVoiceOpenVoice

D'Klassifikatioun vun de Stären ënnerscheet sech no der Gréisst, der Form an dem Stil.

Sproochen: en, zh, ja, ko, fr, de, es, it

Stëmm klonen

Qwen3 TTSQwen3 TTS

D'Sprooch huet eng grouss Varietéit u Sproochen, Dialekter a Sproochegruppen.

Sproochen: en, zh, ja, ko, de, fr, ru, pt, es, it

Stëmm klonen

Chatterbox TurboChatterbox Turbo

D'Spill huet eng 200 Säiten a besteet aus 1200 verschiddene Figuren, déi sech ënnerschiddlech beweegen, lafen, fléien, fléien, fléien, fléien, fléien.

Sproochen: en

Stëmm klonen

VoxCPMVoxCPM

Den CR344 ass e Chemin repris am Kanton Réiden an der Gemeng Réiden.

Sproochen: en, zh

Stëmm klonen

OuteTTSOuteTTS

D'Grupp besteet aus de Stären NGC 1, NGC 2, NGC 3 an NGC 4.

Sproochen: en

Stëmm klonen

Pocket TTSPocket TTS

De 100 mm-Parametermodell vum Kyūtai gouf mat enger Stëmmklonéierung aus engem eenzege Sample entwéckelt.

Sproochen: en, fr

Stëmm klonen

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Sproochen: en, zh, ja, ko, de, es, fr, it, ru

Stëmm klonen

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Sproochen: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Stëmm klonen

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Sproochen: en, zh

Stëmm klonen

Entwéckler-first API

OpenAI-kompatibel REST API. Een Endpunkt, 22+ Modeller. Streaming-Unterstützung fir Echtzäit-Applikatiounen.

  • OpenAI-kompatibelt Format
  • Streaming TTS fir Echtzäit-Apps
  • Batchveraarbechtung fir grouss Aufgaben
  • Webhook Benachrichtigungen
API-Dokumentatioun
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Lëscht vu lëtzebuergesche Präisser

D'Gréisst vun de Stären ännert sech mat der Distanz.

Fräi

$0

50 Punkten

  • Kokoro, Piper, VITS, MeloTTS
  • 500 Zeichen Limit
  • 3 Gen/Stonn (keen Kont)
Gratis anmelden

Starter

$9/% 1 Mo

500 Punkten/Mount

  • All 22+ Modeller
  • 100.000 Zeilen pro Generatioun
  • Stëmmklonung
Starten
Déi populärst

Pro

$29/% 1 Mo

2.000 Punkten/Mount

  • Alles am Starter
  • API-Zugang
  • Prioritéitsveraarbechtung
Profi ginn

Geschäftlech

$99/% 1 Mo

10.000.000 Zeichen/Mount

  • D'Lëtzebuerger Land
  • Bulk-API
  • Prioritéitslëscht
Geschäft

Sich all Pläng un, inklusiv Kreditpakete →

Häufig gestallte Froen

TTS.ai ass déi ëmfassendst AI-Stëmmplattform, déi méi wéi 22 Text-zu-Sprooch-Modeller, Sproochklonen, Sprooch-zu-Text an Audio-Tools ubitt. All Modeller sinn Open Source ouni Verkeefer Lock-in.

Ja! TTS.ai bitt gratis Text-zu-Sprooch mat Kokoro, Piper, VITS, a MeloTTS Modeller. Keng Kont erfuerderlech. Registréiert Iech fir 15.000 gratis Zeichen ze kréien an Zougang zu all Modeller. Bezuelte Pläng starten bei $9/Mount.

Fir Geschwindegkeet, benotzt Kokoro oder Piper. Fir Qualitéit, probéiert CosyVoice 2 oder StyleTTS 2. Fir Stëmmklonen, benotzt Chatterbox oder GPT-SoVITS. Fir Dialoge benotzt Dia TTS. Probéiert verschidde Modeller op dem selwechte Text ze vergläichen.

Ja. OpenAI-kompatibel REST API fir TTS, STT, Sproochklonen, an Audio-Tools. Verfügbar op Pro ($29/mo) an Enterprise ($99/mo) Pläng. Dokumentatioun op tts.ai/api/ kucken.

D'Stëmmqualitéit ass jee no Modell ënnerschiddlech. Premium-Modeller wéi CosyVoice 2, StyleTTS 2 a Chatterbox produzéieren eng Sprooch mat enger ähnlecher Qualitéit wéi déi vun engem Mënsch, mat enger natierlecher Intonatioun an Emotiounen. Gratis-Modeller wéi Kokoro bidden eng exzellent Qualitéit fir déi meescht Gebrauchsfäll.

TTS.ai ënnerstëtzt méi wéi 30 Sproochen a senger Modellbibliothéik. Englesch huet d'breetst Modellunterstützung, awer Modeller wéi CosyVoice 2 decken Chinesisch, Japanesch a Koreanesch; GPT-SoVITS behandelt Chinesisch, Japanesch, Koreanesch an Englesch; a MeloTTS ënnerstëtzt Englisch, Spanisch, Franséisch, Chinesisch, Japanesch a Koreanesch.

Ja. All Veraarbechtung geschitt op eise dedizéierte GPU-Serveren. Mir späicheren Är Textinput oder generéiert Audio no der Lieferung net. Héichgeladen Stëmmprouwen fir Klonen ginn nëmmen fir d'aktuell Sitzung benotzt a ginn net behalen. Mir ginn Är Donnéeën ni mat Drëtten deelen oder se fir Modeller ze trainéieren benotzen.

Ja. All Audio, deen op TTS.ai generéiert gëtt, ass fir Är kommerziell Benotzung, inklusiv fir YouTube-Videoen, Podcasts, Audiobicher, Apps, Annoncen a Produkter. Eis Modeller sinn Open Source ënner permissive Lizenzen (MIT, Apache 2.0). Keng Lizenzgebühren oder Attributioun erfuerderlech.

TTS.ai generéiert standardméisseg Audio am WAV-Format fir maximal Qualitéit. Dir kënnt an MP3, FLAC, OGG oder M4A konvertéieren mat eisem gratis Audiokonverter-Tool. D'API ënnerstëtzt d'Spezifizéierung vun Ärem bevorzugten Ausgabeformat direkt an der Ufro.

Laadt eng kuerz Audioprobe (bis zu 5 Sekonnen) vun der Stëmm erop, déi Dir klone wëllt, an da gitt en Text an, fir Sprooch an där Stëmm ze generéieren. Modeller wéi Chatterbox, GPT-SoVITS, a CosyVoice 2 ënnerstëtzen d'Sproochklonen. D'geklont Stëmm hëlt Ton, Akzent a Sproochstil op.

Freed Modeller (Kokoro, Piper, VITS, MeloTTS) brauchen keen Kont an kaschten null Zeichen. Standard Modeller (2000 Zeichen/1K Input) enthalen Bark, CosyVoice 2, F5-TTS, an Dia. Premium Modeller (4000 Zeichen/1K Input) enthalen OpenVoice, Chatterbox, StyleTTS 2, an Tortoise. Bezuelt Modeller bidden normalerweis méi héich Qualitéit, méi Stimmen, an zousätzlech Featuren wéi Stëmm Klonen.

Ja. D'API ënnerstëtzt Batch-Veraarbechtung fir d'Konvertéierung vu grousse Volumen vu Text an Sprooch. Setzt vill Ufroen a kritt Resultater asynchron mat Job-UUIDen. Enterprise-Pläng ($99/mo) enthalen prioritäre Queue-Zugang fir eng séier Batch-Veraarbechtung. Ideal fir d'Produktioun vun Audiobicher, Kursinhalt a grouss Voiceover-Projeten.
4.1/5 (21)

What could we improve? Your feedback helps us fix issues.

Den Haaptuert ass Aix-en-Provence.

Join Creatoren, Entwéckler, a Geschäfter mat TTS.ai