Lëscht vun den Asteroiden Text- op- Sprooch

33+ Open-Source-Modeller, 273+ Stimmen, 33+ Sproochen. Keen Kont erfuerderlech.

17K+
Ersteller
70K+
Generatiounen
33+
Lëscht vu Modellen
273+
Stimmen
0/500 Zeichen · Et gëtt 5.000 Aarten. → Fräi
Liewe TTS.ai? Erzielt Är Frënn!

33+ Lëscht vu Sproochen

Déi gréisst Sammlung vun Open-Source TTS-Modeller op enger Plattform

KokoroKokoro Free

Kokoro ass en Text-zu-Sprooch-Modell mat 82 Milliounen Parameteren, deen iwwer seng Gewiichtsklass erauskënnt. Trotz senger klenger Gréisst produzéiert et bemierkenswäert natierlech a expressiv Sprooch. Kokoro ënnerstëtzt verschidde Sproochen, dorënner Englesch, Japanesch, Chinesesch a Koreanesch mat enger Vielfalt expressiver Stimmen. Et leeft onheemlech séier - et generéiert Audio bal 100x méi séier wéi Echtzäit op enger GPU.

Bescht fir: High-Quality TTS mat minimaler Latenz, Streaming-Applikatiounen

Gratis probéieren

PiperPiper Free

Piper ass eng liicht Text-zu-Sprooch-Engine, déi vu Rhasspy entwéckelt gouf an déi VITS an larynx Architekturen benotzt. Si leeft komplett op CPU, wat se ideal fir Edge-Geräter, Home Automation an Applikatiounen mécht, déi offline TTS erfuerderen. Mat méi wéi 100 Stimmen a méi wéi 30 Sproochen, liwwert Piper natierlech klingend Sprooch mat Echtzäitgeschwindegkeet och op engem Raspberry Pi 4.

Bescht fir: Schnell Virschauen, Accessibilitéit, an abegraff Applikatiounen

Gratis probéieren

VITSVITS Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) ass eng parallel End-to-End TTS-Methode, déi méi natierlech klengen Audio generéiert wéi aktuell zweestufig Modeller. Et hëlt variational Inference mat normaliséierende Flëssegkeeten an engem adversarialen Trainingsprozess un, wat eng bedeitend Verbesserung an der Natierlechkeet erzielt.

Bescht fir: General Purpose Text-to-Speech mat natürlicher Prosodie

Gratis probéieren

MeloTTSMeloTTS Free

MeloTTS by MyShell. ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at almost real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Bescht fir: Produktiounsapplikatiounen déi séier, méisproocheg TTS brauchen

Gratis probéieren

Kani TTS 2Kani TTS 2 Free

De Kani-TTS-2 vum NineNineSix ass e liichte 400M Parameter Modell, deen op LiquidAI LFM2 Backbone mat Nvidia NanoCodec baséiert. Et leeft op nëmmen 3GB VRAM an erzielt 10 Sekonnen Sprooch an ~2 Sekonnen (RTF 0.2).

Bescht fir: Schnell Generéierung, Ressource-ënnerstëtzend Ëmfeld, séier Virschauen

Gratis probéieren

OuteTTSOuteTTS Free

OuteTTS erweidert grouss Sproochmodeller mat Text-zu-Sprooch Fäegkeeten, während d'Original Architektur behalen gëtt. Et ënnerstëtzt verschidde Backends, dorënner llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, an och Browser Inferenz via Transformers.js. Features zero-shot Stëmm Klonen duerch Sprecherprofiler als JSON gespäichert.

Bescht fir: Lëscht vun de lëtzebuergesche Schrëftsteller, Literaturkritiker, Auteuren

Gratis probéieren

Pocket TTSPocket TTS Free

Pocket TTS vum Kyutai (Moshi-Schrëftsteller) ass e kompakte 100M Parameter Text-zu-Sprooch-Modell, deen iwwer säi Gewiicht erauskënnt. Et leeft effizient op der CPU, ënnerstëtzt Zero-Shot-Stëmmklonen aus engem eenzegen Audiosample, a produzéiert eng natierlech klengen Sprooch. D'Kleiner Modellgréisst mécht et ideal fir Edge-Deployment an Ëmfeld mat wéinege Ressourcen.

Bescht fir: D'Sprooch ass eng einfach, einfach ze verstoen, einfach ze léieren, einfach ze léieren.

Gratis probéieren

Kitten TTSKitten TTS Free

Kitten TTS by KittenML ass en ultraleichtes Text-zu-Sprooch-Modell, dat op ONNX baséiert ass. Mat Varianten vu 15M bis 80M Parameteren (25-80 MB op der Festplatte) bitt et eng héichwäerteg Sproochsynthese op der CPU ouni eng GPU ze brauchen. Et bitt 8 integréiert Stimmen, eng upassbar Sproochgeschwindegkeet an eng integréiert Textvirveraarbechtung fir Zuelen, Währungen an Eenheeten. Ideal fir Edge-Deployment an Applikatiounen mat niddrege Latenz.

Bescht fir: Schnell, liicht TTS, Edge-Deployment, Low-Latency-Applikatiounen

Gratis probéieren

Ming-Omni TTSMing-Omni TTS Free

Ming-omni-tts-0.5B vun inclusionAI ass e kompakten omni-modalen Sproochmodell, deen op dem BailingMM-Backbone mat engem Patch-by-Patch-Flow-Matching-Audio-Decoder gebaut gouf. Et bitt 44.1kHz Ausgang (nëmmen CD-Qualitéit), ënnerstëtzt Zero-Shot-Stëmmklonen aus enger 3+ Sekonnen Referenz, an enthält eng integréiert Emotioun / Dialekt / BGM Kontroll iwwer JSON Instruktiounen. Exzellent Stabilitéit - 0.83% WER op chinesesche Benchmarks.

Bescht fir: D'Biographie vum Jean-Claude Schmit op der Websäit vun der Lëtzebuerger Sprooch

Gratis probéieren

MOSS-TTS NanoMOSS-TTS Nano Free

MOSS-TTS-Nano-100M ass d'OpenMOSS-kompakt 100M-Parameter-Variante vun der MOSS-TTS-Famill, déi d'Delay-Transformer-Architektur deelt. Et ersetzt d'Top-Qualitéit vum 8B-Modell fir ~80x manner Gewiicht an e dramatisch nidderegen VRAM pro Ufro, wat et fir Free-Tier an High-Durchsatz-Deploymenter gëeegent mécht.

Bescht fir: D'Grupp ass eng vun de gréisste Produzenten, Verkeefer a Konsumenten vu Mikrochips.

Gratis probéieren

BarkBark Standard

D'Architektur vum Gebai ass eng Kombination aus moderner Architektur, traditioneller Architektur a moderner Musek.

Entwéckler: Suno · Lizenz: MIT

Probéieren

Bark SmallBark Small Standard

D'Gréisst vun der Uewerfläch ass méi kleng wéi déi vun der Uewerfläch vun der Äerd.

Entwéckler: Suno · Lizenz: MIT

Probéieren

CosyVoice 2CosyVoice 2 Standard

D'Atmosphär vun der Äerd besteet haaptsächlech aus Sauerstoff a Waasserdamp.

Entwéckler: Alibaba (Tongyi Lab) · Lizenz: Apache 2.0

Probéieren

Dia TTSDia TTS Standard

Et gëtt verschidden Aarte vu Gespréichstechniken, déi an der Kommunikatioun benotzt ginn.

Entwéckler: Nari Labs · Lizenz: Apache 2.0

Probéieren

Parler TTSParler TTS Standard

D'Lëtzebuerger Sprooch ass déi offiziell Sprooch an d'Lëtzebuergescht ass déi offiziell Sprooch am Land.

Entwéckler: Hugging Face · Lizenz: Apache 2.0

Probéieren

IndexTTS-2IndexTTS-2 Standard

D'Gréisst vun de Stären huet och e groussen Impakt op d'Gréisst vun der Äerd.

Entwéckler: Index Team · Lizenz: Bilibili Model License

Probéieren

Spark TTSSpark TTS Standard

D'Klassifikatioun vun de Sprooche gëtt duerch d'Sproochewëssenschaft an d'Sproochewëssenschaftler gemaach.

Entwéckler: SparkAudio · Lizenz: CC BY-NC-SA 4.0

Probéieren

GPT-SoVITSGPT-SoVITS Standard

D'Klassifikatioun vun de Stären no der Spektralklass gëtt all 500 Joer aktualiséiert.

Entwéckler: RVC-Boss · Lizenz: MIT

Probéieren

OrpheusOrpheus Standard

D'Zuel vun den Asteroiden am Stärebild ass ongeféier 100.000.

Entwéckler: Canopy Labs · Lizenz: Llama 3.2 Community

Probéieren

Qwen3 TTSQwen3 TTS Standard

D'Sprooch huet eng grouss Varietéit u Sproochen, Dialekter a Sproochegruppen.

Entwéckler: Alibaba (Qwen) · Lizenz: Apache 2.0

Probéieren

VieNeu-TTS-v2VieNeu-TTS-v2 Standard

Vietnamesch + Englesch Code-Switching TTS mat 7 virprogramméiert Stimmen an Zero-Shot Stëmm Klonen. CPU-only, keng GPU erfuerderlech.

Entwéckler: Phạm Nguyễn Ngọc Bảo · Lizenz: Apache 2.0

Probéieren

Chatterbox TurboChatterbox Turbo Standard

D'Spill huet eng 200 Säiten a besteet aus 1200 verschiddene Figuren, déi sech ënnerschiddlech beweegen, lafen, fléien, fléien, fléien, fléien, fléien.

Entwéckler: Resemble AI · Lizenz: MIT

Probéieren

VoxCPMVoxCPM Standard

Den CR344 ass e Chemin repris am Kanton Réiden an der Gemeng Réiden.

Entwéckler: OpenBMB · Lizenz: Apache 2.0

Probéieren

VibeVoiceVibeVoice Standard

Et gëtt eng grouss Varietéit vun Audio- a Videoformater.

Entwéckler: Microsoft · Lizenz: MIT

Probéieren

CosyVoice3CosyVoice3 Standard

D'Sprooch ass eng multilingual, mat enger grousser Varietéit vu Sproochen, déi och an der Sproochegrupp vun de Semi-Originaler falen.

Entwéckler: Alibaba (FunAudioLLM) · Lizenz: Apache 2.0

Probéieren

NAMAA Saudi TTSNAMAA Saudi TTS Standard

D'Sprooch ass eng vun de gréisste Sproochen an der Welt, mat enger ongeféier 100 Milliounen Awunner.

Entwéckler: NAMAA Space · Lizenz: MIT

Probéieren

Darwin TTSDarwin TTS Standard

D'Spill ass eng Versioun vum 3D-Spill-System 3D World, dat 1997 vum 3D Realms erauskoum.

Entwéckler: FINAL-Bench · Lizenz: Apache 2.0

Probéieren

MOSS-TTSDMOSS-TTSD Standard

D'Serie besteet aus 10 Episoden, déi all ronn 50 Minutte gedréint ginn, an déi all ronn 15 Minutte verännert ginn.

Entwéckler: OpenMOSS · Lizenz: Apache 2.0

Probéieren

ChatterboxChatterbox Premium

D'Klassifikatioun vun de Stären no hirer visueller Magnitude gëtt duerch d'Spektralklass ausgedréckt.

Qualitéit:

Probéieren

Tortoise TTSTortoise TTS Premium

Et gëtt verschidden Aarte vun Architektur a verschidden Aarte vun Architekten.

Qualitéit:

Probéieren

StyleTTS 2StyleTTS 2 Premium

D'Sproochewëssenschaft ass d'Wëssenschaft vun de Sproochen an hirer Verbreedung an Entwécklung.

Qualitéit:

Probéieren

OpenVoiceOpenVoice Premium

D'Klassifikatioun vun de Stären ënnerscheet sech no der Gréisst, der Form an dem Stil.

Qualitéit:

Probéieren

Sesame CSMSesame CSM Premium

D'Resultat vun dësem Gespréich ass e Gespréichsmodell, deen och als Dialog bezeechent gëtt.

Qualitéit:

Probéieren

CosyVoice 2CosyVoice 2

D'Atmosphär vun der Äerd besteet haaptsächlech aus Sauerstoff a Waasserdamp.

Sproochen: en, zh, ja, ko, fr, de, it, es

Stëmm klonen

IndexTTS-2IndexTTS-2

D'Gréisst vun de Stären huet och e groussen Impakt op d'Gréisst vun der Äerd.

Sproochen: en, zh

Stëmm klonen

Spark TTSSpark TTS

D'Klassifikatioun vun de Sprooche gëtt duerch d'Sproochewëssenschaft an d'Sproochewëssenschaftler gemaach.

Sproochen: en, zh

Stëmm klonen

GPT-SoVITSGPT-SoVITS

D'Klassifikatioun vun de Stären no der Spektralklass gëtt all 500 Joer aktualiséiert.

Sproochen: en, zh, ja, ko

Stëmm klonen

ChatterboxChatterbox

D'Klassifikatioun vun de Stären no hirer visueller Magnitude gëtt duerch d'Spektralklass ausgedréckt.

Sproochen: en

Stëmm klonen

Tortoise TTSTortoise TTS

Et gëtt verschidden Aarte vun Architektur a verschidden Aarte vun Architekten.

Sproochen: en

Stëmm klonen

OpenVoiceOpenVoice

D'Klassifikatioun vun de Stären ënnerscheet sech no der Gréisst, der Form an dem Stil.

Sproochen: en, zh, ja, ko, fr, es

Stëmm klonen

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnamesch + Englesch Code-Switching TTS mat 7 virprogramméiert Stimmen an Zero-Shot Stëmm Klonen. CPU-only, keng GPU erfuerderlech.

Sproochen: vi, en

Stëmm klonen

Chatterbox TurboChatterbox Turbo

D'Spill huet eng 200 Säiten a besteet aus 1200 verschiddene Figuren, déi sech ënnerschiddlech beweegen, lafen, fléien, fléien, fléien, fléien, fléien.

Sproochen: en

Stëmm klonen

VoxCPMVoxCPM

Den CR344 ass e Chemin repris am Kanton Réiden an der Gemeng Réiden.

Sproochen: en, zh

Stëmm klonen

OuteTTSOuteTTS

D'Grupp besteet aus de Stären NGC 1, NGC 2, NGC 3 an NGC 4.

Sproochen: en

Stëmm klonen

Pocket TTSPocket TTS

De 100 mm-Parametermodell vum Kyūtai gouf mat enger Stëmmklonéierung aus engem eenzege Sample entwéckelt.

Sproochen: en, fr

Stëmm klonen

CosyVoice3CosyVoice3

D'Sprooch ass eng multilingual, mat enger grousser Varietéit vu Sproochen, déi och an der Sproochegrupp vun de Semi-Originaler falen.

Sproochen: en, zh, ja, ko, de, es, fr, it, ru

Stëmm klonen

NAMAA Saudi TTSNAMAA Saudi TTS

D'Sprooch ass eng vun de gréisste Sproochen an der Welt, mat enger ongeféier 100 Milliounen Awunner.

Sproochen: ar

Stëmm klonen

Darwin TTSDarwin TTS

D'Spill ass eng Versioun vum 3D-Spill-System 3D World, dat 1997 vum 3D Realms erauskoum.

Sproochen: en, ko, ja, zh

Stëmm klonen

MOSS-TTSDMOSS-TTSD

D'Serie besteet aus 10 Episoden, déi all ronn 50 Minutte gedréint ginn, an déi all ronn 15 Minutte verännert ginn.

Sproochen: en, zh

Stëmm klonen

Ming-Omni TTSMing-Omni TTS

Den NGC 5445 ass eng bal kugelfërmeg Galaxiëkéip mat enger visueller Magnitude vu +4,4 mag.

Sproochen: en, zh

Stëmm klonen

MOSS-TTS NanoMOSS-TTS Nano

Den NGC 180 ass eng ronn 100 Liichtjoer grouss Kugelstärekëscht, déi ronn 80 Liichtjoer vun eis ewech ass.

Sproochen: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Stëmm klonen

Entwéckler-first API

OpenAI-kompatibel REST API. Een Endpunkt, 22+ Modeller. Streaming-Unterstützung fir Echtzäit-Applikatiounen.

  • OpenAI-kompatibelt Format
  • Streaming TTS fir Echtzäit-Apps
  • Batchveraarbechtung fir grouss Aufgaben
  • Webhook Benachrichtigungen
API-Dokumentatioun
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Lëscht vu lëtzebuergesche Präisser

D'Gréisst vun de Stären ännert sech mat der Distanz.

Fräi

$0

15.000 Zeichen + 5.000/dag

  • 7 Säiten, déi vum Kokoro
  • 5000 Zeilen pro Generatioun
  • API-Access inklusiv
Gratis anmelden

Starter

$9/% 1 Mo

500 Punkten/Mount

  • All 22+ Modeller
  • 100.000 Zeilen pro Generatioun
  • Stëmmklonung
Starten
Déi populärst

Pro

$29/% 1 Mo

2.000 Punkten/Mount

  • Alles am Starter
  • API-Zugang
  • Prioritéitsveraarbechtung
Profi ginn

Geschäftlech

$99/% 1 Mo

10.000.000 Zeichen/Mount

  • D'Lëtzebuerger Land
  • Bulk-API
  • Prioritéitslëscht
Geschäft

Sich all Pläng un, inklusiv Kreditpakete →

Häufig gestallte Froen

TTS.ai ass déi ëmfassendst AI-Stëmmplattform, déi méi wéi 22 Text-zu-Sprooch-Modeller, Sproochklonen, Sprooch-zu-Text an Audio-Tools ubitt. All Modeller sinn Open Source ouni Verkeefer Lock-in.

Ja! TTS.ai bitt gratis Text-zu-Sprooch mat Kokoro, Piper, VITS, a MeloTTS Modeller. Keng Kont erfuerderlech. Registréiert Iech fir 15.000 gratis Zeichen ze kréien an Zougang zu all Modeller. Bezuelte Pläng starten bei $9/Mount.

Fir Geschwindegkeet, benotzt Kokoro oder Piper. Fir Qualitéit, probéiert CosyVoice 2 oder StyleTTS 2. Fir Stëmmklonen, benotzt Chatterbox oder GPT-SoVITS. Fir Dialoge benotzt Dia TTS. Probéiert verschidde Modeller op dem selwechte Text ze vergläichen.

Ja. OpenAI-kompatibel REST API fir TTS, STT, Stëmmklonen, an Audio-Tools. Inklusiv an all Plang, och gratis, mat Ratelimiten déi no Tier skaléieren (Free: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Business: 300). Dokumentatioun op tts.ai/api/ kucken.

D'Stëmmqualitéit ass jee no Modell ënnerschiddlech. Premium-Modeller wéi CosyVoice 2, StyleTTS 2 a Chatterbox produzéieren eng Sprooch mat enger ähnlecher Qualitéit wéi déi vun engem Mënsch, mat enger natierlecher Intonatioun an Emotiounen. Gratis-Modeller wéi Kokoro bidden eng exzellent Qualitéit fir déi meescht Gebrauchsfäll.

TTS.ai ënnerstëtzt méi wéi 30 Sproochen a senger Modellbibliothéik. Englesch huet d'breetst Modellunterstützung, awer Modeller wéi CosyVoice 2 decken Chinesisch, Japanesch a Koreanesch; GPT-SoVITS behandelt Chinesisch, Japanesch, Koreanesch an Englesch; a MeloTTS ënnerstëtzt Englisch, Spanisch, Franséisch, Chinesisch, Japanesch a Koreanesch.

Ja. All Veraarbechtung geschitt op eise dedizéierte GPU-Serveren. Mir späicheren Är Textinput oder generéiert Audio no der Lieferung net. Héichgeladen Stëmmprouwen fir Klonen ginn nëmmen fir d'aktuell Sitzung benotzt a ginn net behalen. Mir ginn Är Donnéeën ni mat Drëtten deelen oder se fir Modeller ze trainéieren benotzen.

Ja. All Audio, deen op TTS.ai generéiert gëtt, ass fir Är kommerziell Benotzung, inklusiv fir YouTube-Videoen, Podcasts, Audiobicher, Apps, Annoncen a Produkter. Eis Modeller sinn Open Source ënner permissive Lizenzen (MIT, Apache 2.0). Keng Lizenzgebühren oder Attributioun erfuerderlech.

TTS.ai generéiert standardméisseg Audio am WAV-Format fir maximal Qualitéit. Dir kënnt an MP3, FLAC, OGG oder M4A konvertéieren mat eisem gratis Audiokonverter-Tool. D'API ënnerstëtzt d'Spezifizéierung vun Ärem bevorzugten Ausgabeformat direkt an der Ufro.

Laadt eng kuerz Audioprobe (bis zu 5 Sekonnen) vun der Stëmm erop, déi Dir klone wëllt, an da gitt en Text an, fir Sprooch an där Stëmm ze generéieren. Modeller wéi Chatterbox, GPT-SoVITS, a CosyVoice 2 ënnerstëtzen d'Sproochklonen. D'geklont Stëmm hëlt Ton, Akzent a Sproochstil op.

Freed Modeller (Kokoro, Piper, VITS, MeloTTS) brauchen keen Kont an kaschten null Zeichen. Standard Modeller (2000 Zeichen/1K Input) enthalen Bark, CosyVoice 2, F5-TTS, an Dia. Premium Modeller (4000 Zeichen/1K Input) enthalen OpenVoice, Chatterbox, StyleTTS 2, an Tortoise. Bezuelt Modeller bidden normalerweis méi héich Qualitéit, méi Stimmen, an zousätzlech Featuren wéi Stëmm Klonen.

Ja. D'API ënnerstëtzt Batchveraarbechtung fir grouss Volumen vu Text an Sprooch ze konvertéieren. Setzt méi Ufroen an asynchron Resultater mat Job UUIDs. De Business-Plang ($99/mo) an méi héich enthält prioritäre Queue-Accès fir séier Batchveraarbechtung. Ideal fir Audiobook Produktioun, Kursinhalt, a grouss Voiceover Projeten.
4.1/5 (42)

Wat kéinte mir verbesseren? Äert Feedback hëlleft eis, Problemer ze léisen.

Den Haaptuert ass Aix-en-Provence.

Join Creatoren, Entwéckler, a Geschäfter mat TTS.ai