Gratis AI Tekst naar spraak
33+ opensourcemodellen; 273+ stemmen, 33+ talen. Geen account vereist.
Alles wat je nodig hebt voor Voice AI
30+ gereedschappen aangedreven door open-source AI modellen
33+ AI Stem Modellen
De meest uitgebreide collectie van open-source TTS-modellen in één platform
Kokoro Vrij
Kokoro is een 82 miljoen parameter text-to-speech model dat stoten ver boven zijn gewichtsklasse. Ondanks zijn kleine grootte, het produceert opmerkelijk natuurlijke en expressieve spraak. Kokoro ondersteunt meerdere talen, waaronder Engels, Japans, Chinees, en Koreaans met een verscheidenheid van expressieve stemmen. Het loopt ongelooflijk snel en het genereren van audio bijna 100x sneller dan real-time op een GPU.
Beste voor: Hoogwaardige TTS met minimale latentie, streaming toepassingen
Probeer vrij
Piper Vrij
Piper is een lichtgewicht tekst-naar-spraak motor ontwikkeld door Rhasspy die gebruik maakt van VITS en larynx architecturen. Het draait volledig op CPU, waardoor het ideaal voor randapparatuur, domotica en toepassingen die offline TTS. Met meer dan 100 stemmen in meer dan 30 talen, Piper levert natuurlijk klinkende spraak bij real-time snelheden, zelfs op een Raspberry Pi 4.
Beste voor: Snelle previews, toegankelijkheid en ingebedde toepassingen
Probeer vrij
VITS Vrij
VITS (Variationele Inferentie met adversariaal leren voor end-to-end Text-to-Speech) is een parallelle end-to-end TTS-methode die meer natuurlijk klinkende audio genereert dan de huidige twee-traps modellen. Het neemt variatiele gevolgtrekking verhoogd met normaliserende stromen en een tegenstrijdig trainingsproces, waardoor een significante verbetering in natuurlijkheid.
Beste voor: Tekst-tot-spraak voor algemene doeleinden met natuurlijke prosody
Probeer vrij
MeloTTS Vrij
MeloTTS by MyShell.ai is een meertalige TTS-bibliotheek die Engels (Amerikaans, Brits, Indisch, Australisch), Spaans, Frans, Chinees, Japans en Koreaans ondersteunt. Het is extreem snel, het verwerken van tekst op bijna real-time snelheid op CPU alleen. MeloTTS is ontworpen voor productie gebruik en ondersteunt zowel CPU en GPU-inferentie.
Beste voor: Productietoepassingen die snel, meertalig TTS nodig hebben
Probeer vrij
Kani TTS 2 Vrij
Kani-TTS-2 van NineNineSix is een ultralichtgewicht 400M parameter model gebouwd op een Liquid AI LFM2 backbone met NVIDIA NanoCodec. Het loopt in slechts 3GB VRAM en produceert ~10 seconden van spraak in ~2 seconden op een A100 (RTF 0.2). De huidige publieke release schepen een Engels-only-kani-tts-2-en checkpoint en onthult niet de speaker-embedding haak die nodig is voor het klonen van stemmen gebruiken Chatterbox / IndexTTS2 / F5-TTS voor het klonen, of Kokoro / MeloTTS voor niet-Engels.
Beste voor: Fast English generation on low-VRAM hardware, quick previews
Probeer vrij
OuteTTS Vrij
OuteTTS breidt grote taalmodellen uit met text-to-speech mogelijkheden terwijl het behoud van de oorspronkelijke architectuur. Het ondersteunt meerdere backends, waaronder lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, en zelfs browser gevolggeving via Transformers.js. Kenmerken nul-shot stemklonen door speakerprofielen opgeslagen als JSON.
Beste voor: Rand-implementatie, browser-gebaseerde TTS, low-resource omgevingen
Probeer vrij
Pocket TTS Vrij
Pocket TTS van Kyutai (scheppers van Moshi) is een compacte 100M parameter text-to-speech model dat stoten ver boven zijn gewicht. Het werkt efficiënt op CPU, ondersteunt nul-shot stem klonen uit een enkel audio monster, en produceert natuurlijke klinkende spraak. De kleine modelgrootte maakt het ideaal voor rand implementatie en low-resource omgevingen.
Beste voor: Lichtgewicht implementatie, CPU-alleen omgevingen, snel klonen
Probeer vrij
Kitten TTS Vrij
Kitten TTS by KittenML is een ultralichtgewicht text-to-speech model gebouwd op ONNX. Met varianten van 15M tot 80M parameters (25-80 MB op de schijf), het levert hoge kwaliteit spraaksynthese op CPU zonder dat er een GPU. Kenmerken 8 ingebouwde stemmen, instelbare spraaksnelheid, en ingebouwde tekst voorbewerking voor nummers, valuta's en eenheden. Ideaal voor rand implementatie en lage-latency toepassingen.
Beste voor: Snel lichtgewicht TTS, edge implementatie, low-latency toepassingen
Probeer vrij
Ming-Omni TTS Vrij
Ming-omni-tts-0.5B by includementAI is een compact omni-modal spraakmodel gebouwd op de BailingMM dichte ruggengraat met een Patch-by-Patch flow-matching audio decoder. Levert 44,1kHz output (nabij CD-kwaliteit), ondersteunt nul-shot stemklonen vanaf een 3+ tweede referentie, en bevat ingebouwde emotie / dialect / BGM controle via JSON instructies. Uitstekende stabiliteit. 0.83% WER op Chinese benchmarks.
Beste voor: Hoge trouw tweetalige vertelling, emotie-gecontroleerde stem acteren, Chinese audioboek inhoud
Probeer vrij
MOSS-TTS Nano Vrij
MOSS-TTS-Nano-100M is de compacte 100M-parametervariant van de MOSS-TTS-familie, die de delay-transformer architectuur deelt. Verhandelt de topkwaliteit van het 8B-model voor ~80x kleinere gewichten en dramatisch lagere per aanvraag VRAM, waardoor het geschikt is voor vrije-tier en high-throughput implementaties. Zelfde 20-taal bereik.
Beste voor: Free-tier TTS, productie met een hoog volume, interactief gebruik met lage snelheid
Probeer vrij
Bark Standaard
Transformer-based text-to-audio model dat realistische spraak, muziek en geluidseffecten genereert.
Ontwikkelaar: Suno · Licentie: MIT
Probeer het.
Bark Small Standaard
Lichtere versie van Bark met snellere gevolgtrekking en lager geheugengebruik.
Ontwikkelaar: Suno · Licentie: MIT
Probeer het.
CosyVoice 2 Standaard
Alibaba's schaalbare streaming TTS met menselijk-parity natuurlijkheid en bijna-nul latentie.
Ontwikkelaar: Alibaba (Tongyi Lab) · Licentie: Apache 2.0
Probeer het.
Dia TTS Standaard
Multi-luidspreker dialoogvenster generatie model dat natuurlijke gesprekken tussen luidsprekers creëert.
Ontwikkelaar: Nari Labs · Licentie: Apache 2.0
Probeer het.
Parler TTS Standaard
Beschrijf de stem die u wilt in natuurlijke taal en Parler genereert bijpassende spraak.
Ontwikkelaar: Hugging Face · Licentie: Apache 2.0
Probeer het.
IndexTTS-2 Standaard
Zero-shot TTS met fijnkorrelige emotie controle en hoge expressiefheid.
Ontwikkelaar: Index Team · Licentie: Bilibili Model License
Probeer het.
Spark TTS Standaard
Voice klonen TTS met controleerbare emotie en sprekende stijl via prompts.
Ontwikkelaar: SparkAudio · Licentie: CC BY-NC-SA 4.0
Probeer het.
GPT-SoVITS Standaard
Weinig stemgeluid klonen TTS die elke stem repliceert van slechts 5 seconden audio.
Ontwikkelaar: RVC-Boss · Licentie: MIT
Probeer het.
Orpheus Standaard
Emotioneel TTS-model op menselijk niveau getraind op 100K uren spraakgegevens.
Ontwikkelaar: Canopy Labs · Licentie: Llama 3.2 Community
Probeer het.
Qwen3 TTS Standaard
Meertalige TTS van Alibaba met vooraf ingestelde stemmen en stemontwerp van tekst.
Ontwikkelaar: Alibaba (Qwen) · Licentie: Apache 2.0
Probeer het.
VieNeu-TTS-v2 Standaard
Vietnamees + Engels code-switching TTS met 7 vooraf ingestelde stemmen en zero-shot voice klonen. CPU-only, geen GPU vereist.
Ontwikkelaar: Phạm Nguyễn Ngọc Bảo · Licentie: Apache 2.0
Probeer het.
Chatterbox Turbo Standaard
Snellere Chatterbox met sub-200ms latency en paralinguïstische tags voor lachen, hoesten, en nog veel meer.
Ontwikkelaar: Resemble AI · Licentie: MIT
Probeer het.
VoxCPM Standaard
Tokenizer-vrije TTS produceren 44.1kHz audio met context-aware alinea consistentie.
Ontwikkelaar: OpenBMB · Licentie: Apache 2.0
Probeer het.
VibeVoice Standaard
Microsoft model voor lange-vorm multi-luidspreker inhoud zoals podcasts en audioboeken.
Ontwikkelaar: Microsoft · Licentie: MIT
Probeer het.
CosyVoice3 Standaard
Meertalige TTS van de volgende generatie met bi-streaming, emotiebeheersing en nul-shot stemklonen.
Ontwikkelaar: Alibaba (FunAudioLLM) · Licentie: Apache 2.0
Probeer het.
NAMAA Saudi TTS Standaard
Eerste open Saoedi-Arabische TTS. Inheems Saudisch dialect met Chatterbox-kwaliteit stemklonen.
Ontwikkelaar: NAMAA Space · Licentie: MIT
Probeer het.
Darwin TTS Standaard
Cross-modal Qwen3-TTS variant met FFN gewichten gemengd van het Qwen3-1.7B taalmodel voor scherper meertalig klonen.
Ontwikkelaar: FINAL-Bench · Licentie: Apache 2.0
Probeer het.
MOSS-TTSD Standaard
Multi-luidspreker dialoog continuation model genereren podcast-stijl gesprekken met maximaal 5 luidsprekers en 60 minuten coherente audio.
Ontwikkelaar: OpenMOSS · Licentie: Apache 2.0
Probeer het.
CosyVoice 2
Alibaba's schaalbare streaming TTS met menselijk-parity natuurlijkheid en bijna-nul latentie.
Talen: en, zh, ja, ko, fr, de, it, es
Kloonstem
IndexTTS-2
Zero-shot TTS met fijnkorrelige emotie controle en hoge expressiefheid.
Talen: en, zh
Kloonstem
Spark TTS
Voice klonen TTS met controleerbare emotie en sprekende stijl via prompts.
Talen: en, zh
Kloonstem
GPT-SoVITS
Weinig stemgeluid klonen TTS die elke stem repliceert van slechts 5 seconden audio.
Talen: en, zh, ja, ko
Kloonstem
Tortoise TTS
Multi-voice text-to-speech gericht op kwaliteit met autoregressieve architectuur.
Talen: en
Kloonstem
OpenVoice
Instant voice klonen met korrelige controle over stijl, emotie en accent.
Talen: en, zh, ja, ko, fr, es
Kloonstem
VieNeu-TTS-v2
Vietnamees + Engels code-switching TTS met 7 vooraf ingestelde stemmen en zero-shot voice klonen. CPU-only, geen GPU vereist.
Talen: vi, en
Kloonstem
Chatterbox Turbo
Snellere Chatterbox met sub-200ms latency en paralinguïstische tags voor lachen, hoesten, en nog veel meer.
Talen: en
Kloonstem
VoxCPM
Tokenizer-vrije TTS produceren 44.1kHz audio met context-aware alinea consistentie.
Talen: en, zh
Kloonstem
OuteTTS
LLM-gebaseerde TTS die draait op CPU, GPU, of browser via lama.cpp en Transformers.js.
Talen: en
Kloonstem
Pocket TTS
Lichtgewicht 100M parameter model door Kyutai met stem klonen van een enkel monster.
Talen: en, fr
Kloonstem
CosyVoice3
Meertalige TTS van de volgende generatie met bi-streaming, emotiebeheersing en nul-shot stemklonen.
Talen: en, zh, ja, ko, de, es, fr, it, ru
Kloonstem
NAMAA Saudi TTS
Eerste open Saoedi-Arabische TTS. Inheems Saudisch dialect met Chatterbox-kwaliteit stemklonen.
Talen: ar
Kloonstem
Darwin TTS
Cross-modal Qwen3-TTS variant met FFN gewichten gemengd van het Qwen3-1.7B taalmodel voor scherper meertalig klonen.
Talen: en, ko, ja, zh
Kloonstem
MOSS-TTSD
Multi-luidspreker dialoog continuation model genereren podcast-stijl gesprekken met maximaal 5 luidsprekers en 60 minuten coherente audio.
Talen: en, zh
Kloonstem
Ming-Omni TTS
Compacte 0.5B omni-modale spraakmodel van inclusieAI met hoge trouw 44.1kHz output en zero-shot voice klonen.
Talen: en, zh
Kloonstem
MOSS-TTS Nano
Kleine 100M MOSS-TTS. Dezelfde architectuur, 80x kleinere, vrije-tier latentie.
Talen: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
KloonstemOntwikkelaar-eerste API
OpenAI-compatibele REST API. Eén eindpunt, 22+ modellen. Streaming ondersteuning voor real-time toepassingen.
- OpenAI-compatibel formaat
- Streaming TTS voor real-time apps
- Batchverwerking voor grote jobs
- Webhook notificaties
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Eenvoudige, transparante prijzen
Begin vrij, schuin naarmate je groeit.
Vrij
15.000 tekens + 5.000/dag
- 7 gratis modellen waaronder Kokoro
- 5.000 tekens per generatie
- API toegang inbegrepen
Starter
500 kredieten/maand
- Alle 22+ modellen
- 100.000 tekens per generatie
- Stemklonen
Pro
2000 kredieten/maand
- Alles in Starter
- API-toegang
- Prioritaire verwerking
Zaken
10.000.000 tekens/maand
- Alles in Pro
- Bulk API
- Prioriteitswachtrij
Veelgestelde vragen
Wat kunnen we verbeteren? Uw feedback helpt ons problemen op te lossen.
Start met het gebruik van AI Voice vandaag
Sluit je aan bij makers, ontwikkelaars en bedrijven die TTS.ai gebruiken