Gratis AI Tekst naar spraak

33+ opensourcemodellen; 273+ stemmen, 33+ talen. Geen account vereist.

17K+
makers
70K+
generaties
33+
AI-modellen
273+
stemmen
Hou van TTS.ai? Vertel het je vrienden!

Alles wat je nodig hebt voor Voice AI

30+ gereedschappen aangedreven door open-source AI modellen

33+ AI Stem Modellen

De meest uitgebreide collectie van open-source TTS-modellen in één platform

KokoroKokoro Vrij

Kokoro is een 82 miljoen parameter text-to-speech model dat stoten ver boven zijn gewichtsklasse. Ondanks zijn kleine grootte, het produceert opmerkelijk natuurlijke en expressieve spraak. Kokoro ondersteunt meerdere talen, waaronder Engels, Japans, Chinees, en Koreaans met een verscheidenheid van expressieve stemmen. Het loopt ongelooflijk snel en het genereren van audio bijna 100x sneller dan real-time op een GPU.

Beste voor: Hoogwaardige TTS met minimale latentie, streaming toepassingen

Probeer vrij

PiperPiper Vrij

Piper is een lichtgewicht tekst-naar-spraak motor ontwikkeld door Rhasspy die gebruik maakt van VITS en larynx architecturen. Het draait volledig op CPU, waardoor het ideaal voor randapparatuur, domotica en toepassingen die offline TTS. Met meer dan 100 stemmen in meer dan 30 talen, Piper levert natuurlijk klinkende spraak bij real-time snelheden, zelfs op een Raspberry Pi 4.

Beste voor: Snelle previews, toegankelijkheid en ingebedde toepassingen

Probeer vrij

VITSVITS Vrij

VITS (Variationele Inferentie met adversariaal leren voor end-to-end Text-to-Speech) is een parallelle end-to-end TTS-methode die meer natuurlijk klinkende audio genereert dan de huidige twee-traps modellen. Het neemt variatiele gevolgtrekking verhoogd met normaliserende stromen en een tegenstrijdig trainingsproces, waardoor een significante verbetering in natuurlijkheid.

Beste voor: Tekst-tot-spraak voor algemene doeleinden met natuurlijke prosody

Probeer vrij

MeloTTSMeloTTS Vrij

MeloTTS by MyShell.ai is een meertalige TTS-bibliotheek die Engels (Amerikaans, Brits, Indisch, Australisch), Spaans, Frans, Chinees, Japans en Koreaans ondersteunt. Het is extreem snel, het verwerken van tekst op bijna real-time snelheid op CPU alleen. MeloTTS is ontworpen voor productie gebruik en ondersteunt zowel CPU en GPU-inferentie.

Beste voor: Productietoepassingen die snel, meertalig TTS nodig hebben

Probeer vrij

Kani TTS 2Kani TTS 2 Vrij

Kani-TTS-2 van NineNineSix is een ultralichtgewicht 400M parameter model gebouwd op een Liquid AI LFM2 backbone met NVIDIA NanoCodec. Het loopt in slechts 3GB VRAM en produceert ~10 seconden van spraak in ~2 seconden op een A100 (RTF 0.2). De huidige publieke release schepen een Engels-only-kani-tts-2-en checkpoint en onthult niet de speaker-embedding haak die nodig is voor het klonen van stemmen gebruiken Chatterbox / IndexTTS2 / F5-TTS voor het klonen, of Kokoro / MeloTTS voor niet-Engels.

Beste voor: Fast English generation on low-VRAM hardware, quick previews

Probeer vrij

OuteTTSOuteTTS Vrij

OuteTTS breidt grote taalmodellen uit met text-to-speech mogelijkheden terwijl het behoud van de oorspronkelijke architectuur. Het ondersteunt meerdere backends, waaronder lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, en zelfs browser gevolggeving via Transformers.js. Kenmerken nul-shot stemklonen door speakerprofielen opgeslagen als JSON.

Beste voor: Rand-implementatie, browser-gebaseerde TTS, low-resource omgevingen

Probeer vrij

Pocket TTSPocket TTS Vrij

Pocket TTS van Kyutai (scheppers van Moshi) is een compacte 100M parameter text-to-speech model dat stoten ver boven zijn gewicht. Het werkt efficiënt op CPU, ondersteunt nul-shot stem klonen uit een enkel audio monster, en produceert natuurlijke klinkende spraak. De kleine modelgrootte maakt het ideaal voor rand implementatie en low-resource omgevingen.

Beste voor: Lichtgewicht implementatie, CPU-alleen omgevingen, snel klonen

Probeer vrij

Kitten TTSKitten TTS Vrij

Kitten TTS by KittenML is een ultralichtgewicht text-to-speech model gebouwd op ONNX. Met varianten van 15M tot 80M parameters (25-80 MB op de schijf), het levert hoge kwaliteit spraaksynthese op CPU zonder dat er een GPU. Kenmerken 8 ingebouwde stemmen, instelbare spraaksnelheid, en ingebouwde tekst voorbewerking voor nummers, valuta's en eenheden. Ideaal voor rand implementatie en lage-latency toepassingen.

Beste voor: Snel lichtgewicht TTS, edge implementatie, low-latency toepassingen

Probeer vrij

Ming-Omni TTSMing-Omni TTS Vrij

Ming-omni-tts-0.5B by includementAI is een compact omni-modal spraakmodel gebouwd op de BailingMM dichte ruggengraat met een Patch-by-Patch flow-matching audio decoder. Levert 44,1kHz output (nabij CD-kwaliteit), ondersteunt nul-shot stemklonen vanaf een 3+ tweede referentie, en bevat ingebouwde emotie / dialect / BGM controle via JSON instructies. Uitstekende stabiliteit. 0.83% WER op Chinese benchmarks.

Beste voor: Hoge trouw tweetalige vertelling, emotie-gecontroleerde stem acteren, Chinese audioboek inhoud

Probeer vrij

MOSS-TTS NanoMOSS-TTS Nano Vrij

MOSS-TTS-Nano-100M is de compacte 100M-parametervariant van de MOSS-TTS-familie, die de delay-transformer architectuur deelt. Verhandelt de topkwaliteit van het 8B-model voor ~80x kleinere gewichten en dramatisch lagere per aanvraag VRAM, waardoor het geschikt is voor vrije-tier en high-throughput implementaties. Zelfde 20-taal bereik.

Beste voor: Free-tier TTS, productie met een hoog volume, interactief gebruik met lage snelheid

Probeer vrij

BarkBark Standaard

Transformer-based text-to-audio model dat realistische spraak, muziek en geluidseffecten genereert.

Ontwikkelaar: Suno · Licentie: MIT

Probeer het.

Bark SmallBark Small Standaard

Lichtere versie van Bark met snellere gevolgtrekking en lager geheugengebruik.

Ontwikkelaar: Suno · Licentie: MIT

Probeer het.

CosyVoice 2CosyVoice 2 Standaard

Alibaba's schaalbare streaming TTS met menselijk-parity natuurlijkheid en bijna-nul latentie.

Ontwikkelaar: Alibaba (Tongyi Lab) · Licentie: Apache 2.0

Probeer het.

Dia TTSDia TTS Standaard

Multi-luidspreker dialoogvenster generatie model dat natuurlijke gesprekken tussen luidsprekers creëert.

Ontwikkelaar: Nari Labs · Licentie: Apache 2.0

Probeer het.

Parler TTSParler TTS Standaard

Beschrijf de stem die u wilt in natuurlijke taal en Parler genereert bijpassende spraak.

Ontwikkelaar: Hugging Face · Licentie: Apache 2.0

Probeer het.

IndexTTS-2IndexTTS-2 Standaard

Zero-shot TTS met fijnkorrelige emotie controle en hoge expressiefheid.

Ontwikkelaar: Index Team · Licentie: Bilibili Model License

Probeer het.

Spark TTSSpark TTS Standaard

Voice klonen TTS met controleerbare emotie en sprekende stijl via prompts.

Ontwikkelaar: SparkAudio · Licentie: CC BY-NC-SA 4.0

Probeer het.

GPT-SoVITSGPT-SoVITS Standaard

Weinig stemgeluid klonen TTS die elke stem repliceert van slechts 5 seconden audio.

Ontwikkelaar: RVC-Boss · Licentie: MIT

Probeer het.

OrpheusOrpheus Standaard

Emotioneel TTS-model op menselijk niveau getraind op 100K uren spraakgegevens.

Ontwikkelaar: Canopy Labs · Licentie: Llama 3.2 Community

Probeer het.

Qwen3 TTSQwen3 TTS Standaard

Meertalige TTS van Alibaba met vooraf ingestelde stemmen en stemontwerp van tekst.

Ontwikkelaar: Alibaba (Qwen) · Licentie: Apache 2.0

Probeer het.

VieNeu-TTS-v2VieNeu-TTS-v2 Standaard

Vietnamees + Engels code-switching TTS met 7 vooraf ingestelde stemmen en zero-shot voice klonen. CPU-only, geen GPU vereist.

Ontwikkelaar: Phạm Nguyễn Ngọc Bảo · Licentie: Apache 2.0

Probeer het.

Chatterbox TurboChatterbox Turbo Standaard

Snellere Chatterbox met sub-200ms latency en paralinguïstische tags voor lachen, hoesten, en nog veel meer.

Ontwikkelaar: Resemble AI · Licentie: MIT

Probeer het.

VoxCPMVoxCPM Standaard

Tokenizer-vrije TTS produceren 44.1kHz audio met context-aware alinea consistentie.

Ontwikkelaar: OpenBMB · Licentie: Apache 2.0

Probeer het.

VibeVoiceVibeVoice Standaard

Microsoft model voor lange-vorm multi-luidspreker inhoud zoals podcasts en audioboeken.

Ontwikkelaar: Microsoft · Licentie: MIT

Probeer het.

CosyVoice3CosyVoice3 Standaard

Meertalige TTS van de volgende generatie met bi-streaming, emotiebeheersing en nul-shot stemklonen.

Ontwikkelaar: Alibaba (FunAudioLLM) · Licentie: Apache 2.0

Probeer het.

NAMAA Saudi TTSNAMAA Saudi TTS Standaard

Eerste open Saoedi-Arabische TTS. Inheems Saudisch dialect met Chatterbox-kwaliteit stemklonen.

Ontwikkelaar: NAMAA Space · Licentie: MIT

Probeer het.

Darwin TTSDarwin TTS Standaard

Cross-modal Qwen3-TTS variant met FFN gewichten gemengd van het Qwen3-1.7B taalmodel voor scherper meertalig klonen.

Ontwikkelaar: FINAL-Bench · Licentie: Apache 2.0

Probeer het.

MOSS-TTSDMOSS-TTSD Standaard

Multi-luidspreker dialoog continuation model genereren podcast-stijl gesprekken met maximaal 5 luidsprekers en 60 minuten coherente audio.

Ontwikkelaar: OpenMOSS · Licentie: Apache 2.0

Probeer het.

ChatterboxChatterbox Premie

Zero-shot stemklonen met emotiecontrole van Resemble AI.

Kwaliteit:

Probeer het.

Tortoise TTSTortoise TTS Premie

Multi-voice text-to-speech gericht op kwaliteit met autoregressieve architectuur.

Kwaliteit:

Probeer het.

StyleTTS 2StyleTTS 2 Premie

Human-level text-to-speech door stijl verspreiding en tegenstrijdige training.

Kwaliteit:

Probeer het.

OpenVoiceOpenVoice Premie

Instant voice klonen met korrelige controle over stijl, emotie en accent.

Kwaliteit:

Probeer het.

Sesame CSMSesame CSM Premie

Conversational speech model genereren natuurlijke dialoog met de juiste timing en emotie.

Kwaliteit:

Probeer het.

CosyVoice 2CosyVoice 2

Alibaba's schaalbare streaming TTS met menselijk-parity natuurlijkheid en bijna-nul latentie.

Talen: en, zh, ja, ko, fr, de, it, es

Kloonstem

IndexTTS-2IndexTTS-2

Zero-shot TTS met fijnkorrelige emotie controle en hoge expressiefheid.

Talen: en, zh

Kloonstem

Spark TTSSpark TTS

Voice klonen TTS met controleerbare emotie en sprekende stijl via prompts.

Talen: en, zh

Kloonstem

GPT-SoVITSGPT-SoVITS

Weinig stemgeluid klonen TTS die elke stem repliceert van slechts 5 seconden audio.

Talen: en, zh, ja, ko

Kloonstem

ChatterboxChatterbox

Zero-shot stemklonen met emotiecontrole van Resemble AI.

Talen: en

Kloonstem

Tortoise TTSTortoise TTS

Multi-voice text-to-speech gericht op kwaliteit met autoregressieve architectuur.

Talen: en

Kloonstem

OpenVoiceOpenVoice

Instant voice klonen met korrelige controle over stijl, emotie en accent.

Talen: en, zh, ja, ko, fr, es

Kloonstem

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnamees + Engels code-switching TTS met 7 vooraf ingestelde stemmen en zero-shot voice klonen. CPU-only, geen GPU vereist.

Talen: vi, en

Kloonstem

Chatterbox TurboChatterbox Turbo

Snellere Chatterbox met sub-200ms latency en paralinguïstische tags voor lachen, hoesten, en nog veel meer.

Talen: en

Kloonstem

VoxCPMVoxCPM

Tokenizer-vrije TTS produceren 44.1kHz audio met context-aware alinea consistentie.

Talen: en, zh

Kloonstem

OuteTTSOuteTTS

LLM-gebaseerde TTS die draait op CPU, GPU, of browser via lama.cpp en Transformers.js.

Talen: en

Kloonstem

Pocket TTSPocket TTS

Lichtgewicht 100M parameter model door Kyutai met stem klonen van een enkel monster.

Talen: en, fr

Kloonstem

CosyVoice3CosyVoice3

Meertalige TTS van de volgende generatie met bi-streaming, emotiebeheersing en nul-shot stemklonen.

Talen: en, zh, ja, ko, de, es, fr, it, ru

Kloonstem

NAMAA Saudi TTSNAMAA Saudi TTS

Eerste open Saoedi-Arabische TTS. Inheems Saudisch dialect met Chatterbox-kwaliteit stemklonen.

Talen: ar

Kloonstem

Darwin TTSDarwin TTS

Cross-modal Qwen3-TTS variant met FFN gewichten gemengd van het Qwen3-1.7B taalmodel voor scherper meertalig klonen.

Talen: en, ko, ja, zh

Kloonstem

MOSS-TTSDMOSS-TTSD

Multi-luidspreker dialoog continuation model genereren podcast-stijl gesprekken met maximaal 5 luidsprekers en 60 minuten coherente audio.

Talen: en, zh

Kloonstem

Ming-Omni TTSMing-Omni TTS

Compacte 0.5B omni-modale spraakmodel van inclusieAI met hoge trouw 44.1kHz output en zero-shot voice klonen.

Talen: en, zh

Kloonstem

MOSS-TTS NanoMOSS-TTS Nano

Kleine 100M MOSS-TTS. Dezelfde architectuur, 80x kleinere, vrije-tier latentie.

Talen: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Kloonstem

Ontwikkelaar-eerste API

OpenAI-compatibele REST API. Eén eindpunt, 22+ modellen. Streaming ondersteuning voor real-time toepassingen.

  • OpenAI-compatibel formaat
  • Streaming TTS voor real-time apps
  • Batchverwerking voor grote jobs
  • Webhook notificaties
API-docs tonen
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Eenvoudige, transparante prijzen

Begin vrij, schuin naarmate je groeit.

Vrij

$0

15.000 tekens + 5.000/dag

  • 7 gratis modellen waaronder Kokoro
  • 5.000 tekens per generatie
  • API toegang inbegrepen
Gratis aanmelden

Starter

$9/munit description in lists

500 kredieten/maand

  • Alle 22+ modellen
  • 100.000 tekens per generatie
  • Stemklonen
Aan de slag
Meest populair

Pro

$29/munit description in lists

2000 kredieten/maand

  • Alles in Starter
  • API-toegang
  • Prioritaire verwerking
Get Pro

Zaken

$99/munit description in lists

10.000.000 tekens/maand

  • Alles in Pro
  • Bulk API
  • Prioriteitswachtrij
Bedrijf ophalen

Bekijk alle plannen inclusief karakterpakketten →

Veelgestelde vragen

TTS.ai is het meest uitgebreide AI spraakplatform, met 22+ tekst-naar-spraak modellen, voice klonen, spraak-naar-tekst, en audio tools. Alle modellen zijn open source zonder leverancier lock-in.

Ja! TTS.ai biedt gratis tekst-tot-spraak met Kokoro, Piper, VITS, en MeloTTS modellen. Geen account nodig. Schrijf je in om 15.000 gratis tekens te krijgen en toegang te krijgen tot alle modellen. Betaalde plannen beginnen bij $9/maand.

Voor snelheid, gebruik Kokoro of Piper. Voor kwaliteit, probeer CosyVoice 2 of StyleTTS 2. Voor het klonen van stemmen, gebruik Chatterbox of GPT-SoVITS. Voor dialoog, gebruik Dia TTS. Probeer meerdere modellen op dezelfde tekst te vergelijken.

Ja. OpenAI-compatibele REST API voor TTS, STT, voice klonen en audio tools. Inbegrepen op elk plan inclusief gratis, met tarieflimieten die schaal op niveau (Gratis: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Bedrijf: 300). Bekijk documentatie op tts.ai/api/.

De stemkwaliteit varieert per model. Premium modellen zoals CosyVoice 2, StyleTTS 2, en Chatterbox produceren bijna menselijke kwaliteit spraak met natuurlijke intonatie en emotie. Gratis modellen zoals Kokoro bieden uitstekende kwaliteit voor de meeste gebruikscases.

TTS.ai ondersteunt 30+ talen in haar modelbibliotheek. Engels heeft de breedste modelondersteuning, maar modellen zoals CosyVoice 2 cover Chinees, Japans en Koreaans; GPT-SoVITS behandelt Chinees, Japans, Koreaans en Engels; en MeloTTS ondersteunt Engels, Spaans, Frans, Chinees, Japans en Koreaans.

Ja. Alle verwerking gebeurt op onze dedicated GPU servers. We slaan uw tekstinvoer of gegenereerde audio niet op na levering. Geüploade stemmonsters voor klonen worden alleen gebruikt voor de huidige sessie en worden niet bewaard. We delen uw gegevens nooit met derden of gebruiken deze om modellen te trainen.

Ja. Alle audio gegenereerd op TTS.ai is van jou om commercieel te gebruiken, inclusief voor YouTube video's, podcasts, audiobooks, apps, advertenties en producten. Onze modellen zijn open source onder permissieve licenties (MIT, Apache 2.0). Geen royalty's of toeschrijving vereist.

TTS.ai genereert audio in WAV-formaat standaard voor maximale kwaliteit. U kunt converteren naar MP3, FLAC, OGG, of M4A met behulp van onze gratis Audio Converter tool. De API ondersteunt het specificeren van uw gewenste output formaat direct in het verzoek.

Upload een korte audio sample (zo weinig als 5 seconden) van de stem die u wilt klonen, typ dan elke tekst om spraak te genereren in die stem. Modellen zoals Chatterbox, GPT-SoVITS en CosyVoice 2 ondersteunen stemklonen. De gekloonde stem legt toon, accent en sprekende stijl vast.

Gratis modellen (Kokoro, Piper, VITS, MeloTTS) vereisen geen account en kosten nul karakters. Standaard modellen (2.000 karakters/1K input) omvatten Bark, CosyVoice 2, F5-TTS, en Dia. Premium modellen (4.000 karakters/1K input) omvatten OpenVoice, Chatterbox, StyleTTS 2, en Tortoise. Betaalde modellen bieden over het algemeen hogere kwaliteit, meer stemmen, en extra functies zoals voice klonen.

Ja. De API ondersteunt batch-verwerking voor het omzetten van grote volumes tekst naar spraak. Submit meerdere verzoeken en ophalen resultaten asynchroon met behulp van taak UUID's. Het Business plan ($99/mo) en hoger omvatten prioritaire wachtrij toegang voor snellere batch-verwerking. Ideaal voor audioboekproductie, cursusinhoud en grootschalige voice-over projecten.
4.1/5 (42)

Wat kunnen we verbeteren? Uw feedback helpt ons problemen op te lossen.

Start met het gebruik van AI Voice vandaag

Sluit je aan bij makers, ontwikkelaars en bedrijven die TTS.ai gebruiken