Gratis AI Tekst naar spraak

82M parameters Ultrasnel Uitdrukkingsstemmen Meertalig Streaming support

Lichtgewicht 82M parameter model leveren studio-kwaliteit speech met gloeiende-snelle gevolgtrekking.

Snel · 1.5GB VRAM Probeer het.

Piper

CPU-vriendelijk Offline geschikt 100+ stemmen 35+ talen SSML-steun

Een snelle, lokale neurale tekst aan spraaksysteem geoptimaliseerd voor Raspberry Pi en embedded apparaten.

Snel · 0 (CPU only) VRAM Probeer het.

VITS

Synthese van end-to-end Natuurlijke prosody Snelle gevolgtrekking Meerdere sprekers

Voorwaardelijke variational autoencoder met tegendraads leren voor end-to-end text-to-speech.

Snel · 1GB VRAM Probeer het.

MeloTTS

CPU-geoptimaliseerd Meertalig Meerdere accenten Productie gereed Lage latentie

Hoogwaardige meertalige tekst-tot-spraak die draait op CPU met minimale latentie.

Snel · 0.5GB (GPU optional) VRAM Probeer het.

Bark

Geluidseffecten Lachend/zuchtend Muziekgeneratie 100+ sprekers Meertalig

Transformer-based text-to-audio model dat realistische spraak, muziek en geluidseffecten genereert.

Langzaam · 5GB VRAM Probeer het.

Bark Small

Lichtgewicht Sneller dan volle bast Emotionele spraak Meertalig

Lichtere versie van Bark met snellere gevolgtrekking en lager geheugengebruik.

Middel · 2GB VRAM Probeer het.

CosyVoice 2

Streaming Zero-shot klonen Meertalig Emotiebeheersing Menselijke pariteit

Alibaba's schaalbare streaming TTS met menselijk-parity natuurlijkheid en bijna-nul latentie.

Dia TTS

Meerdere luidsprekers Dialooggeneratie Natuurlijke wending Emotionele expressie 1.6B parameters

Multi-luidspreker dialoogvenster generatie model dat natuurlijke gesprekken tussen luidsprekers creëert.

Parler TTS

Spraakbeschrijving Natuurlijke taalbeheersing Flexibele spraakcreatie Geen vooraf ingestelde stemmen nodig

Beschrijf de stem die u wilt in natuurlijke taal en Parler genereert bijpassende spraak.

Indic Parler TTS

11 Indiase talen Spraakbeschrijving Natuurlijke taalbeheersing Authentieke Indische uitspraak

Hoogkwalitatieve spraak voor 8+ Indiase talen met natuurlijke spraakcontrole.

Langzaam · 8GB VRAM Probeer het.

KhanomTan TTS

Thaise TTS Meerdere sprekers YourTTS architectuur Commerciële-veilige licentie

Thais-eerste tekst-tot-spraak met een keuze aan luidsprekerstemmen.

Snel · 2GB VRAM Probeer het.

IndexTTS-2

Emotiebeheersing Nulschot Emotievectoren Uitdrukkingstoespraak Fijnkorrelige controle

Zero-shot TTS met fijnkorrelige emotie controle en hoge expressiefheid.

Spark TTS

Klonen van stemmen Emotiebeheersing Stijlregeling Prompt-based 5-seconde klonen

Voice klonen TTS met controleerbare emotie en sprekende stijl via prompts.

GPT-SoVITS

5-seconde klonen Zingende stem Weinig geschoten leren Hoge trouw Meertalig

Weinig stemgeluid klonen TTS die elke stem repliceert van slechts 5 seconden audio.

Langzaam · 6GB VRAM Probeer het.

Orpheus

Emotie op menselijk niveau 100K uur training Natuurlijke nadruk Uitdrukkingstoespraak

Emotioneel TTS-model op menselijk niveau getraind op 100K uren spraakgegevens.

Chatterbox

Zero-shot klonen Emotiebeheersing Hoge trouw Stijloverdracht Klonen van één monster

Zero-shot stemklonen met emotiecontrole van Resemble AI.

Tortoise TTS

Hoogste kwaliteit Multi-voice DALL-E architectuur Klonen van stemmen Autoregressief

Multi-voice text-to-speech gericht op kwaliteit met autoregressieve architectuur.

Langzaam · 8GB VRAM Probeer het.

StyleTTS 2

Menselijk niveau Stijldiffusie Adverariale opleiding Natuurlijke variatie Hoge trouw

Human-level text-to-speech door stijl verspreiding en tegenstrijdige training.

OpenVoice

Instant klonen Spraakconversie Emotiebeheersing Accent-controle Meertalig

Instant voice klonen met korrelige controle over stijl, emotie en accent.

Qwen3 TTS

9 vooraf ingestelde stemmen Stemontwerp uit tekst Emotiebeheersing 10 talen

Meertalige TTS van Alibaba met vooraf ingestelde stemmen en stemontwerp van tekst.

Middel · 7GB VRAM Probeer het.

VieNeu-TTS-v2

7 vooraf ingestelde stemmen (Noord + Zuid accenten) En-Vi code-switching Klonen van stemmen (3-5s referentie) Podcast / ondersteuning voor meerdere luidsprekers Alleen voor CPU's zonder GPU's

Vietnamees + Engels code-switching TTS met 7 vooraf ingestelde stemmen en zero-shot voice klonen. CPU-only, geen GPU vereist.

Snel · CPU VRAM Probeer het.

Sesame CSM

Conversatie Natuurlijke timing Draaiing Backchannel 1B-parameters

Conversational speech model genereren natuurlijke dialoog met de juiste timing en emotie.

Langzaam · 8GB VRAM Probeer het.

Chatterbox Turbo

Sub-200ms latentie Parale linguïstische tags 6x real-time Klonen van stemmen Watermerken

Snellere Chatterbox met sub-200ms latency en paralinguïstische tags voor lachen, hoesten, en nog veel meer.

Snel · 2GB VRAM Probeer het.

VoxCPM

44.1kHz-audio Tokenizervrij Klonen voor meertalig gebruik Context-bewust LoRA-fine-tuning

Tokenizer-vrije TTS produceren 44.1kHz audio met context-aware alinea consistentie.

Snel · 4GB VRAM Probeer het.

Kani TTS 2

3GB VRAM Ultrasnel Lichtgewicht Nanocodec Vrij

Ultralichtgewicht 400M Engels TTS model draait in slechts 3GB VRAM.

Snel · 3GB VRAM Probeer het.

OuteTTS

CPU-inferentie Browser-inferentie Meerdere backends Speakerprofielen

LLM-gebaseerde TTS die draait op CPU, GPU, of browser via lama.cpp en Transformers.js.

Langzaam · 2GB VRAM Probeer het.

VibeVoice

Meerdere luidsprekers Tot 90 min. Podcast-generatie Samenhang van de luidspreker 200ms streaming

Microsoft model voor lange-vorm multi-luidspreker inhoud zoals podcasts en audioboeken.

Snel · 4GB VRAM Probeer het.

Pocket TTS

100M parameters CPU-inferentie Klonen van stemmen Klonen van één monster Rand-klaar

Lichtgewicht 100M parameter model door Kyutai met stem klonen van een enkel monster.

Snel · 1GB VRAM Probeer het.

Kitten TTS

CPU-only-inferentie Minder dan 80 MB modelgrootte 8 ingebouwde stemmen Snelheidsregeling Op basis van ONNX 24kHz-uitvoer

Ultra lichtgewicht TTS onder de 80MB. Draait op CPU zonder GPU.

Snel · 0GB VRAM Probeer het.

CosyVoice3

Bistreaming Emotiebeheersing Klonen van stemmen Snelheids-/volumeregeling Instructie volgend

Meertalige TTS van de volgende generatie met bi-streaming, emotiebeheersing en nul-shot stemklonen.

Snel · 4GB VRAM Probeer het.

NAMAA Saudi TTS

Saudisch Arabisch dialect Modern Standaard Arabisch Zero-shot stemklonen Emotiebeheersing Inheemse uitspraak

Eerste open Saoedi-Arabische TTS. Inheems Saudisch dialect met Chatterbox-kwaliteit stemklonen.

Middel · 6GB VRAM Probeer het.

Darwin TTS

Klonen van stemmen Meertalig FFN-blended 4 kerntalen Qwen3 ruggengraat

Cross-modal Qwen3-TTS variant met FFN gewichten gemengd van het Qwen3-1.7B taalmodel voor scherper meertalig klonen.

Middel · 7GB VRAM Probeer het.

MOSS-TTSD

Multi-sprekerdialoog Tot 5 sprekers 60min coherent geluid Klonen van stemmen Podcast-geoptimaliseerd

Multi-luidspreker dialoog continuation model genereren podcast-stijl gesprekken met maximaal 5 luidsprekers en 60 minuten coherente audio.

Middel · 12GB VRAM Probeer het.

Ming-Omni TTS

44.1kHz-uitvoer Klonen van stemmen Emotiebeheersing Dialectbesturing BGM-productie Compact 0,5B

Compacte 0.5B omni-modale spraakmodel van inclusieAI met hoge trouw 44.1kHz output en zero-shot voice klonen.

Middel · 3GB VRAM Probeer het.

MOSS-TTS Nano