Freie KI Text in die Rede

82M-Parameter Ultraschnell Ausdrucksstarke Stimmen Mehrsprachig Streaming-Unterstützung

Leichtes 82M-Parametermodell, das Studio-Qualitätssprache mit glühender, schneller Inferenz liefert.

Schnell · 1.5GB VRAM Versuch es.

Piper

CPU-freundlich Offline-fähig 100+ Stimmen 35+ Sprachen SSML-Unterstützung

Ein schnelles, lokales neuronales Text-zu-Sprechsystem, optimiert für Raspberry Pi und eingebettete Geräte.

Schnell · 0 (CPU only) VRAM Versuch es.

VITS

End-to-End-Synthese Natürliche Prosodie Schnelle Schlussfolgerung Mehrere Redner

Bedingter Variations-Autoencoder mit konversatorischem Lernen für End-to-End-Text-to-Speech.

Schnell · 1GB VRAM Versuch es.

MeloTTS

CPU-optimiert Mehrsprachig Mehrere Akzente Produktionsfertig Geringe Latenz

Hochwertige mehrsprachige Text-zu-Speech, die auf CPU mit minimaler Latenz läuft.

Schnell · 0.5GB (GPU optional) VRAM Versuch es.

Bark

Schalleffekte Lachen/wiegen Musikgenerierung 100+ Redner Mehrsprachig

Transformer-basiertes Text-zu-Audio-Modell, das realistische Sprach-, Musik- und Soundeffekte erzeugt.

Langsam · 5GB VRAM Versuch es.

Bark Small

Leichtgewicht Schneller als voller Bark Emotionale Sprache Mehrsprachig

Leichtere Version von Bark mit schnellerem Rückschluss und geringerem Speicherverbrauch.

Mittel · 2GB VRAM Versuch es.

CosyVoice 2

Streaming Null-Schüsse-Klonen Sprachenübergreifend Emotionskontrolle Menschlichkeit

Alibabas skalierbares Streaming-TTS mit menschlicher Parität und nahezu Null Latenz.

Dia TTS

Multi-Lautsprecher Dialoggenerierung Natürliches Turn-Take Emotionaler Ausdruck 1.6B-Parameter

Multi-Lautsprecher-Dialog-Generierungsmodell, das natürliche Gespräche zwischen Lautsprechern erzeugt.

Parler TTS

Sprachbeschreibung Natürliche Sprachsteuerung Flexible Sprachgestaltung Keine voreingestellten Stimmen erforderlich

Beschreiben Sie die gewünschte Stimme in natürlicher Sprache und Parler erzeugt passende Sprache.

Indic Parler TTS

11 Indische Sprachen Sprachbeschreibung Natürliche Sprachsteuerung Authentische Aussprache

Hochwertige Rede für 8+ indische Sprachen mit natursprachlicher Sprachsteuerung.

Langsam · 8GB VRAM Versuch es.

KhanomTan TTS

Thailändische TTS Mehrere Redner Ihre TTS-Architektur Kommerzielle sichere Lizenz

Thai-erster Text-to-Speech mit einer Auswahl an Sprecherstimmen.

Schnell · 2GB VRAM Versuch es.

IndexTTS-2

Emotionskontrolle Null-Schuss Emotionsvektoren Ausdrückliche Rede Feinkörnige Kontrolle

Zero-shot TTS mit feinkörniger Emotionskontrolle und hoher Expressivität.

Spark TTS

Klonen der Stimme Emotionskontrolle Stilsteuerung Auf der Basis von Vor-Ort-Kontrollen 5 Sekunden Klonen

Sprachklonieren von TTS mit kontrollierbarer Emotion und Sprechstil über Eingabeaufforderung.

GPT-SoVITS

5 Sekunden Klonen Singende Stimme Nur wenige Schüler lernen Hohe Treue Sprachenübergreifend

Wenige Schüsse Stimme Klonen TTS, die jede Stimme von nur 5 Sekunden Audio repliziert.

Langsam · 6GB VRAM Versuch es.

Orpheus

Emotionen auf menschlicher Ebene 100K-Stunden-Training Natürliche Betonung Ausdrückliche Rede

Emotionales TTS-Modell auf menschlicher Ebene, das auf 100K Stunden Sprachdaten trainiert wurde.

Chatterbox

Null-Schüsse-Klonen Emotionskontrolle Hohe Treue Stilübertragung Klonen einer Einzelprobe

Modernste Zero-Shot-Stimme, die mit Emotionskontrolle von Resemble KI klont.

Tortoise TTS

Höchste Qualität Mehrstimmigkeit DALL-E-Architektur Klonen der Stimme Autoregressiv

Multi-Voice-Text-to-Speech konzentrierte sich auf Qualität mit autoregressiver Architektur.

Langsam · 8GB VRAM Versuch es.

StyleTTS 2

Menschliche Ebene Stildiffusion Adversariale Ausbildung Natürliche Veränderung Hohe Treue

Text-zu-Sprechen auf menschlicher Ebene durch Stildiffusion und konversarisches Training.

OpenVoice

Sofortiges Klonen Sprachumwandlung Emotionskontrolle Zukünftige Kontrolle Mehrsprachig

Sofortige Stimme klont mit granularer Kontrolle über Stil, Emotion und Akzent.

Qwen3 TTS

9 voreingestellte Stimmen Sprachgestaltung aus Text Emotionskontrolle 10 Sprachen

Alibabas mehrsprachiges TTS mit voreingestellten Stimmen und Sprachgestaltung aus Text.

Mittel · 7GB VRAM Versuch es.

VieNeu-TTS-v2

7 voreingestellte Stimmen (Nord- und Südakzente) En-Vi-Code-Schalten Stimmklonen (3-5 s Referenz) Podcast / Multi-Lautsprecher-Unterstützung Nur CPU — keine GPU erforderlich

Vietnamesisch + Englisch code-switching TTS mit 7 voreingestellten Stimmen und Null-Shot-Stimme Klonen. CPU-only, keine GPU erforderlich.

Schnell · CPU VRAM Versuch es.

Sesame CSM

Gespräch Natürlicher Zeitpunkt Umdrehung Rückkanal 1B-Parameter

Gesprächssprachmodell erzeugt natürlichen Dialog mit passendem Timing und Emotion.

Langsam · 8GB VRAM Versuch es.

Chatterbox Turbo

Unter 200 ms Latenz Paralinguistische Tags 6x in Echtzeit Klonen der Stimme Wasserzeichen

Schnellere Chatterbox mit Sub-200ms Latenz und paralinguistischen Tags für Lachen, Husten und mehr.

Schnell · 2GB VRAM Versuch es.

VoxCPM

44.1kHz Audio Tokenizer-frei Übersprachiges Klonen Kontext-Bewusstsein Feinabstimmung durch LoRA

Tokenizer-freies TTS, das 44,1kHz Audio mit kontext-aware Absatzkonsistenz produziert.

Schnell · 4GB VRAM Versuch es.

Kani TTS 2

3GB VRAM Ultraschnell Leichtgewicht NanoCodec Frei

Ultraleicht 400M Englisches TTS-Modell läuft in nur 3GB VRAM.

Schnell · 3GB VRAM Versuch es.

OuteTTS

CPU-Schlussfolgerung Browser-Schlussfolgerung Mehrere Backends Lautsprecherprofile

LLM-basierte TTS, die auf CPU, GPU oder Browser über llama.cpp und Transformers.js läuft.

Langsam · 2GB VRAM Versuch es.

VibeVoice

Multi-Lautsprecher Bis zu 90 min Podcast-Erzeugung Kohärenz des Sprechers 200ms Streaming

Microsoft-Modell für langformige Multi-Lautsprecher-Inhalte wie Podcasts und Hörbücher.

Schnell · 4GB VRAM Versuch es.

Pocket TTS

100M-Parameter CPU-Schlussfolgerung Klonen der Stimme Einzelstichproben-Klonen Randbereit

Leichtgewichtiges 100M-Parametermodell von Kyutai mit Sprachklonung aus einer einzigen Probe.

Schnell · 1GB VRAM Versuch es.

Kitten TTS

CPU-Only-Schlussfolgerung Unter 80MB Modellgröße 8 eingebaute Stimmen Drehzahlregelung ONNX-basiert 24kHz-Ausgang

Ultraleichte TTS unter 80MB. Läuft auf CPU ohne GPU.

Schnell · 0GB VRAM Versuch es.

CosyVoice3

Bistreaming Emotionskontrolle Klonen der Stimme Drehzahl/Volumenregelung Instruktion nach

Mehrsprachige TTS der nächsten Generation mit Bi-Streaming, Emotionskontrolle und Zero-Shot-Stimme-Klonen.

Schnell · 4GB VRAM Versuch es.

NAMAA Saudi TTS

Saudi-arabischer Dialekt Moderner Standard Arabisch Null-Schuss-Stimme klonen Emotionskontrolle Native Aussprache

Erste offene saudisch-arabische TTS. Eingeborener saudischer Dialekt mit Chatterbox-Qualität Stimme Klonen.

Mittel · 6GB VRAM Versuch es.

Darwin TTS

Klonen der Stimme Sprachenübergreifend FFN-geblendet 4 Hauptsprachen Qwen3-Backbone

Die modale Qwen3-TTS-Variante mit FFN-Gewichten wurde aus dem Qwen3-1.7B-Sprachmodell für schärferes Mehrsprachiges Klonen gemischt.

Mittel · 7GB VRAM Versuch es.

MOSS-TTSD

Dialog mit mehreren Rednern Bis zu 5 Redner 60min kohärentes Audio Klonen der Stimme Podcast-optimiert

Multi-Sprecher Dialog Fortsetzung Modell — erzeugen Podcast-Stil Gespräche mit bis zu 5 Lautsprechern und 60 Minuten kohärente Audio.

Mittel · 12GB VRAM Versuch es.

Ming-Omni TTS

44.1kHz-Ausgang Klonen der Stimme Emotionskontrolle Dialect-Steuerung BGM-Erzeugung Kompakt 0,5B

Kompaktes 0.5B omnimodales Sprachmodell von inclusionAI mit High-Fidelity 44,1kHz Ausgang und Zero-Shot-Stimme-Klonen.

Mittel · 3GB VRAM Versuch es.

MOSS-TTS Nano