Freie KI Text in die Rede
33+ Open-Source-Modelle, 273+ Stimmen, 33+ Sprachen. Kein Konto erforderlich.
Alles, was Sie für Voice KI benötigen
30+ Werkzeuge mit Open-Source-KI-Modellen
33+ KI-Stimmemodelle
Die umfassendste Sammlung von Open-Source-TTS-Modellen in einer Plattform
Kokoro Frei
Kokoro ist ein 82 Millionen Parameter-Text-zu-Speech-Modell, das weit über seine Gewichtsklasse schlägt. Trotz seiner winzigen Größe produziert es bemerkenswert natürliche und ausdrucksstarke Sprache. Kokoro unterstützt mehrere Sprachen, darunter Englisch, Japanisch, Chinesisch und Koreanisch mit einer Vielzahl von ausdrucksstarken Stimmen. Es läuft unglaublich schnell – Erzeugung von Audio fast 100x schneller als Echtzeit auf einer GPU.
Am besten für: Hochwertiges TTS mit minimaler Latenz, Streaming-Anwendungen
Versuchen Sie kostenlos
Piper Frei
Piper ist eine leichte Text-zu-Speech-Engine von Rhasspy entwickelt, die VITS und Kehlkopf-Architekturen verwendet. Es läuft vollständig auf CPU, so dass es ideal für Edge-Geräte, Home-Automatisierung und Anwendungen, die offline TTS. Mit über 100 Stimmen in über 30 Sprachen, Piper liefert natürliche klingende Sprache bei Echtzeit-Geschwindigkeiten auch auf einem Raspberry Pi 4.
Am besten für: Schnelle Vorschau, Zugänglichkeit und eingebettete Anwendungen
Versuchen Sie kostenlos
VITS Frei
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) ist eine parallele End-to-End TTS-Methode, die mehr natürliche klingende Audio als aktuelle zweistufige Modelle erzeugt. Es nimmt Variationsableitung mit normalisierenden Flüssen und einem konversarischen Trainingsprozess, um eine signifikante Verbesserung der Natürlichkeit.
Am besten für: Allgemeiner Text-zu-Sprechen mit natürlicher Prosodie
Versuchen Sie kostenlos
MeloTTS Frei
MeloTTS von MyShell.ai ist eine mehrsprachige TTS-Bibliothek, die Englisch (Amerikanisch, Britisch, Indisch, Australisch), Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch unterstützt. Sie ist extrem schnell und verarbeitet Texte mit nahezu Echtzeit-Geschwindigkeit allein auf CPU. MeloTTS ist für den Produktionseinsatz konzipiert und unterstützt sowohl CPU- als auch GPU-Inferenzen.
Am besten für: Produktionsanwendungen, die schnelle, mehrsprachige TTS benötigen
Versuchen Sie kostenlos
Kani TTS 2 Frei
Kani-TTS-2 von NineNineSix ist ein ultraleichtes 400M-Parametermodell auf einem Liquid AI LFM2-Backbone mit NVIDIA NanoCodec. Es läuft in nur 3GB VRAM und produziert ~10 Sekunden Rede in ~2 Sekunden auf einem A100 (RTF 0.2). Die aktuelle öffentliche Veröffentlichung liefert einen nur englisch-kani-tts-2-en Checkpoint und stellt nicht den Lautsprecher-Embedding Haken für Sprachklonen zur Verfügung – verwenden Sie Chatterbox / IndexTTS2 / F5-TTS zum Klonen oder Kokoro / MeloTTS für Nicht-Englisch.
Am besten für: Schnelle englische Generation auf Low-VRAM-Hardware, schnelle Vorschau
Versuchen Sie kostenlos
OuteTTS Frei
OuteTTS erweitert große Sprachmodelle mit text-to-speech-Funktionen unter Wahrung der ursprünglichen Architektur. Es unterstützt mehrere Backends einschließlich llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, und sogar Browser-Inferenz über Transformers.js. Features Zero-shot Voice Klonen durch Lautsprecher-Profile als JSON gespeichert.
Am besten für: Edge-Bereitstellung, Browser-basierte TTS, ressourcenarme Umgebungen
Versuchen Sie kostenlos
Pocket TTS Frei
Pocket TTS von Kyutai (Schöpfer von Moshi) ist ein kompaktes 100M-Parameter-Text-to-Speech-Modell, das deutlich über seinem Gewicht stanzt. Es läuft effizient auf CPU, unterstützt Null-Shot-Stimme Klonen aus einem einzigen Audio-Sample und produziert natürlich klingende Sprache. Die kleine Modellgröße macht es ideal für Edge-Deployment und Low-Resource-Umgebungen.
Am besten für: Leichter Einsatz, CPU-only Umgebungen, schnelles Sprachklonen
Versuchen Sie kostenlos
Kitten TTS Frei
Kitten TTS von KittenML ist ein ultraleichtes Text-zu-Speech-Modell, das auf ONNX basiert. Mit Varianten von 15M bis 80M-Parametern (25-80 MB auf der Festplatte) liefert es eine hochwertige Sprachsynthese auf der CPU, ohne eine GPU zu benötigen. Features 8 eingebaute Stimmen, einstellbare Sprachgeschwindigkeit und integrierte Textvorverarbeitung für Zahlen, Währungen und Einheiten. Ideal für Edge-Deployment und Low-Latency-Anwendungen.
Am besten für: Schnelles leichtes TTS, Kanteneinsatz, Anwendungen mit geringer Latenz
Versuchen Sie kostenlos
Ming-Omni TTS Frei
Ming-omni-tts-0.5B by inclusionAI ist ein kompaktes omni-modales Sprachmodell auf dem BailingMM dichten Backbone mit einem Patch-by-Patch flow-matching Audio-Decoder. Liefert 44,1kHz-Ausgang (nahe CD-Qualität), unterstützt Null-Shot-Stimme-Klonen aus einer 3+ Sekunden Referenz und beinhaltet integrierte Emotion / Dialekt / BGM-Steuerung über JSON-Anweisungen. Ausgezeichnete Stabilität — 0,83% WER auf chinesischen Benchmarks.
Am besten für: High-Fidelity zweisprachige Erzählung, emotionsgesteuerte Stimme, chinesische Hörbuch-Inhalte
Versuchen Sie kostenlos
MOSS-TTS Nano Frei
MOSS-TTS-Nano-100M ist OpenMOSSs kompakte 100M-Parameter-Variante der MOSS-TTS-Familie, die die Delay-Transformer-Architektur teilt. Tradet die Spitzenqualität des 8B-Modells für ~80x kleinere Gewichte und dramatisch niedriger pro Anfrage VRAM, so dass es für freie-Tier-und High-Throughput-Bereitstellungen geeignet ist.
Am besten für: Freier TTS, Produktion mit hohem Volumen, interaktive Nutzung mit geringer Latenz
Versuchen Sie kostenlos
Bark Standard
Transformer-basiertes Text-zu-Audio-Modell, das realistische Sprach-, Musik- und Soundeffekte erzeugt.
Entwickler: Suno · Lizenz: MIT
Versuch es.
Bark Small Standard
Leichtere Version von Bark mit schnellerem Rückschluss und geringerem Speicherverbrauch.
Entwickler: Suno · Lizenz: MIT
Versuch es.
CosyVoice 2 Standard
Alibabas skalierbares Streaming-TTS mit menschlicher Parität und nahezu Null Latenz.
Entwickler: Alibaba (Tongyi Lab) · Lizenz: Apache 2.0
Versuch es.
Dia TTS Standard
Multi-Lautsprecher-Dialog-Generierungsmodell, das natürliche Gespräche zwischen Lautsprechern erzeugt.
Entwickler: Nari Labs · Lizenz: Apache 2.0
Versuch es.
Parler TTS Standard
Beschreiben Sie die gewünschte Stimme in natürlicher Sprache und Parler erzeugt passende Sprache.
Entwickler: Hugging Face · Lizenz: Apache 2.0
Versuch es.
IndexTTS-2 Standard
Zero-shot TTS mit feinkörniger Emotionskontrolle und hoher Expressivität.
Entwickler: Index Team · Lizenz: Bilibili Model License
Versuch es.
Spark TTS Standard
Sprachklonieren von TTS mit kontrollierbarer Emotion und Sprechstil über Eingabeaufforderung.
Entwickler: SparkAudio · Lizenz: CC BY-NC-SA 4.0
Versuch es.
GPT-SoVITS Standard
Wenige Schüsse Stimme Klonen TTS, die jede Stimme von nur 5 Sekunden Audio repliziert.
Entwickler: RVC-Boss · Lizenz: MIT
Versuch es.
Orpheus Standard
Emotionales TTS-Modell auf menschlicher Ebene, das auf 100K Stunden Sprachdaten trainiert wurde.
Entwickler: Canopy Labs · Lizenz: Llama 3.2 Community
Versuch es.
Qwen3 TTS Standard
Alibabas mehrsprachiges TTS mit voreingestellten Stimmen und Sprachgestaltung aus Text.
Entwickler: Alibaba (Qwen) · Lizenz: Apache 2.0
Versuch es.
VieNeu-TTS-v2 Standard
Vietnamesisch + Englisch code-switching TTS mit 7 voreingestellten Stimmen und Null-Shot-Stimme Klonen. CPU-only, keine GPU erforderlich.
Entwickler: Phạm Nguyễn Ngọc Bảo · Lizenz: Apache 2.0
Versuch es.
Chatterbox Turbo Standard
Schnellere Chatterbox mit Sub-200ms Latenz und paralinguistischen Tags für Lachen, Husten und mehr.
Entwickler: Resemble AI · Lizenz: MIT
Versuch es.
VoxCPM Standard
Tokenizer-freies TTS, das 44,1kHz Audio mit kontext-aware Absatzkonsistenz produziert.
Entwickler: OpenBMB · Lizenz: Apache 2.0
Versuch es.
VibeVoice Standard
Microsoft-Modell für langformige Multi-Lautsprecher-Inhalte wie Podcasts und Hörbücher.
Entwickler: Microsoft · Lizenz: MIT
Versuch es.
CosyVoice3 Standard
Mehrsprachige TTS der nächsten Generation mit Bi-Streaming, Emotionskontrolle und Zero-Shot-Stimme-Klonen.
Entwickler: Alibaba (FunAudioLLM) · Lizenz: Apache 2.0
Versuch es.
NAMAA Saudi TTS Standard
Erste offene saudisch-arabische TTS. Eingeborener saudischer Dialekt mit Chatterbox-Qualität Stimme Klonen.
Entwickler: NAMAA Space · Lizenz: MIT
Versuch es.
Darwin TTS Standard
Die modale Qwen3-TTS-Variante mit FFN-Gewichten wurde aus dem Qwen3-1.7B-Sprachmodell für schärferes Mehrsprachiges Klonen gemischt.
Entwickler: FINAL-Bench · Lizenz: Apache 2.0
Versuch es.
MOSS-TTSD Standard
Multi-Sprecher Dialog Fortsetzung Modell — erzeugen Podcast-Stil Gespräche mit bis zu 5 Lautsprechern und 60 Minuten kohärente Audio.
Entwickler: OpenMOSS · Lizenz: Apache 2.0
Versuch es.
CosyVoice 2
Alibabas skalierbares Streaming-TTS mit menschlicher Parität und nahezu Null Latenz.
Sprachen: en, zh, ja, ko, fr, de, it, es
Klonstimme
IndexTTS-2
Zero-shot TTS mit feinkörniger Emotionskontrolle und hoher Expressivität.
Sprachen: en, zh
Klonstimme
Spark TTS
Sprachklonieren von TTS mit kontrollierbarer Emotion und Sprechstil über Eingabeaufforderung.
Sprachen: en, zh
Klonstimme
GPT-SoVITS
Wenige Schüsse Stimme Klonen TTS, die jede Stimme von nur 5 Sekunden Audio repliziert.
Sprachen: en, zh, ja, ko
Klonstimme
Chatterbox
Modernste Zero-Shot-Stimme, die mit Emotionskontrolle von Resemble KI klont.
Sprachen: en
Klonstimme
Tortoise TTS
Multi-Voice-Text-to-Speech konzentrierte sich auf Qualität mit autoregressiver Architektur.
Sprachen: en
Klonstimme
OpenVoice
Sofortige Stimme klont mit granularer Kontrolle über Stil, Emotion und Akzent.
Sprachen: en, zh, ja, ko, fr, es
Klonstimme
VieNeu-TTS-v2
Vietnamesisch + Englisch code-switching TTS mit 7 voreingestellten Stimmen und Null-Shot-Stimme Klonen. CPU-only, keine GPU erforderlich.
Sprachen: vi, en
Klonstimme
Chatterbox Turbo
Schnellere Chatterbox mit Sub-200ms Latenz und paralinguistischen Tags für Lachen, Husten und mehr.
Sprachen: en
Klonstimme
VoxCPM
Tokenizer-freies TTS, das 44,1kHz Audio mit kontext-aware Absatzkonsistenz produziert.
Sprachen: en, zh
Klonstimme
OuteTTS
LLM-basierte TTS, die auf CPU, GPU oder Browser über llama.cpp und Transformers.js läuft.
Sprachen: en
Klonstimme
Pocket TTS
Leichtgewichtiges 100M-Parametermodell von Kyutai mit Sprachklonung aus einer einzigen Probe.
Sprachen: en, fr
Klonstimme
CosyVoice3
Mehrsprachige TTS der nächsten Generation mit Bi-Streaming, Emotionskontrolle und Zero-Shot-Stimme-Klonen.
Sprachen: en, zh, ja, ko, de, es, fr, it, ru
Klonstimme
NAMAA Saudi TTS
Erste offene saudisch-arabische TTS. Eingeborener saudischer Dialekt mit Chatterbox-Qualität Stimme Klonen.
Sprachen: ar
Klonstimme
Darwin TTS
Die modale Qwen3-TTS-Variante mit FFN-Gewichten wurde aus dem Qwen3-1.7B-Sprachmodell für schärferes Mehrsprachiges Klonen gemischt.
Sprachen: en, ko, ja, zh
Klonstimme
MOSS-TTSD
Multi-Sprecher Dialog Fortsetzung Modell — erzeugen Podcast-Stil Gespräche mit bis zu 5 Lautsprechern und 60 Minuten kohärente Audio.
Sprachen: en, zh
Klonstimme
Ming-Omni TTS
Kompaktes 0.5B omnimodales Sprachmodell von inclusionAI mit High-Fidelity 44,1kHz Ausgang und Zero-Shot-Stimme-Klonen.
Sprachen: en, zh
Klonstimme
MOSS-TTS Nano
Tiny 100M MOSS-TTS-Variante — gleiche Architektur, 80x kleinere, freie Latenz.
Sprachen: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
KlonstimmeEntwickler-Erste API
OpenAI-kompatible REST API. Ein Endpunkt, 22+ Modelle. Streaming-Unterstützung für Echtzeit-Anwendungen.
- OpenAI-kompatibles Format
- Streaming TTS für Echtzeit-Apps
- Batch-Verarbeitung für große Arbeitsplätze
- Webhook-Benachrichtigungen
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Einfache, transparente Preisgestaltung
Starten Sie frei, skalieren Sie, wie Sie wachsen.
Frei
15.000 Zeichen + 5.000/Tag
- 7 kostenlose Modelle inklusive Kokoro
- 5.000 Zeichen pro Generation
- API-Zugriff enthalten
Starter
500 Gutschriften/Monat
- Alle 22+ Modelle
- 100.000 Zeichen pro Generation
- Stimme Klonen
Pro
2000 Gutschriften/Monat
- Alles im Starter
- API-Zugriff
- Vorrangige Verarbeitung
Unternehmen
10 000 Gutschriften/Monat
- Alles in Pro
- Bulk API
- Prioritätswarteschlange
Häufig gestellte Fragen
Was könnten wir verbessern? Ihr Feedback hilft uns, Probleme zu beheben.
Verwenden Sie KI-Stimme heute
Werden Sie Schöpfer, Entwickler und Unternehmen mit TTS.ai