Freie KI Text in die Rede

33+ Open-Source-Modelle, 273+ Stimmen, 33+ Sprachen. Kein Konto erforderlich.

17K+
Schöpfer
70K+
Generationen
33+
KI-Modelle
273+
Stimmen
Gefällt dir TTS.ai? Erzähl es deinen Freunden!

Alles, was Sie für Voice KI benötigen

30+ Werkzeuge mit Open-Source-KI-Modellen

33+ KI-Stimmemodelle

Die umfassendste Sammlung von Open-Source-TTS-Modellen in einer Plattform

KokoroKokoro Frei

Kokoro ist ein 82 Millionen Parameter-Text-zu-Speech-Modell, das weit über seine Gewichtsklasse schlägt. Trotz seiner winzigen Größe produziert es bemerkenswert natürliche und ausdrucksstarke Sprache. Kokoro unterstützt mehrere Sprachen, darunter Englisch, Japanisch, Chinesisch und Koreanisch mit einer Vielzahl von ausdrucksstarken Stimmen. Es läuft unglaublich schnell – Erzeugung von Audio fast 100x schneller als Echtzeit auf einer GPU.

Am besten für: Hochwertiges TTS mit minimaler Latenz, Streaming-Anwendungen

Versuchen Sie kostenlos

PiperPiper Frei

Piper ist eine leichte Text-zu-Speech-Engine von Rhasspy entwickelt, die VITS und Kehlkopf-Architekturen verwendet. Es läuft vollständig auf CPU, so dass es ideal für Edge-Geräte, Home-Automatisierung und Anwendungen, die offline TTS. Mit über 100 Stimmen in über 30 Sprachen, Piper liefert natürliche klingende Sprache bei Echtzeit-Geschwindigkeiten auch auf einem Raspberry Pi 4.

Am besten für: Schnelle Vorschau, Zugänglichkeit und eingebettete Anwendungen

Versuchen Sie kostenlos

VITSVITS Frei

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) ist eine parallele End-to-End TTS-Methode, die mehr natürliche klingende Audio als aktuelle zweistufige Modelle erzeugt. Es nimmt Variationsableitung mit normalisierenden Flüssen und einem konversarischen Trainingsprozess, um eine signifikante Verbesserung der Natürlichkeit.

Am besten für: Allgemeiner Text-zu-Sprechen mit natürlicher Prosodie

Versuchen Sie kostenlos

MeloTTSMeloTTS Frei

MeloTTS von MyShell.ai ist eine mehrsprachige TTS-Bibliothek, die Englisch (Amerikanisch, Britisch, Indisch, Australisch), Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch unterstützt. Sie ist extrem schnell und verarbeitet Texte mit nahezu Echtzeit-Geschwindigkeit allein auf CPU. MeloTTS ist für den Produktionseinsatz konzipiert und unterstützt sowohl CPU- als auch GPU-Inferenzen.

Am besten für: Produktionsanwendungen, die schnelle, mehrsprachige TTS benötigen

Versuchen Sie kostenlos

Kani TTS 2Kani TTS 2 Frei

Kani-TTS-2 von NineNineSix ist ein ultraleichtes 400M-Parametermodell auf einem Liquid AI LFM2-Backbone mit NVIDIA NanoCodec. Es läuft in nur 3GB VRAM und produziert ~10 Sekunden Rede in ~2 Sekunden auf einem A100 (RTF 0.2). Die aktuelle öffentliche Veröffentlichung liefert einen nur englisch-kani-tts-2-en Checkpoint und stellt nicht den Lautsprecher-Embedding Haken für Sprachklonen zur Verfügung – verwenden Sie Chatterbox / IndexTTS2 / F5-TTS zum Klonen oder Kokoro / MeloTTS für Nicht-Englisch.

Am besten für: Schnelle englische Generation auf Low-VRAM-Hardware, schnelle Vorschau

Versuchen Sie kostenlos

OuteTTSOuteTTS Frei

OuteTTS erweitert große Sprachmodelle mit text-to-speech-Funktionen unter Wahrung der ursprünglichen Architektur. Es unterstützt mehrere Backends einschließlich llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, und sogar Browser-Inferenz über Transformers.js. Features Zero-shot Voice Klonen durch Lautsprecher-Profile als JSON gespeichert.

Am besten für: Edge-Bereitstellung, Browser-basierte TTS, ressourcenarme Umgebungen

Versuchen Sie kostenlos

Pocket TTSPocket TTS Frei

Pocket TTS von Kyutai (Schöpfer von Moshi) ist ein kompaktes 100M-Parameter-Text-to-Speech-Modell, das deutlich über seinem Gewicht stanzt. Es läuft effizient auf CPU, unterstützt Null-Shot-Stimme Klonen aus einem einzigen Audio-Sample und produziert natürlich klingende Sprache. Die kleine Modellgröße macht es ideal für Edge-Deployment und Low-Resource-Umgebungen.

Am besten für: Leichter Einsatz, CPU-only Umgebungen, schnelles Sprachklonen

Versuchen Sie kostenlos

Kitten TTSKitten TTS Frei

Kitten TTS von KittenML ist ein ultraleichtes Text-zu-Speech-Modell, das auf ONNX basiert. Mit Varianten von 15M bis 80M-Parametern (25-80 MB auf der Festplatte) liefert es eine hochwertige Sprachsynthese auf der CPU, ohne eine GPU zu benötigen. Features 8 eingebaute Stimmen, einstellbare Sprachgeschwindigkeit und integrierte Textvorverarbeitung für Zahlen, Währungen und Einheiten. Ideal für Edge-Deployment und Low-Latency-Anwendungen.

Am besten für: Schnelles leichtes TTS, Kanteneinsatz, Anwendungen mit geringer Latenz

Versuchen Sie kostenlos

Ming-Omni TTSMing-Omni TTS Frei

Ming-omni-tts-0.5B by inclusionAI ist ein kompaktes omni-modales Sprachmodell auf dem BailingMM dichten Backbone mit einem Patch-by-Patch flow-matching Audio-Decoder. Liefert 44,1kHz-Ausgang (nahe CD-Qualität), unterstützt Null-Shot-Stimme-Klonen aus einer 3+ Sekunden Referenz und beinhaltet integrierte Emotion / Dialekt / BGM-Steuerung über JSON-Anweisungen. Ausgezeichnete Stabilität — 0,83% WER auf chinesischen Benchmarks.

Am besten für: High-Fidelity zweisprachige Erzählung, emotionsgesteuerte Stimme, chinesische Hörbuch-Inhalte

Versuchen Sie kostenlos

MOSS-TTS NanoMOSS-TTS Nano Frei

MOSS-TTS-Nano-100M ist OpenMOSSs kompakte 100M-Parameter-Variante der MOSS-TTS-Familie, die die Delay-Transformer-Architektur teilt. Tradet die Spitzenqualität des 8B-Modells für ~80x kleinere Gewichte und dramatisch niedriger pro Anfrage VRAM, so dass es für freie-Tier-und High-Throughput-Bereitstellungen geeignet ist.

Am besten für: Freier TTS, Produktion mit hohem Volumen, interaktive Nutzung mit geringer Latenz

Versuchen Sie kostenlos

BarkBark Standard

Transformer-basiertes Text-zu-Audio-Modell, das realistische Sprach-, Musik- und Soundeffekte erzeugt.

Entwickler: Suno · Lizenz: MIT

Versuch es.

Bark SmallBark Small Standard

Leichtere Version von Bark mit schnellerem Rückschluss und geringerem Speicherverbrauch.

Entwickler: Suno · Lizenz: MIT

Versuch es.

CosyVoice 2CosyVoice 2 Standard

Alibabas skalierbares Streaming-TTS mit menschlicher Parität und nahezu Null Latenz.

Entwickler: Alibaba (Tongyi Lab) · Lizenz: Apache 2.0

Versuch es.

Dia TTSDia TTS Standard

Multi-Lautsprecher-Dialog-Generierungsmodell, das natürliche Gespräche zwischen Lautsprechern erzeugt.

Entwickler: Nari Labs · Lizenz: Apache 2.0

Versuch es.

Parler TTSParler TTS Standard

Beschreiben Sie die gewünschte Stimme in natürlicher Sprache und Parler erzeugt passende Sprache.

Entwickler: Hugging Face · Lizenz: Apache 2.0

Versuch es.

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS mit feinkörniger Emotionskontrolle und hoher Expressivität.

Entwickler: Index Team · Lizenz: Bilibili Model License

Versuch es.

Spark TTSSpark TTS Standard

Sprachklonieren von TTS mit kontrollierbarer Emotion und Sprechstil über Eingabeaufforderung.

Entwickler: SparkAudio · Lizenz: CC BY-NC-SA 4.0

Versuch es.

GPT-SoVITSGPT-SoVITS Standard

Wenige Schüsse Stimme Klonen TTS, die jede Stimme von nur 5 Sekunden Audio repliziert.

Entwickler: RVC-Boss · Lizenz: MIT

Versuch es.

OrpheusOrpheus Standard

Emotionales TTS-Modell auf menschlicher Ebene, das auf 100K Stunden Sprachdaten trainiert wurde.

Entwickler: Canopy Labs · Lizenz: Llama 3.2 Community

Versuch es.

Qwen3 TTSQwen3 TTS Standard

Alibabas mehrsprachiges TTS mit voreingestellten Stimmen und Sprachgestaltung aus Text.

Entwickler: Alibaba (Qwen) · Lizenz: Apache 2.0

Versuch es.

VieNeu-TTS-v2VieNeu-TTS-v2 Standard

Vietnamesisch + Englisch code-switching TTS mit 7 voreingestellten Stimmen und Null-Shot-Stimme Klonen. CPU-only, keine GPU erforderlich.

Entwickler: Phạm Nguyễn Ngọc Bảo · Lizenz: Apache 2.0

Versuch es.

Chatterbox TurboChatterbox Turbo Standard

Schnellere Chatterbox mit Sub-200ms Latenz und paralinguistischen Tags für Lachen, Husten und mehr.

Entwickler: Resemble AI · Lizenz: MIT

Versuch es.

VoxCPMVoxCPM Standard

Tokenizer-freies TTS, das 44,1kHz Audio mit kontext-aware Absatzkonsistenz produziert.

Entwickler: OpenBMB · Lizenz: Apache 2.0

Versuch es.

VibeVoiceVibeVoice Standard

Microsoft-Modell für langformige Multi-Lautsprecher-Inhalte wie Podcasts und Hörbücher.

Entwickler: Microsoft · Lizenz: MIT

Versuch es.

CosyVoice3CosyVoice3 Standard

Mehrsprachige TTS der nächsten Generation mit Bi-Streaming, Emotionskontrolle und Zero-Shot-Stimme-Klonen.

Entwickler: Alibaba (FunAudioLLM) · Lizenz: Apache 2.0

Versuch es.

NAMAA Saudi TTSNAMAA Saudi TTS Standard

Erste offene saudisch-arabische TTS. Eingeborener saudischer Dialekt mit Chatterbox-Qualität Stimme Klonen.

Entwickler: NAMAA Space · Lizenz: MIT

Versuch es.

Darwin TTSDarwin TTS Standard

Die modale Qwen3-TTS-Variante mit FFN-Gewichten wurde aus dem Qwen3-1.7B-Sprachmodell für schärferes Mehrsprachiges Klonen gemischt.

Entwickler: FINAL-Bench · Lizenz: Apache 2.0

Versuch es.

MOSS-TTSDMOSS-TTSD Standard

Multi-Sprecher Dialog Fortsetzung Modell — erzeugen Podcast-Stil Gespräche mit bis zu 5 Lautsprechern und 60 Minuten kohärente Audio.

Entwickler: OpenMOSS · Lizenz: Apache 2.0

Versuch es.

ChatterboxChatterbox Prämie

Modernste Zero-Shot-Stimme, die mit Emotionskontrolle von Resemble KI klont.

Qualität:

Versuch es.

Tortoise TTSTortoise TTS Prämie

Multi-Voice-Text-to-Speech konzentrierte sich auf Qualität mit autoregressiver Architektur.

Qualität:

Versuch es.

StyleTTS 2StyleTTS 2 Prämie

Text-zu-Sprechen auf menschlicher Ebene durch Stildiffusion und konversarisches Training.

Qualität:

Versuch es.

OpenVoiceOpenVoice Prämie

Sofortige Stimme klont mit granularer Kontrolle über Stil, Emotion und Akzent.

Qualität:

Versuch es.

Sesame CSMSesame CSM Prämie

Gesprächssprachmodell erzeugt natürlichen Dialog mit passendem Timing und Emotion.

Qualität:

Versuch es.

CosyVoice 2CosyVoice 2

Alibabas skalierbares Streaming-TTS mit menschlicher Parität und nahezu Null Latenz.

Sprachen: en, zh, ja, ko, fr, de, it, es

Klonstimme

IndexTTS-2IndexTTS-2

Zero-shot TTS mit feinkörniger Emotionskontrolle und hoher Expressivität.

Sprachen: en, zh

Klonstimme

Spark TTSSpark TTS

Sprachklonieren von TTS mit kontrollierbarer Emotion und Sprechstil über Eingabeaufforderung.

Sprachen: en, zh

Klonstimme

GPT-SoVITSGPT-SoVITS

Wenige Schüsse Stimme Klonen TTS, die jede Stimme von nur 5 Sekunden Audio repliziert.

Sprachen: en, zh, ja, ko

Klonstimme

ChatterboxChatterbox

Modernste Zero-Shot-Stimme, die mit Emotionskontrolle von Resemble KI klont.

Sprachen: en

Klonstimme

Tortoise TTSTortoise TTS

Multi-Voice-Text-to-Speech konzentrierte sich auf Qualität mit autoregressiver Architektur.

Sprachen: en

Klonstimme

OpenVoiceOpenVoice

Sofortige Stimme klont mit granularer Kontrolle über Stil, Emotion und Akzent.

Sprachen: en, zh, ja, ko, fr, es

Klonstimme

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnamesisch + Englisch code-switching TTS mit 7 voreingestellten Stimmen und Null-Shot-Stimme Klonen. CPU-only, keine GPU erforderlich.

Sprachen: vi, en

Klonstimme

Chatterbox TurboChatterbox Turbo

Schnellere Chatterbox mit Sub-200ms Latenz und paralinguistischen Tags für Lachen, Husten und mehr.

Sprachen: en

Klonstimme

VoxCPMVoxCPM

Tokenizer-freies TTS, das 44,1kHz Audio mit kontext-aware Absatzkonsistenz produziert.

Sprachen: en, zh

Klonstimme

OuteTTSOuteTTS

LLM-basierte TTS, die auf CPU, GPU oder Browser über llama.cpp und Transformers.js läuft.

Sprachen: en

Klonstimme

Pocket TTSPocket TTS

Leichtgewichtiges 100M-Parametermodell von Kyutai mit Sprachklonung aus einer einzigen Probe.

Sprachen: en, fr

Klonstimme

CosyVoice3CosyVoice3

Mehrsprachige TTS der nächsten Generation mit Bi-Streaming, Emotionskontrolle und Zero-Shot-Stimme-Klonen.

Sprachen: en, zh, ja, ko, de, es, fr, it, ru

Klonstimme

NAMAA Saudi TTSNAMAA Saudi TTS

Erste offene saudisch-arabische TTS. Eingeborener saudischer Dialekt mit Chatterbox-Qualität Stimme Klonen.

Sprachen: ar

Klonstimme

Darwin TTSDarwin TTS

Die modale Qwen3-TTS-Variante mit FFN-Gewichten wurde aus dem Qwen3-1.7B-Sprachmodell für schärferes Mehrsprachiges Klonen gemischt.

Sprachen: en, ko, ja, zh

Klonstimme

MOSS-TTSDMOSS-TTSD

Multi-Sprecher Dialog Fortsetzung Modell — erzeugen Podcast-Stil Gespräche mit bis zu 5 Lautsprechern und 60 Minuten kohärente Audio.

Sprachen: en, zh

Klonstimme

Ming-Omni TTSMing-Omni TTS

Kompaktes 0.5B omnimodales Sprachmodell von inclusionAI mit High-Fidelity 44,1kHz Ausgang und Zero-Shot-Stimme-Klonen.

Sprachen: en, zh

Klonstimme

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M MOSS-TTS-Variante — gleiche Architektur, 80x kleinere, freie Latenz.

Sprachen: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Klonstimme

Entwickler-Erste API

OpenAI-kompatible REST API. Ein Endpunkt, 22+ Modelle. Streaming-Unterstützung für Echtzeit-Anwendungen.

  • OpenAI-kompatibles Format
  • Streaming TTS für Echtzeit-Apps
  • Batch-Verarbeitung für große Arbeitsplätze
  • Webhook-Benachrichtigungen
API Docs anzeigen
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Einfache, transparente Preisgestaltung

Starten Sie frei, skalieren Sie, wie Sie wachsen.

Frei

$0

15.000 Zeichen + 5.000/Tag

  • 7 kostenlose Modelle inklusive Kokoro
  • 5.000 Zeichen pro Generation
  • API-Zugriff enthalten
Kostenlos anmelden

Starter

$9/mo

500 Gutschriften/Monat

  • Alle 22+ Modelle
  • 100.000 Zeichen pro Generation
  • Stimme Klonen
Erste Schritte
Am beliebtesten

Pro

$29/mo

2000 Gutschriften/Monat

  • Alles im Starter
  • API-Zugriff
  • Vorrangige Verarbeitung
Pro bekommen

Unternehmen

$99/mo

10 000 Gutschriften/Monat

  • Alles in Pro
  • Bulk API
  • Prioritätswarteschlange
Geschäftlich machen

Alle Pläne einschließlich Zeichenpakete anzeigen →

Häufig gestellte Fragen

TTS.ai ist die umfassendste KI-Sprachplattform und bietet 22+ Text-zu-Sprechen-Modelle, Sprachklonen, Sprach-zu-Text und Audio-Tools. Alle Modelle sind Open Source ohne Hersteller Lock-In.

Ja! TTS.ai bietet kostenlose Text-to-Speech mit Kokoro, Piper, VITS und MeloTTS-Modelle. Kein Konto erforderlich. Melden Sie sich an, um 15.000 freie Zeichen zu erhalten und Zugriff auf alle Modelle. Bezahlte Pläne beginnen bei $9/Monat.

Für die Geschwindigkeit, verwenden Sie Kokoro oder Piper. Für die Qualität, versuchen CosyVoice 2 oder StyleTTS 2. Für die Stimme Klonen, verwenden Sie Chatterbox oder GPT-SoVITS. Für den Dialog, verwenden Sie Dia TTS. Versuchen Sie mehrere Modelle auf dem gleichen Text zu vergleichen.

Ja. OpenAI-kompatible REST API für TTS, STT, Sprachklonen und Audio-Tools. Enthalten auf jedem Plan einschließlich kostenlos, mit Geschwindigkeitsbegrenzungen, die nach Stufen skalieren (Free: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Business: 300).

Die Sprachqualität variiert je nach Modell. Premium-Modelle wie CosyVoice 2, StyleTTS 2 und Chatterbox produzieren menschnahe Sprachqualität mit natürlicher Intonation und Emotion. Kostenlose Modelle wie Kokoro bieten ausgezeichnete Qualität für die meisten Anwendungsfälle.

TTS.ai unterstützt 30+ Sprachen in seiner Modellbibliothek. Englisch hat die größte Modellunterstützung, aber Modelle wie CosyVoice 2 decken Chinesisch, Japanisch und Koreanisch ab; GPT-SoVITS behandelt Chinesisch, Japanisch, Koreanisch und Englisch; und MeloTTS unterstützt Englisch, Spanisch, Französisch, Chinesisch, Japanisch und Koreanisch.

Ja. Die gesamte Verarbeitung erfolgt auf unseren speziellen GPU-Servern. Wir speichern Ihre Texteingaben oder generierten Audiodaten nicht nach der Auslieferung. Hochgeladene Sprachproben zum Klonen werden nur für die aktuelle Sitzung verwendet und nicht gespeichert. Wir geben Ihre Daten niemals an Dritte weiter oder nutzen sie zum Trainieren von Modellen.

Ja. Alle auf TTS.ai erzeugten Audiodateien gehören zur kommerziellen Nutzung, auch für YouTube-Videos, Podcasts, Hörbücher, Apps, Werbung und Produkte. Unsere Modelle sind Open Source-Lizenzen (MIT, Apache 2.0).

TTS.ai erzeugt Audio im WAV-Format standardmäßig für maximale Qualität. Sie können mit unserem kostenlosen Audio Converter Tool in MP3, FLAC, OGG oder M4A konvertieren. Die API unterstützt die Angabe Ihres bevorzugten Ausgabeformats direkt in der Anfrage.

Laden Sie ein kurzes Audio-Beispiel (weniger als 5 Sekunden) der Stimme, die Sie klonen möchten, dann geben Sie jeden Text, um Sprache in dieser Stimme zu erzeugen. Modelle wie Chatterbox, GPT-SoVITS und CosyVoice 2 unterstützen Stimme Klonen. Die geklonte Stimme fängt Ton, Akzent und sprechenden Stil.

Kostenlose Modelle (Kokoro, Piper, VITS, MeloTTS) benötigen kein Konto und kosten Nullzeichen. Standardmodelle (2000 Zeichen/1K Eingang) enthalten Bark, CosyVoice 2, F5-TTS und Dia. Premiummodelle (4000 Zeichen/1K Eingang) enthalten OpenVoice, Chatterbox, StyleTTS 2 und Tortoise. Bezahlte Modelle bieten in der Regel höhere Qualität, mehr Stimmen und zusätzliche Funktionen wie Voice-Klonen.

Ja. Die API unterstützt die Batch-Verarbeitung für die Konvertierung großer Mengen an Text in Sprache. Senden Sie mehrere Anfragen und abrufen Ergebnisse asynchron mit Job-UUIDs. Der Business-Plan ($99/mo) und höher enthalten Priorität Warteschlange Zugriff für eine schnellere Batch-Verarbeitung. Ideal für Audiobook-Produktion, Kursinhalt und große Voiceover-Projekte.
4.1/5 (42)

Was könnten wir verbessern? Ihr Feedback hilft uns, Probleme zu beheben.

Verwenden Sie KI-Stimme heute

Werden Sie Schöpfer, Entwickler und Unternehmen mit TTS.ai