Fehler melden / Feature-Anforderung

Text zu Sprache API für Entwickler

Erstellen Sie sprachfähige Anwendungen mit unserer REST API. Fügen Sie natürliche Text-zu-Sprechen, Sprachklonen, Sprach-zu-Text und Audioverarbeitung zu Ihren Apps, Chatbots, Sprachassistenten und SaaS-Produkten hinzu. OpenAI-kompatibles Format, 20+ Modelle, einfache Integration.

REST API Chatbots Sprach-Apps SaaS-Erzeugnisse Automatisierung

Vollständiger TTS-Editor API Docs

Versuchen Sie es jetzt

0/500

Frei mit Kokoro, Piper, VITS, MeloTTS

Ihre generierte Audio wird hier erscheinen

Vollständigen TTS-Editor öffnen

API-Features für Entwickler

Alles, was Sie zum Erstellen sprachfähiger Anwendungen benötigen

Einfache REST API

Eine POST-Anforderung, Sprache zu generieren. JSON-Anforderung, Audio-Antwort. Funktioniert mit jeder Programmiersprache, die HTTP unterstützt.

OpenAI-kompatibel

Drop-In-Ersatz für OpenAI TTS API. Schalten Sie Ihren base_url und API-Schlüssel – vorhandener Code funktioniert sofort.

24+ Modelle verfügbar

Zugriff auf jedes Modell über eine einzige API. Schalten Sie Modelle durch Ändern eines Parameters. Vergleichen Sie Qualität, Geschwindigkeit und Kosten.

Untere zweite Latenz

Kokoro erzeugt Audio in unter 1 Sekunde. Perfekt für Echtzeit-Chatbots, Sprachassistenten und interaktive Anwendungen.

Sprach-Cloning-API

Klonen Sie jede Stimme aus einem kurzen Audio-Beispiel über die API. Verwenden Sie geklonte Stimmen für alle nachfolgenden Generationen.

Mehrere Formate

Ausgabe als WAV, MP3, OGG oder FLAC. Wählen Sie Samplerate und Bittiefe. Streaming Audiounterstützung für Echtzeit-Apps.

Beste Modelle für die Entwicklerintegration

Wählen Sie das richtige Modell für die Geschwindigkeit, Qualität und Kostenanforderungen Ihrer Anwendung

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Schnell 5/5

Am besten für: Schnellstes Modell — Sub-Sekunden-Latenz, ideal für Echtzeit-Apps und Chatbots

Versuch es. Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Mittel 5/5 Stimme Klonen

Am besten für: Streaming von TTS mit Sprachklonen für Sprachassistenten-Anwendungen

Versuch es. CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Langsam 5/5

Am besten für: Konversationale KI mit natürlichem Timing für Chatbot und Assistentenstimme

Versuch es. Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Schnell 3/5

Am besten für: Freies, nur CPU-Modell für hochvolumige Anwendungen zu null Kosten

Versuch es. Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Langsam 4/5

Am besten für: Audio-Generierung mit Soundeffekten für kreative und Entertainment-Apps

Versuch es. Bark

Wie Sie die TTS API integrieren

Von der Anmeldung zum ersten API-Aufruf in weniger als 5 Minuten

Holen Sie sich Ihren API-Schlüssel

Registrieren Sie sich kostenlos und generieren Sie einen API-Schlüssel aus Ihrem Konto Dashboard. 15.000 Zeichen enthalten.

Machen Sie Ihren ersten Anruf

POST auf /v1/tts mit Text, Modell und Stimme. Erhalten Sie Audiobytes zurück. Unter 5 Zeilen Code.

Wählen Sie Ihr Modell

Testen Sie verschiedene Modelle für Ihren Anwendungsfall. Vergleichen Sie Geschwindigkeit, Qualität und Kosten pro Generation.

Schiff zur Produktion

Skala mit Pay-as-you-go Zeichen. Keine Preislimits für bezahlte Pläne. Überwachen Sie die Nutzung in Ihrem Dashboard.

Beispiele für Schnellstart-Code

Integrieren Sie TTS.ai in jede Sprache mit unserer REST API

Python Beliebt

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Universell

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

OpenAI-kompatibles Format Einspeisung

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Holen Sie sich Ihren kostenlosen API-Schlüssel

Was Entwickler bauen mit TTS.ai

Gemeinsame Integrationsmuster und -anwendungen

AI Chatbots & Assistants

Fügen Sie Sprachausgabe zu Ihrem Chatbot oder KI-Assistenten hinzu. Pipe LLM-Antworten über TTS für sprachfähige Schnittstellen. Kokoro liefert Subsekundenlatenz für Echtzeitgespräche. Sesam CSM erzeugt Konversationssprache mit natürlichem Timing.

LLM-Antwort auf Sprachpipeline
Sub-Sekunden-Latenz mit Kokoro
Gesprächsrede mit Sesam CSM
Audioausgabe streamen

Mobile & Sprach-Apps

Erstellen Sie sprachfähige mobile Apps, Zugänglichkeitstools, Lesen von Apps und Sprachlernplattformen. Unsere REST API funktioniert mit jedem mobilen Framework. Laden Sie Audiodateien herunter oder streamen Sie direkt zum Client.

Reagieren Sie Native, Flutter, Swift, Kotlin
Barrierefreiheit und Lese-Apps
Sprachlernplattformen
Erzeugung von Audioinhalten

SaaS-Erzeugnisse

White-Label-Sprachfunktionen in Ihrem SaaS-Produkt. Fügen Sie TTS, STT, Sprachklonen und Audioverarbeitung als Funktionen in Ihrer Plattform hinzu. Nutzen Sie unsere API als Sprach-Backend, ohne die GPU-Infrastruktur zu verwalten.

Merkmale der Stimme mit weißem Etikett
Keine GPU-Infrastruktur erforderlich
Entgelt-pro-Verwendung-Preise
20+ Modelle für Ihre Nutzer

Automatisierungspipelines

Integrieren Sie Sprachgenerierung in CI/CD-Pipelines, Content Automation und Batch Processing Workflows. Generieren Sie Tausende von Audiodateien aus Tabellendaten, automatisieren Sie die Podcast-Produktion oder erstellen Sie Content-Lokalisierung-Pipelines.

Batch-Verarbeitung über API
Content-Lokalisierungspipelines
CI/CD-Integration
Tabellenkalkulation zur Audioautomatisierung

Vollständige API-Dokumentation anzeigen

API-Spezifikationen

Für Produktionsanwendungen gebaut

20+

TTS-Modelle

100+

Stimmen

30+

Sprachen

<1s

Latenzzeit (Kokoro)

Kostenlos registrieren — 15.000 Zeichen

Häufig gestellte Fragen

Häufige Fragen zur TTS.ai Entwickler-API

Ja. Unsere API folgt dem OpenAI Audio-Sprachformat. Wenn Sie die OpenAI Python- oder JavaScript-Client-Bibliothek verwenden, können Sie durch Ändern der base_url- und api_key-Parameter auf TTS.ai wechseln. Ihr vorhandener Code funktioniert ohne Änderungen.

Kokoro erzeugt Audio in weniger als 1 Sekunde für typische Sätze. CosyVoice 2 unterstützt die Streaming-Ausgabe für eine noch geringere wahrgenommene Latenz. Für Chatbots und Sprachassistenten beträgt die Gesamt-Round-Trip-Zeit typischerweise 1-3 Sekunden, je nach Textlänge und Modellwahl.

Kostenlose Modelle (Kokoro, Piper, VITS, MeloTTS) sind kostenlos. Standardmodelle verwenden 2x Zeichen pro 1K Text. Premiummodelle verwenden 4x Zeichen pro 1K Text. Melde dich kostenlos mit 15.000 Zeichen an. Pläne beginnen bei $9/Monat für 500.000 Zeichen.

Ja. Laden Sie eine Referenz-Audioprobe (5-30 Sekunden) zum Endpunkt Sprachklonen hoch, dann verwenden Sie die geklonte Sprach-ID in folgenden TTS-Anfragen. Modelle, die das Klonen unterstützen, umfassen CosyVoice 2, Chatterbox, Fish Speech und GPT-SoVITS.

Freie Ebene hat Grundtarifbegrenzung (3 Anfragen pro Stunde ohne Konto). Bezahlte Pläne haben großzügige Steuersätze, die für Produktionsanwendungen geeignet sind. Kontaktieren Sie uns für Anforderungen an den Durchsatz auf Unternehmensebene.

WAV (unkomprimiert, höchste Qualität), MP3 (komprimierte, kleinere Dateien), OGG (offenes Format) und FLAC (losslose Kompression). Geben Sie das Format in Ihrer Anfrage an. Voreinstellung ist WAV bei der nativen Samplerate des Modells.

Ja. Kombinieren Sie unsere TTS API mit einem Speak-to-Text-Modell und einem LLM, um eine komplette Voice Assistant Pipeline zu erstellen. Kokoro bietet eine Subsekundenlatenz ideal für Echtzeit-Gespräch. CosyVoice 2 unterstützt Streaming-Ausgaben für noch niedrigere wahrgenommene Reaktionszeiten.

CosyVoice 2 und Kokoro unterstützen Streaming-Audio-Ausgaben, wo Audio-Chunks geliefert werden, wie sie erzeugt werden. Dies reduziert Zeit-zu-erst-Byte für Echtzeit-Anwendungen wie Sprachassistenten und interaktive Erfahrungen.

Die API gibt Standard-HTTP-Statuscodes zurück. Exponentielles Backoff für 5xx-Fehler und Geschwindigkeitslimit-Antworten implementieren. Für missionskritische Anwendungen, fügen Sie eine Warteschlange mit Wiederholungslogik. Unsere API hat eine hohe Verfügbarkeit, aber belastbare Fehlerbehandlung wird immer empfohlen.

Ja. Die Endpunkte /v1/voices und /v1/models geben JSON-Listen aller verfügbaren Stimmen und Modelle mit ihren Metadaten (Sprachunterstützung, Qualitätsbewertungen, Geschwindigkeitsbewertungen und Preisstufen) zurück. Verwenden Sie diese, um dynamische Modellauswahlen in Ihrer Anwendung zu erstellen.

Freie Modelle (Kokoro, Piper, VITS, MeloTTS) dienen als effektive Sandbox, da sie Nullgutschriften kosten. Testen Sie Ihre Integration mit freien Modellen, dann wechseln Sie zu Premium-Modellen in der Produktion durch Änderung des Modellparameters. Es wird keine separate Testumgebung benötigt.

Die meisten unserer Modelle sind Open Source und können selbst gehostet werden. Selbst-Hosting erfordert jedoch erhebliche GPU-Ressourcen (wir verwenden 4x NVIDIA Tesla P40 mit 96GB VRAM Gesamt). Die API bietet eine kostengünstige Alternative ohne Infrastrukturmanagement.

5.0/5 (1)

Bereit, mit Voice AI zu bauen?

Holen Sie sich Ihren kostenlosen API-Schlüssel und starten Sie den Aufbau. 15.000 Zeichen auf Anmeldung, kostenlose Modelle verfügbar, umfassende Dokumentation.

Kostenlos anmelden Preise anzeigen

Text zu Sprache API für Entwickler

Versuchen Sie es jetzt

Gefällt dir TTS.ai? Erzähl es deinen Freunden!

API-Features für Entwickler

Einfache REST API

OpenAI-kompatibel

24+ Modelle verfügbar

Untere zweite Latenz

Sprach-Cloning-API

Mehrere Formate

Beste Modelle für die Entwicklerintegration

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Wie Sie die TTS API integrieren

Holen Sie sich Ihren API-Schlüssel

Machen Sie Ihren ersten Anruf

Wählen Sie Ihr Modell

Schiff zur Produktion

Beispiele für Schnellstart-Code

Was Entwickler bauen mit TTS.ai

AI Chatbots & Assistants

Mobile & Sprach-Apps

SaaS-Erzeugnisse

Automatisierungspipelines

API-Spezifikationen

Häufig gestellte Fragen

Ist die API mit dem OpenAI TTS-Format kompatibel?

Was ist die Latenz für Echtzeit-Anwendungen?

Wie funktioniert die Preisgestaltung für die API-Nutzung?

Kann ich Sprachklonen über die API verwenden?

Gibt es eine Steuergrenze?

Welche Audioformate liefert die API zurück?

Kann ich mit der API einen Sprachassistenten oder Chatbot erstellen?

Gibt es eine WebSocket oder Streaming API?

Wie behandle ich Fehler und Retries in der Produktion?

Kann ich verfügbare Stimmen und Modelle programmatisch auflisten?

Gibt es einen Sandkasten oder eine Testumgebung?

Kann ich die Modelle statt der API selbst hosten?

Bereit, mit Voice AI zu bauen?