Text zu Sprache API für Entwickler

Erstellen Sie sprachfähige Anwendungen mit unserer REST API. Fügen Sie natürliche Text-zu-Sprechen, Sprachklonen, Sprach-zu-Text und Audioverarbeitung zu Ihren Apps, Chatbots, Sprachassistenten und SaaS-Produkten hinzu. OpenAI-kompatibles Format, 20+ Modelle, einfache Integration.

REST API Chatbots Sprach-Apps SaaS-Erzeugnisse Automatisierung

Versuchen Sie es jetzt

Frei mit Kokoro, Piper, VITS, MeloTTS
Ihre generierte Audio wird hier erscheinen
Erzeugt
Herunterladen
Gefällt dir TTS.ai? Erzähl es deinen Freunden!

API-Features für Entwickler

Alles, was Sie zum Erstellen sprachfähiger Anwendungen benötigen

Einfache REST API

Eine POST-Anforderung, Sprache zu generieren. JSON-Anforderung, Audio-Antwort. Funktioniert mit jeder Programmiersprache, die HTTP unterstützt.

OpenAI-kompatibel

Drop-In-Ersatz für OpenAI TTS API. Schalten Sie Ihren base_url und API-Schlüssel – vorhandener Code funktioniert sofort.

24+ Modelle verfügbar

Zugriff auf jedes Modell über eine einzige API. Schalten Sie Modelle durch Ändern eines Parameters. Vergleichen Sie Qualität, Geschwindigkeit und Kosten.

Untere zweite Latenz

Kokoro erzeugt Audio in unter 1 Sekunde. Perfekt für Echtzeit-Chatbots, Sprachassistenten und interaktive Anwendungen.

Sprach-Cloning-API

Klonen Sie jede Stimme aus einem kurzen Audio-Beispiel über die API. Verwenden Sie geklonte Stimmen für alle nachfolgenden Generationen.

Mehrere Formate

Ausgabe als WAV, MP3, OGG oder FLAC. Wählen Sie Samplerate und Bittiefe. Streaming Audiounterstützung für Echtzeit-Apps.

Beste Modelle für die Entwicklerintegration

Wählen Sie das richtige Modell für die Geschwindigkeit, Qualität und Kostenanforderungen Ihrer Anwendung

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Am besten für: Schnellstes Modell — Sub-Sekunden-Latenz, ideal für Echtzeit-Apps und Chatbots

Versuch es. Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Stimme Klonen

Am besten für: Streaming von TTS mit Sprachklonen für Sprachassistenten-Anwendungen

Versuch es. CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Am besten für: Konversationale KI mit natürlichem Timing für Chatbot und Assistentenstimme

Versuch es. Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Am besten für: Freies, nur CPU-Modell für hochvolumige Anwendungen zu null Kosten

Versuch es. Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Am besten für: Audio-Generierung mit Soundeffekten für kreative und Entertainment-Apps

Versuch es. Bark

Wie Sie die TTS API integrieren

Von der Anmeldung zum ersten API-Aufruf in weniger als 5 Minuten

1

Holen Sie sich Ihren API-Schlüssel

Registrieren Sie sich kostenlos und generieren Sie einen API-Schlüssel aus Ihrem Konto Dashboard. 15.000 Zeichen enthalten.

2

Machen Sie Ihren ersten Anruf

POST auf /v1/tts mit Text, Modell und Stimme. Erhalten Sie Audiobytes zurück. Unter 5 Zeilen Code.

3

Wählen Sie Ihr Modell

Testen Sie verschiedene Modelle für Ihren Anwendungsfall. Vergleichen Sie Geschwindigkeit, Qualität und Kosten pro Generation.

4

Schiff zur Produktion

Skala mit Pay-as-you-go Zeichen. Keine Preislimits für bezahlte Pläne. Überwachen Sie die Nutzung in Ihrem Dashboard.

Beispiele für Schnellstart-Code

Integrieren Sie TTS.ai in jede Sprache mit unserer REST API

Python Beliebt
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universell
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI-kompatibles Format Einspeisung
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Was Entwickler bauen mit TTS.ai

Gemeinsame Integrationsmuster und -anwendungen

KI Chatbots & Assistenten

Fügen Sie Sprachausgabe zu Ihrem Chatbot oder KI-Assistenten hinzu. Pipe LLM-Antworten über TTS für sprachfähige Schnittstellen. Kokoro liefert Subsekundenlatenz für Echtzeitgespräche. Sesam CSM erzeugt Konversationssprache mit natürlichem Timing.

  • LLM-Antwort auf Sprachpipeline
  • Sub-Sekunden-Latenz mit Kokoro
  • Gesprächsrede mit Sesam CSM
  • Audioausgabe streamen

Mobile & Sprach-Apps

Erstellen Sie sprachfähige mobile Apps, Zugänglichkeitstools, Lesen von Apps und Sprachlernplattformen. Unsere REST API funktioniert mit jedem mobilen Framework. Laden Sie Audiodateien herunter oder streamen Sie direkt zum Client.

  • Reagieren Sie Native, Flutter, Swift, Kotlin
  • Barrierefreiheit und Lese-Apps
  • Sprachlernplattformen
  • Erzeugung von Audioinhalten

SaaS-Erzeugnisse

White-Label-Sprachfunktionen in Ihrem SaaS-Produkt. Fügen Sie TTS, STT, Sprachklonen und Audioverarbeitung als Funktionen in Ihrer Plattform hinzu. Nutzen Sie unsere API als Sprach-Backend, ohne die GPU-Infrastruktur zu verwalten.

  • Merkmale der Stimme mit weißem Etikett
  • Keine GPU-Infrastruktur erforderlich
  • Entgelt-pro-Verwendung-Preise
  • 20+ Modelle für Ihre Nutzer

Automatisierungspipelines

Integrieren Sie Sprachgenerierung in CI/CD-Pipelines, Content Automation und Batch Processing Workflows. Generieren Sie Tausende von Audiodateien aus Tabellendaten, automatisieren Sie die Podcast-Produktion oder erstellen Sie Content-Lokalisierung-Pipelines.

  • Batch-Verarbeitung über API
  • Content-Lokalisierungspipelines
  • CI/CD-Integration
  • Tabellenkalkulation zur Audioautomatisierung

API-Spezifikationen

Für Produktionsanwendungen gebaut

20+

TTS-Modelle

100+

Stimmen

30+

Sprachen

<1s

Latenzzeit (Kokoro)

Häufig gestellte Fragen

Häufige Fragen zur TTS.ai Entwickler-API

Ja. Unsere API folgt dem OpenAI Audio-Sprachformat. Wenn Sie die OpenAI Python- oder JavaScript-Client-Bibliothek verwenden, können Sie durch Ändern der base_url- und api_key-Parameter auf TTS.ai wechseln. Ihr vorhandener Code funktioniert ohne Änderungen.

Kokoro erzeugt Audio in weniger als 1 Sekunde für typische Sätze. CosyVoice 2 unterstützt die Streaming-Ausgabe für eine noch geringere wahrgenommene Latenz. Für Chatbots und Sprachassistenten beträgt die Gesamt-Round-Trip-Zeit typischerweise 1-3 Sekunden, je nach Textlänge und Modellwahl.

Kostenlose Modelle (Kokoro, Piper, VITS, MeloTTS) sind kostenlos. Standardmodelle verwenden 2x Zeichen pro 1K Text. Premiummodelle verwenden 4x Zeichen pro 1K Text. Melde dich kostenlos mit 15.000 Zeichen an. Pläne beginnen bei $9/Monat für 500.000 Zeichen.

Ja. Laden Sie eine Referenz-Audioprobe (5-30 Sekunden) zum Endpunkt Sprachklonen hoch, dann verwenden Sie die geklonte Sprach-ID in folgenden TTS-Anfragen. Modelle, die das Klonen unterstützen, umfassen CosyVoice 2, Chatterbox, Fish Speech und GPT-SoVITS.

Freie Ebene hat Grundtarifbegrenzung (3 Anfragen pro Stunde ohne Konto). Bezahlte Pläne haben großzügige Steuersätze, die für Produktionsanwendungen geeignet sind. Kontaktieren Sie uns für Anforderungen an den Durchsatz auf Unternehmensebene.

WAV (unkomprimiert, höchste Qualität), MP3 (komprimierte, kleinere Dateien), OGG (offenes Format) und FLAC (losslose Kompression). Geben Sie das Format in Ihrer Anfrage an. Voreinstellung ist WAV bei der nativen Samplerate des Modells.

Ja. Kombinieren Sie unsere TTS API mit einem Speak-to-Text-Modell und einem LLM, um eine komplette Voice Assistant Pipeline zu erstellen. Kokoro bietet eine Subsekundenlatenz ideal für Echtzeit-Gespräch. CosyVoice 2 unterstützt Streaming-Ausgaben für noch niedrigere wahrgenommene Reaktionszeiten.

CosyVoice 2 und Kokoro unterstützen Streaming-Audio-Ausgaben, wo Audio-Chunks geliefert werden, wie sie erzeugt werden. Dies reduziert Zeit-zu-erst-Byte für Echtzeit-Anwendungen wie Sprachassistenten und interaktive Erfahrungen.

Die API gibt Standard-HTTP-Statuscodes zurück. Exponentielles Backoff für 5xx-Fehler und Geschwindigkeitslimit-Antworten implementieren. Für missionskritische Anwendungen, fügen Sie eine Warteschlange mit Wiederholungslogik. Unsere API hat eine hohe Verfügbarkeit, aber belastbare Fehlerbehandlung wird immer empfohlen.

Ja. Die Endpunkte /v1/voices und /v1/models geben JSON-Listen aller verfügbaren Stimmen und Modelle mit ihren Metadaten (Sprachunterstützung, Qualitätsbewertungen, Geschwindigkeitsbewertungen und Preisstufen) zurück. Verwenden Sie diese, um dynamische Modellauswahlen in Ihrer Anwendung zu erstellen.

Freie Modelle (Kokoro, Piper, VITS, MeloTTS) dienen als effektive Sandbox, da sie Nullgutschriften kosten. Testen Sie Ihre Integration mit freien Modellen, dann wechseln Sie zu Premium-Modellen in der Produktion durch Änderung des Modellparameters. Es wird keine separate Testumgebung benötigt.

Die meisten unserer Modelle sind Open Source und können selbst gehostet werden. Selbst-Hosting erfordert jedoch erhebliche GPU-Ressourcen (wir verwenden 4x NVIDIA Tesla P40 mit 96GB VRAM Gesamt). Die API bietet eine kostengünstige Alternative ohne Infrastrukturmanagement.
5.0/5 (1)

Was könnten wir verbessern? Ihr Feedback hilft uns, Probleme zu beheben.

Bereit, mit Voice AI zu bauen?

Holen Sie sich Ihren kostenlosen API-Schlüssel und starten Sie den Aufbau. 15.000 Zeichen auf Anmeldung, kostenlose Modelle verfügbar, umfassende Dokumentation.