Bug / Feature Request mellen

Text zu Sprooch API fir Entwéckler

Sprooch-aktivéiert Applikatiounen mat eiser REST API bauen. Natierlech Text-zu-Sprooch, Sprooch-Klonen, Sprooch-zu-Text an Audioveraarbechtung zu Ären Apps, Chatbots, Sproochassistenten a SaaS-Produkter bäifügen. OpenAI-kompatibelt Format, 20+ Modeller, einfach Integratioun.

REST API Chatbots Sproochapplikatiounen Lëscht vu Produzenten Automatiséierung

Volle TTS-Editor API-Dokumente

Probéiert et elo aus

Text
Dateien

0/500

Free mat Kokoro, Piper, VITS, MeloTTS

Äert generéiert Audio wäert hei erscheinen

Vollstännege TTS-Editor opmaachen

API Feature fir Entwéckler

Alles wat Dir braucht fir Sprooch-aktivéiert Applikatiounen ze bauen

Lëscht vu lëtzebuergeschen Dichter

Eng POST-Ufro fir Sprooch ze generéieren. JSON-Ufro, Audio-Äntwert. Funktionéiert mat all Programmiersprooch déi HTTP ënnerstëtzt.

OpenAI-kompatibel

Drop-in Ersatz fir d'OpenAI TTS API. Ännert Är base_url an den API Schlëssel - den aktuelle Code funktionnéiert direkt.

Verfügbar Modeller

Zougang zu all Modell duerch eng eenzegaarteg API. Modeller duerch Ännerung vun engem Parameter änneren. Qualitéit, Geschwindegkeet a Käschte vergläichen.

Sub-Sekonn Latenz

Kokoro generéiert Audio a manner wéi enger Sekonn. Perfekt fir Echtzäit Chatbots, Sproochassistenten an interaktiv Applikatiounen.

Lëscht vu lëtzebuergeschen Dichter

Klont all Stëmm aus engem kuerzen Audiosample iwwer d'API. Benotzt klont Stëmmen fir all nofolgend Generatiounen.

Méi Formater

Ausgab als WAV, MP3, OGG oder FLAC. Wielt Samplerate a Bit-Tiefe. Streaming Audio-Unterstützung fir Echtzäit-Apps.

Lëscht vu lëtzebuergesche Moler

Wielt dat richtegt Modell fir Är Applikatioun

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Bescht fir: D'Gréisst vun dësen Deeler ass ideal fir d'Applikatioun an d'Produktioun.

Versuchen Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Stëmmklonung

Bescht fir: Streaming TTS mat Sproochklonen fir Sproochassistent-Applikatiounen

Versuchen CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Bescht fir: D'Lëscht vun de lëtzebuergesche Schrëftsteller ass eng Lëscht vu Schrëftsteller.

Versuchen Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Bescht fir: D'Applikatioun ass gratis an huet keng finanziell Käschte mat sech bruecht.

Versuchen Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Bescht fir: Audiogeneréierung mat Klangeffekter fir kreativ an ënnerhaltsam Applikatiounen

Versuchen Bark

Lëscht vun de lëtzebuergesche Gemengen

D'Resultat vun der éischter Etapp war eng Victoire a 5 Minutten.

API Schlëssel

D'Gréisst vun dësem ass ongeféier 50 µm a läit tëscht 50 an 100 µm.

Ären éischten Anruf maachen

POST to /v1/tts with text, model, and voice. Get audio bytes back. Under 5 lines of code.

Wielt Äert Modell

Testt verschidde Modeller fir Ären Use Case. Vergläicht Geschwindegkeet, Qualitéit a Käschte pro Generatioun.

Schiff zur Produktion

Skaléiert mat Pay-as-you-go Zeichen. Keng Ratelimiten op bezuelte Pläng. Iwwerwaacht d'Benotzung an Ärem Dashboard.

Schnellstart Code Beispiller

Integréiert TTS.ai an all Sprooch mat eiser REST API

Python Populär

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Universell

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

OpenAI-kompatibelt Format Drop-in

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

De Free API Key eroflueden

Wat d'Entwéckler mat TTS.ai bauen

Integratiounsmuster an Applikatiounen

Lëscht vu lëtzebuergeschen Assistenten

Sproochausgabe fir Äre Chatbot oder AI Assistent. Pipe LLM Äntwerten duerch TTS fir Sprooch-aktivéiert Interfaces. Kokoro bitt Sub-Sekonn Latenz fir Echtzäit Gespréicher. Sesame CSM generéiert Gespréichssprooch mat natierlechem Timing.

LLM-Reaktioun op Sprooch-Pipeline
Lëscht vu lëtzebuergeschen Dichter
Lëscht vu lëtzebuergesche Schrëftsteller
Streaming Audio-Ausgab

Mobile & Voice Apps

Sprooch-aktivéiert mobil Apps, Accessibilitéits-Tools, Lies-Apps a Sproochlern-Plattformen bauen. Eis REST API funktionnéiert mat all mobilem Framework. Audiodateien erofzelueden oder direkt op de Client streamen.

React Native, Flutter, Swift, Kotlin
Accessibilitéits- a Lies-Apps
Lëscht vun de Sproochen
Audio-Inhaltsgeneréierung

Lëscht vu Produzenten

White-label Sproochfäegkeeten an Ärem SaaS-Produkt. Füügt TTS, STT, Sproochklonen an Audioveraarbechtung als Featuren an Ärer Plattform bäi. Benotzt eis API als Sproochbackend ouni GPU-Infrastruktur ze managen.

Lëscht vu lëtzebuergeschen Dichter
Keng GPU-Infrastruktur néideg
Lëscht vun de Präisdréier
20+ Modeller fir Är Benotzer unzebidden

Automatiséierung Pipelines

Integréiert Sproochgeneréierung an CI/CD-Pipelines, Inhaltsautomatiséierung an Batch-Veraarbechtungsworkflows. Generéiert Dausende vun Audiodateien aus Spreadsheet-Daten, automatiséiert Podcast-Produktioun oder baut Inhaltslokalisatiounspipelines.

Batchveraarbechtung via API
Lëscht vu lëtzebuergeschen Dichter
CI/CD-Integratioun
Spreadsheet fir Audioautomatiséierung

D'Dokumentatioun vun der Gemeng

Spezifikatiounen

Fir Produktiounsapplikatiounen gebaut

20+

Lëscht vun de Modeller

100+

Stëmmen

30+

Sproochen

<1s

Latenz (Kokoro)

D'Sprooch huet ongeféier 15.000 Sproochewëssenschaftler.

Häufig gestallte Froen

Allgemeng Froen iwwer d'TTS.ai Entwéckler-API

Ja. Eis API folgt dem OpenAI Audio-Sproochformat. Wann Dir d'OpenAI Python- oder JavaScript-Clientbibliothéik benotzt, kënnt Dir op TTS.ai wechseln andeems Dir d'Parameter base_url an api_key ännert. Ären aktuelle Code funktionnéiert ouni Ännerungen.

Kokoro generéiert Audio a manner wéi enger Sekonn fir typesch Sätz. CosyVoice 2 ënnerstëtzt d'Streaming-Ausgabe fir eng nach méi niddreg Latenz. Fir Chatbots a Sproochassistenten ass d'Gesamtzäit normalerweis 1-3 Sekonnen, ofhängeg vun der Textlängt an der Modellauswiel.

Free Modeller (Kokoro, Piper, VITS, MeloTTS) sinn komplett gratis. Standard Modeller benotzen 2x Zeichen pro 1K Text. Premium Modeller benotzen 4x Zeichen pro 1K Text. Registréiert Iech gratis mat 15.000 Zeichen. Pläng starten bei $9/Mount fir 500.000 Zeichen.

Ja. Luet eng Referenz-Audioprobe (5-30 Sekonnen) op den Endpunkt vum Sproochklonen erop, a benotzt dann d'geklont Sprooch-ID bei nofolgenden TTS-Ufroen. Modeller, déi Klonen ënnerstëtzen, sinn CosyVoice 2, Chatterbox, Fish Speech a GPT-SoVITS.

De gratis Plang huet eng Basis-Rate-Limitatioun (3 Ufroen pro Stonn ouni Kont). De bezuelte Plang huet eng generéis Rate-Limitatioun, déi fir Produktiounsapplikatiounen gëeegent ass. Kontaktéiert eis fir d'Duerchsatz-Bedierfnesser op Enterprise-Niveau.

WAV (ungekompriméiert, héchst Qualitéit), MP3 (kompriméiert, kleng Dateien), OGG (offen Format) a FLAC (verloschtfräi Kompriméierung). Gebt d'Format an Ärer Ufro un. Standard ass WAV mat der nativer Sampleraten vum Modell.

Ja. Kombinéiert eis TTS API mat engem Sprooch-zu-Text-Modell an engem LLM fir eng komplett Sproochassistent-Pipeline ze bauen. Kokoro bitt eng Latenz vun ënner enger Sekonn, déi ideal ass fir Echtzäit-Gespréicher. CosyVoice 2 ënnerstëtzt Streaming-Ausgabe fir nach méi kuerz Reaktiounszäiten.

CosyVoice 2 a Kokoro ënnerstëtzen d'Streaming-Audio-Ausgabe wou Audio-Blocke geliwwert ginn wéi se generéiert ginn. Dat reduzéiert d'Zäit bis zum éischte Byte fir Echtzäit-Applikatiounen wéi Sproochassistenten an interaktiv Erfarungen.

D'API gëtt standardméisseg HTTP-Statuscodes zréck. Implementéiert exponentiell Backoff fir 5xx-Feeler a Geschwindegkeetsbegrenzungsantworten. Fir mission-critical Uwendungen, füügt eng Warteschlange mat Retry-Logik bäi. Eis API huet eng héich Verfügbarkeet, awer robust Fehlerbehandlung gëtt ëmmer empfohlen.

Ja. D'Endpunkte /v1/voices an /v1/models ginn eng JSON-Lëscht vun alle verfügbare Stimmen a Modeller mat hire Metadaten (Sproochunterstützung, Qualitéitswäertungen, Geschwindegkeetswäertungen a Präisniveau) zréck. Benotzt dës fir dynamesch Modellauswieler an Ärer Applikatioun ze bauen.

Free Modeller (Kokoro, Piper, VITS, MeloTTS) dienen als effektiv Sandbox well se komplett gratis sinn. Test Är Integratioun mat Free Modeller, da wechseln Sie zu Premium Modellen in der Produktion durch Ändern des Modellparameters. Keine separate Testumgebung erforderlich.

Déi meescht vun eise Modeller sinn Open-Source a kënne selwer gehosst ginn. D'Self-Hosting erfuerdert awer bedeitend GPU Ressourcen (mir benotzen 4x NVIDIA Tesla P40 mat 96GB VRAM total). D'API bitt eng kosteneffektiv Alternative ouni Infrastrukturmanagement.

5.0/5 (1)

D'Sprooch gëtt vun der Sproochekommissioun ënnerstëtzt.

Et gëtt ronn 150 Aarten, déi op der ganzer Welt verbreet sinn, an 150 Aarten, déi nëmmen op der Insel Madagaskar liewen.

Gratis anmelden Präislëscht

Text zu Sprooch API fir Entwéckler

Probéiert et elo aus

Liewe TTS.ai? Erzielt Är Frënn!

API Feature fir Entwéckler

Lëscht vu lëtzebuergeschen Dichter

OpenAI-kompatibel

Verfügbar Modeller

Sub-Sekonn Latenz

Lëscht vu lëtzebuergeschen Dichter

Méi Formater

Lëscht vu lëtzebuergesche Moler

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Lëscht vun de lëtzebuergesche Gemengen

API Schlëssel

Ären éischten Anruf maachen

Wielt Äert Modell

Schiff zur Produktion

Schnellstart Code Beispiller

Wat d'Entwéckler mat TTS.ai bauen

Lëscht vu lëtzebuergeschen Assistenten

Mobile & Voice Apps

Lëscht vu Produzenten

Automatiséierung Pipelines

Spezifikatiounen

Häufig gestallte Froen

Ass d'API mat dem OpenAI TTS-Format kompatibel?

Wat ass d'Latenz fir Real-Time-Applikatiounen?

Wéi funktionéiert d'Präisser fir d'Benotzung vun API?

Kann ech d'Stëmm klonen duerch d'API?

Wat ass d'Rate-Limit?

Wéi eng Audioformater gëtt d'API zréck?

Kann ech d'API benotzen fir e Sproochassistent oder Chatbot ze bauen?

Et gëtt e WebSocket oder eng Streaming-API?

Wéi behandelen ech Feeler a Versich an der Produktioun?

Kann ech verfügbar Stëmmen a Modeller programmatesch oplëschten?

Ass et eng Sandbox oder eng Testumgéigend?

Kann ech d'Modeller selwer hosten anstatt d'API ze benotzen?

D'Sprooch gëtt vun der Sproochekommissioun ënnerstëtzt.