Szöveg a fejlesztőknek szóló API beszédéhez

Build voice-enabled applications with our REST API. Add natural text-to-speech, voice cloning, speak-to-text, and audio processing to your apps, chatbots, voice assistants, and SaaS products. OpenAI-kompatibilis formátum, 20+ modellek, egyszerű integráció.

REST API Chatbotok Hangalkalmazások SaaS termékek Automatizálás

Próbáld ki most.

Szabad Kokoro, Piper, VITS, MelotTS
Itt fog megjelenni a generált audio.
Létrehozva
Letöltés
Mondd el a barátaidnak!

API jellemzők a fejlesztők számára

Minden, amire szükséged van, hogy hangalapú alkalmazásokat építs.

Simple REST API

Egy POST kérés a beszéd generálására. JSON kérés, audio válasz. Működik bármilyen programozási nyelven, amely támogatja a HTTP-t.

OpenAI-kompatibilis

Az OpenAI TTS API-hoz való drop-in csere. Azonnal működik a base_url és az API kulcs.

24+ Modellek elérhető

Hozzáférés minden modell egyetlen API. Switch modellek megváltoztatásával egy paraméter. Összehasonlít minőség, sebesség, és a költség.

Másodlagos olvashatóság

Kokoro 1 másodperc alatt ad hangot. Tökéletes valós idejű chatbotokhoz, hang asszisztensekhez és interaktív alkalmazásokhoz.

Hang klónozó API

Klón bármilyen hang egy rövid audio minta keresztül az API. Használjon klónozott hangok minden későbbi generációk.

Több formátum

Kimenet WAV, MP3, OGG, vagy FLAC. Válassza ki a minta sebességét és bit mélység. Streaming audio támogatás valós idejű alkalmazások.

A fejlesztői integráció legjobb modelljei

Válassza ki a megfelelő modellt az alkalmazás sebességére, minőségére és költségigényeire

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Legjobb: Leggyorsabb modell a másodperc alatti késéshez, ideális valós idejű alkalmazásokhoz és chatbotokhoz

Próbáld meg. Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Hang klónozása

Legjobb: Streaming TTS hang klónozása hang asszisztens alkalmazások

Próbáld meg. CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Legjobb: Beszélgetési MI természetes időzítés chatbot és asszisztens hang

Próbáld meg. Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Legjobb: Ingyenes, csak CPU-modell nagy volumenű, nulla hitelköltséggel rendelkező alkalmazásokhoz

Próbáld meg. Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Legjobb: Audio generáció hanghatással a kreatív és szórakoztató alkalmazásokra

Próbáld meg. Bark

Hogyan integráljuk a TTS API-t?

A regisztrációtól az első API hívásig 5 perc alatt

1

Szerezd meg az API kulcsodat

Regisztráljon ingyen, és hozzon létre egy API kulcsot a fiókja műszerfaláról. 15 000 karaktert tartalmaz.

2

Hívd fel elsőnek!

Post to /v1/tts with text, model, and voice. Get audio bájtok vissza. 5 sor alatt kód.

3

Válassza ki a modellt

Teszt különböző modellek használata esetén. Hasonlítsa össze a sebességet, a minőséget és a költségeket generációnként.

4

Hajó a gyártásba

Skála a fizetős-a-you-go karakterek. Nincs díjkorlát fizetett tervek. Monitor használat a műszerfalon.

Gyors indítási kód példák

A TTS.ai nyelv integrálása bármely nyelven a REST API-val

Python Népszerű
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Univerzális
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI-kompatibilis formátum Belépés
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Mit építenek a fejlesztők TTS.ai-rel?

Közös integrációs minták és alkalmazások

AI Chatbots & Assistants

Add hang kimenetet a chatbot vagy MI asszisztens. Cső LLM válaszok TTS hang-kompatibilis interfészek. Kokoro biztosítja a másodperc alatti késés valós idejű beszélgetések. Szezám CSM generál beszélgetési beszéd természetes időzítéssel.

  • LLM válasz a beszédvezetékre
  • Másodperces késés Kokoro-val
  • Beszélgetés a Szezám CSM-mel
  • Az audió kimenetének streamingje

Mobil hangalkalmazások

Build voice-kompatibilis mobil alkalmazások, akadálymentesítő eszközök, olvasási alkalmazások, és nyelvtanulási platformok. REST API működik bármilyen mobil keret. Töltse le audio fájlokat vagy stream közvetlenül az ügyfélnek.

  • React Native, Reflektor, Swift, Kotlin
  • Hozzáférhetőségi és olvasási alkalmazások
  • Nyelvtanulási platformok
  • Audio tartalom létrehozása

SaaS termékek

White-label hangképesség a SaaS termék. Add TTS, STT, hang klónozás, és audio feldolgozás funkciókként a platform. Használja API, mint a hang backend kezelése nélkül GPU infrastruktúra.

  • White-label hangjellemzők
  • Nincs szükség GPU infrastruktúrára
  • Fizetési díj/használati díj
  • 20+ modellek a felhasználók számára

Automatizálási csővezetékek

A hangtermelés integrálása a CI/CD vezetékekbe, tartalomautomatizálás és gyártási munkafolyamatokba. Több ezer hangfájl generálása táblázatos adatokból, podcast-gyártás automatizálása vagy tartalomlokalizációs csővezetékek építése.

  • A tétel feldolgozása API-n keresztül
  • Tartalomlokalizációs csővezetékek
  • CI/CD integráció
  • Spreadsheet audio automatizáláshoz

API specifikációk

Termelési alkalmazásokhoz épített

20+

TTS-modellek

100+

Hangok

30+

Nyelvek

<1s

Latency (Kokoro)

Gyakran ismételt kérdések

Gyakori kérdések a TTS.ai fejlesztő API-jával kapcsolatban

Igen. Az API az OpenAI audio beszéd formátumot követi. Ha az OpenAI Python vagy a JavaScript kliens könyvtárat használja, akkor a TTS.ai-ra válthat a base_url és az api_key paraméterek megváltoztatásával.

Kokoro generál audio kevesebb, mint 1 másodperc a tipikus mondatok. CosyVoice 2 támogatja streaming kimenet még alacsonyabb érzékelt latency. A chatbotok és hang asszisztensek, teljes körfutási idő általában 1-3 másodperc attól függően, hogy a szöveg hossza és a modell választás.

Ingyenes modellek (Kokoro, Piper, VITS, MelotTS) teljesen ingyenesek. A standard modellek 2x karaktert használnak 1K szövegenként. Premium modellek 4x karaktert használnak 1K szövegenként. Jelentkezz ingyen 15.000 karakterrel. A tervek $9/hónapban indulnak 500.000 karakterért.

Igen. Tölts fel egy referencia audio mintát (5-30 másodperc) a hang klónozási végpontra, majd használd a klónozott hangazonosítót a későbbi TTS kérésekben. A klónozást támogató modellek közé tartozik a CosyVoice 2, Chatterbox, Fish Speech és GPT-Sovits.

Ingyenes Tier alapkamat korlátozással (3 kérés óránként számla nélkül). Fizetett tervek bőkezű kamatláb korlátok alkalmas termelési alkalmazások. Lépjen velünk kapcsolatba a vállalati szintű átvezetési követelmények.

WAV (nem tömörített, legmagasabb minőségű), MP3 (sűrített, kisebb fájlok), OGG (nyitott formátum), és FLAC (veszteségmentes tömörítés). Adja meg a formátumot a kérés. Alapértelmezett WAV a modell őshonos mintasebesség.

Igen. Kombináljuk TTS API-nkat egy beszéd-szöveg modellel és egy LLM-mel, hogy teljes hangasszisztens vezetéket építsünk. Kokoro a másodperc alatti késés ideális valós idejű beszélgetéshez. A CosyVoice 2 támogatja a streaming kimenetet még alacsonyabb érzékelt válaszidőkre.

CosyVoice 2 és Kokoro támogatás streaming audio kimenet, ahol a hang darabok kerülnek átadásra, mint azok generált. Ez csökkenti az időt-az első bájt valós idejű alkalmazások, mint a hang asszisztensek és interaktív élmények.

Az API normál HTTP státuszkódokat ad vissza. Exponenciális backoff futtatás 5xx hibák és sebesség limit válaszok esetén. Küldetés-kritikus alkalmazások esetén adjunk hozzá egy sort a retry logicával. Az API-nk magas uptime, de rugalmas hibakezelés mindig ajánlott.

Igen. A /v1/voices és /v1/models végpontok visszaküldik a JSON-listákat az összes elérhető hangról és modellről a metaadatjukkal (nyelvtámogatás, minőségértékelés, sebességértékelés és árszínvonal). Ezek segítségével dinamikus modellválasztókat építhetsz az alkalmazásodban.

Ingyenes modellek (Kokoro, Piper, VITS, MelotTS) hatékony homokozóként szolgálnak, mivel nulla kreditbe kerülnek. Teszteld az integrációdat ingyenes modellekkel, majd válts prémium modellekre a gyártásban a modell paraméter megváltoztatásával. Nincs szükség külön tesztkörnyezetre.

A legtöbb modellünk nyílt forráskódú, és saját házigazda is lehet. Az önkiszolgálás azonban jelentős GPU forrásokat igényel (a 4x NVIDIA Tesla P40-et 96GB VRAM-mal együtt használjuk). Az API költséghatékony alternatívát kínál infrastruktúra-kezelés nélkül.
5.0/5 (1)

Mit lehetne javítani? A visszajelzés segít megoldani a problémákat.

Készen állsz, hogy felépítsd a hang MI-t?

Szerezd meg az ingyenes API kulcsot és kezdj el építeni. 15.000 karakter a regisztráción, ingyenes modellek állnak rendelkezésre, átfogó dokumentáció.