Hibajelentés / feladatkérés

Szöveg a fejlesztőknek szóló API beszédéhez

Build voice-enabled applications with our REST API. Add natural text-to-speech, voice cloning, speak-to-text, and audio processing to your apps, chatbots, voice assistants, and SaaS products. OpenAI-kompatibilis formátum, 20+ modellek, egyszerű integráció.

REST API Chatbotok Hangalkalmazások SaaS termékek Automatizálás

Teljes TTS-szerkesztő API Dokumentumok

Próbáld ki most.

0/500

Szabad Kokoro, Piper, VITS, MelotTS

Itt fog megjelenni a generált audio.

Teljes TTS szerkesztő megnyitása

API jellemzők a fejlesztők számára

Minden, amire szükséged van, hogy hangalapú alkalmazásokat építs.

Simple REST API

Egy POST kérés a beszéd generálására. JSON kérés, audio válasz. Működik bármilyen programozási nyelven, amely támogatja a HTTP-t.

OpenAI-kompatibilis

Az OpenAI TTS API-hoz való drop-in csere. Azonnal működik a base_url és az API kulcs.

24+ Modellek elérhető

Hozzáférés minden modell egyetlen API. Switch modellek megváltoztatásával egy paraméter. Összehasonlít minőség, sebesség, és a költség.

Másodlagos olvashatóság

Kokoro 1 másodperc alatt ad hangot. Tökéletes valós idejű chatbotokhoz, hang asszisztensekhez és interaktív alkalmazásokhoz.

Hang klónozó API

Klón bármilyen hang egy rövid audio minta keresztül az API. Használjon klónozott hangok minden későbbi generációk.

Több formátum

Kimenet WAV, MP3, OGG, vagy FLAC. Válassza ki a minta sebességét és bit mélység. Streaming audio támogatás valós idejű alkalmazások.

A fejlesztői integráció legjobb modelljei

Válassza ki a megfelelő modellt az alkalmazás sebességére, minőségére és költségigényeire

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Legjobb: Leggyorsabb modell a másodperc alatti késéshez, ideális valós idejű alkalmazásokhoz és chatbotokhoz

Próbáld meg. Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Hang klónozása

Legjobb: Streaming TTS hang klónozása hang asszisztens alkalmazások

Próbáld meg. CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Legjobb: Beszélgetési MI természetes időzítés chatbot és asszisztens hang

Próbáld meg. Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Legjobb: Ingyenes, csak CPU-modell nagy volumenű, nulla hitelköltséggel rendelkező alkalmazásokhoz

Próbáld meg. Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Legjobb: Audio generáció hanghatással a kreatív és szórakoztató alkalmazásokra

Próbáld meg. Bark

Hogyan integráljuk a TTS API-t?

A regisztrációtól az első API hívásig 5 perc alatt

Szerezd meg az API kulcsodat

Regisztráljon ingyen, és hozzon létre egy API kulcsot a fiókja műszerfaláról. 15 000 karaktert tartalmaz.

Hívd fel elsőnek!

Post to /v1/tts with text, model, and voice. Get audio bájtok vissza. 5 sor alatt kód.

Válassza ki a modellt

Teszt különböző modellek használata esetén. Hasonlítsa össze a sebességet, a minőséget és a költségeket generációnként.

Hajó a gyártásba

Skála a fizetős-a-you-go karakterek. Nincs díjkorlát fizetett tervek. Monitor használat a műszerfalon.

Gyors indítási kód példák

A TTS.ai nyelv integrálása bármely nyelven a REST API-val

Python Népszerű

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Univerzális

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

OpenAI-kompatibilis formátum Belépés

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Szerezd meg az ingyenes API kulcsodat

Mit építenek a fejlesztők TTS.ai-rel?

Közös integrációs minták és alkalmazások

AI Chatbots & Assistants

Add hang kimenetet a chatbot vagy MI asszisztens. Cső LLM válaszok TTS hang-kompatibilis interfészek. Kokoro biztosítja a másodperc alatti késés valós idejű beszélgetések. Szezám CSM generál beszélgetési beszéd természetes időzítéssel.

LLM válasz a beszédvezetékre
Másodperces késés Kokoro-val
Beszélgetés a Szezám CSM-mel
Az audió kimenetének streamingje

Mobil hangalkalmazások

Build voice-kompatibilis mobil alkalmazások, akadálymentesítő eszközök, olvasási alkalmazások, és nyelvtanulási platformok. REST API működik bármilyen mobil keret. Töltse le audio fájlokat vagy stream közvetlenül az ügyfélnek.

React Native, Reflektor, Swift, Kotlin
Hozzáférhetőségi és olvasási alkalmazások
Nyelvtanulási platformok
Audio tartalom létrehozása

SaaS termékek

White-label hangképesség a SaaS termék. Add TTS, STT, hang klónozás, és audio feldolgozás funkciókként a platform. Használja API, mint a hang backend kezelése nélkül GPU infrastruktúra.

White-label hangjellemzők
Nincs szükség GPU infrastruktúrára
Fizetési díj/használati díj
20+ modellek a felhasználók számára

Automatizálási csővezetékek

A hangtermelés integrálása a CI/CD vezetékekbe, tartalomautomatizálás és gyártási munkafolyamatokba. Több ezer hangfájl generálása táblázatos adatokból, podcast-gyártás automatizálása vagy tartalomlokalizációs csővezetékek építése.

A tétel feldolgozása API-n keresztül
Tartalomlokalizációs csővezetékek
CI/CD integráció
Spreadsheet audio automatizáláshoz

Teljes API dokumentáció megtekintése

API specifikációk

Termelési alkalmazásokhoz épített

20+

TTS-modellek

100+

Hangok

30+

Nyelvek

<1s

Latency (Kokoro)

Regisztráció Ingyenes • 15.000 karakter

Gyakran ismételt kérdések

Gyakori kérdések a TTS.ai fejlesztő API-jával kapcsolatban

Igen. Az API az OpenAI audio beszéd formátumot követi. Ha az OpenAI Python vagy a JavaScript kliens könyvtárat használja, akkor a TTS.ai-ra válthat a base_url és az api_key paraméterek megváltoztatásával.

Kokoro generál audio kevesebb, mint 1 másodperc a tipikus mondatok. CosyVoice 2 támogatja streaming kimenet még alacsonyabb érzékelt latency. A chatbotok és hang asszisztensek, teljes körfutási idő általában 1-3 másodperc attól függően, hogy a szöveg hossza és a modell választás.

Ingyenes modellek (Kokoro, Piper, VITS, MelotTS) teljesen ingyenesek. A standard modellek 2x karaktert használnak 1K szövegenként. Premium modellek 4x karaktert használnak 1K szövegenként. Jelentkezz ingyen 15.000 karakterrel. A tervek $9/hónapban indulnak 500.000 karakterért.

Igen. Tölts fel egy referencia audio mintát (5-30 másodperc) a hang klónozási végpontra, majd használd a klónozott hangazonosítót a későbbi TTS kérésekben. A klónozást támogató modellek közé tartozik a CosyVoice 2, Chatterbox, Fish Speech és GPT-Sovits.

Ingyenes Tier alapkamat korlátozással (3 kérés óránként számla nélkül). Fizetett tervek bőkezű kamatláb korlátok alkalmas termelési alkalmazások. Lépjen velünk kapcsolatba a vállalati szintű átvezetési követelmények.

WAV (nem tömörített, legmagasabb minőségű), MP3 (sűrített, kisebb fájlok), OGG (nyitott formátum), és FLAC (veszteségmentes tömörítés). Adja meg a formátumot a kérés. Alapértelmezett WAV a modell őshonos mintasebesség.

Igen. Kombináljuk TTS API-nkat egy beszéd-szöveg modellel és egy LLM-mel, hogy teljes hangasszisztens vezetéket építsünk. Kokoro a másodperc alatti késés ideális valós idejű beszélgetéshez. A CosyVoice 2 támogatja a streaming kimenetet még alacsonyabb érzékelt válaszidőkre.

CosyVoice 2 és Kokoro támogatás streaming audio kimenet, ahol a hang darabok kerülnek átadásra, mint azok generált. Ez csökkenti az időt-az első bájt valós idejű alkalmazások, mint a hang asszisztensek és interaktív élmények.

Az API normál HTTP státuszkódokat ad vissza. Exponenciális backoff futtatás 5xx hibák és sebesség limit válaszok esetén. Küldetés-kritikus alkalmazások esetén adjunk hozzá egy sort a retry logicával. Az API-nk magas uptime, de rugalmas hibakezelés mindig ajánlott.

Igen. A /v1/voices és /v1/models végpontok visszaküldik a JSON-listákat az összes elérhető hangról és modellről a metaadatjukkal (nyelvtámogatás, minőségértékelés, sebességértékelés és árszínvonal). Ezek segítségével dinamikus modellválasztókat építhetsz az alkalmazásodban.

Ingyenes modellek (Kokoro, Piper, VITS, MelotTS) hatékony homokozóként szolgálnak, mivel nulla kreditbe kerülnek. Teszteld az integrációdat ingyenes modellekkel, majd válts prémium modellekre a gyártásban a modell paraméter megváltoztatásával. Nincs szükség külön tesztkörnyezetre.

A legtöbb modellünk nyílt forráskódú, és saját házigazda is lehet. Az önkiszolgálás azonban jelentős GPU forrásokat igényel (a 4x NVIDIA Tesla P40-et 96GB VRAM-mal együtt használjuk). Az API költséghatékony alternatívát kínál infrastruktúra-kezelés nélkül.

5.0/5 (1)

Készen állsz, hogy felépítsd a hang MI-t?

Szerezd meg az ingyenes API kulcsot és kezdj el építeni. 15.000 karakter a regisztráción, ingyenes modellek állnak rendelkezésre, átfogó dokumentáció.

Regisztráció Ingyenes Tekintse meg az árakat

Szöveg a fejlesztőknek szóló API beszédéhez

Próbáld ki most.

Mondd el a barátaidnak!

API jellemzők a fejlesztők számára

Simple REST API

OpenAI-kompatibilis

24+ Modellek elérhető

Másodlagos olvashatóság

Hang klónozó API

Több formátum

A fejlesztői integráció legjobb modelljei

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Hogyan integráljuk a TTS API-t?

Szerezd meg az API kulcsodat

Hívd fel elsőnek!

Válassza ki a modellt

Hajó a gyártásba

Gyors indítási kód példák

Mit építenek a fejlesztők TTS.ai-rel?

AI Chatbots & Assistants

Mobil hangalkalmazások

SaaS termékek

Automatizálási csővezetékek

API specifikációk

Gyakran ismételt kérdések

Az API kompatibilis az OpenAI TTS formátummal?

Mi a késés a valós idejű alkalmazásokhoz?

Hogyan működik az árak az API használat?

Használhatom a hang klónozását az API-n keresztül?

Van árkorlát?

Milyen audio formátumokat ad vissza az API?

Használhatom az API-t, hogy hangasszisztenst vagy chatbotot építsek?

Van WebSocket vagy streaming API?

Hogyan kezelem a hibákat és a replikákat a gyártásban?

Felsorolhatom a rendelkezésre álló hangokat és modelleket programmatikusan?

Van homokozó vagy vizsgálati környezet?

Én irányíthatom a modelleket az API használata helyett?

Készen állsz, hogy felépítsd a hang MI-t?