Besedilo v govor API za razvijalce

Zgradite aplikacije, ki omogočajo glas z našim REST API. Dodajte naravno besedilo-to-speech, glasovno kloniranje, govor-to-text, in zvočno obdelavo v vaše aplikacije, chatbote, glasovne asistente, in SaaS izdelki. OpenAI-kompatibilen format, 20+ modelov, preprosta integracija.

RESTARNI API Chatbots Glasovni programi Izdelki SaaS Avtomatizacija

Poskusi zdaj

Prosto z Kokoro, Piper, VITS, Melotts
Tukaj se bo pojavil vaš izdelani zvok
Ustvaril
Prenesi
Ljubi TTS.ai, povej prijateljem!

Značilnosti API za razvijalce

Vse, kar potrebujete za gradnjo aplikacij, ki omogočajo glas

Enostavno REST API

Eden zahtevek POST za ustvarjanje govora. Zahtevek JSON, zvočni odziv. Deluje z vsakim programskim jezikom, ki podpira HTTP.

Compatible OpenAI

Drop-in zamenjava za OpenAI TTS API. Preklopite base_url in API ključ – obstoječa koda deluje takoj.

24+ Razpoložljivi modeli

Dostop do vsakega modela skozi en sam API. Preklopite modele s spremembo enega parametra. Primerjajte kakovost, hitrost in stroške.

Poddruga latencija

Kokoro ustvarja zvok v manj kot 1 sekundi. Popoln za realno-time chatbots, glasovne pomočnike in interaktivne aplikacije.

API za kloniranje glasu

Kloniraj glas iz kratkega zvočnega vzorca preko API. Uporabi klonirane glasove za vse naslednje generacije.

Več formatov

Izhod kot WAV, MP3, OGG ali FLAC. Izberite hitrost vzorca in globino bita. Streaming audio podpora za aplikacije v realnem času.

Najboljši modeli za vključevanje razvijalca

Izberite pravi model za zahteve glede hitrosti, kakovosti in stroškov vaše aplikacije

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Najboljše za: Najhitrejši model – subsekundna latency, idealen za aplikacije v realnem času in klepetanje

Poskusi. Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Kloniranje glasu

Najboljše za: Streaming TTS z kloniranjem glasu za prijave glasovnega pomočnika

Poskusi. CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Najboljše za: Pogovorni AI z naravnim časovnim razporedom za chatbot in pomočnik glasu

Poskusi. Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Najboljše za: Brezplačen model za aplikacije z visokim obsegom brez kreditnih stroškov

Poskusi. Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Najboljše za: Generacija zvoka z zvočnimi učinki za ustvarjalne in zabavne aplikacije

Poskusi. Bark

Kako vključiti API TTS

Od prijave do prvega klica API v manj kot 5 minutah

1

Vzemi svoj ključ API

Vpišite se brezplačno in ustvarite API ključ iz vašega računa plošče. Vključenih 15.000 znakov.

2

Prvič se oglasi

POST do /v1/tts z besedilom, modelom in glasom. Dobite zvočne bajte nazaj. Pod 5 vrsticami kode.

3

Izberite svoj model

Preizkusite različne modele za vaš primer uporabe. Primerjajte hitrost, kakovost in stroške na generacijo.

4

Ladja za proizvodnjo

Skaliraj s play-as-yo-go znaki. Ni mejnih stopenj plačanih načrtov. Spremljaj uporabo v pultu.

Primeri hitre kode

Vključite TTS.ai v kateri koli jezik z našim REST API

Python Obljubljeni
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Splošno
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Compatible OpenAI- Compatible Format Vplod-in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Kaj razvijalci gradijo z TTS.ai

Skupni vzorci vključevanja in aplikacije

AI Chatbots in pomočniki

Dodajte glasovni izhod vašemu chatbotu ali asistentu AI. Cevi LLM odzivov prek TTS za vmesnike, ki so omogočeni z glasom. Kokoro zagotavlja subsekundno latenco za pogovore v realnem času. Sezam CSM ustvarja pogovorni govor z naravnim časom.

  • Odziv LLM na govorni cev
  • Podsekundna latencija z Kokorom
  • Pogovorni govor s Sezamom CSM
  • Pretok zvočnega izhoda

Mobilni & Glasovni programi

Zgradite mobilne aplikacije, orodja za dostopnost, branje aplikacij in platforme za učenje jezikov. Naš REST API deluje z vsakim mobilnim okvirom. Prenesi zvočne datoteke ali stream neposredno na stranko.

  • Reaktiviraj nadomestne, treptajoče, Swift, Kotlin
  • Dostopnost in branje aplikacij
  • platforme za učenje jezikov
  • Generacija zvočnih vsebin

Izdelki SaaS

Zmožnosti bele označbe v vašem SaaS proizvodu. Dodajte TTS, STT, kloniranje glasu in zvočno obdelavo kot funkcije v vaši platformi. Uporabite naš API kot glasovni vmesnik, ne da bi upravljali GPU infrastrukturo.

  • Glasovne funkcije, označene z belim znakom
  • Infrastruktura GPU ni potrebna
  • Cene za plačilo za vsako uporabo
  • 20+ modelov, ki bodo svojim uporabnikom ponudili

Cevi za avtomatizacijo

Vključite ustvarjanje glasov v CI/CD cevovode, avtomatizacijo vsebine in obdelavo serij. Ustvarite tisoče zvočnih datotek iz podatkov tabele, avtomatsko proizvodnjo podcast ali gradnjo lokalizacijskih cevovodov vsebine.

  • Serija obdelava prek API
  • Cevovodi za lokalizacijo vsebine
  • Vključevanje CI/CD
  • Tabela za avtomatizacijo zvoka

Specifikacije API

Zgrajena za proizvodne aplikacije

20+

Modeli TTS

100+

Glasovi

30+

Jeziki

<1s

Latency (Kokoro)

Pogosta vprašanja

Skupna vprašanja o TTS.ai razvijalca API

Da. Naš API sledi formatu zvočnega govora OpenAI. Če uporabljate knjižnico OpenAI Python ali JavaScript odjemalca, se lahko preklopite na TTS.ai s spremembo parametrov base_url in api_ key. Vaša obstoječa koda deluje brez spremembe.

Kokoro ustvarja zvok v manj kot 1 sekundo za tipične stavke. CosyVoice 2 podpira streaming izhod za še manjše dojemanje latence. Za klepetalnice in glasovne pomočnike, skupni čas okrogle poti je običajno 1-3 sekunde odvisno od dolžine besedila in izbire modela.

Brezplačni modeli (Kokoro, Piper, VITS, MeloTTS) so popolnoma brezplačni. Standardni modeli uporabljajo 2x znakov na 1K besedila. Premium modeli uporabljajo 4x znakov na 1K besedila. Prijavite se brezplačno s 15.000 znakov. Načrti se začnejo z 9 $/mesec za 500.000 znakov.

Da. Naložite referenčni zvočni vzorec (5-30 sekund) v končni cilj kloniranja glasu, nato uporabite klonirani glasovni ID v naslednjih TTS zahtev. Modeli, ki podpirajo kloniranje vključujejo CosyVoice 2, Chatterbox, Fish Speech, in GPT-SoviTS.

Brezplačna stopnja omejuje osnovno stopnjo (3 zahteve na uro brez računa). Plačani načrti imajo velikodušne meje stopenj, ki so primerne za uporabo v proizvodnji. Pokličite nas za zahteve na ravni podjetja za prepust.

WAV (nekompresovana, najvišja kakovost), MP3 (kompresirana, manjša datoteka), OGG (odprta oblika) in FLAC (neizgubna kompresija). Navedite obliko v zahtevku. Privzeto je WAV po stopnji vzorca modela.

Da. Združite naš TTS API z govora-na-tekst model in LLM za izgradnjo popolnega glasovnega pomočnika cevovoda. Kokoro zagotavlja podsekundno latencijo idealno za pogovor v realnem času. CosyVoice 2 podpira streaming izhoda za še nižje dojemane čase odziva.

CosyVoice 2 in Kokoro podpirata streaming zvočni izhod, kjer so dostavljeni zvočni koščki, ko so generirani. To zmanjšuje čas-to-prvi-bajt za aplikacije v realnem času, kot so glasovni pomočniki in interaktivne izkušnje.

API vrne standardne kode HTTP statusa. Implementirajte eksponencialno backoff za 5xx napake in mejne odzive. Za misijo-kritične aplikacije, dodajte vrstico z ponovno logiko. Naš API ima visok čas, vendar odporno ravnanje z napakami je vedno priporočljivo.

Da. Končni dogodki /v1/voices in /v1/models vrnejo JSON sezname vseh razpoložljivih glasov in modelov z njihovimi metapodatki (jezična podpora, ocena kakovosti, ocena hitrosti in cenovna stopnja). Uporabite jih za gradnjo dinamičnih izbirnikov modelov v vaši aplikaciji.

Brezplačni modeli (Kokoro, Piper, VITS, MeloTTS) služijo kot učinkovit peskovnik, saj so stali nič kreditov. Preizkusite svojo integracijo z brezplačnimi modeli, nato pa se preklopite na premium modele v proizvodnji s spremembo parametra modela. Ni potrebno ločeno preskusno okolje.

Večina naših modelov je odprtega vira in je lahko samostojno gostiteljica. Vendar pa samostojno gostovanje zahteva znatne vire GPU (koristimo 4x NVIDIA Tesla P40 s skupno 96GB VRAM). API zagotavlja stroškovno učinkovito alternativo brez upravljanja infrastrukture.
5.0/5 (1)

Kaj bi lahko izboljšali? Vaša povratna informacija nam pomaga rešiti vprašanja.

Pripravljeni na gradnjo z AI?

Dobite brezplačni API ključ in začnite zgradbo. 15 kreditov na prijavo, brezplačni modeli na voljo, izčrpna dokumentacija.