API za pretvorbu teksta u govor za programere

Izradite aplikacije koje podržavaju govor sa našim REST API-jem. Dodajte prirodno pretvaranje teksta u govor, kloniranje glasa, pretvorbu govora u tekst i obradu zvuka svojim aplikacijama, chatbotovima, glasovnim asistentima i SaaS proizvodima. OpenAI-kompatibilan format, 20+ modela, jednostavna integracija.

REST API Chatbots Aplikacije SaaS proizvodi Automatizacija

Probaj sada

Besplatno sa Kokoro, Piper, VITS, MeloTTS
Vaš generirani audio će se pojaviti ovdje
Generirano
Preuzmi
Volite TTS.ai?

Značajke API-ja za programere

Sve što trebate za izradu aplikacija koje podržavaju govor

Jednostavan REST API

Jedan POST zahtjev za generiranje govora. JSON zahtjev, audio odgovor. Radi sa bilo kojim programskim jezikom koji podržava HTTP.

OpenAI-kompatibilan

Drop-in zamjena za OpenAI TTS API. Promijenite svoj base_url i API ključ — postojeći kod radi odmah.

Dostupni modeli

Pristup svakom modelu kroz jedan API. Izmijenite modele promjenom jednog parametra. Usporedite kvalitet, brzinu i cijenu.

Sub-second latency

Kokoro generira zvuk za manje od 1 sekunde. Savršeno za chatbotove u stvarnom vremenu, glasovne asistente i interaktivne aplikacije.

Voice Clone API

Kloniraj bilo koji glas iz kratkog audio uzorka putem API-ja. Koristi klonirane glasove za sve naredne generacije.

Više formata

Izlaz kao WAV, MP3, OGG, ili FLAC. Odaberite brzinu uzorkovanja i bitnu dubinu. Podrška za strujanje zvuka za aplikacije u stvarnom vremenu.

Najbolji modeli za integraciju programera

Izaberite pravi model za brzinu, kvalitet i troškove vaše aplikacije

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Najbolje za: Najbrži model - latencija ispod sekunde, idealan za aplikacije u stvarnom vremenu i chatbots

Pokušaj. Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Kloniranje glasa

Najbolje za: Streaming TTS sa kloniranjem glasa za aplikacije glasovnog asistenta

Pokušaj. CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Najbolje za: Umjetna inteligencija za konverzaciju sa prirodnim vremenom za chatbot i pomoćni glas

Pokušaj. Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Najbolje za: Besplatan, samo CPU model za aplikacije velikog volumena po nultoj cijeni

Pokušaj. Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Najbolje za: Generiranje zvuka sa zvučnim efektima za kreativne i zabavne aplikacije

Pokušaj. Bark

Kako integrirati TTS API

Od registracije do prvog API poziva za manje od 5 minuta

1

Dobiti svoj API ključ

Registrirajte se besplatno i generirajte API ključ sa vašeg računa. 15.000 znakova uključeno.

2

Napravi prvi poziv

POST do /v1/tts sa tekstom, modelom i glasom. Dobiti audio bajtove nazad. Pod 5 linija koda.

3

Izaberi svoj model

Testirajte različite modele za vaš slučaj upotrebe. Usporedite brzinu, kvalitet i cijenu po generaciji.

4

Pošalji u proizvodnju

Skalirajte sa karakterima koji se plaćaju po upotrebi. Nema ograničenja brzine na plaćenim planovima. Nadzirajte upotrebu na upravljačkoj ploči.

Primjeri koda za brzi početak

Integriraj TTS.ai u bilo koji jezik sa našim REST API

Python Popularno
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Univerzalno
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI-kompatibilni format Drop-in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

What Developers Build with TTS.ai

Common integration patterns and applications

AI Chatbots & Assistants

Dodaj glasovni izlaz svom chatbotu ili AI asistentu. Prevedi LLM odgovore kroz TTS za glasovno omogućena sučelja. Kokoro pruža latenciju ispod sekunde za razgovore u stvarnom vremenu. Sesame CSM generira konverzacijski govor s prirodnim vremenskim rasporedom.

  • LLM odgovor na govorni kanal
  • Subsekundarna latencija sa Kokoro
  • Konverzacijski govor sa Sesame CSM
  • Stream audio izlaz

Mobilne i glasovne aplikacije

Napravite mobilne aplikacije koje podržavaju govor, alate za pristupačnost, aplikacije za čitanje i platforme za učenje jezika. Naš REST API radi sa bilo kojim mobilnim okvirom. Preuzmite audio datoteke ili ih prenosite direktno na klijent.

  • React Native, Flutter, Swift, Kotlin
  • Aplikacije za pristupačnost i čitanje
  • Platforme za učenje jezika
  • Generiranje audio sadržaja

SaaS proizvodi

White-label glasovne mogućnosti u vašem SaaS proizvodu. Dodajte TTS, STT, kloniranje glasa i obradu zvuka kao značajke u vašoj platformi. Koristite naš API kao vašu glasovnu pozadinu bez upravljanja GPU infrastrukturom.

  • White label glasovne značajke
  • Nema GPU infrastrukture
  • Pay-per-use pricing
  • 20+ modela koje možete ponuditi svojim korisnicima

Automatic Pipelines

Integrirajte stvaranje glasa u CI/CD kanale, automatizaciju sadržaja i radne procese. Generirajte hiljade audio datoteka iz podataka iz tablica, automatizirajte produkciju podcasta ili izgradite kanale za lokalizaciju sadržaja.

  • Batch obrada preko API
  • Pipeline za lokalizaciju sadržaja
  • CI/CD integracija
  • Spreadsheet za automatizaciju zvuka

Specifikacije

Napravljen za produkcijske aplikacije

20+

TTS modeli

100+

Glasovi

30+

Jezici

<1s

Latency (Kokoro)

Često postavljana pitanja

Uobičajena pitanja o TTS.ai razvijateljskom API-ju

Da. Naš API slijedi OpenAI audio govorni format. Ako koristite OpenAI Python ili JavaScript klijentsku biblioteku, možete se prebaciti na TTS.ai mijenjanjem parametara base_url i api_key. Vaš postojeći kod radi bez izmjena.

Kokoro generira zvuk za manje od 1 sekunde za tipične rečenice. CosyVoice 2 podržava streaming izlaz za još nižu percepciju kašnjenja. Za chatbots i glasovne asistente, ukupno vrijeme povratnog putovanja je obično 1-3 sekunde u zavisnosti od dužine teksta i izbora modela.

Besplatni modeli (Kokoro, Piper, VITS, MeloTTS) su potpuno besplatni. Standardni modeli koriste 2x znakova po 1K teksta. Premium modeli koriste 4x znakova po 1K teksta. Registrirajte se besplatno sa 15.000 znakova. Planovi počinju od $9/mjesečno za 500.000 znakova.

Da. Učitaj referentni audio uzorak (5-30 sekundi) na krajnju tačku kloniranja glasa, zatim koristi klonirani ID glasa u kasnijim TTS zahtjevima. Modeli koji podržavaju kloniranje uključuju CosyVoice 2, Chatterbox, Fish Speech, i GPT-SoVITS.

Besplatni nivo ima osnovno ograničenje brzine (3 zahtjeva po satu bez računa). Plaćeni planovi imaju velikodušna ograničenja brzine pogodna za produkcijske aplikacije. Kontaktirajte nas za zahtjeve za protok na nivou poduzeća.

WAV (nekomprimiran, najviši kvalitet), MP3 (komprimiran, manje datoteke), OGG (otvoreni format), i FLAC (kompresija bez gubitaka). Navedite format u svom zahtjevu. Uobičajeno je WAV sa nativnom brzinom uzorkovanja modela.

Da. Kombinirajte naše TTS API sa modelom govor-u-tekst i LLM da biste izgradili kompletan pipeline glasovnog asistenta. Kokoro pruža latenciju ispod sekunde idealnu za razgovor u stvarnom vremenu. CosyVoice 2 podržava streaming izlaz za još niže percipirane odgovorne vremenske intervale.

CosyVoice 2 i Kokoro podržavaju streaming audio izlaz gdje se audio komadi isporučuju kako se generiraju. Ovo smanjuje vrijeme do prvog bajta za aplikacije u stvarnom vremenu kao što su glasovni asistenti i interaktivna iskustva.

API vraća standardne HTTP statusne kodove. Implementirajte eksponencijalno odustajanje za 5xx greške i ograničenje brzine odgovora. Za aplikacije kritične za misiju, dodajte red sa logikom ponovnih pokušaja. Naš API ima dugo vrijeme rada, ali se uvijek preporučuje otporno rukovanje greškama.

Da. Krajnje tačke /v1/voices i /v1/models vraćaju JSON liste svih dostupnih glasova i modela sa njihovim metapodacima (podrška za jezik, ocjene kvaliteta, ocjene brzine i nivo cijena). Koristite ih za izgradnju dinamičkih selektora modela u vašoj aplikaciji.

Slobodni modeli (Kokoro, Piper, VITS, MeloTTS) služe kao efikasni sandbox jer koštaju nula kredita. Testirajte svoju integraciju sa slobodnim modelima, a zatim se prebacite na premium modele u produkciji mijenjanjem parametara modela. Nije potrebno odvojeno testno okruženje.

Većina naših modela je otvorenog koda i mogu se sami hostati. Međutim, samo-hosting zahtijeva značajne GPU resurse (mi koristimo 4x NVIDIA Tesla P40 sa ukupno 96GB VRAM-a). API pruža ekonomičnu alternativu bez upravljanja infrastrukturom.
5.0/5 (1)

Šta možemo da poboljšamo? Vaše povratne informacije nam pomažu da riješimo probleme.

Spreman da gradiš sa glasovnom AI?

Nabavite svoj besplatan API ključ i počnite graditi. 15.000 znakova na registraciji, besplatni modeli dostupni, sveobuhvatna dokumentacija.