Tekstas kalbai API programuotojams

Sukurkite balso programas su mūsų REST API. Pridėti natūralų tekstą-į-speech, balso klonavimą, kalbėjimo-teksto ir garso apdorojimą į programas, pokalbių robotus, balso asistentus ir SaaS produktus. OpenAI suderinamas formatas, 20+ modeliai, paprasta integracija.

REST API Pokalbių robotai Balso programos SaaS produktai Automatizavimas

Pabandykite dabar

Nemokamai su Kokoro, Piper, VITS, MeloTTS
Jūsų sugeneruotas garsas bus rodomas čia
Generuotas
Atsiųsti
Mėgstu TTS.ai? Papasakok draugams!

API ypatybės programuotojams

Viskas, ką jums reikia sukurti balso suaktyvintas programas

Paprasta REST API

Vienas post prašymas generuoti kalbą. JSON prašymas, garso atsakymas. Veikia su bet kuria programavimo kalba, kuri palaiko HTTP.

Su atviru dangčiu suderinama

Įleidžiamasis OpenAI TTS API pakeitimas. Perjunkite savo bazę_url ir API raktą – esamas kodas veikia iš karto.

Yra 24+ modelių

Priėjimas prie kiekvieno modelio per vieną API. Perjungti modelius keičiant vieną parametrą. Palyginti kokybę, greitį ir kainą.

Poantrinė užklausa

Kokoro generuoja garso per 1 sekundę. Puikiai tinka realiojo laiko pokalbių robotai, balso asistentai, ir interaktyvių programų.

Balso klonavimas API

Klonuoti bet kokį balsą iš trumpo garso mėginio per API. Naudokite klonuotus balsus visoms kitoms kartoms.

Keli formatai

Išvestis kaip WAV, MP3, OGG, arba FLAC. Pasirinkite imties greitis ir bitų gylis. Srautinis garso palaikymas realiu laiku apps.

Geriausi modeliai programuotojo integracijos

Pasirinkite tinkamą modelį programos greičiui, kokybei ir sąnaudų reikalavimams

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Geriausias už: Greičiausias modelis — antras latentinis, idealus realiojo laiko programėlėms ir pokalbių robotams

Bandyti Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Balso klonavimas

Geriausias už: TTS srautinis su balso klonavimu balso pagalbinėms programoms

Bandyti CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Geriausias už: Pokalbis AI su natūraliu laiku Chatbot ir padėjėjas balso

Bandyti Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Geriausias už: Nemokamas tik procesoriaus modelis didelės apimties prietaikoms, kurių kredito kaina nulinė

Bandyti Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Geriausias už: Garso generavimas su garso efektais kūrybos ir pramogų programoms

Bandyti Bark

Kaip integruoti TTS API

Nuo prisijungimo iki pirmojo API skambučio po 5 minučių

1

Gauti API raktą

Užsiregistruoti nemokamai ir generuoti API raktą iš savo paskyros prietaisų skydelio. 15.000 simbolių įtraukti.

2

Pirmą kartą skambink

Point /v1/tts su tekstu, modeliu ir balsu. Gaukite garso baitus atgal. Po 5 eilučių kodą.

3

Pasirinkite modelį

Bandykite skirtingus modelius savo naudojimo atveju. Palyginkite greitį, kokybę ir sąnaudas vienai kartai.

4

Laivas į gamybą

Mastelis su pay- as- you- go simboliais. Nėra tarifų apribojimų mokamiems planams. Stebėti naudojimą prietaisų skydelyje.

Greito pradžios kodo pavyzdžiai

Integruoti TTS.ai bet kuria kalba su mūsų REST API

Python Populiarus
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universalus
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Suderinamas formatas Įleisti
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Ką kūrėjai sukūrė su TTS.ai

Bendri integracijos modeliai ir taikomosios programos

AI pokalbių robotai ir pagalbininkai

Pridėti balso išvestį į savo pokalbių bot ar AI asistentas. Pipe LLM atsakymai per TTS balso suaktyvinamų sąsajų. Kokoro pristato sub-sekundę latentiškumą realiu laiku pokalbių. Sesame CSM generuoja pokalbių kalbą su natūraliu laiku.

  • LLM atsakas į kalbos vamzdį
  • Antroji užlaikymas su Kokoro
  • Pokalbis su Sezamo CSM
  • Srautinis garso išvestis

Mobilios ir balso programėlės

REST API veikia su bet kokia mobiliąja sistema. Parsisiųskite garso failus ar srautą tiesiai klientui.

  • Reakcija Native, Flutter, Swift, Kotlin
  • Prieinamumo ir skaitymo programos
  • Kalbų mokymosi platformos
  • Garso turinio generavimas

SaaS produktai

Įdėkite TTS, STT, balso klonavimo ir garso apdorojimo funkcijas kaip savo platformos funkcijas. Naudokite mūsų API kaip savo balso programinę sąsają nevaldydami GPU infrastruktūros.

  • Balto ženklo balso funkcijos
  • GPU infrastruktūros nereikia
  • Mokėjimo už naudojimą kainodara
  • 20+ modeliai pasiūlyti vartotojams

Automatizavimo vamzdynai.

Įtraukti balso generavimą į CI/CD vamzdynus, turinio automatizavimo ir partijos apdorojimo darbų srautus. Generuokite tūkstančius garso failų iš skaičiuoklės duomenų, automatizuoti podcast gamybos, arba sukurti turinio lokalizavimo vamzdynai.

  • Partijos apdorojimas per API
  • Turinio lokalizavimo vamzdynai
  • CI/CD integravimas
  • Skaitlentė garso automatizavimui

API specifikacijos

Skirti naudoti gamyboje

20+

TTS modeliai

100+

Balsai

30+

Kalbos

<1s

Latencija (Kokoro)

Dažnai užduodami klausimai

Dažni klausimai apie TTS.ai kūrėjas API

Taip. Mūsų API laikosi OpenAI garso kalbos formato. Jei naudojate OpenAI Python arba JavaScript klientų biblioteką, galite pereiti prie TTS.ai, pakeisdami base_url ir api_key parametrus. Esamas kodas veikia be pakeitimų.

Kokoro generuoja garsą per 1 sekundę už tipiškus sakinius. CosyVoice 2 palaiko srautinio srauto išvestį dar žemesniam suvokiamam latentumui. Dėl pokalbių robotų ir balso asistentų, bendras apvalaus juostos laikas paprastai yra 1-3 sekundės, priklausomai nuo teksto ilgio ir modelio pasirinkimo.

Nemokami modeliai (Kokoro, Piper, VITS, MeloTTS) yra visiškai nemokami. Standartiniai modeliai naudoja 2x simbolius 1K teksto. Premium modeliai naudoti 4x simbolius 1K teksto. Užsiregistruoti nemokamai su 15,000 simbolių. Planai prasideda $9/mėnesio 500,000 simbolių.

Taip. Įkelkite standartinį garso mėginį (5–30 sekundžių) į balso klonavimo vertinamąją baigtį, tada naudokite klonuotą balso ID vėlesniuose TTS prašymuose. Modeliai, kurie palaiko klonavimą apima CosyVoice 2, Chatterbox, Fish Kalba, ir GPT-SoVITS.

Nemokamos pakopos turi bazinės normos apribojimą (3 užklausos per valandą be sąskaitos). Mokamų mokesčių planai turi dosnias normos ribas, tinkamas gamybos programoms. Susisiekite su mumis dėl įmonių lygmens pralaidumo reikalavimų.

WAV (nesuspaustas, aukščiausios kokybės), MP3 (suspaustas, mažesni failai), OGG (atviras formatas) ir FLAC (netekęs nuostolių suspaudimo). Nurodyti jūsų užklausoje formatą. Numatyta WAV pagal modelio gimtąją imties spartą.

Taip. Sujungti mūsų TTS API su kalbos-teksto modelį ir LLM sukurti pilną balso asistento vamzdyną. Kokoro suteikia sub-sekundę latentiškumą idealiai tinka realiu laiku pokalbiui. CosyVoice 2 palaiko srautinę išvestį dar mažiau suvokiamam atsako laikui.

CosyVoice 2 ir Kokoro palaiko srautinę garso išvestį, kur garso gabalai pristatomi taip, kaip jie sukuriami. Tai sumažina laiko iki pirmo baitų laiką realiu laiku taikomosioms programoms, tokioms kaip balso asistentai ir interaktyvi patirtis.

API grąžina standartinius HTTP būsenos kodus. Įgyvendinti eksponentinę atsargą 5xx paklaidoms ir greičio ribinėms reakcijoms. Misijos kritinėms aplikacijoms pridėkite eilę su kartojimo logika. Mūsų API turi aukštą uptime, bet visada rekomenduojamas atsparus klaidų tvarkymas.

Taip. /v1/balsai ir /v1/modeliai tikslai grąžina JSON visų turimų balsų ir modelių sąrašus su savo metaduomenimis (kalbos palaikymas, kokybės reitingai, greičio reitingai ir kainodaros pakopa). Naudokite juos dinaminiams modeliams statyti jūsų programoje.

Nemokami modeliai (Kokoro, Piper, VITS, MeloTTS) yra veiksminga smėlio dėžė, nes jie kainuoja nuliškai. Išbandykite savo integraciją su laisvais modeliais, tada pereikite prie aukščiausios kokybės gamybos modelių, pakeisdami modelio parametrą. Atskiros bandymų aplinkos nereikia.

Dauguma iš mūsų modelių yra atviras šaltinis ir gali būti savarankiškas. Tačiau savipriemonė reikalauja didelių GPU išteklių (mes naudojame 4x NVIDIA Tesla P40 su 96GB VRAM iš viso). API suteikia ekonomiškai efektyvią alternatyvą be infrastruktūros valdymo.
5.0/5 (1)

Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.

Pasiruošę kurti su Balso AI?

Gaukite nemokamą API raktą ir pradėkite statyti. 15 kreditų užsiregistravus, laisvi modeliai prieinami, išsami dokumentacija.