> Teksto sa Pagsasalita API para sa mga developer

> Bumuo ng mga application na may kakayahang boses gamit ang aming REST API. Magdagdag ng natural na teksto-sa-pagsasalita, pag-clone ng boses, pagsasalita-sa-teksto, at pagpoproseso ng audio sa iyong mga app, chatbots, mga katulong sa boses, at mga produktong SaaS.

Ang Rest API Mga chatbot Mga App ng Tinig Mga Produkto ng SaaS Awtomatikong

Subukan ito ngayon

Libreng may Kokoro, Piper, VITS, MeloTTS
> Ang iyong audio na nabuo ay lilitaw dito
Ginawa
I-download
I-love TTS.ai? Ibahagi sa iyong mga kaibigan!

> API Mga tampok para sa mga developer

> Lahat ng kailangan mo upang bumuo ng boses-enabled na mga application

Simpleng REST API

> Isang POST kahilingan upang makabuo ng pagsasalita. JSON kahilingan, audio tugon. Gumagana sa anumang programming wika na sumusuporta sa HTTP.

Ang OpenAI-Compatible

> Drop-in na kapalit para sa OpenAI TTS API. Ilipat ang iyong base_url at API key — umiiral na code gumagana kaagad.

> 24+ modelo na magagamit

> Mag-access sa bawat modelo sa pamamagitan ng isang solong API. Maglipat ng mga modelo sa pamamagitan ng pagbabago ng isang parameter. Ihambing ang kalidad, bilis, at gastos.

Sub-ikalawang latency

> Kokoro bumubuo ng audio sa ilalim ng 1 segundo. Perfect para sa real-time chatbots, boses assistants, at interactive na mga application.

Mga uri ng mga API

> Clone anumang boses mula sa isang maikling audio sample sa pamamagitan ng API. Gamitin ang cloned boses para sa lahat ng mga susunod na henerasyon.

Maraming mga Format

> Output bilang WAV, MP3, OGG, o FLAC. Pumili ng sample rate at bit depth. Streaming audio suporta para sa real-time apps.

> Pinakamahusay na Modelo para sa Developer Integration

> Pumili ng tamang modelo para sa iyong application ng bilis, kalidad, at mga kinakailangan sa gastos

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Pinakamahusay para sa: > Mabilis na modelo — sub-pangalawang latency, perpekto para sa real-time apps at chatbots

Subukan Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 > Voice pag-clone

Pinakamahusay para sa: > Streaming TTS na may boses cloning para sa mga application ng boses assistant

Subukan CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Pinakamahusay para sa: > Konversational AI na may natural na takbo para sa chatbot at assistant boses

Subukan Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Pinakamahusay para sa: > Libre, CPU-lamang modelo para sa mga application ng mataas na dami sa zero gastos

Subukan Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Pinakamahusay para sa: > Audio henerasyon na may mga epekto ng tunog para sa mga creative at entertainment apps

Subukan Bark

Paano isama ang TTS API

> Mula sa pag-sign up sa unang API tawag sa ilalim ng5minuto

1

> Kumuha ng iyong API Key

> Mag-sign up para sa libreng at makabuo ng isang API key mula sa iyong account dashboard. 15,000 mga character kasama.

2

Mag-sign up para sa iyong unang tawag

> POST sa / v1 / tts na may teksto, modelo, at boses. Kumuha ng audio bytes pabalik. Sa ilalim ng5linya ng code.

3

tl> Piliin ang iyong modelo

> Subukan ang iba’t ibang mga modelo para sa iyong paggamit ng kaso. Ihambing ang bilis, kalidad, at gastos sa bawat henerasyon.

4

> Ship sa produksyon

> Scale sa pay-as-you-go character. Walang rate limitasyon sa bayad na mga plano. Monitor paggamit sa iyong dashboard.

> Mabilis na Simula Code Halimbawa

> Isama TTS.ai sa anumang wika sa aming REST API

Python Popular
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Pangkalahatang
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI-katumbas Format Drop-in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

> Ano ang mga developer Bumuo sa TTS.ai

> Karaniwang mga pattern ng pagsasama at mga aplikasyon

> AI Chatbots at mga katulong

> Magdagdag ng boses output sa iyong chatbot o AI assistant. Pipe LLM tugon sa pamamagitan ng TTS para sa boses-enabled interface. Kokoro naghahatid ng sub-second latency para sa real-time na pag-uusap. Sesame CSM bumubuo ng conversational pagsasalita na may natural na timing.

  • > LLM tugon sa pagsasalita pipeline
  • > Sub-ikalawang latency sa Kokoro
  • > Konversational pagsasalita sa Sesame CSM
  • > Streaming audio output

> Mobile & Apps ng Tinig

> Bumuo ng mga voice-enabled na mobile apps, mga tool sa accessibility, mga app sa pagbabasa, at mga platform sa pag-aaral ng wika. Ang aming REST API ay gumagana sa anumang mobile framework. I-download ang mga file ng audio o i-stream nang direkta sa client.

  • > React Native, Flutter, Swift, Kotlin
  • > Mga app sa accessibility at pagbabasa
  • > Platform ng pag-aaral ng wika
  • > Audio nilalaman henerasyon

Mga Produkto ng SaaS

Magdagdag ng TTS, STT, cloning ng boses, at audio processing bilang mga tampok sa iyong platform. Gamitin ang aming API bilang iyong boses backend nang hindi pinamamahalaan GPU infrastructure.

  • > White-label na mga tampok ng boses
  • > Walang GPU imprastraktura na kailangan
  • Pagpepresyo ng bayaran-sa-gamit
  • > 20+ modelo upang mag-alok ng iyong mga gumagamit

> Automation pipelines

> Isama ang pagbuo ng boses sa mga pipeline ng CI / CD, automation ng nilalaman, at mga workflow ng pagpoproseso ng batch. Bumuo ng libu-libong mga file ng audio mula sa data ng spreadsheet, awtomatikong paggawa ng podcast, o pagbuo ng mga pipeline ng lokalisasyon ng nilalaman.

  • > Batch pagpoproseso sa pamamagitan ng API
  • > Mga lokal na nilalaman pipelines
  • > CI / CD pagsasama
  • > Spreadsheet sa audio automation

API mga pagtutukoy

> Built para sa mga application ng produksyon

20+

Mga modelo ng TTS

100+

Mga Tinig

30+

Wika

<1s

Ang Kokoro (ココロ, lit.

Mga Madalas Itanong

> Karaniwang mga katanungan tungkol sa TTS.ai developer API

Oo. Ang aming API ay sumusunod sa OpenAI audio speech format. Kung gumagamit ka ng OpenAI Python o JavaScript client library, maaari kang maglipat sa TTS.ai sa pamamagitan ng pagbabago ng base_url at api_key parameter. Ang iyong umiiral na code ay gumagana nang walang pagbabago.

> Kokoro bumubuo ng audio sa ilalim ng 1 segundo para sa mga karaniwang mga pangungusap. CosyVoice2suporta sa streaming output para sa mas mababang perceived latency. Para sa chatbots at boses assistants, kabuuang round-trip oras ay karaniwang 1-3 segundo depende sa haba ng teksto at modelo ng pagpili.

Ang mga libreng modelo (Kokoro, Piper, VITS, MeloTTS) ay ganap na libre. Ang mga standard na modelo ay gumagamit ng 2x na mga character bawat 1K ng teksto. Ang mga premium na modelo ay gumagamit ng 4x na mga character bawat 1K ng teksto. Mag-sign up nang libre sa 15,000 mga character. Ang mga plano ay nagsisimula sa $9/buwan para sa 500,000 mga character.

> Oo. I-upload ang isang reference audio sample (5-30 segundo) sa voice cloning endpoint, at pagkatapos ay gamitin ang cloned voice ID sa mga susunod na mga kahilingan sa TTS. Ang mga modelo na sumusuporta sa cloning ay kasama ang CosyVoice 2, Chatterbox, Fish Speech, at GPT-SoVITS.

> Libreng antas ay may pangunahing rate ng limitasyon (3 mga kahilingan sa bawat oras nang walang isang account). Paid plano ay may malawak na rate ng limitasyon na angkop para sa mga application ng produksyon. Makipag-ugnay sa amin para sa enterprise-level na mga kinakailangan sa throughput.

> WAV (hindi na-compress, pinakamataas na kalidad), MP3 (compressed, mas maliit na mga file), OGG (buksan ang format), at FLAC (lossless compression). Tukuyin ang format sa iyong kahilingan. Default ay WAV sa modelo ng katutubong sample rate.

> Oo. Isama ang aming TTS API sa isang modelo ng pagsasalita-sa-text at isang LLM upang bumuo ng isang kumpletong voice assistant pipeline. Kokoro nagbibigay ng sub-second latency ideal para sa real-time na pag-uusap. CosyVoice2suporta sa streaming output para sa mas mababang perceived oras ng tugon.

Ang CosyVoice2at Kokoro ay sumusuporta sa streaming audio output kung saan ang mga audio chunks ay ipinadala habang sila ay nabuo. Ito ay binabawasan ang oras-sa-unang-byte para sa mga real-time na application tulad ng mga boses na katulong at mga interaktibong karanasan.

Ang API ay nagbabalik ng mga standard na HTTP status code. Ipatupad ang eksponensyal na backoff para sa 5xx error at rate ng limitasyon ng mga tugon. Para sa mga misyon-kritikal na mga application, magdagdag ng isang queue na may retry logic. Ang aming API ay may mataas na uptime ngunit matibay error handling ay palaging inirerekomenda.

Ang / v1 / boses at / v1 / modelo endpoints bumalik JSON listahan ng lahat ng mga magagamit na boses at mga modelo na may kanilang metadata (suporta sa wika, kalidad rating, bilis rating, at pricing tier). Gamitin ang mga ito upang bumuo ng dynamic na modelo selectors sa iyong application.

> Libreng mga modelo (Kokoro, Piper, VITS, MeloTTS) magsilbi bilang isang epektibong sandbox dahil sila ay ganap na libre. Subukan ang iyong integration sa mga libreng modelo, pagkatapos ay lumipat sa premium na mga modelo sa produksyon sa pamamagitan ng pagbabago ng modelo parameter. Walang hiwalay na kapaligiran ng pagsubok ay kinakailangan.

Ang karamihan sa aming mga modelo ay open-source at maaaring self-hosted. Gayunpaman, self-hosting ay nangangailangan ng makabuluhang GPU resources (gamitin namin 4x NVIDIA Tesla P40 na may 96GB VRAM kabuuang). Ang API ay nagbibigay ng isang cost-effective na alternatibo nang walang pamamahala ng imprastraktura.
5.0/5 (1)

> Ano ang maaari naming mapabuti? Tutulong sa amin ang iyong feedback na ayusin ang mga isyu.

> Handa na upang bumuo ng may Voice AI?

> Kumuha ng iyong libreng API key at simulan ang gusali. 15,000 mga character sa pag-signup, libreng mga modelo na magagamit, kumpletong dokumentasyon.