Iulat ang Bug / Feature Request

Teksto sa Pagsasalita API para sa mga developer

Bumuo ng mga application na may kakayahang boses gamit ang aming REST API. Magdagdag ng natural na teksto-sa-pagsasalita, pag-clone ng boses, pagsasalita-sa-teksto, at pagpoproseso ng audio sa iyong mga app, chatbots, mga katulong sa boses, at mga produktong SaaS.

Ang Rest API Mga chatbot Mga App ng Tinig Mga Produkto ng SaaS Awtomatikong

Buong TTS Editor Mga dokumento ng API

Subukan ito ngayon

0/500

Libreng may Kokoro, Piper, VITS, MeloTTS

Ang iyong audio na nabuo ay lilitaw dito

Buksan ang buong TTS editor

API Mga tampok para sa mga developer

Lahat ng kailangan mo upang bumuo ng boses-enabled na mga application

Simpleng REST API

Isang POST kahilingan upang makabuo ng pagsasalita. JSON kahilingan, audio tugon. Gumagana sa anumang programming wika na sumusuporta sa HTTP.

Ang OpenAI-Compatible

Drop-in na kapalit para sa OpenAI TTS API. Ilipat ang iyong base_url at API key — umiiral na code gumagana kaagad.

24+ modelo na magagamit

Mag-access sa bawat modelo sa pamamagitan ng isang solong API. Maglipat ng mga modelo sa pamamagitan ng pagbabago ng isang parameter. Ihambing ang kalidad, bilis, at gastos.

Sub-ikalawang latency

Kokoro bumubuo ng audio sa ilalim ng 1 segundo. Perfect para sa real-time chatbots, boses assistants, at interactive na mga application.

Mga uri ng mga API

Clone anumang boses mula sa isang maikling audio sample sa pamamagitan ng API. Gamitin ang cloned boses para sa lahat ng mga susunod na henerasyon.

Maraming mga Format

Output bilang WAV, MP3, OGG, o FLAC. Pumili ng sample rate at bit depth. Streaming audio suporta para sa real-time apps.

Pinakamahusay na Modelo para sa Developer Integration

Pumili ng tamang modelo para sa iyong application ng bilis, kalidad, at mga kinakailangan sa gastos

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Mabilis 5/5

Pinakamahusay para sa: Mabilis na modelo — sub-pangalawang latency, perpekto para sa real-time apps at chatbots

Subukan Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Voice pag-clone

Pinakamahusay para sa: Streaming TTS na may boses cloning para sa mga application ng boses assistant

Subukan CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Mabilis 5/5

Pinakamahusay para sa: Konversational AI na may natural na takbo para sa chatbot at assistant boses

Subukan Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Mabilis 3/5

Pinakamahusay para sa: Libre, CPU-lamang modelo para sa mga application ng mataas na dami sa zero gastos

Subukan Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Mabilis 4/5

Pinakamahusay para sa: Audio henerasyon na may mga epekto ng tunog para sa mga creative at entertainment apps

Subukan Bark

Paano isama ang TTS API

Mula sa pag-sign up sa unang API tawag sa ilalim ng5minuto

Kumuha ng iyong API Key

Mag-sign up para sa libreng at makabuo ng isang API key mula sa iyong account dashboard. 15,000 mga character kasama.

Mag-sign up para sa iyong unang tawag

POST sa / v1 / tts na may teksto, modelo, at boses. Kumuha ng audio bytes pabalik. Sa ilalim ng5linya ng code.

Piliin ang iyong modelo

Subukan ang iba’t ibang mga modelo para sa iyong paggamit ng kaso. Ihambing ang bilis, kalidad, at gastos sa bawat henerasyon.

Ship sa produksyon

Scale sa pay-as-you-go character. Walang rate limitasyon sa bayad na mga plano. Monitor paggamit sa iyong dashboard.

Mabilis na Simula Code Halimbawa

Isama TTS.ai sa anumang wika sa aming REST API

Python Popular

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Pangkalahatang

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

OpenAI-katumbas Format Drop-in

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Kumuha ng iyong libreng API Key

Ano ang mga developer Bumuo sa TTS.ai

Karaniwang mga pattern ng pagsasama at mga aplikasyon

AI Chatbots at mga katulong

Magdagdag ng boses output sa iyong chatbot o AI assistant. Pipe LLM tugon sa pamamagitan ng TTS para sa boses-enabled interface. Kokoro naghahatid ng sub-second latency para sa real-time na pag-uusap. Sesame CSM bumubuo ng conversational pagsasalita na may natural na timing.

LLM tugon sa pagsasalita pipeline
Sub-ikalawang latency sa Kokoro
Konversational pagsasalita sa Sesame CSM
Streaming audio output

Mobile & Apps ng Tinig

Bumuo ng mga voice-enabled na mobile apps, mga tool sa accessibility, mga app sa pagbabasa, at mga platform sa pag-aaral ng wika. Ang aming REST API ay gumagana sa anumang mobile framework. I-download ang mga file ng audio o i-stream nang direkta sa client.

React Native, Flutter, Swift, Kotlin
Mga app sa accessibility at pagbabasa
Platform ng pag-aaral ng wika
Audio nilalaman henerasyon

Mga Produkto ng SaaS

Magdagdag ng TTS, STT, cloning ng boses, at audio processing bilang mga tampok sa iyong platform. Gamitin ang aming API bilang iyong boses backend nang hindi pinamamahalaan GPU infrastructure.

White-label na mga tampok ng boses
Walang GPU imprastraktura na kailangan
Pagpepresyo ng bayaran-sa-gamit
20+ modelo upang mag-alok ng iyong mga gumagamit

Automation pipelines

Isama ang pagbuo ng boses sa mga pipeline ng CI / CD, automation ng nilalaman, at mga workflow ng pagpoproseso ng batch. Bumuo ng libu-libong mga file ng audio mula sa data ng spreadsheet, awtomatikong paggawa ng podcast, o pagbuo ng mga pipeline ng lokalisasyon ng nilalaman.

Batch pagpoproseso sa pamamagitan ng API
Mga lokal na nilalaman pipelines
CI / CD pagsasama
Spreadsheet sa audio automation

Tingnan ang buong API Dokumentasyon

API mga pagtutukoy

Built para sa mga application ng produksyon

20+

Mga modelo ng TTS

100+

Mga Tinig

30+

Wika

<1s

Ang Kokoro (ココロ, lit.

Mag-sign up para sa libreng — 15,000 character

Mga Madalas Itanong

Karaniwang mga katanungan tungkol sa TTS.ai developer API

Oo. Ang aming API ay sumusunod sa OpenAI audio speech format. Kung gumagamit ka ng OpenAI Python o JavaScript client library, maaari kang maglipat sa TTS.ai sa pamamagitan ng pagbabago ng base_url at api_key parameter. Ang iyong umiiral na code ay gumagana nang walang pagbabago.

Kokoro bumubuo ng audio sa ilalim ng 1 segundo para sa mga karaniwang mga pangungusap. CosyVoice2suporta sa streaming output para sa mas mababang perceived latency. Para sa chatbots at boses assistants, kabuuang round-trip oras ay karaniwang 1-3 segundo depende sa haba ng teksto at modelo ng pagpili.

Ang mga libreng modelo (Kokoro, Piper, VITS, MeloTTS) ay ganap na libre. Ang mga standard na modelo ay gumagamit ng 2x na mga character bawat 1K ng teksto. Ang mga premium na modelo ay gumagamit ng 4x na mga character bawat 1K ng teksto. Mag-sign up nang libre sa 15,000 mga character. Ang mga plano ay nagsisimula sa $9/buwan para sa 500,000 mga character.

Oo. I-upload ang isang reference audio sample (5-30 segundo) sa voice cloning endpoint, at pagkatapos ay gamitin ang cloned voice ID sa mga susunod na mga kahilingan sa TTS. Ang mga modelo na sumusuporta sa cloning ay kasama ang CosyVoice 2, Chatterbox, Fish Speech, at GPT-SoVITS.

Libreng antas ay may pangunahing rate ng limitasyon (3 mga kahilingan sa bawat oras nang walang isang account). Paid plano ay may malawak na rate ng limitasyon na angkop para sa mga application ng produksyon. Makipag-ugnay sa amin para sa enterprise-level na mga kinakailangan sa throughput.

WAV (hindi na-compress, pinakamataas na kalidad), MP3 (compressed, mas maliit na mga file), OGG (buksan ang format), at FLAC (lossless compression). Tukuyin ang format sa iyong kahilingan. Default ay WAV sa modelo ng katutubong sample rate.

Oo. Isama ang aming TTS API sa isang modelo ng pagsasalita-sa-text at isang LLM upang bumuo ng isang kumpletong voice assistant pipeline. Kokoro nagbibigay ng sub-second latency ideal para sa real-time na pag-uusap. CosyVoice2suporta sa streaming output para sa mas mababang perceived oras ng tugon.

Ang CosyVoice2at Kokoro ay sumusuporta sa streaming audio output kung saan ang mga audio chunks ay ipinadala habang sila ay nabuo. Ito ay binabawasan ang oras-sa-unang-byte para sa mga real-time na application tulad ng mga boses na katulong at mga interaktibong karanasan.

Ang API ay nagbabalik ng mga standard na HTTP status code. Ipatupad ang eksponensyal na backoff para sa 5xx error at rate ng limitasyon ng mga tugon. Para sa mga misyon-kritikal na mga application, magdagdag ng isang queue na may retry logic. Ang aming API ay may mataas na uptime ngunit matibay error handling ay palaging inirerekomenda.

Ang / v1 / boses at / v1 / modelo endpoints bumalik JSON listahan ng lahat ng mga magagamit na boses at mga modelo na may kanilang metadata (suporta sa wika, kalidad rating, bilis rating, at pricing tier). Gamitin ang mga ito upang bumuo ng dynamic na modelo selectors sa iyong application.

Libreng mga modelo (Kokoro, Piper, VITS, MeloTTS) magsilbi bilang isang epektibong sandbox dahil sila ay ganap na libre. Subukan ang iyong integration sa mga libreng modelo, pagkatapos ay lumipat sa premium na mga modelo sa produksyon sa pamamagitan ng pagbabago ng modelo parameter. Walang hiwalay na kapaligiran ng pagsubok ay kinakailangan.

Ang karamihan sa aming mga modelo ay open-source at maaaring self-hosted. Gayunpaman, self-hosting ay nangangailangan ng makabuluhang GPU resources (gamitin namin 4x NVIDIA Tesla P40 na may 96GB VRAM kabuuang). Ang API ay nagbibigay ng isang cost-effective na alternatibo nang walang pamamahala ng imprastraktura.

5.0/5 (1)

Handa na upang bumuo ng may Voice AI?

Kumuha ng iyong libreng API key at simulan ang gusali. 15,000 mga character sa pag-signup, libreng mga modelo na magagamit, kumpletong dokumentasyon.

Mag-sign up para sa libreng Tingnan ang Pagpepresyo

Teksto sa Pagsasalita API para sa mga developer

Subukan ito ngayon

I-love TTS.ai? Ibahagi sa iyong mga kaibigan!

API Mga tampok para sa mga developer

Simpleng REST API

Ang OpenAI-Compatible

24+ modelo na magagamit

Sub-ikalawang latency

Mga uri ng mga API

Maraming mga Format

Pinakamahusay na Modelo para sa Developer Integration

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Paano isama ang TTS API

Kumuha ng iyong API Key

Mag-sign up para sa iyong unang tawag

Piliin ang iyong modelo

Ship sa produksyon

Mabilis na Simula Code Halimbawa

Ano ang mga developer Bumuo sa TTS.ai

AI Chatbots at mga katulong

Mobile & Apps ng Tinig

Mga Produkto ng SaaS

Automation pipelines

API mga pagtutukoy

Mga Madalas Itanong

Ang API ay tugma sa format ng OpenAI TTS?

Ano ang latency para sa mga real-time na mga application?

Paano gumagana ang pricing para sa paggamit ng API?

Maaari ko bang gamitin ang cloning ng boses sa pamamagitan ng API?

Mayroon bang limitasyon sa rate?

Ano ang audio format ay ang API bumalik?

Maaari ko bang gamitin ang API upang bumuo ng isang boses assistant o chatbot?

Mayroon bang isang WebSocket o streaming API?

Paano ko hawakan ang mga error at retries sa produksyon?

Maaari ko bang ilista ang mga available na boses at mga modelo programatically?

Mayroon bang isang sandbox o pagsubok na kapaligiran?

Maaari ko bang self-host ang mga modelo sa halip ng paggamit ng API?

Handa na upang bumuo ng may Voice AI?