Teks ke API Pidato bagi Pengembang

Buat aplikasi voice-enabled dengan API REST kami. Tambahkan text-to-peech alami, kloning suara, pemrosesan bicara-ke-teks, dan audio ke aplikasi, chatbot, asisten suara, dan produk SaaS. Format yang kompatibel dengan OpenAI, 20+ model, integrasi sederhana.

API RAT Chatbot App Suara Produk SaaS Otomatisasi

Cobalah Sekarang

Free with Kokoro, Piper, VITS, Melotts
Audio yang dihasilkan Anda akan muncul di sini
Hasilkan
Unduh
Beritahu teman-temanmu!

Fitur API bagi Pengembang

Segala sesuatu yang Anda butuhkan untuk membangun aplikasi voice-enabled

API PESAN Sederhana

Satu permintaan POST untuk menghasilkan pidato. JSON permintaan, respon audio. Bekerja dengan bahasa pemrograman apapun yang mendukung HTTP.

Kompatibel OpenAI

Penggantian dari API TTS OpenAI. Gantikan kunci base_url dan API Anda dengan kode yang ada segera bekerja.

24+ Model Tersedia

Mengakses setiap model melalui satu API. Berpindahlah model dengan mengubah satu parameter. Bandingkan kualitas, kecepatan, dan biaya.

Latensi Sub-Second

Kokoro menghasilkan audio dalam waktu kurang dari 1 detik. Sempurna untuk chatbot real-time, asisten suara, dan aplikasi interaktif.

API Kloning Suara

Klon semua suara dari contoh audio pendek melalui API. Gunakan suara kloning untuk semua generasi berikutnya.

Format Multiple

Keluaran sebagai WAV, MP3, OGG, atau FLAC. Pilih tingkat sampel dan bit. Streaming dukungan audio untuk aplikasi real-time.

Model Terbaik untuk Integrasi Pengembang

Pilih model yang tepat bagi kecepatan, kualitas, dan biaya aplikasi Anda

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Terbaik untuk: Model tercepat sub-detik latensi, ideal untuk aplikasi real-time dan chatbots

Cobalah Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Kloning Suara

Terbaik untuk: Streaming TTS dengan suara kloning untuk aplikasi asisten suara

Cobalah CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Terbaik untuk: Percakapan AI dengan waktu alami untuk chatbot dan suara asisten

Cobalah Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Terbaik untuk: Free, model CPU-only untuk aplikasi volume tinggi dengan biaya nol kredit

Cobalah Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Terbaik untuk: Pembuatan audio dengan efek suara untuk aplikasi kreatif dan hiburan

Cobalah Bark

Cara Menggabungkan API TTS

Dari pendaftaran ke panggilan API pertama di bawah 5 menit

1

Dapatkan Kunci API Anda

Daftar secara gratis dan hasilkan kunci API dari dashboard akun Anda. termasuk 15.000 karakter.

2

Buatlah Panggilan Pertama Anda

POST ke /v1/tts dengan teks, model, dan suara. Dapatkan byte audio kembali. di bawah 5 baris kode.

3

Pilih Model Anda

Bandingkan kecepatan, kualitas, dan biaya per generasi.

4

Kapal ke Produksi

Skalakan dengan karakter pay-as-you-go. Tidak ada batas tingkat pada rencana pembayaran. Pemakaian monitor di dasbor Anda.

Contoh Cepat Mulai Kode

Integrate TTS.ai dalam bahasa apapun dengan API REST kami

Python Populer
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universal
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Format OpenAI-Compatible Drop-in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Apa yang Dibangun Pengembang dengan TTS.ai

Pola dan aplikasi integrasi umum

AI Chatbot & Asisten

Tambahkan keluaran suara ke chatbot atau asisten AI Anda. Respon LLM Pipe melalui TTS untuk antarmuka suara-enabled. Kokoro memberikan latensi sub detik untuk percakapan real-time. Sesame CSM menghasilkan pidato percakapan dengan waktu alami.

  • Respon LLM ke pipeline pidato
  • Latensi sub-detik dengan Kokoro
  • Pidato percakapan dengan CSM Sesame
  • Streaming keluaran audio

Mobile & App Suara

Bangun aplikasi seluler yang diaktifkan suara, alat aksesibilitas, aplikasi baca, dan platform belajar bahasa. API REST kami bekerja dengan kerangka kerja mobile. Unduh berkas audio atau stream langsung ke klien.

  • React Native, Flutter, Swift, Kotlin
  • Aksesibilitas dan aplikasi baca
  • Peron pembelajaran bahasa
  • Pembuatan isi audio

Produk SaaS

Kapabilitas suara White-label dalam produk SaaS Anda. Tambahkan TTS, STT, kloning suara, dan pemrosesan audio sebagai fitur di platform Anda. Gunakan API kami sebagai backend suara Anda tanpa mengelola infrastruktur GPU.

  • Fitur suara White-label
  • Tak perlu infrastruktur GPU
  • Bayar-per-use pricing
  • 20+ model untuk menawarkan pengguna

Pipa Otomatis

Integrate pembuatan suara ke jaringan pipa CI/CD, otomatisasi isi, dan batch pengolahan workflows. Hasilkan ribuan berkas audio dari data spreadsheet, produksi podcast automate, atau membangun isi jaringan lokalisasi.

  • Pemrosesan batch melalui API
  • Pipa lokalisasi isi
  • CI/CD integrasi
  • Lembar kerja ke otomatisasi audio

Spesifikasi API

Dibuat untuk aplikasi produksi

20+

Model TTS

100+

Suara-suara

30+

Bahasa

<1s

Latensi (Kokoro)

Pertanyaan yang Sering Diajukan

Pertanyaan umum tentang pengembang TTS.ai API

API kami mengikuti format pidato audio OpenAI. Jika Anda menggunakan pustaka klien OpenAI Python atau JavaScript, Anda dapat beralih ke TTS.ai dengan mengubah parameter base_url dan api_key. Kode yang ada bekerja tanpa modifikasi.

Kokoro menghasilkan audio di bawah 1 detik untuk kalimat-kalimat khas. CosyVoice 2 mendukung keluaran streaming untuk keterbukaan yang lebih rendah. Untuk chatbot dan asisten suara, total waktu round-strip biasanya 1-3 detik tergantung pada panjang teks dan pilihan model.

Model bebas (Kokoro, Piper, VITS, Melotts) benar-benar bebas. model standar menggunakan 2x karakter per 1K teks. model Premium menggunakan 4x karakter per 1K teks. bebas dengan 15.000 karakter. Rencana dimulai pada 9/bulan untuk 500.000 karakter.

Mengunggah sampel audio referensi (5-30 detik) ke titik akhir kloning suara, kemudian gunakan ID suara kloning dalam permintaan TTS berikutnya. Model yang mendukung kloning termasuk CosyVoice 2, Chatterbox, Fish Speech, dan GPT-SHOVIT.

Tingkat bebas memiliki batas tingkat dasar (3 permintaan per jam tanpa akun). Rencana yang dibayar memiliki batas tingkat murah yang cocok untuk aplikasi produksi. Hubungi kami untuk tingkat perusahaan kebutuhan throughput.

WAV (tidak dikompresi, kualitas tertinggi), MP3 (berkas yang dikompresi, lebih kecil), OGG (format terbuka), dan FLAC (kompresi lossless). Nyatakan format dalam permintaan Anda. Baku adalah WAV pada tingkat sampel asli model.

Ya. Gabungan TTS API kami dengan model pidato-ke-teks dan LLM untuk membangun sebuah baris pipa asisten suara lengkap. Kokoro menyediakan latensi sub-detik ideal untuk percakapan real-time. CosyVoice 2 mendukung keluaran streaming untuk waktu respon yang lebih rendah.

CosyVoice 2 dan Kokoro mendukung keluaran audio streaming dimana potongan audio dikirim saat mereka dihasilkan. Ini mengurangi waktu-ke-pertama-byte untuk aplikasi real-time seperti voice assists dan pengalaman interaktif.

API mengembalikan kode status HTTP standar. Implementasi backoff eksponensial untuk 5xx errors dan kecepatan membatasi respon. Untuk aplikasi kritis misi, tambahkan antrian dengan logika berulang. API kami memiliki tingkat tinggi tapi penanganan kesalahan tangguh selalu disarankan.

Ya. titik akhir /v1/voices dan /v1/model mengembalikan daftar JSON dari semua suara dan model yang tersedia dengan metadata mereka (dukungan bahasa, rating kualitas, peringkat kecepatan, dan tingkat harga). Gunakan ini untuk membangun pemilih model dinamis dalam aplikasi Anda.

Model gratis (Kokoro, Piper, VITS, Melotts) berfungsi sebagai sandbox yang efektif karena mereka menghabiskan nol kredit. uji integrasi Anda dengan model gratis, kemudian beralih ke model premium dalam produksi dengan mengubah parameter model. tidak ada lingkungan pengujian terpisah yang dibutuhkan.

Sebagian besar model kami open-source dan dapat difosilkan sendiri. Namun, pemrosesan diri membutuhkan sumber daya GPU signifikan (kami menggunakan 4x NVIDIA Tesla P40 dengan total 96GB VRAM). API menyediakan alternatif biaya-efektif tanpa manajemen infrastruktur.
5.0/5 (1)

Umpan balikmu membantu kita memperbaiki masalah.

Siap Membangun dengan Suara AI?

Dapatkan kunci API gratis Anda dan mulai membangun. 15.000 karakter pada pendaftaran, model gratis tersedia, dokumentasi komprehensif.