API Teks-ke-Tutur untuk pemaju

Bina aplikasi yang diaktifkan suara dengan API REST kami. Tambah teks-ke-tutur semulajadi, klon suara, tutur-ke-teks, dan pemprosesan audio kepada aplikasi, chatbot, pembantu suara, dan produk SaaS anda. Format serasi OpenAI, 20+ model, integrasi mudah.

API REST Chatbots Aplikasi Suara Produk SaaS Automatik

Cuba Sekarang

Bebas dengan Kokoro, Piper, VITS, MeloTTS
Audio yang dijana akan muncul di sini
Dijana
Muat turun
Cinta TTS.ai? Beritahu kawan-kawan anda!

Ciri-ciri API untuk pemaju

Semua yang anda perlukan untuk membina aplikasi yang diaktifkan suara

API REST Mudah

Satu permintaan POST untuk menghasilkan ucapan. Permintaan JSON, respon audio. Berfungsi dengan mana-mana bahasa pemprograman yang menyokong HTTP.

Sesuai dengan OpenAI

Penggantian drop-in untuk API TTS OpenAI. Tukar base_url dan kekunci API anda — kod sedia ada berfungsi dengan segera.

24+ Model Tersedia

Akses setiap model melalui satu API. Tukar model dengan mengubah satu parameter. Bandingkan kualiti, kelajuan, dan kos.

Lenting Sub-Sekond

Kokoro menghasilkan audio dalam masa kurang dari 1 saat. Sempurna untuk chatbot masa-nyata, pembantu suara, dan aplikasi interaktif.

API Klon Suara

Klon sebarang suara dari sampel audio pendek melalui API. Guna suara klon untuk semua generasi seterusnya.

Berbilang Format

Output sebagai WAV, MP3, OGG, atau FLAC. Pilih kadar sampel dan kedalaman bit. Sokongan audio strim untuk aplikasi masa nyata.

Model Terbaik untuk Integrasi Pemaju

Pilih model yang betul untuk kelajuan, kualiti, dan keperluan kos aplikasi anda

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Terbaik untuk: Model terpantas — latensi sub-saat, sesuai untuk aplikasi masa nyata dan chatbot

Cuba Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Klon Suara

Terbaik untuk: Strim TTS dengan klon suara untuk aplikasi pembantu suara

Cuba CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Terbaik untuk: AI perbualan dengan waktu semulajadi untuk chatbot dan suara pembantu

Cuba Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Terbaik untuk: Model percuma, CPU sahaja untuk aplikasi bervolum tinggi dengan kos kredit sifar

Cuba Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Terbaik untuk: Penjanaan audio dengan kesan bunyi untuk aplikasi kreatif dan hiburan

Cuba Bark

Bagaimana Mengintegrasikan API TTS

Dari pendaftaran ke panggilan API pertama dalam masa kurang 5 minit

1

Dapatkan Kekunci API Anda

Daftar secara percuma dan cipta kunci API dari dashboard akaun anda. 15,000 aksara termasuk.

2

Buat Panggilan Pertama Anda

POST ke /v1/tts dengan teks, model, dan suara. Dapatkan bait audio kembali. Di bawah 5 baris kod.

3

Pilih Model Anda

Uji model yang berbeza untuk kes penggunaan anda. Bandingkan kelajuan, kualiti, dan kos per generasi.

4

Hantar ke Produksi

Skala dengan aksara bayar-seperti-anda-guna. Tiada had kadar pada rancangan berbayar. Monitor penggunaan dalam dashboard anda.

Contoh Kod Permulaan Cepat

Integre TTS.ai dalam mana-mana bahasa dengan API REST kami

Python Popular
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universal
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Format Sesuai OpenAI Drop-in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Apa yang Pemaju Bina dengan TTS.ai

Corak integrasi dan aplikasi umum

AI Chatbots & Pembantu

Tambah output suara ke chatbot atau pembantu AI anda. Salurkan respon LLM melalui TTS untuk antaramuka yang dibenarkan suara. Kokoro memberikan latensi sub-saat untuk perbualan masa nyata. Sesame CSM menghasilkan perbualan perbualan dengan waktu semulajadi.

  • Balasan LLM kepada paip pertuturan
  • Lenting sub-saat dengan Kokoro
  • Perbualan percakapan dengan Sesame CSM
  • Output audio strim

Aplikasi Mudah Alih & Suara

Bina aplikasi mudah alih yang diaktifkan suara, alat kebolehcapaian, aplikasi membaca, dan platform pembelajaran bahasa. API REST kami berfungsi dengan kerangka mudah alih mana-mana. Muat turun fail audio atau strim secara langsung ke klien.

  • React Native, Flutter, Swift, Kotlin
  • Kebolehcapaian dan aplikasi bacaan
  • Platform pembelajaran bahasa
  • Penjanaan kandungan audio

Produk SaaS

Keupayaan suara label putih dalam produk SaaS anda. Tambah TTS, STT, klon suara, dan pemprosesan audio sebagai ciri dalam platform anda. Guna API kami sebagai backend suara anda tanpa mengurus infrastruktur GPU.

  • Ciri-ciri suara label putih
  • Tiada infrastruktur GPU diperlukan
  • Harga bayar-per-guna
  • 20+ model untuk menawarkan pengguna anda

Paip Automatik

Integrikan penjanaan suara ke dalam paip CI/CD, automasi kandungan, dan aliran kerja pemprosesan berbilang. Janakan beribu-ribu fail audio dari data spreadsheet, automatikkan pengeluaran podcast, atau bina paip lokalisasi kandungan.

  • Pemprosesan serbuan melalui API
  • Paip lokalisasi kandungan
  • Integrasi CI/CD
  • Hamparan ke automasi audio

Spesifikasi API

Dibina untuk aplikasi pengeluaran

20+

Model TTS

100+

Suara

30+

Bahasa

<1s

Lenting (Kokoro)

Soalan Lazim

Soalan biasa mengenai API pemaju TTS.ai

Ya. API kami mengikut format ucapan audio OpenAI. Jika anda menggunakan pustaka klien Python atau JavaScript OpenAI, anda boleh beralih ke TTS.ai dengan mengubah parameter base_url dan api_key. Kod sedia ada anda berfungsi tanpa modifikasi.

Kokoro menghasilkan audio dalam masa kurang dari 1 saat untuk ayat biasa. CosyVoice 2 menyokong output strim untuk latensi yang lebih rendah. Untuk chatbot dan pembantu suara, masa perjalanan keseluruhan biasanya 1-3 saat bergantung pada panjang teks dan pilihan model.

Model percuma (Kokoro, Piper, VITS, MeloTTS) adalah sepenuhnya percuma. Model piawai menggunakan 2x aksara per 1K teks. Model premium menggunakan 4x aksara per 1K teks. Daftar secara percuma dengan 15,000 aksara. Rencana bermula pada $9/bulan untuk 500,000 aksara.

Ya. Muat naik sampel audio rujukan (5-30 saat) ke titik akhir klon suara, kemudian gunakan ID suara yang diklon dalam permintaan TTS seterusnya. Model yang menyokong klon termasuk CosyVoice 2, Chatterbox, Fish Speech, dan GPT-SoVITS.

Aras percuma mempunyai had kadar asas (3 permintaan setiap jam tanpa akaun). Rancangan berbayar mempunyai had kadar yang luas sesuai untuk aplikasi pengeluaran. Hubungi kami untuk keperluan laluan aras syarikat.

WAV (tidak dimampat, kualiti tertinggi), MP3 (dimampat, fail lebih kecil), OGG (format terbuka), dan FLAC (mampatan tanpa kehilangan). Nyatakan format dalam permintaan anda. Lalai adalah WAV pada kadar sampel asli model.

Ya. Gabungkan API TTS kami dengan model percakapan-ke-teks dan LLM untuk membina paip pembantu suara yang lengkap. Kokoro menyediakan latensi sub-saat yang ideal untuk perbualan masa nyata. CosyVoice 2 menyokong output strim untuk masa tindak balas yang lebih rendah.

CosyVoice 2 dan Kokoro menyokong output audio strim dimana kepingan audio dihantar sebagaimana ianya dijana. Ini mengurangkan masa-ke-baitan-pertama untuk aplikasi masa-sebenar seperti pembantu suara dan pengalaman interaktif.

API mengembalikan kod status HTTP piawai. Laksanakan backoff eksponen untuk ralat 5xx dan respon had kadar. Untuk aplikasi kritikal misi, tambah baris gilir dengan logik cuba semula. API kami mempunyai masa operasi tinggi tetapi pengendalian ralat yang tahan selalu dinasihatkan.

Ya. Titik akhir /v1/voices dan /v1/models mengembalikan senarai JSON semua suara dan model yang ada dengan metadata mereka (suport bahasa, penarafan kualiti, penarafan kelajuan, dan aras harga). Guna ini untuk bina pemilih model dinamik dalam aplikasi anda.

Model percuma (Kokoro, Piper, VITS, MeloTTS) berfungsi sebagai kotak pasir yang berkesan kerana mereka kos sifar kredit. Uji integrasi anda dengan model percuma, kemudian beralih ke model premium dalam pengeluaran dengan mengubah parameter model. Tiada persekitaran ujian terpisah diperlukan.

Kebanyakan model kami adalah sumber terbuka dan boleh dihost sendiri. Namun, self-hosting memerlukan sumber GPU yang besar (kami menggunakan 4x NVIDIA Tesla P40 dengan 96GB VRAM keseluruhan). API menyediakan alternatif yang berpatutan tanpa pengurusan infrastruktur.
5.0/5 (1)

Apa yang boleh kami perbaiki?

Sedia untuk Bina dengan AI Suara?

Dapatkan kunci API percuma anda dan mula bina. 15 kredit pada pendaftaran, model percuma tersedia, dokumentasi komprehensif.