Kijan pou mwen jwenn yon kle API?

Enskri pou yon kont TTS.ai gratis, Lè sale nan tablodbò kont ou a epi klike sou "Generate API Key." Chèn ou pral gen prefiks ak sk-tts- ak ka itilize imedyatman. Kont gratis yo resevwa 50 kredi pou kòmanse.

Èske API a konpatib ak fòma OpenAI a?

Si ou gen yon kòd ki deja egziste ki itilize API TTS OpenAI a, ou ka chanje pou TTS.ai pa chanje URL baz la ak kle API a ak kèk chanjman nan kòd.

Ki lang pwogramasyon yo sipòte?

REST API travay ak nenpòt lang ki ka fè demann HTTP. Nou bay egzanp kòd nan Python, JavaScript (Node.js ak navigatè), cURL, ak plis ankò. Nenpòt lang ak yon livri kliyan HTTP (Go, Ruby, Java, C #, PHP, elatriye) ka itilize API a.

Ki sa ki se limit yo nan pousantaj API?

Kont gratis yo limite a 3 demann pou chak èdtan. Plan ki peye yo gen limit ki pi wo ki baze sou nivo abònman ou: Starter (60 / èdtan), Professional (300 / èdtan), Enterprise (sans limit).

Ki jan pri ak kredi API travay?

Itilizasyon API a itilize kredi ki baze sou nivo modèl la ak longè tèks la. Modèl gratis yo itilize 0 kredi, modèl estanda yo itilize 2 kredi pou chak 1K karaktè, ak modèl prim yo itilize 4 kredi pou chak 1K karaktè.

Ki pwen fen ki disponib?

API a bay pwen fini pou tèks-nan-parole (POST /v1/tts/), pale-nan-parole (POST /v1/transcribe/), klonaj vwa (POST /v1/voice-clone/), konvèsyon vwa (POST /v1/voice-convert/), tradiksyon vwa (POST /v1/speech-translate/), amelyore son (POST /v1/audio-enhance/), retire son, divize stem, analiz kle ak BPM, ak plis ankò.

Ki fòma odyo API a retounen?

API a retounen son an nan fòma WAV pa default. Ou ka endike fòma ekspòtasyon an (mp3, wav, ogg, flac) lè l sèvi avèk paramèt response_format la. MP3 rekòmande pou aplikasyon entènèt, WAV pou plis pwosesis son.

Èske gen yon API streaming pou TTS tan reyèl?

Wi, API async nou an retounen yon UUID travay ke ou ka sondaj pou rezilta. Pou modèl ki sipòte tankou Kokoro, jenerasyon son an se byen vit ase pou aplikasyon ki prèske nan tan reyèl. Pozisyon fen sondaj la retounen URL son an lè pwosesis la fini.

Kijan pou mwen jere erè nan API a?

API a retounen kòd estati HTTP estanda (400 pou demann ki pa bon, 401 pou erè auth, 429 pou limit pousantaj, 500 pou erè sèvè) ak mesaj erè JSON. Toujou tcheke kòd estati a ak jaden erè nan repons pou tretman erè apwopriye.

Èske mwen ka itilize API a pou aplikasyon komèsyal?

Wi, API a fèt pou itilizasyon komèsyal. Son ki fèt atravè API a ka itilize nan pwodwi, aplikasyon, ak sèvis ou yo. Tout modèl yo itilize lisans open-source, e pa gen okenn royalties adisyonèl sou son ki fèt la.

Èske gen yon sandbox oswa yon anviwònman tès?

Modèles de niveau gratuit (Kokoro, Piper, VITS, MeloTTS) servent comme un excellent sandbox — ils utilisent zéro crédits et sont disponibles à tous les comptes.Testez votre intégration avec des modèles gratuits avant de passer à des modèles premium pour utilisation en production.

Kijan pou m fè lis vwa ak modèl ki disponib via API a?

Sèvi ak GET /v1/voices pou fè yon lis tout vwa ki disponib ak opsyon filtraj (modèl, lang, sèks). Sèvi ak GET /v1/models pou fè yon lis tout modèl TTS ki disponib ak kapasite yo ak enfòmasyon sou nivo yo. Tout de pwent yo retounen repons JSON.

Rapò erè / demann fonksyonèl

Dokimantasyon API

Enkòpore TTS.ai nan aplikasyon ou yo ak REST API nou an. OpenAI-kompatib fòma pou migrasyon fasil.

REST API OpenAI Konpatib Repons JSON Streaming sipò

Aperçu

API TTS.ai a bay aksè programatik nan tout karakteristik platfòm la: sintezis tèks-nan-parole, transkripsiyon pale-nan-tèks, klonaj vwa, amelyore son, ak plis ankò.API a itilize konvansyon REST estanda ak kò demann / repons JSON.

Clé API

Jwenn kle API ou soti nan Konfigurasyon kont. Disponib sou plan Pro ak Enterprise.

URL baz

https://api.tts.ai/v1/

Auth

Bearer token via Authorization header

Authentification

Tier gratis - pa gen okenn kle nesesè. Anonòm /v1/tts/ travay san okenn auth, jiska 5,000 karaktè / jou pa IP, lè l sèvi avèk nenpòt nan modèl nou yo gratis (piper, vits, melotts, kokoro). Enskri pou yon kont gratis pou jwenn 15,000 karaktè bonus ak aksè a modèl prim.

Tout demann API mande pou autentifikasyon via yon Bearer token nan Authorization header.

Anndan HTTP

Authorization: Bearer sk-tts-your-api-key-here

Kenbe kle API ou a sekrè. Pa pataje li nan kòd bò-kliyan, repozitwa piblik, oswa logs. Rotate kle regilyèman soti nan paramèt kont ou.

SDKs

Ofisyèl SDKs fè li fasil pou enkòpore TTS.ai nan aplikasyon ou.Tout de yo se sous louvri ak disponib sou GitHub.

Python

pip install ttsai

from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")
audio = client.generate(
    text="Hello world!",
    model="kokoro"
)
client.save(audio, "output.wav")

GitHub

JavaScript / Node.js

npm install @ttsainpm/ttsai

const { TTSClient } = require('@ttsainpm/ttsai');

const client = new TTSClient({
  apiKey: 'sk-tts-...'
});
const audio = await client.generate({
  input: 'Hello world!',
  model: 'kokoro'
});
await client.saveToFile(audio, 'output.wav');

GitHub

URL baz

URL baz: https://api.tts.ai/v1/

Tout pwent bout yo se relativ a URL baz sa a. Pou egzanp, pwent bout TTS la se:

POST https://api.tts.ai/v1/tts/

Limit

Limit pousantaj API varye selon plan an:

Plan	Demands/min	Konpatib	Longè maksimòm tèks
Gratis	10	2	500 karaktè
Starter	30	3	1,000,000 chars
Pro	60	5	1,000,000 chars
Enterprise	300	20	50,000 chars

Entèval limit entèval yo enkli nan chak repons: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

Kout kredi

Sèvis	Koute	Unit
TTS (Models gratis: Piper, VITS, MeloTTS)	1 kredi	pou chak 1,000 karaktè
TTS (Models estanda: Kokoro, CosyVoice 2, etc.)	2 kredi	pou chak 1,000 karaktè
TTS (Premium modèl: Tortoise, Chatterbox, elatriye)	4 kredi	pou chak 1,000 karaktè
Konvèti pale an tèksName	2 kredi	per minute of audio
Klonaj Vokal	4 kredi	pou chak 1,000 karaktè
Chanjman Voy	3 kredi	per minute of audio
Amelyore son	2 kredi	per minute of audio
Vokal Removal / Stem divizyon	3-4 kredi	per minute of audio
Tradiksyon	5 kredi	per minute of audio
Konvèsasyon Vokal	3 kredi	per turn
Key & BPM Finder	Gratis	--
Audio Convertisseur	Gratis	--

Text to SpeechGenericName

POST /v1/tts/

Convert text to speech audio. Returns audio file in the requested format.

Kò demann lan

Paramèt	Tipe	Required	Deskripsyon
model	string	Non	ID modèl la (e.g., `kokoro`, `chatterbox`, `piper`)
text	string	Wi	Text to convert to speech (max 5,000 chars for Pro, 50,000 for Enterprise)
voice	string	Wi	Voice ID (itilize `/v1/voices/` pou lis vwa ki disponib)
format	string	Non	fòma devwa: `mp3` (pa défaut), `wav`, `flac`, `ogg`
speed	float	Non	Multiplier vitès pale. Pa default: `1.0`. Range: `0.5` to `2.0`
language	string	Non	Kòd lang lan (e.g., `en`, `es`). Deteksyon otomatik si li omite.
instructions	string	Non	Aksyon / livrezon cues (≤500 karaktè). e. g. < kòd >\
pronunciations	object \| array	Non	`{\`
stream	boolean	Non	Enable streaming response. Default: `false`

Ekzanp demann

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

Baliz SSML

Enwodiksyon

interpret-as	Enfòmasyon	Pale tankou
`cardinal`	`1234`	one thousand two hundred thirty-four
`ordinal`	`21`	twenty-first
`date`	`1999-12-31`	Desanm 31, 1999
`time`	`14:30`	two thirty PM
`telephone`	`+1-555-867-5309`	plus one five five five eight six seven…
`currency`	`$1,234.56`	one thousand two hundred thirty-four dollars and fifty-six cents
`spell-out`	`NASA`	N A S A

Date fòma defaults nan mdy pou angle ak dmy ailleurs; override ak format=\


                
                    
                        Egzanp
                        
                    
{
  "model": "kokoro",
  "voice": "af_bella",
  "text": "Your appointment is on <say-as interpret-as=\"date\">2026-04-26</say-as> at <say-as interpret-as=\"time\">14:30</say-as>. Please call <say-as interpret-as=\"telephone\">+1-555-867-5309</say-as> if you need to reschedule."
}
                

                Reponn
                The TTS endpoint queues your request and returns a JSON response with a job UUID. You then poll for the result.

                Step 1: Submit request
                
                    
                        Response (JSON)
                    
{
  "uuid": "77b71db532874ce98e84a69a2d740d4c",
  "job_id": "f21316bb-aefa-480d-8523-701d1e3184ce",
  "status": "queued",
  "credits_used": 11,
  "credits_remaining": 15000
}
                

                Step 2: Poll for result
                
                    GET /v1/speech/results/?uuid=<job_uuid>
                
                Poll this endpoint every 1-2 seconds until status is completed or failed.
                
                    
                        Polling response (completed)
                    
{
  "status": "completed",
  "result_url": "https://api.tts.ai/static/downloads/77b71db5.../output.mp3"
}
                
                
                    
                        Polling response (still processing)
                    
{
  "status": "processing"
}
                

                Step 3: Download audio
                Fetch the result_url from the completed response to download the audio file.

                Egzanp konplè
                
                    
                        Python
                        
                    
import requests, time

API_KEY = "sk-tts-your-key"
BASE = "https://api.tts.ai"

# 1. Submit TTS request
resp = requests.post(f"{BASE}/v1/tts/", json={
    "model": "kokoro",
    "text": "Hello from TTS.ai!",
    "voice": "af_bella"
}, headers={"Authorization": f"Bearer {API_KEY}"})
data = resp.json()
uuid = data["uuid"]

# 2. Poll for result
while True:
    result = requests.get(f"{BASE}/v1/speech/results/",
        params={"uuid": uuid}).json()
    if result["status"] == "completed":
        # 3. Download audio
        audio = requests.get(result["result_url"])
        with open("output.mp3", "wb") as f:
            f.write(audio.content)
        break
    elif result["status"] == "failed":
        raise Exception(result.get("error", "Generation failed"))
    time.sleep(1.5)
                

                Streaming alternative: For supported models (Kokoro, MeloTTS), use POST /v1/tts/stream/ for real-time Server-Sent Events (SSE) streaming — no polling needed.



            
            
                Konvèti pale an tèksName
                
                    POST /v1/stt/
                
                Transkri audio pou tèks. Soti nan 99 lang ak deteksyon otomatik.

                Kò demann lan (multipart/form-data)
                
                    
                        
                            Paramèt Tipe Required Deskripsyon
                        
                        
                            
                                file
                                file
                                Wi
                                Fichiers Audio (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Max 100MB.
                            
                            
                                model
                                string
                                Non
                                Modèl STT: whisper (pa défaut), faster-whisper, sensevoice
                            
                            
                                language
                                string
                                Non
                                Kode lang. auto pou deteksyon otomatik (pa défaut).
                            
                            
                                timestamps
                                boolean
                                Non
                                Gen ladann dat/tan nan nivo mo. Pa default: false
                            
                            
                                diarize
                                boolean
                                Non
                                Aktive diarization oratè. Par défaut: false
                            
                        
                    
                

                Reponn
                
                    
                        Reponn JSON
                    
{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}
                
            

            
            
                Klonaj Vokal
                
                    POST /v1/tts/clone/
                
                Kreye pale nan yon vwa klone. Upload yon referans son ak tèks.

                Kò demann lan (multipart/form-data)
                
                    
                        
                            Paramèt Tipe Required Deskripsyon
                        
                        
                            
                                reference_audio
                                file
                                Wi
                                Referans vwa audio (10-30 segonn rekòmande). Max 20MB.
                            
                            
                                text
                                string
                                Wi
                                Text to speak in the cloned voice.
                            
                            
                                model
                                string
                                Non
                                Klone modèl: chatterbox (pa défaut), cosyvoice2, gpt-sovits
                            
                            
                                format
                                string
                                Non
                                fòma devwa: mp3 (pa défaut), wav, flac
                            
                            
                                language
                                string
                                Non
                                Kòd lang objektif la. Li dwe sipòte pa modèl la chwazi.
                            
                        
                    
                

                Reponn
                Retounen dosye son an kòm done binè, menm jan ak pwent bout TTS la.
            

            
            
                Chanjman Voy
                
                    POST /v1/voice-convert/
                
                Convert audio to sound like a different voice. Upload source audio and choose a target voice.

                Kò demann lan (multipart/form-data)
                
                    
                        
                            Paramèt Tipe Required Deskripsyon
                        
                        
                            
                                file
                                file
                                Wi
                                Fichiè odyo sous (MP3, WAV, FLAC). Max 50MB.
                            
                            
                                target_voice
                                string
                                Wi
                                Identifyan vwa pou konvèti nan (itilize /v1/voices/ pou lis vwa ki disponib)
                            
                            
                                model
                                string
                                Non
                                Modèl konvèsyon vwa: openvoice (pa défaut), knn-vc
                            
                            
                                format
                                string
                                Non
                                fòma devwa: wav (pa défaut), mp3, flac
                            
                        
                    
                

                Ekzanp demann
                
                    
                        cURL
                        
                    
curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav
                

                Reponn
                Retounen nan dosye son ki te transfòme a kòm done binè.
            

            
            
                Tradiksyon
                
                    POST /v1/speech-translate/
                
                Tradwi odyo pale soti nan yon lang nan yon lòt. Konbine pale-a-tèks, tradiksyon, ak tèks-a-vokal nan yon sèl apèl.

                Kò demann lan (multipart/form-data)
                
                    
                        
                            Paramèt Tipe Required Deskripsyon
                        
                        
                            
                                file
                                file
                                Wi
                                Fichiè odyo sous nan lang orijinèl la. Max 100MB.
                            
                            
                                target_language
                                string
                                Wi
                                Kode lang target (e.g., es, fr, de, ja)
                            
                            
                                voice
                                string
                                Non
                                Voy pou rezilta tradiksyon an. Seleksyone otomatikman si li omite.
                            
                            
                                preserve_voice
                                boolean
                                Non
                                Tente pou kenbe oratè orijinal la
                            
                        
                    
                

                Reponn
                
                    Reponn JSON
{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}
                
            

            
            
                Pale pou paleComment
                
                    POST /v1/speech-to-speech/
                
                Travèse style pale, emosyon, oswa livrezon pandan y ap kenbe kontni an. Itil pou ajiste ton, pacing, ak ekspresyon.

                Kò demann lan (multipart/form-data)
                
                    
                        
                            Paramèt Tipe Required Deskripsyon
                        
                        
                            
                                file
                                file
                                Wi
                                Fichiè odyo vwa sous la. Maksimòm 50MB.
                            
                            
                                voice
                                string
                                Wi
                                Identifyan vwa pou pale deyò a
                            
                            
                                model
                                string
                                Non
                                Modèl: openvoice (pa défaut), chatterbox
                            
                            
                                emotion
                                string
                                Non
                                Emosyon target: neutral, happy, sad, angry, excited
                            
                            
                                speed
                                float
                                Non
                                Ajustman vitès. Default: 1.0. Range: 0.5 to 2.0
                            
                        
                    
                

                Reponn
                Retounen nan fichye son transfòme a kòm done binè.
            

            
            
                OdinatèName
                Endpoints Audio pwosesis pou amelyore, retire vokal, stem divizyon, ak plis ankò.

                
                
                    
                        
                            POST /v1/audio/enhance/
                        
                        Amelyore kalite son: denoise, amelyore klète, super résolution.
                        
                            
                                
                                    file file Fichiè son pou amelyore
                                    denoise boolean Activer la suppression du bruit (défaut: vrai)
                                    enhance_clarity boolean Enhance speech clarity (default: true)
                                    super_resolution boolean Amelyore kalite son (pa défaut: false)
                                    strength integer 1-3 (fèb, mwayen, fò). Pa défaut: 2
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/separate/
                        
                        Separe vokal soti nan enstrimantal (eliminasyon vokal) oswa divize an stems.
                        
                            
                                
                                    file file Fichiè son pou separe
                                    model string demucs (default) or spleeter
                                    stems integer Nimewo tige: 2, 4, 5, oswa 6 (pa défaut: 2)
                                    format string fòma devwa: wav, mp3, flac
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/dereverb/
                        
                        Retire echo ak reverb soti nan enregistrements son.
                        
                            
                                
                                    file file Fichiè son pou trete
                                    type string echo or reverb (default: both)
                                    intensity integer 1-5 (default: 3)
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/analyze/
                            Gratis
                        
                        Analize son pou deteksyon kle, BPM, ak tan signature.
                        
                            
                                
                                    file file Fichiè son pou analize
                                
                            
                        
                        
                            Reponn
{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/convert/
                            Gratis
                        
                        Konvèti audio ant fòma.
                        
                            
                                
                                    file file Fichiè son pou konvèti
                                    format string Fòmat objektif: mp3, wav, flac, ogg, m4a, aac
                                    bitrate integer Bitrate sortie an kbps: 64, 128, 192, 256, 320
                                    sample_rate integer Sample rate: 22050, 44100, 48000
                                    channels string mono or stereo
                                
                            
                        
                    
                
            

            
            
                Konvèsasyon Vokal
                
                    POST /v1/voice-chat/
                
                Envoye odyo oswa tèks ak resevwa yon repons AI ak pale synthesized.

                Kò demann lan (multipart/form-data or JSON)
                
                    
                        
                            Paramèt Tipe Required Deskripsyon
                        
                        
                            
                                audio
                                file
                                Non*
                                Entèfas son (oswa son oswa tèks nesesè)
                            
                            
                                text
                                string
                                Non*
                                Enpòte tèks (oswa audio oswa text nesesè)
                            
                            
                                voice
                                string
                                Non
                                Voy pou repons AI. Pa défaut: af_bella
                            
                            
                                tts_model
                                string
                                Non
                                Modèl TTS pou repons lan. Pa default: kokoro
                            
                            
                                system_prompt
                                string
                                Non
                                Pwompt sistèm Custom pou AI
                            
                            
                                conversation_id
                                string
                                Non
                                Kontinye yon konvèsasyon ki egziste
                            
                        
                    
                

                Reponn
                
                    Reponn JSON
{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}
                
            

            
            
                Batch TTS
                
                    POST /v1/tts/batch/
                
                Submit multiple texts for parallel TTS generation. Optionally receive a webhook callback when all jobs complete.

                Paramèt
                
                    Paramèt Tipe Deskripsyon
                    
                        texts array Array of objects: {text, model, voice}. Max 50 items.
                        webhook_url string URL optional pou POST rezilta lè batch fini.
                    
                

                Reponn
                
                    Reponn JSON
{
  "batch_id": "abc123",
  "total": 3,
  "completed": 0,
  "status": "processing"
}
                
                Poll progress with GET /v1/tts/batch/result/?batch_id=abc123
            

            
            
                Enkòporasyon Vokal
                
                    POST /v1/voice-embed/
                
                Pre-kalkile yon enkòporasyon vwa soti nan son referans. Itilize embed_id ki retounen nan demann klonaj vwa ki vini apre pou yon jenerasyon prèske imedyat.

                Paramèt
                
                    Paramèt Tipe Deskripsyon
                    
                        file file Reference audio file (WAV, MP3, FLAC).
                        model string Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.
                    
                

                Reponn
                
                    Reponn JSON
{
  "embed_id": "emb_abc123",
  "model": "chatterbox",
  "duration_ms": 450
}
                
            

            
            
                Verifikasyon sante
                
                    GET /v1/health/
                
                Tcheke estati sèvè GPU, modèl chaje, ak gwosè file. Pa gen autentifikasyon mande. Mete nan memwa pou 30 segonn.

                Reponn
                
                    Reponn JSON
{
  "status": "online",
  "latency_ms": 45,
  "queue_size": 3,
  "models_loaded": ["kokoro", "chatterbox", "cosyvoice2"]
}
                
            

            
            
                List Models
                
                    GET /v1/models/
                
                Retounen yon lis tout modèl ki disponib ak kapasite yo.

                Reponn
                
                    Reponn JSON
{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}
                
            

            
            
                Liy vwa
                
                    GET /v1/voices/
                
                Retounen yon lis tout vwa ki disponib, ki ka filtre pa modèl oswa lang.

                Paramèt kesyon
                
                    
                        
                            Paramèt Tipe Deskripsyon
                        
                        
                            
                                model
                                string
                                Filtre pa ID modèl (e.g., kokoro)
                            
                            
                                language
                                string
                                Filtre pa kòd lang (e.g., fr)
                            
                            
                                gender
                                string
                                Filtre pa sèks: male, female, neutral
                            
                        
                    
                

                Reponn
                
                    Reponn JSON
{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}
                
            

            
            
                Sous-titres (SRT / VTT) nouvo
                
                    GET /v1/speech/subtitles/?uuid=<job_uuid>&format=srt|vtt&download=1
                
                Pwodui sous-titres sinkronize pou nenpòt travay TTS ki te fini. Egzekite alignman Whisper sou son an epi retounen SRT oswa WebVTT. Rezulte a se nan cache sou disk pou yon dezyèm apèl pou menm uuid la se yon lekti diskèt.
                Paramèt kesyon
                
                    
                        Paramèt Required Deskripsyon
                        
                            uuid Wi UUID travay la retounen pa /v1/tts/ oswa /v1/voice-clone/.
                            format Non srt (pa défaut) oswa vtt.
                            download Non 1 pou voye Content-Disposition: attachment pou navigatè a ka sove epi pa montre.
                            language Non Yon konsèy pou modèl alignman an (deteksyon otomatik si li pa gen ladan l).
                        
                    
                
                
                    cURL
curl "https://api.tts.ai/v1/speech/subtitles/?uuid=$UUID&format=srt&download=1" -o subtitles.srt
                
            

            
            
                Diksyonè Pronunciation nouvo
                
                    GET
                    POST
                    DELETE
                    /api/v1/pronunciations/
                
                Di motè TTS kijan pou li pwonunsye mo espesifik. Enfòmasyon ki te sove yo ap aplike otomatikman pou chak demann TTS ou fè. Limit 200 enstriksyon pou chak kont.
                Kò demann lan (POST)
                
                    
                        Paramèt Tipe Deskripsyon
                        
                            word string Mo pou retounen (e.g. GIF, Anthropic). Word-boundary matched.
                            replacement string Li se yon eleman nan kòd la ki gen yon valè (pou egzanp, j) epi li ka itilize pou defini yon kòd (pou egzanp, j).
                            language string Kode ISO fasyal. Vide = aplike pou tout lang.
                            case_sensitive boolean false pa default. Konpare lèt ki pi piti ak pi gwo lè true.
                        
                    
                
                
                    cURL
# Save an entry
curl -X POST https://tts.ai/api/v1/pronunciations/ \
  -H "Authorization: Bearer sk-tts-..." \
  -H "Content-Type: application/json" \
  -d '{"word": "GIF", "replacement": "jiff"}'

# List your entries
curl https://tts.ai/api/v1/pronunciations/ -H "Authorization: Bearer sk-tts-..."

# Delete entry by id
curl -X DELETE "https://tts.ai/api/v1/pronunciations/?id=42" -H "Authorization: Bearer sk-tts-..."
                
                Ou ka tou pase overrides pa demann san yo pa sove yo — enkli pronunciations sou nenpòt apèl /v1/tts/ kòm yon objè oswa yon array (gade paramèt pwen bout TTS).
            

            
            
                Narrateur nouvo
                Drop yon sèl

Paramèt	Tipe	Required	Deskripsyon
file	file	Wi	Fichiers Audio (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Max 100MB.
model	string	Non	Modèl STT: `whisper` (pa défaut), `faster-whisper`, `sensevoice`
language	string	Non	Kode lang. `auto` pou deteksyon otomatik (pa défaut).
timestamps	boolean	Non	Gen ladann dat/tan nan nivo mo. Pa default: `false`
diarize	boolean	Non	Aktive diarization oratè. Par défaut: `false`

Paramèt	Tipe	Required	Deskripsyon
reference_audio	file	Wi	Referans vwa audio (10-30 segonn rekòmande). Max 20MB.
text	string	Wi	Text to speak in the cloned voice.
model	string	Non	Klone modèl: `chatterbox` (pa défaut), `cosyvoice2`, `gpt-sovits`
format	string	Non	fòma devwa: `mp3` (pa défaut), `wav`, `flac`
language	string	Non	Kòd lang objektif la. Li dwe sipòte pa modèl la chwazi.

Paramèt	Tipe	Required	Deskripsyon
file	file	Wi	Fichiè odyo sous (MP3, WAV, FLAC). Max 50MB.
target_voice	string	Wi	Identifyan vwa pou konvèti nan (itilize `/v1/voices/` pou lis vwa ki disponib)
model	string	Non	Modèl konvèsyon vwa: `openvoice` (pa défaut), `knn-vc`
format	string	Non	fòma devwa: `wav` (pa défaut), `mp3`, `flac`

Paramèt	Tipe	Required	Deskripsyon
file	file	Wi	Fichiè odyo sous nan lang orijinèl la. Max 100MB.
target_language	string	Wi	Kode lang target (e.g., `es`, `fr`, `de`, `ja`)
voice	string	Non	Voy pou rezilta tradiksyon an. Seleksyone otomatikman si li omite.
preserve_voice	boolean	Non	Tente pou kenbe oratè orijinal la

Paramèt	Tipe	Required	Deskripsyon
file	file	Wi	Fichiè odyo vwa sous la. Maksimòm 50MB.
voice	string	Wi	Identifyan vwa pou pale deyò a
model	string	Non	Modèl: `openvoice` (pa défaut), `chatterbox`
emotion	string	Non	Emosyon target: `neutral`, `happy`, `sad`, `angry`, `excited`
speed	float	Non	Ajustman vitès. Default: `1.0`. Range: `0.5` to `2.0`

file file	Fichiè son pou amelyore
denoise boolean	Activer la suppression du bruit (défaut: vrai)
enhance_clarity boolean	Enhance speech clarity (default: true)
super_resolution boolean	Amelyore kalite son (pa défaut: false)
strength integer	1-3 (fèb, mwayen, fò). Pa défaut: 2

file file	Fichiè son pou separe
model string	`demucs` (default) or `spleeter`
stems integer	Nimewo tige: 2, 4, 5, oswa 6 (pa défaut: 2)
format string	fòma devwa: `wav`, `mp3`, `flac`

file file	Fichiè son pou trete
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

file file	Fichiè son pou konvèti
format string	Fòmat objektif: `mp3`, `wav`, `flac`, `ogg`, `m4a`, `aac`
bitrate integer	Bitrate sortie an kbps: 64, 128, 192, 256, 320
sample_rate integer	Sample rate: 22050, 44100, 48000
channels string	`mono` or `stereo`

Paramèt	Tipe	Required	Deskripsyon
audio	file	Non*	Entèfas son (oswa `son` oswa `tèks` nesesè)
text	string	Non*	Enpòte tèks (oswa `audio` oswa `text` nesesè)
voice	string	Non	Voy pou repons AI. Pa défaut: `af_bella`
tts_model	string	Non	Modèl TTS pou repons lan. Pa default: `kokoro`
system_prompt	string	Non	Pwompt sistèm Custom pou AI
conversation_id	string	Non	Kontinye yon konvèsasyon ki egziste

Paramèt	Tipe	Deskripsyon
texts	array	Array of objects: `{text, model, voice}`. Max 50 items.
webhook_url	string	URL optional pou POST rezilta lè batch fini.

Paramèt	Tipe	Deskripsyon
file	file	Reference audio file (WAV, MP3, FLAC).
model	string	Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.

Paramèt	Tipe	Deskripsyon
model	string	Filtre pa ID modèl (e.g., `kokoro`)
language	string	Filtre pa kòd lang (e.g., `fr`)
gender	string	Filtre pa sèks: `male`, `female`, `neutral`

Paramèt	Required	Deskripsyon
uuid	Wi	UUID travay la retounen pa /v1/tts/ oswa /v1/voice-clone/.
format	Non	`srt` (pa défaut) oswa `vtt`.
download	Non	`1` pou voye `Content-Disposition: attachment` pou navigatè a ka sove epi pa montre.
language	Non	Yon konsèy pou modèl alignman an (deteksyon otomatik si li pa gen ladan l).

Paramèt	Tipe	Deskripsyon
word	string	Mo pou retounen (e.g. `GIF`, `Anthropic`). Word-boundary matched.
replacement	string	Li se yon eleman nan kòd la ki gen yon valè (pou egzanp, `j`) epi li ka itilize pou defini yon kòd (pou egzanp, `j`).
language	string	Kode ISO fasyal. Vide = aplike pou tout lang.
case_sensitive	boolean	`false` pa default. Konpare lèt ki pi piti ak pi gwo lè `true`.