Ndiyifumana njani iqhosha le-API?

Ubhaliso lwe-akhawunti ye-TTS.ai ekhululekileyo, emva koko uhambe kwi-akhawunti yakho ye-dashboard kwaye ucofe "Yenza iqhosha le-API." Iqhosha lakho liza kubekwa kuqala nge-sk-tts- kwaye liya kusetyenziswa ngokuzenzekelayo. Ii-akhawunti ezikhululekileyo zifumana 15,000 iimpawu zokuqalisa.

Ingaba i-API ihambelana nefomati ye-OpenAI?

Ewe, i-API yethu ilandela i-OpenAI-ehambelanayo nesicelo kunye nefomati yempendulo. Ukuba unekhowudi ekhoyo esebenzisa i-OpenAI's TTS API, ungatshintshela kwi-TTS.ai ngokutshintsha isiseko se-URL neqhosha le-API ngezinto ezincinci zekhowudi.

Ziziphi iilwimi zodweliso lwenkqubo ezixhaswa?

I-REST API isebenza nakweyiphi na ulwimi olunokwenza izicelo ze-HTTP. Sinika imizekelo yekhowudi kwi-Python, iJavaScript (i-Node.js ne-browser), i-cURL, kunye nezinye. Nayiphi na ulwimi olune-HTTP client library (Go, Ruby, Java, C #, PHP, njl.njl.) inokuyisebenzisa i-API.

Zithini iimfuno zokusetyenziswa kwe-API?

Ii-akhawunti ezikhululekileyo zimiselwe kwiimfuno ezi-3 ngeyure nganye. Iinkqubo ezihlawulelweyo zinomahluko ophezulu ngokusekwe kwinqanaba lakho lobhaliso: Umqambi (60/iyure), Oqeqeshiweyo (300/iyure), Umbutho (ungaphelelanga). Ii-rate limit headers ziquka kwimpendulo nganye ye-API.

Isebenza njani i-API yokubeka ixabiso?

Ukusetyenziswa kwe-API kuchitha iimpawu ngokusekwe kwinqanaba lemodeli kunye nobude bombhalo. Iimodeli ezikhululekileyo zisebenzisa iimpawu ezi-0, iimodeli eziqhelekileyo zisebenzisa iimpawu ezi-2x, kwaye iimodeli eziphezulu zisebenzisa iimpawu ezi-4x. Iimpawu ziquka zonke iinkqubo ezihlawulwayo kwaye zingathengwa ngokuzimeleyo njengeziqulathi ze-character.

Ziziphi iziphelo ezifumanekayo?

I-API ibonelela ngeendawo zokugqitywa zombhalo-ukuthetha (POST /v1/tts/), ukuthetha-ukuthetha (POST /v1/transcribe/), ukuclonelwa kwelizwi (POST /v1/voice-clone/), ukuguqulwa kwelizwi (POST /v1/voice-convert/), uguqulelo lwelizwi (POST /v1/speech-translate/), ukuphuculwa kwesandi (POST /v1/audio-enhance/), ukususwa kwelizwi, ukuhlukaniswa kwe-stem, iqhosha kunye ne-BPM analysis, kunye nezinye izinto.

Iifomati zesandi zeziphi ezibuyiselwa yi-API?

I-API ibuyisela umsindo kwifomati ye-WAV ngokumiselweyo. Ungakhankanya ifomati yemveliso (mp3, wav, ogg, flac) usebenzisa i-response_format parameter. I-MP3 icetyiswa kwiinkqubo ze-web, i-WAV isetyenziselwa uqhubekeko lwesandi oluthe kratya.

Ingaba kukho i-API yosasazo lwexesha elibonakalayo le-TTS?

Ewe, i-async API yethu ibuyisela umsebenzi we-UUID onokuthi uphendule izimvo. Kwiimodeli ezixhaswayo ezinjenge-Kokoro, ukwenziwa kwesandi kukhawuleza ngokwaneleyo kwiinkqubo zexesha elifutshane. I-polling endpoint ibuyisela i-audio URL xa uqhubekeko lugqityiwe.

Ndiziphatha njani iimposiso kwi-API?

I-API ibuyisela ikhowudi yesimo se-HTTP esiqhelekileyo (400 yesicelo esibi, 401 yeimpazamo zogunyaziso, 429 yemida yomgangatho, 500 yeimpazamo zomncedisi) kunye nemiyalezo yemposiso ye-JSON. Soloko ukhangela ikhowudi yesimo kunye nendawo yemposiso kwimpendulo yophando lwemposiso.

Ndingasebenzisa i-API kwinkqubo zentengiso?

Ewe, i-API icwangciswe ukusetyenziswa kwezorhwebo. Isandi esiveliswe nge-API singasetyenziswa kwiimveliso zakho, iinkqubo, kunye neenkonzo. Zonke iimodyuli zisebenzisa iilayisenisi ezivulekileyo, kwaye akukho mfuneko yokongeza iirhafu kwisandi esiveliswe.

Ingaba kukho ibhokisi yesandbox okanye indawo yovavanyo?

Iimodeli ze-free-tier (Kokoro, Piper, VITS, MeloTTS) zisebenza njengebhokisi yesandbox elungileyo - zisebenzisa iimpawu ezingenalutho kwaye zifumaneka kuzo zonke ii-akhawunti. Uvavanyo lodityaniswa kwakho ngeemodeli ezikhululekileyo phambi kokuba utshintshe kwimodeli eziphezulu zokusetyenziswa kokwenza.

Ndizidwelisa njani iingoma kunye neemodeli ezifumanekayo nge-API?

Sebenzisa i-GET /v1/voices uluhlu lwee-voices ezifumanekayo kunye neendlela zokucoca ezikhethwayo (imodeli, ulwimi, udidi). Sebenzisa i-GET /v1/models uluhlu lwee-TTS models ezifumanekayo kunye nokwazisa kwabo kunye nolwazi lwenqanaba. Zonke ii-endpoints zibuyisela iimpendulo ze-JSON.

Ingxelo ye Bug / Isicelo se Feature

Uxwebhu lwe-API

Yongeza i-TTS.ai kwinkqubo yakho nge-REST API yethu. Ifomati ehambelana ne-OpenAI yokuhamba ngokulula.

I-REST API OpenAI ehambelanayo Iimpendulo ze-JSON Inkxaso ye-Streaming

Iinkcukacha

I-TTS.ai API ibonelela ngenkqubo yokufikelela kuzo zonke iimpawu ze-platform: ukudibanisa umbhalo-ukuthetha, ukudlulisa umbhalo-ukuthetha, ukuklona umyalezo, ukuphuculwa kwesandi, kunye nezinye izinto. I-API isebenzisa i-REST eqhelekileyo kunye ne-JSON yesicelo/iimvakalelo.

Isitshixo se-API

Fumana iqhosha lakho le-API ukusuka Izicwangciso ze-akhawunti. Ifumaneka kwiinkqubo zePro kunye neEnterprise.

Isiseko se URL

https://api.tts.ai/v1/

Ugunyaziso:

Umthumeli we-token nge- Authorization okubhalwe emantla ephepha

Uqinisekiso

Umphakamo okhululekileyo — akukho qhosha lifunekayo. I-POST engaziwayo /v1/tts/ 5,000/day per IP, using any of our free models (piper, vits, melotts, kokoro). Ubhaliso lwe-akhawunti ekhululekileyo ukufumana 15,000 iimpawu zebhonasi kunye nokufikelela kwiimodeli eziphezulu.

Iimodeli zepremiyamu kunye nemida yexabiso eliphezulu, qinisekisa nge-Token yoMthumeli kwi- Authorization okubhalwe emantla ephepha.

Isihloko se-HTTP

Authorization: Bearer sk-tts-your-api-key-here

Gcina iqhosha lakho le-API lifihlakeleyo. Musa ukuwabelana kwikhowudi ye-client-side, iziqulathi zeefayili zabucala, okanye iilog. Jikelezisa amaqhosha rhoqo ukusuka kwimimiselo ye-akhawunti yakho.

I-SDKs

I-SDKs esemthethweni yenza kube lula ukudibanisa i-TTS.ai kwisicelo sakho. Zonke zivulekile kwaye zifumaneka kwi-GitHub.

Python

pip install ttsai

from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")
audio = client.generate(
    text="Hello world!",
    model="kokoro"
)
client.save(audio, "output.wav")

GitHub

JavaScript / Node.js

npm install @ttsainpm/ttsai

const { TTSClient } = require('@ttsainpm/ttsai');

const client = new TTSClient({
  apiKey: 'sk-tts-...'
});
const audio = await client.generate({
  input: 'Hello world!',
  model: 'kokoro'
});
await client.saveToFile(audio, 'output.wav');

GitHub

Isiseko se URL

Isiseko se URL: https://api.tts.ai/v1/

Zonke iziphelo zihambelana nale URL isiseko. Umzekelo, isiphelo se TTS si:

POST https://api.tts.ai/v1/tts/

Imida yexabiso

I-API itshintsha imida yexabiso ngenkqubo:

Iinkqubo	Izicelo/umzuzu	I-Concurrent	Ubude Obuphezulu Bokubhaliweyo
Iinketho zelizwe	10	2	500 iimpawu
Isiqalisi	30	3	1,000,000 iimpawu
I-Pro	60	5	1,000,000 iimpawu
I-Entreprise	300	20	50,000 iimpawu

Umda wexabiso lombhalo ophezulu ephepheni uqukiwe kwimpendulo nganye: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

Iindleko zetyala

Inkonzo	Ixabiso	Iyunithi
TTS (Iimodeli ezikhululekileyo: i-Piper, i-VITS, i-MeloTTS)	1,000 iimpawu	Iimpawu ezili-1000 nganye
TTS (Iimodeli eziqhelekileyo: Kokoro, CosyVoice 2, njl.njl.)	2,000 iimpawu	Iimpawu ezili-1000 nganye
TTS (Iimodeli zePremium: Tortoise, Chatterbox, njl. njl.)	4,000 iimpawu	Iimpawu ezili-1000 nganye
Uthetha ukuba UmbhaloName	2,000 iimpawu	Iifayile ze- CSV
I-Voice Cloning	4,000 iimpawu	Iimpawu ezili-1000 nganye
Umtshintshi WesandiName	3,000 iimpawu	Iifayile ze- CSV
Ukuphuculwa kwesandi	2,000 iimpawu	Iifayile ze- CSV
Ukususa iVocal / Ukuhlula iVocal	3,000-4,000 characters	Iifayile ze- CSV
Uguqulelo lomsebenzi kolunye ulwimi	5,000 iimpawu	Iifayile ze- CSV
Incoko YelizwiName	3,000 iimpawu	kwixesha ngalinye
Isitshixo & BPM Umfumani	Iinketho zelizwe	--
Umguquli WesandiName	Iinketho zelizwe	--

Umbhalo ukuya kuSpeech

POST /v1/tts/

Guqulela umbhalo kwisandi sokuthetha. Ibuyisela ifayile yesandi kwifomati eceliweyo.

Isiqu Sesicelo

Parameters	Udidi	Ifuneka	Inkcazelo
model	string	Akukho nanye	Imodeli ye-ID (umzekelo, `kokoro`, `chatterbox`, `piper`). Ukuba ilahlekile, siyakhetha ngokuzenzekelayo imodeli exhasa `ulwimi` oluceliweyo — `kokoro` lwe-en/ja/zh/ko/fr/de/it/pt/es/hi/ru, `piper` lwezinye ulwimi ezixhaswayo (ar/pl/nl/cs/da/fi/el/hu/tr/uk/vi/etc.).
text	string	Ewe	Umbhalo oguqulwe ube ngumbhalo. Isicelo ngasinye sinamachaphaza angama-500 (angaziwayo), ama-5,000 (i-akhawunti ekhululekileyo), ama-1,000,000 (inkqubo ehlawulweyo). Iingxelo ezide ziqhutywa ngokuzenzekelayo kwicala leseva.
voice	string	Ewe	I-Voice ID (sebenzisa `/v1/voices/` uluhlu lwee-voices ezifumanekayo)
format	string	Akukho nanye	Ifomati yemveliso: `mp3` (emiselweyo), `wav`, `flac`, `ogg`
speed	float	Akukho nanye	Ukuphindaphinda kwesantya sokuthetha. Okumiselweyo: `1.0`. Uluhlu: `0.5` ukuya `2.0`
language	string	Akukho nanye	Ikhowudi yoLwimi (umzekelo, `en`, `es`). Ifunyanwa ngokuzenzekelayo ukuba ilahlekile.
instructions	string	Akukho nanye	Ukusebenza / ukuhanjiswa kwee-cues (≤500 chars). umzekelo. `\`
pronunciations	object \| array	Akukho nanye	Ukuthetha-kunye-ngombuzo ngamnye kugqityiwe. Okanye `{\`
stream	boolean	Akukho nanye	Yenza ukuba kusebenze unikezelo lwempendulo. Okumiselweyo: `false`

Isicelo Somzekelo

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

I-SSML tags

Umbala we-amanani, amaxesha, imali, amanani efowuni, kunye ne-acronims kwi


                    
                        
                            i-interpret-as I-input Ithetha njenge
                        
                        
                            cardinal 1234 one thousand two hundred thirty-four
                            ordinal 21 twenty-first
                            date 1999-12-31 Disemba 31, 1999
                            time 14:30 two thirty PM
                            telephone +1-555-867-5309 plus one five five five eight six seven…
                            currency $1,234.56 one thousand two hundred thirty-four dollars and fifty-six cents
                            spell-out NASA N A S A

i-interpret-as	I-input	Ithetha njenge
`cardinal`	`1234`	one thousand two hundred thirty-four
`ordinal`	`21`	twenty-first
`date`	`1999-12-31`	Disemba 31, 1999
`time`	`14:30`	two thirty PM
`telephone`	`+1-555-867-5309`	plus one five five five eight six seven…
`currency`	`$1,234.56`	one thousand two hundred thirty-four dollars and fifty-six cents
`spell-out`	`NASA`	N A S A


                Uhlobo lomhla olumiselweyo luya mdy ngesiNgesi ne dmy naphi na; chaza ngaphezulu nge format=\

                
                    
                        Umzekelo
                        
                    
{
  "model": "kokoro",
  "voice": "af_bella",
  "text": "Your appointment is on <say-as interpret-as=\"date\">2026-04-26</say-as> at <say-as interpret-as=\"time\">14:30</say-as>. Please call <say-as interpret-as=\"telephone\">+1-555-867-5309</say-as> if you need to reschedule."
}
                

                Impendulo
                The TTS endpoint queues your request and returns a JSON response with a job UUID. You then poll for the result.

                Step 1: Submit request
                
                    
                        Response (JSON)
                    
{
  "uuid": "77b71db532874ce98e84a69a2d740d4c",
  "job_id": "f21316bb-aefa-480d-8523-701d1e3184ce",
  "status": "queued",
  "credits_used": 11,
  "credits_remaining": 15000
}
                

                Step 2: Poll for result
                
                    GET /v1/speech/results/?uuid=<job_uuid>
                
                Poll this endpoint every 1-2 seconds until status is completed or failed.
                
                    
                        Polling response (completed)
                    
{
  "status": "completed",
  "result_url": "https://api.tts.ai/static/downloads/77b71db5.../output.mp3"
}
                
                
                    
                        Polling response (still processing)
                    
{
  "status": "processing"
}
                

                Step 3: Download audio
                Fetch the result_url from the completed response to download the audio file.

                Umzekelo opheleleyo
                
                    
                        Python
                        
                    
import requests, time

API_KEY = "sk-tts-your-key"
BASE = "https://api.tts.ai"

# 1. Submit TTS request
resp = requests.post(f"{BASE}/v1/tts/", json={
    "model": "kokoro",
    "text": "Hello from TTS.ai!",
    "voice": "af_bella"
}, headers={"Authorization": f"Bearer {API_KEY}"})
data = resp.json()
uuid = data["uuid"]

# 2. Poll for result
while True:
    result = requests.get(f"{BASE}/v1/speech/results/",
        params={"uuid": uuid}).json()
    if result["status"] == "completed":
        # 3. Download audio
        audio = requests.get(result["result_url"])
        with open("output.mp3", "wb") as f:
            f.write(audio.content)
        break
    elif result["status"] == "failed":
        raise Exception(result.get("error", "Generation failed"))
    time.sleep(1.5)
                

                Streaming alternative: For supported models (Kokoro, MeloTTS), use POST /v1/tts/stream/ for real-time Server-Sent Events (SSE) streaming — no polling needed.



            
            
                Uthetha ukuba UmbhaloName
                
                    POST /v1/stt/
                
                Uguqulelo lwesandi kumbhalo. Ixhasa iilwimi ezili-99 ngokukhangela okuzenzekelayo.

                Isiqu Sesicelo (multipart/form-data)
                
                    
                        
                            Parameters Udidi Ifuneka Inkcazelo
                        
                        
                            
                                file
                                file
                                Ewe
                                Ifayili enesandi (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Ubuninzi 100MB.
                            
                            
                                model
                                string
                                Akukho nanye
                                Imodeli ye-STT: whisper (emiselweyo), faster-whisper, sensevoice
                            
                            
                                language
                                string
                                Akukho nanye
                                Ikhowudi yoLwimi. auto yokufumanisa ngokuzenzekelayo (okungagqibekanga).
                            
                            
                                timestamps
                                boolean
                                Akukho nanye
                                Quka ii-timestamps ezikwinqanaba legama. Okumiselweyo: false
                            
                            
                                diarize
                                boolean
                                Akukho nanye
                                Yenza i-diary yomthumeli isebenze. Okumiselweyo: false
                            
                        
                    
                

                Impendulo
                
                    
                        Impendulo ye-JSON
                    
{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}
                
            

            
            
                I-Voice Cloning
                
                    POST /v1/tts/clone/
                
                Yenza ukuthetha ngelizwi eliklonyelweyo. Layisha phezulu umbhalo nolwaziso lwesandi.

                Isiqu Sesicelo (multipart/form-data)
                
                    
                        
                            Parameters Udidi Ifuneka Inkcazelo
                        
                        
                            
                                reference_audio
                                file
                                Ewe
                                Uluhlu lwesandi sesandi (10-30 imizuzwana ecetyiswayo). Max 20MB.
                            
                            
                                text
                                string
                                Ewe
                                Umbhalo oza kuthetha ngesithethi esiklonyelweyo.
                            
                            
                                model
                                string
                                Akukho nanye
                                Imodeli yokuklona: chatterbox (emiselweyo), cosyvoice2, gpt-sovits
                            
                            
                                format
                                string
                                Akukho nanye
                                Ifomati yemveliso: mp3 (emiselweyo), wav, flac
                            
                            
                                language
                                string
                                Akukho nanye
                                Ikhowudi yegama elibekiweyo. Kufuneka ixhaswe yimodeli ekhethiweyo.
                            
                        
                    
                

                Impendulo
                Ibuyisela ifayile yesandi njenge data yesibini, efanayo ne-TTS endpoint.
            

            
            
                Umtshintshi WesandiName
                
                    POST /v1/voice-convert/
                
                Guqula isandi ukuba sisebenze njengesandi esihlukileyo. Layisha phezulu imvelaphi yesandi uze ukhethe ilizwi elibekiweyo.

                Isiqu Sesicelo (multipart/form-data)
                
                    
                        
                            Parameters Udidi Ifuneka Inkcazelo
                        
                        
                            
                                file
                                file
                                Ewe
                                Umthombo wefayili yesandi (MP3, WAV, FLAC). Ubuninzi be-50MB.
                            
                            
                                target_voice
                                string
                                Ewe
                                I-ID yesandi esimiselweyo sokuguqulela kuyo (sebenzisa /v1/voices/ uluhlu lweesandi ezifumanekayo)
                            
                            
                                model
                                string
                                Akukho nanye
                                Imodeli yokuguqula ilizwi: openvoice (emiselweyo), knn-vc
                            
                            
                                format
                                string
                                Akukho nanye
                                Ifomati yemveliso: wav (emiselweyo), mp3, flac
                            
                        
                    
                

                Isicelo Somzekelo
                
                    
                        cURL
                        
                    
curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav
                

                Impendulo
                Ibuyisela ifayile yesandi eguqulweyo njenge data yesibini.
            

            
            
                Uguqulelo lomsebenzi kolunye ulwimi
                
                    POST /v1/speech-translate/
                
                Gcina i-audio ethethayo kwilwimi elinye ukuya kwelinye. Idibanisa ukuthetha-ukubhaliweyo, uguqulelo, kunye nokubhala-ukubhaliweyo kwintlanganiso enye.

                Isiqu Sesicelo (multipart/form-data)
                
                    
                        
                            Parameters Udidi Ifuneka Inkcazelo
                        
                        
                            
                                file
                                file
                                Ewe
                                Ifayile yombhalo ophezulu ephepheni kwilwimi olusemthethweni. Ubuninzi 100MB.
                            
                            
                                target_language
                                string
                                Ewe
                                Ikhowudi yoLwimi oluSebenzayo (umzekelo. es, fr, de, ja)
                            
                            
                                voice
                                string
                                Akukho nanye
                                Ilizwi lemveliso eguqulelweyo. Ikhethiwe ngokuzenzekelayo ukuba ilahliwe.
                            
                            
                                preserve_voice
                                boolean
                                Akukho nanye
                                Zama ukugcina iimpawu zokuqala zesandi somthumeli. Okwendalo: false
                            
                        
                    
                

                Impendulo
                
                    Impendulo ye-JSON
{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}
                
            

            
            
                Ukuthetha-thethana
                
                    POST /v1/speech-to-speech/
                
                Tshintsha uhlobo lokuthetha, intliziyo, okanye ukunikezelwa ngelixa ugcina imixholo. Isetyenziswa ukuhlela into, ukukhawuleza, kunye nokuchaza.

                Isiqu Sesicelo (multipart/form-data)
                
                    
                        
                            Parameters Udidi Ifuneka Inkcazelo
                        
                        
                            
                                file
                                file
                                Ewe
                                Umthombo wefayili yesandi yesandi. Max 50MB.
                            
                            
                                voice
                                string
                                Ewe
                                I-ID yesandi esithe nkqo sokuthetha-thethana lwemveliso
                            
                            
                                model
                                string
                                Akukho nanye
                                Imodeli: openvoice (emiselweyo), chatterbox
                            
                            
                                emotion
                                string
                                Akukho nanye
                                I-target emotion: neutral, happy, sad, angry, excited
                            
                            
                                speed
                                float
                                Akukho nanye
                                Ulungelelaniso lwesantya. Okungagqibekanga: 1.0. Uluhlu: 0.5 ukuya 2.0
                            
                        
                    
                

                Impendulo
                Ibuyisela ifayile yesandi eguqulweyo njenge data yesibini.
            

            
            
                Izixhobo zesandi
                Iziphelo zokuqhubekeka kwesandi zokuphucula, ukususwa kwesandi, ukuhlukaniswa kwe-stem, kunye nezinye izinto.

                
                
                    
                        
                            POST /v1/audio/enhance/
                        
                        Yenza ngcono umgangatho wesandi: i-denoise, yenza ngcono ucacileyo, isisombululo esiphezulu.
                        
                            
                                
                                    file file Ifayile enesandi ekufuneka iphuculwe
                                    denoise boolean Yenza i-denoise (emiselweyo: inyaniso)
                                    enhance_clarity boolean Yongeza ukubonakala kokuthetha (okungagqibekanga: inyaniso)
                                    super_resolution boolean Umgangatho wesandi ophezulu (okwendalo: ubuxoki)
                                    strength integer 1- 3 (ekhanyayo, ephakathi, enamandla). Okwendalo: 2
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/separate/
                        
                        Yahlula izithethi eziphuma kwizixhobo (ukususwa kwesandi) okanye uhlukanise zibe ziistems.
                        
                            
                                
                                    file file Ifayile yesandi emayihlukaniswe
                                    model string demucs (Okumiselweyo) okanye spleeter
                                    stems integer Inani leentyatyambo: 2, 4, 5, okanye 6 (okwendalo: 2)
                                    format string Ifomati yemveliso: wav, mp3, flac
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/dereverb/
                        
                        Susa i-echo ne-reverb kwi-audio recordings.
                        
                            
                                
                                    file file Ifayile yesandi emayiqhubekeke
                                    type string echo or reverb (default: both)
                                    intensity integer 1-5 (default: 3)
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/analyze/
                            Ekhululekileyo
                        
                        Uvavanyo lwesandi ukuvavanya iqhosha, i-BPM, kunye notyikityo lwexesha.
                        
                            
                                
                                    file file Ifayile yesandi emayiqwalaselwe
                                
                            
                        
                        
                            Impendulo
{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/convert/
                            Ekhululekileyo
                        
                        Guqula isandi phakathi kwefomati.
                        
                            
                                
                                    file file Ifayile yesandi emayiguqulwe
                                    format string Ubume benjongo: mp3, wav, flac, ogg, m4a, aac
                                    bitrate integer Imveliso ye bitrate kwi kbps: 64, 128, 192, 256, 320
                                    sample_rate integer Isampuli: 22050, 44100, 48000
                                    channels string mono okanye stereo
                                
                            
                        
                    
                
            

            
            
                Incoko YelizwiName
                
                    POST /v1/voice-chat/
                
                Thumela isandi okanye umbhalo uze ufumane impendulo ye-AI ngelizwi elidityanisiweyo.

                Isiqu Sesicelo (multipart/form-data okanye JSON)
                
                    
                        
                            Parameters Udidi Ifuneka Inkcazelo
                        
                        
                            
                                audio
                                file
                                Akukho nanye*
                                Ungeniso lwesandi (okanye audio okanye text lufuneka)
                            
                            
                                text
                                string
                                Akukho nanye*
                                Ungeniso lombhalo (okanye audio okanye text olufunekayo)
                            
                            
                                voice
                                string
                                Akukho nanye
                                Ilizwi le-AI eliphendulayo. Elingagqibekanga: af_bella
                            
                            
                                tts_model
                                string
                                Akukho nanye
                                Imodeli ye-TTS yempendulo. Okumiselweyo: kokoro
                            
                            
                                system_prompt
                                string
                                Akukho nanye
                                Indlela yokusebenza Yokucofa-Ku-Phezulu
                            
                            
                                conversation_id
                                string
                                Akukho nanye
                                Qhubeka nonxibelelwano olukhoyo
                            
                        
                    
                

                Impendulo
                
                    Impendulo ye-JSON
{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}
                
            

            
            
                TTS
                
                    POST /v1/tts/batch/
                
                Thumela imibhalo emininzi yokwakha i TTS ngokuthe tye. Ungakhetha ukufumana umnxeba we webhook xa yonke imisebenzi igqityiwe.

                Iiparamitha
                
                    Iparamitha Udidi Inkcazelo
                    
                        texts array Array of objects: {text, model, voice}. Max 50 items.
                        webhook_url string I-URL ekhethiweyo yokuthumela iziphumo xa iqela ligqityiwe.
                    
                

                Impendulo
                
                    Impendulo ye-JSON
{
  "batch_id": "abc123",
  "total": 3,
  "completed": 0,
  "status": "processing"
}
                
                Inkqubela ye-poll nge-GET /v1/tts/batch/result/?batch_id=abc123
            

            
            
                Ukufaka ilizwi
                
                    POST /v1/voice-embed/
                
                Ibala phambi koshicilelo ukufaka ilizwi ukusuka kwisandi esibhekisa kuyo. Sebenzisa i-embed_id ebuyiselweyo kwisicelo sokukrola ilizwi esilandelayo sokudala ngokukhawuleza.

                Iiparamitha
                
                    Iparamitha Udidi Inkcazelo
                    
                        file file Reference audio file (WAV, MP3, FLAC).
                        model string Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.
                    
                

                Impendulo
                
                    Impendulo ye-JSON
{
  "embed_id": "emb_abc123",
  "model": "chatterbox",
  "duration_ms": 450
}
                
            

            
            
                Uvavanyo lwezempilo
                
                    GET /v1/health/
                
                Khangela iimeko zeseva ye-GPU, iimodyuli ezilayishwe, kunye nobungakanani bofolo. Akukho bubhali bufunekayo. Igcinwe kwindawo yokugcina imizuzu engama-30.

                Impendulo
                
                    Impendulo ye-JSON
{
  "status": "online",
  "latency_ms": 45,
  "queue_size": 3,
  "models_loaded": ["kokoro", "chatterbox", "cosyvoice2"]
}
                
            

            
            
                Uluhlu lweemodeli
                
                    GET /v1/models/
                
                Ibuyisela uluhlu lwazo zonke iimodyuli ezifumanekayo kunye neempawu zawo.

                Impendulo
                
                    Impendulo ye-JSON
{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}
                
            

            
            
                Uluhlu Lwesandi
                
                    GET /v1/voices/
                
                Ibuyisela uluhlu lwazo zonke iimpikiswano ezifumanekayo, ezihluziweyo ngokwendlela okanye ulwimi.

                Iparameters Zombuzo
                
                    
                        
                            Parameters Udidi Inkcazelo
                        
                        
                            
                                model
                                string
                                Icebo lokucoca ulwelo ngemodeli ye-ID (umzekelo, kokoro)
                            
                            
                                language
                                string
                                Icebo lokucoca ulwelo ngekhowudi yolwimi (umzekelo. en)
                            
                            
                                gender
                                string
                                Icebo lokucoca ulwelo ngokwesini: male, female, neutral
                            
                        
                    
                

                Impendulo
                
                    Impendulo ye-JSON
{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}
                
            

            
            
                Isihloko esilandelayo entsha
                
                    GET /v1/speech/subtitles/?uuid=<job_uuid>&format=srt|vtt&download=1
                
                Yenza izihloko ezifakelweyo ngokuhambelanayo nakweyiphi na imisebenzi ye-TTS egqityiweyo. Iqhuba ulungelelaniso lwe-Whisper ngaphezulu kwesandi kwaye ibuyisela i-SRT okanye i-WebVTT. Isiphumo sigcinwa kwi-cache kwidiski ukuze ubizo lwesibini lwe-uuid efanayo lifunde idiski.
                Iparameters Zombuzo
                
                    
                        Parameters Ifuneka Inkcazelo
                        
                            uuid Ewe Umsebenzi we-UUID obuyiselwe ngu /v1/tts/ okanye /v1/voice-clone/.
                            format Akukho nanye srt (okungagqibekanga) okanye vtt.
                            download Akukho nanye 1 ukuthumela Imixholo-Ukwahlulahlula: isiqhoboshi ukuze umkhangeli zincwadi ugcino ngaphezu kokubonakalisa.
                            language Akukho nanye Icebiso kwimodeli yolungelelaniso (ifunyanwa ngokuzenzekelayo ukuba ilahliwe).
                        
                    
                
                
                    cURL
curl "https://api.tts.ai/v1/speech/subtitles/?uuid=$UUID&format=srt&download=1" -o subtitles.srt
                
            

            
            
                Igama lefayile le CVS: entsha
                
                    GET
                    POST
                    DELETE
                    /api/v1/pronunciations/
                
                Nceda ucacise i-TTS engine indlela yokuchaza amagama athile. Iingxelo ezigciniweyo zisetyenziswa ngokuzenzekelayo kwisicelo se-TTS ngasinye osenza. Umda we-200-entry per-account.
                Isiqu Sesicelo (POST)
                
                    
                        Parameters Udidi Inkcazelo
                        
                            word string Igama eligqitywa ngaphezulu (umzekelo. GIF, Anthropic). Umda wegama uthelekiswa.
                            replacement string Indlela yokuyibhala ngayo le modeli (umzekelo jiff, ann THROP ick).
                            language string Ikhowudi ye ISO ekhethiweyo. Engenanto = isebenza kuwo onke ulwimi.
                            case_sensitive boolean ubuxoki omiselweyo. Umzekelo ofanayo xa yinyaniso.
                        
                    
                
                
                    cURL
# Save an entry
curl -X POST https://tts.ai/api/v1/pronunciations/ \
  -H "Authorization: Bearer sk-tts-..." \
  -H "Content-Type: application/json" \
  -d '{"word": "GIF", "replacement": "jiff"}'

# List your entries
curl https://tts.ai/api/v1/pronunciations/ -H "Authorization: Bearer sk-tts-..."

# Delete entry by id
curl -X DELETE "https://tts.ai/api/v1/pronunciations/?id=42" -H "Authorization: Bearer sk-tts-..."
                
                Ungadlula kwakhona i-per-isicelo sokungasebenzisi ngaphandle kokugcina - dibanisa iimvumi nakweyiphi na /v1/tts/ uqhagamshelwano njengento okanye umqolo (bona i-TTS endpoint params).
            

            
            
                Umbhali Wenqaku entsha
                Lahla < code > < script > < code > tag kwiphepha ngalinye lenqaku kwaye abakhenkethi bafumana umfundi oqinileyo ochaza iphepha xa unqakraza. Ikhangela ngokuzenzekelayo isiqu senqaku, ixhasa ilizwi eliqhelekileyo / imodeli / indawo / umbala wesiqhelo.
                
                    HTML
<script src="https://tts.ai/narrator.js"
    data-pk="pk-tts-your-publishable-key"
    data-voice="af_bella"
    data-model="kokoro"
    data-extract="auto"
    data-position="bottom"
    data-color="#e60000"
    data-locale="en"></script>
                
                Iinketho
                
                    
                        Parameters Inkcazelo
                        
                            data-pk Isitshixo esishicilelweyo (pk-tts-…). Imida yethambeka isebenza ngesixhobo allowed_domains.
                            data-voice I-ID yesandi. af_bella engagqibekanga.
                            data-model I-TTS model ID. kokoro engagqibekanga.
                            data-extract auto (okungagqibekanga) — izama inqaku/isihloko/.post-content/.entry-content abakhethi, ibuyela umva kwiqela leparagraph elingenanto. Okanye idlulise nayiphi na i-CSS umkhethi ukumisela into ekhethekileyo.
                            data-position bottom (okungagqibekanga) okanye top.
                            data-color Umbala we-accent (noma yimuphi umbala we-CSS). Okwendalo #e60.
                            data-min-chars / data-max-chars Yiya ngaphezulu kwe bar ukuba inqaku lifutshane kune min- chars (okwendalo 200). I Cap ingxelo kwi max- chars (okwendalo 50, 000).
                        
                    
                
                Umthombo kwi-GitHub: 
            


            
            
                Isixhobo seqhosha lokulinganisa
                Uhlobo lweqhosha elinomgca olufakelweyo. Libonisa ecaleni kwe

Parameters	Inkcazelo
`data-pk`	Isitshixo esishicilelweyo (pk-tts-…). Imida yethambeka isebenza ngesixhobo `allowed_domains`.
`data-voice`	I-ID yesandi. `af_bella` engagqibekanga.
`data-model`	I-TTS model ID. `kokoro` engagqibekanga.
`data-extract`	`auto` (okungagqibekanga) — izama inqaku/isihloko/.post-content/.entry-content abakhethi, ibuyela umva kwiqela leparagraph elingenanto. Okanye idlulise nayiphi na i-CSS umkhethi ukumisela into ekhethekileyo.
`data-position`	`bottom` (okungagqibekanga) okanye `top`.
`data-color`	Umbala we-accent (noma yimuphi umbala we-CSS). Okwendalo `#e60`.
`data-min-chars` / `data-max-chars`	Yiya ngaphezulu kwe bar ukuba inqaku lifutshane kune min- chars (okwendalo 200). I Cap ingxelo kwi max- chars (okwendalo 50, 000).

Parameters	Udidi	Ifuneka	Inkcazelo
file	file	Ewe	Ifayili enesandi (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Ubuninzi 100MB.
model	string	Akukho nanye	Imodeli ye-STT: `whisper` (emiselweyo), `faster-whisper`, `sensevoice`
language	string	Akukho nanye	Ikhowudi yoLwimi. `auto` yokufumanisa ngokuzenzekelayo (okungagqibekanga).
timestamps	boolean	Akukho nanye	Quka ii-timestamps ezikwinqanaba legama. Okumiselweyo: `false`
diarize	boolean	Akukho nanye	Yenza i-diary yomthumeli isebenze. Okumiselweyo: `false`

Parameters	Udidi	Ifuneka	Inkcazelo
reference_audio	file	Ewe	Uluhlu lwesandi sesandi (10-30 imizuzwana ecetyiswayo). Max 20MB.
text	string	Ewe	Umbhalo oza kuthetha ngesithethi esiklonyelweyo.
model	string	Akukho nanye	Imodeli yokuklona: `chatterbox` (emiselweyo), `cosyvoice2`, `gpt-sovits`
format	string	Akukho nanye	Ifomati yemveliso: `mp3` (emiselweyo), `wav`, `flac`
language	string	Akukho nanye	Ikhowudi yegama elibekiweyo. Kufuneka ixhaswe yimodeli ekhethiweyo.

Parameters	Udidi	Ifuneka	Inkcazelo
file	file	Ewe	Umthombo wefayili yesandi (MP3, WAV, FLAC). Ubuninzi be-50MB.
target_voice	string	Ewe	I-ID yesandi esimiselweyo sokuguqulela kuyo (sebenzisa `/v1/voices/` uluhlu lweesandi ezifumanekayo)
model	string	Akukho nanye	Imodeli yokuguqula ilizwi: `openvoice` (emiselweyo), `knn-vc`
format	string	Akukho nanye	Ifomati yemveliso: `wav` (emiselweyo), `mp3`, `flac`

Parameters	Udidi	Ifuneka	Inkcazelo
file	file	Ewe	Ifayile yombhalo ophezulu ephepheni kwilwimi olusemthethweni. Ubuninzi 100MB.
target_language	string	Ewe	Ikhowudi yoLwimi oluSebenzayo (umzekelo. `es`, `fr`, `de`, `ja`)
voice	string	Akukho nanye	Ilizwi lemveliso eguqulelweyo. Ikhethiwe ngokuzenzekelayo ukuba ilahliwe.
preserve_voice	boolean	Akukho nanye	Zama ukugcina iimpawu zokuqala zesandi somthumeli. Okwendalo: `false`

Parameters	Udidi	Ifuneka	Inkcazelo
file	file	Ewe	Umthombo wefayili yesandi yesandi. Max 50MB.
voice	string	Ewe	I-ID yesandi esithe nkqo sokuthetha-thethana lwemveliso
model	string	Akukho nanye	Imodeli: `openvoice` (emiselweyo), `chatterbox`
emotion	string	Akukho nanye	I-target emotion: `neutral`, `happy`, `sad`, `angry`, `excited`
speed	float	Akukho nanye	Ulungelelaniso lwesantya. Okungagqibekanga: `1.0`. Uluhlu: `0.5` ukuya `2.0`

file file	Ifayile enesandi ekufuneka iphuculwe
denoise boolean	Yenza i-denoise (emiselweyo: inyaniso)
enhance_clarity boolean	Yongeza ukubonakala kokuthetha (okungagqibekanga: inyaniso)
super_resolution boolean	Umgangatho wesandi ophezulu (okwendalo: ubuxoki)
strength integer	1- 3 (ekhanyayo, ephakathi, enamandla). Okwendalo: 2

file file	Ifayile yesandi emayihlukaniswe
model string	`demucs` (Okumiselweyo) okanye `spleeter`
stems integer	Inani leentyatyambo: 2, 4, 5, okanye 6 (okwendalo: 2)
format string	Ifomati yemveliso: `wav`, `mp3`, `flac`

file file	Ifayile yesandi emayiqhubekeke
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

file file	Ifayile yesandi emayiguqulwe
format string	Ubume benjongo: `mp3`, `wav`, `flac`, `ogg`, `m4a`, `aac`
bitrate integer	Imveliso ye bitrate kwi kbps: 64, 128, 192, 256, 320
sample_rate integer	Isampuli: 22050, 44100, 48000
channels string	`mono` okanye `stereo`

Parameters	Udidi	Ifuneka	Inkcazelo
audio	file	Akukho nanye*	Ungeniso lwesandi (okanye `audio` okanye `text` lufuneka)
text	string	Akukho nanye*	Ungeniso lombhalo (okanye `audio` okanye `text` olufunekayo)
voice	string	Akukho nanye	Ilizwi le-AI eliphendulayo. Elingagqibekanga: `af_bella`
tts_model	string	Akukho nanye	Imodeli ye-TTS yempendulo. Okumiselweyo: `kokoro`
system_prompt	string	Akukho nanye	Indlela yokusebenza Yokucofa-Ku-Phezulu
conversation_id	string	Akukho nanye	Qhubeka nonxibelelwano olukhoyo

Iparamitha	Udidi	Inkcazelo
texts	array	Array of objects: `{text, model, voice}`. Max 50 items.
webhook_url	string	I-URL ekhethiweyo yokuthumela iziphumo xa iqela ligqityiwe.

Iparamitha	Udidi	Inkcazelo
file	file	Reference audio file (WAV, MP3, FLAC).
model	string	Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.

Parameters	Udidi	Inkcazelo
model	string	Icebo lokucoca ulwelo ngemodeli ye-ID (umzekelo, `kokoro`)
language	string	Icebo lokucoca ulwelo ngekhowudi yolwimi (umzekelo. `en`)
gender	string	Icebo lokucoca ulwelo ngokwesini: `male`, `female`, `neutral`

Parameters	Ifuneka	Inkcazelo
uuid	Ewe	Umsebenzi we-UUID obuyiselwe ngu /v1/tts/ okanye /v1/voice-clone/.
format	Akukho nanye	`srt` (okungagqibekanga) okanye `vtt`.
download	Akukho nanye	`1` ukuthumela `Imixholo-Ukwahlulahlula: isiqhoboshi` ukuze umkhangeli zincwadi ugcino ngaphezu kokubonakalisa.
language	Akukho nanye	Icebiso kwimodeli yolungelelaniso (ifunyanwa ngokuzenzekelayo ukuba ilahliwe).

Parameters	Udidi	Inkcazelo
word	string	Igama eligqitywa ngaphezulu (umzekelo. `GIF`, `Anthropic`). Umda wegama uthelekiswa.
replacement	string	Indlela yokuyibhala ngayo le modeli (umzekelo `jiff`, `ann THROP ick`).
language	string	Ikhowudi ye ISO ekhethiweyo. Engenanto = isebenza kuwo onke ulwimi.
case_sensitive	boolean	`ubuxoki` omiselweyo. Umzekelo ofanayo xa `yinyaniso`.