Kiel mi ricevas API-ŝlosilon?

Registriĝu por libera TTS.ai konto, tiam iru al via kontobreto kaj alklaku "Generi API-ŝlosilon". Via ŝlosilo estos antaŭmetita kun sk-tts- kaj povas esti uzata tuj. Senpagaj kontoj ricevas 15,000 signojn por komenci.

Ĉu la API kongruas kun la formato de OpenAI?

Jes, nia API sekvas OpenAI-kongruajn petajn kaj respondajn formatojn. Se vi havas ekzistantan kodon kiu uzas la TTS API de OpenAI, vi povas ŝanĝi al TTS.ai per ŝanĝo de la baza URL kaj API-ŝlosilo kun minimumaj kodŝanĝoj.

Kiujn programlingvojn oni subtenas?

La REST API funkcias kun iu ajn lingvo kiu povas fari HTTP-petojn. Ni provizas kodekzemplojn en Pitono, Ĝavoskripto (Node. js kaj retumilo), cURL, kaj pli. Iu ajn lingvo kun HTTP-klienta biblioteko (Go, Ruby, Java, C#, PHP, ktp.) povas uzi la API.

Kio estas la limoj de la API-rapideco?

Senpagaj kontoj estas limigitaj al 3 petoj por horo. Pagaj planoj havas pli altajn limojn bazitajn sur via abonnivelo: Starter (60/ horo), Professional (300/ horo), Enterprise (nelimigita). Kapoj de rapidlimoj estas inkluditaj en ĉiu API-respondo.

Kiel funkcias API-prezoj kaj kreditoj?

La uzo de API konsumas kreditojn bazitajn sur la modelonivelo kaj tekstolongo. Senpagaj modeloj uzas 0 kreditojn, normalaj modeloj uzas 2 kreditojn por 1K signoj, kaj premiumaj modeloj uzas 4 kreditojn por 1K signoj. Kreditoj estas inkluditaj en ĉiuj pagaj planoj kaj ankaŭ povas esti aĉetataj aparte.

Kiuj finpunktoj estas disponeblaj?

La API provizas finpunktojn por teksto-al-parolo (POST /v1/tts/), parolado-al-teksto (POST /v1/transcribe/), voĉo-klonado (POST /v1/voice-clone/), voĉo-konverto (POST /v1/voice-convert/), voĉo-traduko (POST /v1/speech-translate/), aŭda plibonigo (POST /v1/audio-enhance/), voĉa forigo, stem-divido, klavo kaj BPM-analizo, kaj pli.

Kiujn sonajn formatojn la API redonas?

La API apriore redonas sonon en WAV- formato. Vi povas specifi la eligon (mp3, wav, ogg, flac) per la parametro response_ format. MP3 estas rekomendita por retaj aplikaĵoj, WAV por plua sonprilaborado.

Ĉu ekzistas fluanta API por realtempa TTS?

Jes, nia nesinkrona API redonas taskon UUID kiun vi povas enketi por rezultoj. Por subtenataj modeloj kiel Kokoro, aŭda generado estas sufiĉe rapida por preskaŭ realtempaj aplikaĵoj. La enketa fina punkto redonas la aŭdan URL kiam la prilaborado estas kompleta.

Kiel mi traktas erarojn en la API?

La API redonas normalajn HTTP- statajn kodojn (400 por malbonaj petoj, 401 por aŭtentigo- eraroj, 429 por rapidecaj limoj, 500 por servilo- eraroj) kun JSON- eraromesaĝoj. Ĉiam kontrolu la statkodon kaj la erarkampon en respondoj por ĝusta erarotraktado.

Ĉu mi povas uzi la API por komercaj aplikaĵoj?

Jes, la API estas desegnita por komerca uzo. Sono generita tra la API povas esti uzata en viaj produktoj, aplikaĵoj, kaj servoj. Ĉiuj modeloj uzas malfermkodajn permesilojn, kaj ne estas aldonaj rajtoj pri generita sono.

Ĉu ekzistas sabloŝranko aŭ testa medio?

Liberaj modeloj (Kokoro, Piper, VITS, MeloTTS) servas kiel bonega sabloŝranko — ili uzas nulon da signoj kaj estas haveblaj por ĉiuj kontoj. Testu vian integriĝon kun liberaj modeloj antaŭ ol ŝanĝi al altnivelaj modeloj por produkta uzo.

Kiel mi listigas disponeblajn voĉojn kaj modelojn per la API?

Uzu GET /v1/voices por listigi ĉiujn disponeblajn voĉojn kun filtradaj opcioj (modelo, lingvo, sekso). Uzu GET /v1/models por listigi ĉiujn disponeblajn TTS-modelojn kun iliaj kapabloj kaj nivelaj informoj. Ambaŭ finpunktoj redonas JSON-respondojn.

Raporti cimon / funkcipeton

API-dokumentado

Integri TTS.ai en viajn aplikaĵojn per nia REST API. OpenAI-kongrua formato por facila migrado.

REST API OpenAI kongrua JSON- respondoj Subteno por fluado

& Priskribo:

La TTS.ai API disponigas programaran aliron al ĉiuj funkcioj de la platformo: sintezo de teksto al parolado, transskribo de parolado al teksto, voĉo-klonado, aŭda plibonigo, kaj pli. La API uzas normajn REST-konvenciojn kun JSON-peto/respondaj korpoj.

API-ŝlosilo

Preni vian API-ŝlosilon de Kontoagordo. Disponebla en Pro kaj Enterprise planoj.

Baza URLo

https://api.tts.ai/v1/

Aŭtentigo

Portisto- Tokeno tra Authorization kapo

Aŭtentigo

Libera nivelo — ne necesas ŝlosilo. Anoncaj mesaĝoj al /v1/tts/ labori sen ajna aŭtentigo, ĝis 5,000 signoj/tage por IP, uzante iun ajn el niaj liberaj modeloj (piper, vits, melotts, kokoro). Registriĝu por libera konto por ricevi 15,000 bonusajn karakterojn kaj aliron al premiumaj modeloj.

Ĉiuj API-petoj bezonas aŭtentigon per portanta signoĉeno en la Authorization kapo.

HTTP- kapo

Authorization: Bearer sk-tts-your-api-key-here

Konservu vian API-ŝlosilon sekreta. Ne kunhavigu ĝin en klientflanka kodo, publikaj deponejoj, aŭ protokoloj. Turnu ŝlosilojn regule el viaj kontagordo.

SDKoj

Oficialaj SDK-oj faciligas integri TTS.ai en vian aplikaĵon. Ambaŭ estas malfermkodaj kaj haveblaj ĉe GitHub.

Python

pip install ttsai

from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")
audio = client.generate(
    text="Hello world!",
    model="kokoro"
)
client.save(audio, "output.wav")

GitHub

JavaScript / Node.js

npm install @ttsainpm/ttsai

const { TTSClient } = require('@ttsainpm/ttsai');

const client = new TTSClient({
  apiKey: 'sk-tts-...'
});
const audio = await client.generate({
  input: 'Hello world!',
  model: 'kokoro'
});
await client.saveToFile(audio, 'output.wav');

GitHub

Baza URLo

Baza URLo: https://api.tts.ai/v1/

Ĉiuj finpunktoj estas relative al tiu baza URLo. Ekzemple, la TTS- finpunkto estas:

POST https://api.tts.ai/v1/tts/

Limigoj de rapideco

API-rapidecaj limoj varias laŭ plano:

Plano	Petoj/min	Konkurenta	Maksimuma tekstolongo
Libera	10	2	500 signoj
Lanĉilo	30	3	1,000,000 signoj
Pro	60	5	1,000,000 signoj
Enterpriseusa. kgm	300	20	50,000 signoj

Kaplinioj pri rapidolimo estas inkludataj en ĉiu respondo: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

Kreditaj kostoj

Servo	Kostoj	Unuo
TTS (liberaj modeloj: Piper, VITS, MeloTTS)	1 kredito	por 1, 000 signoj
TTS (Normaj modeloj: Kokoro, CosyVoice 2, ktp.)	2 kreditoj	por 1, 000 signoj
TTS (Premiaj modeloj: Tortoise, Chatterbox, ktp.)	4 kreditoj	por 1, 000 signoj
Parolo al tekstoComment	2 kreditoj	per minuto de aŭdo
Voĉa klonado	4 kreditoj	por 1, 000 signoj
VoĉŝanĝiloName	3 kreditoj	per minuto de aŭdo
Sona plibonigo	2 kreditoj	per minuto de aŭdo
Voĉforigo / Voĉdivido	3- 4 kreditoj	per minuto de aŭdo
ParoltradukoName	5 kreditoj	per minuto de aŭdo
Voĉa babilejoName	3 kreditoj	per vico
& BPM- serĉilo	Libera	--
SonkonvertiloName	Libera	--

Teksto- al- ParoloComment

POST /v1/tts/

Konverti tekston al parola aŭdo. Redonas sondosieron en la dezirata formato.

Petokorpo

Parametroj	& Tipo:	Necesa	Priskribo
model	string	Ne	Modelo-identigilo (ekz. `kokoro`, `chatterbox`, `piper`)
text	string	Jes	Teksto konvertenda al parolado (maksimume 5, 000 signoj por Pro, 50, 000 por Enterprise)
voice	string	Jes	Voĉa identigilo (uzu `/v1/voices/` por listigi disponeblajn voĉojn)
format	string	Ne	Eliga formato: `mp3` (default), `wav`, `flac`, `ogg`
speed	float	Ne	Parolrapideca multiplikilo. Defaŭlte: `1.0`. Intervalo: `0.5` ĝis `2.0`
language	string	Ne	Lingva kodo (ekz. `en`, `es`). Aŭtomate detektita se omita.
instructions	string	Ne	Agado / liverado de indikoj (≤500 signoj). ekz. < kodo >\
pronunciations	object \| array	Ne	Per-peto elparolo anstataŭigas. Aŭ `{\`
stream	boolean	Ne	Ebligi fluan respondon. Defaŭlte: `false`

Ekzemplopeto

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

SSML etikedoj

Enmeti nombrojn, datojn, valutojn, telefonnumerojn kaj akronimojn en


                    
                        
                            interpret-as Enigo Parolita kiel
                        
                        
                            cardinal 1234 one thousand two hundred thirty-four
                            ordinal 21 twenty-first
                            date 1999-12-31 Decembro tridek unua, dek naŭ naŭdek naŭ
                            time 14:30 two thirty PM
                            telephone +1-555-867-5309 plus one five five five eight six seven…
                            currency $1,234.56 one thousand two hundred thirty-four dollars and fifty-six cents
                            spell-out NASA N A S A

interpret-as	Enigo	Parolita kiel
`cardinal`	`1234`	one thousand two hundred thirty-four
`ordinal`	`21`	twenty-first
`date`	`1999-12-31`	Decembro tridek unua, dek naŭ naŭdek naŭ
`time`	`14:30`	two thirty PM
`telephone`	`+1-555-867-5309`	plus one five five five eight six seven…
`currency`	`$1,234.56`	one thousand two hundred thirty-four dollars and fifty-six cents
`spell-out`	`NASA`	N A S A


                La datoformato estas defaŭlte mdy por la angla kaj dmy aliloke; anstataŭigu per format=\

                
                    
                        Ekzemplo
                        
                    
{
  "model": "kokoro",
  "voice": "af_bella",
  "text": "Your appointment is on <say-as interpret-as=\"date\">2026-04-26</say-as> at <say-as interpret-as=\"time\">14:30</say-as>. Please call <say-as interpret-as=\"telephone\">+1-555-867-5309</say-as> if you need to reschedule."
}
                

                Respondo
                The TTS endpoint queues your request and returns a JSON response with a job UUID. You then poll for the result.

                Step 1: Submit request
                
                    
                        Response (JSON)
                    
{
  "uuid": "77b71db532874ce98e84a69a2d740d4c",
  "job_id": "f21316bb-aefa-480d-8523-701d1e3184ce",
  "status": "queued",
  "credits_used": 11,
  "credits_remaining": 15000
}
                

                Step 2: Poll for result
                
                    GET /v1/speech/results/?uuid=<job_uuid>
                
                Poll this endpoint every 1-2 seconds until status is completed or failed.
                
                    
                        Polling response (completed)
                    
{
  "status": "completed",
  "result_url": "https://api.tts.ai/static/downloads/77b71db5.../output.mp3"
}
                
                
                    
                        Polling response (still processing)
                    
{
  "status": "processing"
}
                

                Step 3: Download audio
                Fetch the result_url from the completed response to download the audio file.

                Plena ekzemplo
                
                    
                        Python
                        
                    
import requests, time

API_KEY = "sk-tts-your-key"
BASE = "https://api.tts.ai"

# 1. Submit TTS request
resp = requests.post(f"{BASE}/v1/tts/", json={
    "model": "kokoro",
    "text": "Hello from TTS.ai!",
    "voice": "af_bella"
}, headers={"Authorization": f"Bearer {API_KEY}"})
data = resp.json()
uuid = data["uuid"]

# 2. Poll for result
while True:
    result = requests.get(f"{BASE}/v1/speech/results/",
        params={"uuid": uuid}).json()
    if result["status"] == "completed":
        # 3. Download audio
        audio = requests.get(result["result_url"])
        with open("output.mp3", "wb") as f:
            f.write(audio.content)
        break
    elif result["status"] == "failed":
        raise Exception(result.get("error", "Generation failed"))
    time.sleep(1.5)
                

                Streaming alternative: For supported models (Kokoro, MeloTTS), use POST /v1/tts/stream/ for real-time Server-Sent Events (SSE) streaming — no polling needed.



            
            
                Parolo al tekstoComment
                
                    POST /v1/stt/
                
                Transskribi aŭdon al teksto. Subtenas 99 lingvojn kun aŭtomata detekto.

                Petokorpo (multipart/form-data)
                
                    
                        
                            Parametroj & Tipo: Necesa Priskribo
                        
                        
                            
                                file
                                file
                                Jes
                                Sona dosiero (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Maksimume 100 MB.
                            
                            
                                model
                                string
                                Ne
                                STT modelo: whisper (default), faster-whisper, sensevoice
                            
                            
                                language
                                string
                                Ne
                                Lingva kodo. auto por aŭtomata detekto (default).
                            
                            
                                timestamps
                                boolean
                                Ne
                                Include word-level timestamps. Default: false
                            
                            
                                diarize
                                boolean
                                Ne
                                Ebligi laŭtparolilon. Defaŭlte: false
                            
                        
                    
                

                Respondo
                
                    
                        JSON- respondo
                    
{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}
                
            

            
            
                Voĉa klonado
                
                    POST /v1/tts/clone/
                
                Generi paroladon per klonita voĉo. Alŝuti referencan sonon kaj tekston. Name

                Petokorpo (multipart/form-data)
                
                    
                        
                            Parametroj & Tipo: Necesa Priskribo
                        
                        
                            
                                reference_audio
                                file
                                Jes
                                Referenca voĉa aŭdo (10-30 sekundoj rekomenditaj). Maks. 20MB.
                            
                            
                                text
                                string
                                Jes
                                Teksto por paroli per la klonita voĉo.
                            
                            
                                model
                                string
                                Ne
                                Klona modelo: chatterbox (default), cosyvoice2, gpt-sovits
                            
                            
                                format
                                string
                                Ne
                                Eliga formato: mp3 (default), wav, flac
                            
                            
                                language
                                string
                                Ne
                                Cellingva kodo. Devas esti subtenata de la elektita modelo.
                            
                        
                    
                

                Respondo
                Redonas la sondosieron kiel duuma datumo, same kiel la TTS- finpunkto.
            

            
            
                VoĉŝanĝiloName
                
                    POST /v1/voice-convert/
                
                Konverti sonon por soni kiel alia voĉo. Alŝutu fontan sonon kaj elektu celvoĉon.

                Petokorpo (multipart/form-data)
                
                    
                        
                            Parametroj & Tipo: Necesa Priskribo
                        
                        
                            
                                file
                                file
                                Jes
                                Fonta sondosiero (MP3, WAV, FLAC). Maks. 50MB.
                            
                            
                                target_voice
                                string
                                Jes
                                Celvoĉa identigilo konvertenda al (uzu /v1/voices/ por listigi disponeblajn voĉojn)
                            
                            
                                model
                                string
                                Ne
                                Voĉa konverta modelo: openvoice (default), knn-vc
                            
                            
                                format
                                string
                                Ne
                                Eliga formato: wav (default), mp3, flac
                            
                        
                    
                

                Ekzemplopeto
                
                    
                        cURL
                        
                    
curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav
                

                Respondo
                Returnas la konvertitan sondosieron kiel duuma datumo.
            

            
            
                ParoltradukoName
                
                    POST /v1/speech-translate/
                
                Traduki parolitan sonon el unu lingvo al alia. Kombinas paroladon al teksto, tradukon, kaj tekston al parolado en ununura voko. Name

                Petokorpo (multipart/form-data)
                
                    
                        
                            Parametroj & Tipo: Necesa Priskribo
                        
                        
                            
                                file
                                file
                                Jes
                                Fonta sondosiero en la originala lingvo. Maks. 100MB.
                            
                            
                                target_language
                                string
                                Jes
                                Cellingva kodo (ekz. es, fr, de, ja)
                            
                            
                                voice
                                string
                                Ne
                                Voĉo por tradukita eligo. Aŭtomate elektita se omita.
                            
                            
                                preserve_voice
                                boolean
                                Ne
                                Provi konservi la originan parolanton
                            
                        
                    
                

                Respondo
                
                    JSON- respondo
{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}
                
            

            
            
                Parolo al ParoloComment
                
                    POST /v1/speech-to-speech/
                
                Transformi parolstilon, emocion, aŭ prezentadon dum konservado de la enhavo. Utila por agordi tonon, ritmon, kaj esprimpovon.

                Petokorpo (multipart/form-data)
                
                    
                        
                            Parametroj & Tipo: Necesa Priskribo
                        
                        
                            
                                file
                                file
                                Jes
                                Fonta parola aŭddosiero. Maks. 50MB.
                            
                            
                                voice
                                string
                                Jes
                                Celvoĉa identigilo por la elsendata parolado
                            
                            
                                model
                                string
                                Ne
                                Modelo: openvoice (default), chatterbox
                            
                            
                                emotion
                                string
                                Ne
                                Celemocio: neŭtrala, feliĉa, trista, kolera, ekscitita
                            
                            
                                speed
                                float
                                Ne
                                Rapideca agordo. Defaŭlte: 1.0. Intervalo: 0.5 ĝis 2.0
                            
                        
                    
                

                Respondo
                Redonas la transformitan sondosieron kiel duuma datumo.
            

            
            
                SonilojName
                Finpunktoj de aŭda prilaborado por plibonigo, forigo de voĉo, disdivido de tigo, ktp.

                
                
                    
                        
                            POST /v1/audio/enhance/
                        
                        Plibonigi sonkvaliton: forigi bruon, plibonigi klarecon, superdifino.
                        
                            
                                
                                    file file Sondosiero por plibonigo
                                    denoise boolean Ebligi malbruigon (default: true)
                                    enhance_clarity boolean Plibonigi parolklarecon (default: true)
                                    super_resolution boolean Plibonigi sonkvaliton (default: false)
                                    strength integer 1- 3 (malforta, meza, forta). Apriora: 2
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/separate/
                        
                        Separi vokalojn de instrumentaloj (vokala forigo) aŭ dividi en stemojn.
                        
                            
                                
                                    file file Sondosiero por apartigi
                                    model string demucs (defaŭlta) aŭ spleeter
                                    stems integer Nombro de truoj: 2, 4, 5, aŭ 6 (default: 2)
                                    format string Eliga formato: wav, mp3, flac
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/dereverb/
                        
                        Forigi eĥon kaj reverbon el sonregistraĵoj.
                        
                            
                                
                                    file file Sondosiero por prilabori
                                    type string echo or reverb (default: both)
                                    intensity integer 1-5 (default: 3)
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/analyze/
                            Libera
                        
                        Analizi sonon por detekti tonalton, BPM, kaj taktosignon.
                        
                            
                                
                                    file file Sondosiero por analizi
                                
                            
                        
                        
                            Respondo
{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/convert/
                            Libera
                        
                        Konverti sonojn inter formatoj.
                        
                            
                                
                                    file file Sondosiero konvertenda
                                    format string Celformato: mp3, wav, flac, ogg, m4a, aac
                                    bitrate integer Eliga bitkvanto en kbps: 64, 128, 192, 256, 320
                                    sample_rate integer Sample rate: 22050, 44100, 48000
                                    channels string mono aŭ stereo
                                
                            
                        
                    
                
            

            
            
                Voĉa babilejoName
                
                    POST /v1/voice-chat/
                
                Sendu sonon aŭ tekston kaj ricevu AI-respondon kun sintezita parolado.

                Petokorpo (multipart/form-data aŭ JSON)
                
                    
                        
                            Parametroj & Tipo: Necesa Priskribo
                        
                        
                            
                                audio
                                file
                                Ne*
                                Sona enigo (necesas audio aŭ text)
                            
                            
                                text
                                string
                                Ne*
                                Tekstenigo (necesas audio aŭ text)
                            
                            
                                voice
                                string
                                Ne
                                Voĉo por AI-respondo. Defaŭlte: af_bella
                            
                            
                                tts_model
                                string
                                Ne
                                TTS-modelo por respondo. Defaŭlte: kokoro
                            
                            
                                system_prompt
                                string
                                Ne
                                Propra sistema mesaĝo por la AI
                            
                            
                                conversation_id
                                string
                                Ne
                                Daŭrigi ekzistantan konversacion
                            
                        
                    
                

                Respondo
                
                    JSON- respondo
{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}
                
            

            
            
                Batch TTS
                
                    POST /v1/tts/batch/
                
                Sendi plurajn tekstojn por paralela TTS- generado. Opcie ricevi retkroĉan revokon kiam ĉiuj taskoj finiĝas.

                Parametroj
                
                    Parametroj & Tipo: Priskribo
                    
                        texts array Array of objects: {text, model, voice}. Max 50 items.
                        webhook_url string Opcia URLo por POST-rezultoj kiam la aro finiĝas.
                    
                

                Respondo
                
                    JSON- respondo
{
  "batch_id": "abc123",
  "total": 3,
  "completed": 0,
  "status": "processing"
}
                
                Poll progress with GET /v1/tts/batch/result/?batch_id=abc123
            

            
            
                Enkorpigi voĉon
                
                    POST /v1/voice-embed/
                
                Antaŭkalkuli voĉan enkorpigon el referenco-sono. Uzi la redonitan embed_id en postaj voĉaj klonaj petoj por preskaŭ tuja generado.

                Parametroj
                
                    Parametroj & Tipo: Priskribo
                    
                        file file Reference audio file (WAV, MP3, FLAC).
                        model string Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.
                    
                

                Respondo
                
                    JSON- respondo
{
  "embed_id": "emb_abc123",
  "model": "chatterbox",
  "duration_ms": 450
}
                
            

            
            
                Sankontrolo
                
                    GET /v1/health/
                
                Kontroli la staton de la GPU-servilo, ŝarĝitajn modelojn, kaj la grandecon de la atendovico. Aŭtentigo ne necesas. Kaŝita dum 30 sekundoj.

                Respondo
                
                    JSON- respondo
{
  "status": "online",
  "latency_ms": 45,
  "queue_size": 3,
  "models_loaded": ["kokoro", "chatterbox", "cosyvoice2"]
}
                
            

            
            
                Listo de modeloj
                
                    GET /v1/models/
                
                Redonas liston de ĉiuj haveblaj modeloj kun iliaj kapabloj.

                Respondo
                
                    JSON- respondo
{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}
                
            

            
            
                Listi voĉojn
                
                    GET /v1/voices/
                
                Redonas liston de ĉiuj haveblaj voĉoj, opcione filtritaj laŭ modelo aŭ lingvo.

                Query Parameters
                
                    
                        
                            Parametroj & Tipo: Priskribo
                        
                        
                            
                                model
                                string
                                Filtri laŭ modelo-identigilo (ekz. kokoro)
                            
                            
                                language
                                string
                                Filtri laŭ lingvokodo (ekz. en)
                            
                            
                                gender
                                string
                                Filtri laŭ sekso: male, female, neutral
                            
                        
                    
                

                Respondo
                
                    JSON- respondo
{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}
                
            

            
            
                Subtekstoj (SRT / VTT) nova
                
                    GET /v1/speech/subtitles/?uuid=<job_uuid>&format=srt|vtt&download=1
                
                Generi sinkronigitajn subtekstojn por ĉiu kompletigita TTS- tasko. Lanĉas Whisper- aligon super la sono kaj redonas SRT aŭ WebVTT. La rezulto estas kaŝita sur disko, do dua voko por la sama uuid estas diskolegado.
                Query Parameters
                
                    
                        Parametroj Necesa Priskribo
                        
                            uuid Jes La tasko- UUID revenis de /v1/tts/ aŭ /v1/voice-clone/.
                            format Ne srt (default) aŭ vtt.
                            download Ne 1 por sendi Content-Disposition: attachment tiel ke la retumilo konservu anstataŭ montri.
                            language Ne Laŭ la modelo de la algoritmo (aŭtomate detektita se omita).
                        
                    
                
                
                    cURL
curl "https://api.tts.ai/v1/speech/subtitles/?uuid=$UUID&format=srt&download=1" -o subtitles.srt
                
            

            
            
                Prononca vortaro nova
                
                    GET
                    POST
                    DELETE
                    /api/v1/pronunciations/
                
                Diru al la TTS-motoro kiel prononci specifajn vortojn. Konservitaj eroj aŭtomate aplikiĝas al ĉiu TTS-peto kiun vi faras. Limigo de 200 eroj por konto.
                Petokorpo (POST)
                
                    
                        Parametroj & Tipo: Priskribo
                        
                            word string Vorto anstataŭigenda (ekz. GIF, Anthropic). Vortlimo kongruas.
                            replacement string La kodo estas skribita en la formo j.
                            language string Opcia ISO- kodo. Malplena = validas por ĉiuj lingvoj.
                            case_sensitive boolean Defaŭlta false. Konformi al uzokutimo ekzakte kiam true.
                        
                    
                
                
                    cURL
# Save an entry
curl -X POST https://tts.ai/api/v1/pronunciations/ \
  -H "Authorization: Bearer sk-tts-..." \
  -H "Content-Type: application/json" \
  -d '{"word": "GIF", "replacement": "jiff"}'

# List your entries
curl https://tts.ai/api/v1/pronunciations/ -H "Authorization: Bearer sk-tts-..."

# Delete entry by id
curl -X DELETE "https://tts.ai/api/v1/pronunciations/?id=42" -H "Authorization: Bearer sk-tts-..."
                
                Oni povas ankaŭ transdoni per-peto anstataŭigojn sen konservi ilin — inkludi pronunciations sur ĉiu /v1/tts/ alvoko kiel objekto aŭ aro (vidu la TTS finpunkto parametroj).
            

            
            
                Artikola rakontilo nova
                Se vi metas

Parametroj	& Tipo:	Necesa	Priskribo
file	file	Jes	Sona dosiero (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Maksimume 100 MB.
model	string	Ne	STT modelo: `whisper` (default), `faster-whisper`, `sensevoice`
language	string	Ne	Lingva kodo. `auto` por aŭtomata detekto (default).
timestamps	boolean	Ne	Include word-level timestamps. Default: `false`
diarize	boolean	Ne	Ebligi laŭtparolilon. Defaŭlte: `false`

Parametroj	& Tipo:	Necesa	Priskribo
reference_audio	file	Jes	Referenca voĉa aŭdo (10-30 sekundoj rekomenditaj). Maks. 20MB.
text	string	Jes	Teksto por paroli per la klonita voĉo.
model	string	Ne	Klona modelo: `chatterbox` (default), `cosyvoice2`, `gpt-sovits`
format	string	Ne	Eliga formato: `mp3` (default), `wav`, `flac`
language	string	Ne	Cellingva kodo. Devas esti subtenata de la elektita modelo.

Parametroj	& Tipo:	Necesa	Priskribo
file	file	Jes	Fonta sondosiero (MP3, WAV, FLAC). Maks. 50MB.
target_voice	string	Jes	Celvoĉa identigilo konvertenda al (uzu `/v1/voices/` por listigi disponeblajn voĉojn)
model	string	Ne	Voĉa konverta modelo: `openvoice` (default), `knn-vc`
format	string	Ne	Eliga formato: `wav` (default), `mp3`, `flac`

Parametroj	& Tipo:	Necesa	Priskribo
file	file	Jes	Fonta sondosiero en la originala lingvo. Maks. 100MB.
target_language	string	Jes	Cellingva kodo (ekz. `es`, `fr`, `de`, `ja`)
voice	string	Ne	Voĉo por tradukita eligo. Aŭtomate elektita se omita.
preserve_voice	boolean	Ne	Provi konservi la originan parolanton

Parametroj	& Tipo:	Necesa	Priskribo
file	file	Jes	Fonta parola aŭddosiero. Maks. 50MB.
voice	string	Jes	Celvoĉa identigilo por la elsendata parolado
model	string	Ne	Modelo: `openvoice` (default), `chatterbox`
emotion	string	Ne	Celemocio: `neŭtrala`, `feliĉa`, `trista`, `kolera`, `ekscitita`
speed	float	Ne	Rapideca agordo. Defaŭlte: `1.0`. Intervalo: `0.5` ĝis `2.0`

file file	Sondosiero por plibonigo
denoise boolean	Ebligi malbruigon (default: true)
enhance_clarity boolean	Plibonigi parolklarecon (default: true)
super_resolution boolean	Plibonigi sonkvaliton (default: false)
strength integer	1- 3 (malforta, meza, forta). Apriora: 2

file file	Sondosiero por apartigi
model string	`demucs` (defaŭlta) aŭ `spleeter`
stems integer	Nombro de truoj: 2, 4, 5, aŭ 6 (default: 2)
format string	Eliga formato: `wav`, `mp3`, `flac`

file file	Sondosiero por prilabori
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

file file	Sondosiero konvertenda
format string	Celformato: `mp3`, `wav`, `flac`, `ogg`, `m4a`, `aac`
bitrate integer	Eliga bitkvanto en kbps: 64, 128, 192, 256, 320
sample_rate integer	Sample rate: 22050, 44100, 48000
channels string	`mono` aŭ `stereo`

Parametroj	& Tipo:	Necesa	Priskribo
audio	file	Ne*	Sona enigo (necesas `audio` aŭ `text`)
text	string	Ne*	Tekstenigo (necesas `audio` aŭ `text`)
voice	string	Ne	Voĉo por AI-respondo. Defaŭlte: `af_bella`
tts_model	string	Ne	TTS-modelo por respondo. Defaŭlte: `kokoro`
system_prompt	string	Ne	Propra sistema mesaĝo por la AI
conversation_id	string	Ne	Daŭrigi ekzistantan konversacion

Parametroj	& Tipo:	Priskribo
texts	array	Array of objects: `{text, model, voice}`. Max 50 items.
webhook_url	string	Opcia URLo por POST-rezultoj kiam la aro finiĝas.

Parametroj	& Tipo:	Priskribo
file	file	Reference audio file (WAV, MP3, FLAC).
model	string	Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.

Parametroj	& Tipo:	Priskribo
model	string	Filtri laŭ modelo-identigilo (ekz. `kokoro`)
language	string	Filtri laŭ lingvokodo (ekz. `en`)
gender	string	Filtri laŭ sekso: `male`, `female`, `neutral`

Parametroj	Necesa	Priskribo
uuid	Jes	La tasko- UUID revenis de /v1/tts/ aŭ /v1/voice-clone/.
format	Ne	`srt` (default) aŭ `vtt`.
download	Ne	`1` por sendi `Content-Disposition: attachment` tiel ke la retumilo konservu anstataŭ montri.
language	Ne	Laŭ la modelo de la algoritmo (aŭtomate detektita se omita).

Parametroj	& Tipo:	Priskribo
word	string	Vorto anstataŭigenda (ekz. `GIF`, `Anthropic`). Vortlimo kongruas.
replacement	string	La kodo estas skribita en la formo `j`.
language	string	Opcia ISO- kodo. Malplena = validas por ĉiuj lingvoj.
case_sensitive	boolean	Defaŭlta `false`. Konformi al uzokutimo ekzakte kiam `true`.