Hvernig fæ ég API lykil?

Skráðu þig fyrir ókeypis TTS.ai reikning, farðu síðan á reikningsborðinu þínu og smelltu á "Búa til API lykil." Lykillinn þinn verður forskeyti með sk-tts- og hægt er að nota strax. Frjáls reikningar fá 15.000 stafi til að byrja.

Er API samhæft við snið OpenAI?

Ef þú ert með núverandi kóða sem notar TTS API OpenAI, getur þú skipt yfir í TTS.ai með því að breyta grunn vefslóð og API lykill með lágmarks kóða breytingar.

Hvaða forritunarmál eru studd?

REST API virkar með öllum tungumálum sem geta sent HTTP beiðnir. Við bjóðum upp á kóða dæmi í Python, JavaScript (Node.js og vafra), cURL, og fleira. Öll tungumál með HTTP viðskiptavinur safn (Go, Ruby, Java, C #, PHP, o.fl.) getur notað API.

Hver eru takmörk API-hraða?

Ókeypis reikningar eru takmarkaðir við 3 beiðnir á klukkustund. Greiddar áætlanir hafa hærri takmörk miðað við áskriftarstig þitt: Starter (60 / klukkustund), Professional (300 / klukkustund), Enterprise (ótakmarkaður).

Hvernig virkar API verðlagning?

API notkun eyðir stafi byggt á líkan stigi og texta lengd. Frjáls módel nota 0 stafi, staðall módel nota 2x stafi, og Premium módel nota 4x stafi.Stafir eru innifalin í öllum greiddum áætlunum og einnig er hægt að kaupa sérstaklega sem staf pakka.

Hvaða endapunktar eru í boði?

API veitir endapunkta fyrir texta-í-tal (POST /v1/tts/), tal-í-texta (POST /v1/transcribe/), rödd klónun (POST /v1/voice-clone/), rödd viðskipti (POST /v1/voice-convert/), tal þýðing (POST /v1/speech-translate/), hljóð aukahluti (POST /v1/audio-enhance/), radd fjarlægja, stofn skipting, lykill og BPM greiningu, og fleira.

Hvaða hljóðsnið skilar API-ið?

Sjálfgefið er að API skili hljóði á WAV sniði. Þú getur tilgreint úttakssnið (mp3, wav, ogg, flac) með response_ format breytunni. MP3 er mælt með fyrir vefforrit, WAV fyrir frekari hljóðvinnslu.

Er það straumspilunarforrit fyrir rauntíma TTS?

Já, okkar ósamstillta API skilar UUID verks sem þú getur spurt um niðurstöður. Fyrir studdar gerðir eins og Kokoro er hljóðvinnsla nógu hröð fyrir nánast rauntíma forrit. Endir spurnarinnar skilar hljóðslóðinni þegar vinnslu er lokið.

Hvernig meðhöndla ég villur í API?

API skilar stöðluðum HTTP stöðukóðum (400 fyrir slæmar beiðnir, 401 fyrir auðkenningarvillur, 429 fyrir hraðatakmarkanir, 500 fyrir miðlaravillur) með JSON villuskilaboðum. Athugaðu alltaf stöðukóðann og villusvæðið í svörum til að tryggja rétta villuaðstoð.

Get ég notað API fyrir viðskiptaforrit?

Já, API er hannað til notkunar í atvinnuskyni. Hljóð sem myndast í gegnum API er hægt að nota í vörum þínum, forritum og þjónustu. Öll módel nota opið leyfi og það eru engin viðbótarréttindi á mynduðu hljóði.

Er til sandkassi eða prófunarumhverfi?

Frjáls-stig líkan (Kokoro, Piper, VITS, MeloTTS) þjóna sem framúrskarandi sandkassa - þeir nota núll stafi og eru í boði fyrir alla reikninga.Prófaðu samþættingu þína með ókeypis módel áður en skipt er yfir í hágæða módel til framleiðslu.

Hvernig skrái ég tiltækar raddir og módel í gegnum API?

Notaðu GET /v1/voices til að skoða lista yfir allar tiltækar raddir með síunarvalkostum (líkan, tungumál, kyn). Notaðu GET /v1/models til að skoða lista yfir allar tiltækar TTS-líkan með getu þeirra og upplýsingum um stig. Báðir endapunktar skila JSON-svörum.

Tilkynna villu / Feature Request

API skjölun

Samþætta TTS.ai í forritum þínum með REST API okkar. OpenAI-samhæft snið fyrir auðveldan flutning.

REST API OpenAI samhæft JSON svör Straumspilunarstuðningur

Yfirlit

TTS.ai API veitir forritunarlegan aðgang að öllum eiginleikum vettvangsins: texta-til-tal myndun, tal-til-texta uppskrift, rödd klónun, hljóð aukahluti, og fleira.API notar staðlaða REST samninga með JSON beiðni / svar líkama.

API lykill

Fáðu API lykilinn þinn frá Stillingar reiknings. Í boði á Pro og Enterprise áætlunum.

Grunnslóð

https://api.tts.ai/v1/

Auðkenning

Bearer Token í gegnum Authorization haus

Auðkenning

Frjáls tier - enginn lykill krafist. Anonymous POST to /v1/tts/ Vinna án auth, allt að 5.000 stafir / dag á IP, með því að nota einhvern af okkar ókeypis módel (piper, vits, melotts, kokoro). Skráðu þig fyrir ókeypis reikning til að fá 15.000 bónus stafi og aðgang að úrvals módel.

Fyrir aukagjald módel og hærri takmörk, staðfesta með Bearer tákn í Authorization haus.

HTTP haus

Authorization: Bearer sk-tts-your-api-key-here

Haltu API lyklinum þínum leyndum. Ekki deila því í biðlarahlið kóða, opinberum geymslum eða annálum. Snúðu lyklum reglulega frá reikningsstillingum þínum.

SDK

Opinber SDK auðvelda að samþætta TTS.ai í forritið þitt.Bæði eru opinn uppspretta og fáanleg á GitHub.

Python

pip install ttsai

from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")
audio = client.generate(
    text="Hello world!",
    model="kokoro"
)
client.save(audio, "output.wav")

GitHub

JavaScript / Node.js

npm install @ttsainpm/ttsai

const { TTSClient } = require('@ttsainpm/ttsai');

const client = new TTSClient({
  apiKey: 'sk-tts-...'
});
const audio = await client.generate({
  input: 'Hello world!',
  model: 'kokoro'
});
await client.saveToFile(audio, 'output.wav');

GitHub

Grunnslóð

Grunnslóð: https://api.tts.ai/v1/

Allir endapunktar eru í tengslum við þessa grunnslóð. Til dæmis er TTS endapunkturinn:

POST https://api.tts.ai/v1/tts/

Takmörk hraða

API hlutfall takmarkanir eru mismunandi eftir áætlun:

Plan	Beiðnir / mín	Samtímis	Hámarks textalængd
Frjáls	10	2	500 stafir
Ræsir	30	3	1.000.000 stafir
Pro	60	5	1.000.000 stafir
Fyrirtæki	300	20	50.000 stafir

Hraðtakmörk hausar eru innifalin í hverju svari: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

Lánskostnaður

Þjónusta	Kostnaður	Einingar
TTS (Free módel: Piper, VITS, MeloTTS)	1.000 stafir	á hverja 1.000 stafi
TTS (Standard módel: Kokoro, CosyVoice 2, osfrv)	2.000 stafir	á hverja 1.000 stafi
TTS (Premium módel: Tortoise, Chatterbox osfrv.)	4.000 stafir	á hverja 1.000 stafi
Tal í texta	2.000 stafir	á mínútu af hljóði
Raddklónun	4.000 stafir	á hverja 1.000 stafi
RaddbreytirName	3.000 stafir	á mínútu af hljóði
Hljóðuppfærsla	2.000 stafir	á mínútu af hljóði
Vocal Fjarlægja / Stem skipting	3.000-4.000 stafir	á mínútu af hljóði
TalþýðingName	5.000 stafir	á mínútu af hljóði
Raddspjall	3.000 stafir	í hvern leik
Key & BPM leitarvél	Frjáls	--
Hljóðbreytir	Frjáls	--

Texti í talName

POST /v1/tts/

Umbreyta texta í talhljóð. Sýnir hljóðskrá á beiðnu sniði.

Beiðni

Viðföng	Tegund	Nauðsynlegt	Lýsing
model	string	Nei	Tegundar-ID (t.d. `kokoro`, `chatterbox`, `piper`). Ef sleppt er, veljum við sjálfkrafa gerð sem styður beðið `tungumál` — `kokoro` fyrir en/ja/zh/ko/fr/de/it/pt/es/hi/ru, `piper` fyrir önnur tungumál (ar/pl/nl/cs/da/fi/el/hu/tr/uk/vi/o.s.frv.).
text	string	Já	Texti til að breyta í tal. Hámark á beiðni: 500 stafir (nafnlaus), 5. 000 (frjáls reikningur), 1. 000. 000 (greiddur reikningur). Langar inntaksupplýsingar eru sjálfkrafa brotnar niður á miðlarahlið.
voice	string	Já	Voice ID (notaðu / v1 / raddir / til að skrá tiltækar raddir)
format	string	Nei	Úttakssnið: `mp3` (sjálfgefið), `wav`, `flac`, `ogg`
speed	float	Nei	Talhraða margfaldari. Sjálfgefið: `1.0`. Svið: `0.5` til `2.0`
language	string	Nei	Tungumálakóði (t.d. `en`, `es`). Finnst sjálfkrafa ef sleppt er.
instructions	string	Nei	Virka / afhendingu vísbending (≤500 stafir). t.d. \
pronunciations	object \| array	Nei	Annaðhvort `{\`
stream	boolean	Nei	Virkja straumsvar. Sjálfgefið: `false`

Dæmi um beiðni

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

SSML merki

Wrap tölur, dagsetningar, gjaldmiðill, símanúmer og skammstafanir í


                    
                        
                            túlka Inntak Talað sem
                        
                        
                            cardinal 1234 one thousand two hundred thirty-four
                            ordinal 21 twenty-first
                            date 1999-12-31 December thirty-first, nineteen ninety-nine
                            time 14:30 two thirty PM
                            telephone +1-555-867-5309 plus one five five five eight six seven…
                            currency $1,234.56 one thousand two hundred thirty-four dollars and fifty-six cents
                            spell-out NASA N A S A

túlka	Inntak	Talað sem
`cardinal`	`1234`	one thousand two hundred thirty-four
`ordinal`	`21`	twenty-first
`date`	`1999-12-31`	December thirty-first, nineteen ninety-nine
`time`	`14:30`	two thirty PM
`telephone`	`+1-555-867-5309`	plus one five five five eight six seven…
`currency`	`$1,234.56`	one thousand two hundred thirty-four dollars and fifty-six cents
`spell-out`	`NASA`	N A S A


                Sjálfgefið dagsetningarsnið er mdy fyrir ensku og dmy annars staðar; yfirfæra með format=\

                
                    
                        Dæmi
                        
                    
{
  "model": "kokoro",
  "voice": "af_bella",
  "text": "Your appointment is on <say-as interpret-as=\"date\">2026-04-26</say-as> at <say-as interpret-as=\"time\">14:30</say-as>. Please call <say-as interpret-as=\"telephone\">+1-555-867-5309</say-as> if you need to reschedule."
}
                

                Svar
                The TTS endpoint queues your request and returns a JSON response with a job UUID. You then poll for the result.

                Step 1: Submit request
                
                    
                        Response (JSON)
                    
{
  "uuid": "77b71db532874ce98e84a69a2d740d4c",
  "job_id": "f21316bb-aefa-480d-8523-701d1e3184ce",
  "status": "queued",
  "credits_used": 11,
  "credits_remaining": 15000
}
                

                Step 2: Poll for result
                
                    GET /v1/speech/results/?uuid=<job_uuid>
                
                Poll this endpoint every 1-2 seconds until status is completed or failed.
                
                    
                        Polling response (completed)
                    
{
  "status": "completed",
  "result_url": "https://api.tts.ai/static/downloads/77b71db5.../output.mp3"
}
                
                
                    
                        Polling response (still processing)
                    
{
  "status": "processing"
}
                

                Step 3: Download audio
                Fetch the result_url from the completed response to download the audio file.

                Full example
                
                    
                        Python
                        
                    
import requests, time

API_KEY = "sk-tts-your-key"
BASE = "https://api.tts.ai"

# 1. Submit TTS request
resp = requests.post(f"{BASE}/v1/tts/", json={
    "model": "kokoro",
    "text": "Hello from TTS.ai!",
    "voice": "af_bella"
}, headers={"Authorization": f"Bearer {API_KEY}"})
data = resp.json()
uuid = data["uuid"]

# 2. Poll for result
while True:
    result = requests.get(f"{BASE}/v1/speech/results/",
        params={"uuid": uuid}).json()
    if result["status"] == "completed":
        # 3. Download audio
        audio = requests.get(result["result_url"])
        with open("output.mp3", "wb") as f:
            f.write(audio.content)
        break
    elif result["status"] == "failed":
        raise Exception(result.get("error", "Generation failed"))
    time.sleep(1.5)
                

                Streaming alternative: For supported models (Kokoro, MeloTTS), use POST /v1/tts/stream/ for real-time Server-Sent Events (SSE) streaming — no polling needed.



            
            
                Tal í texta
                
                    POST /v1/stt/
                
                Umrita hljóð í texta. Styður 99 tungumál með sjálfvirkri uppgötvun.

                Beiðni (multipart/form-data)
                
                    
                        
                            Viðföng Tegund Nauðsynlegt Lýsing
                        
                        
                            
                                file
                                file
                                Já
                                Hljóðskrá (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Hámark 100MB.
                            
                            
                                model
                                string
                                Nei
                                STT líkan: hvísla (sjálfgefið), hraðari-hvísla, skynsamleg-rödd
                            
                            
                                language
                                string
                                Nei
                                Tungumálakóði. auto fyrir sjálfvirka uppgötvun (sjálfgefið).
                            
                            
                                timestamps
                                boolean
                                Nei
                                Sjálfgefið: false
                            
                            
                                diarize
                                boolean
                                Nei
                                Sjálfgefið: false
                            
                        
                    
                

                Svar
                
                    
                        JSON svar
                    
{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}
                
            

            
            
                Raddklónun
                
                    POST /v1/tts/clone/
                
                Búa til ræðu í klónuðu rödd. Hlaða tilvísun hljóð og texta.

                Beiðni (multipart/form-data)
                
                    
                        
                            Viðföng Tegund Nauðsynlegt Lýsing
                        
                        
                            
                                reference_audio
                                file
                                Já
                                Tilvísun rödd hljóð (10-30 sekúndur mælt með). Max 20MB.
                            
                            
                                text
                                string
                                Já
                                Texti til að tala í klónuðu rödd.
                            
                            
                                model
                                string
                                Nei
                                Klón líkan: chatterbox (sjálfgefið), cosyvoice2, gpt-sovits
                            
                            
                                format
                                string
                                Nei
                                Úttakssnið: mp3 (sjálfgefið), wav, flac
                            
                            
                                language
                                string
                                Nei
                                Tungumálakóði. Verður að vera studdur af valið gerð.
                            
                        
                    
                

                Svar
                Sýnir hljóðskrána sem tvíundagögn, eins og TTS endapunkturinn.
            

            
            
                RaddbreytirName
                
                    POST /v1/voice-convert/
                
                Umbreyta hljóð til að hljóma eins og önnur rödd. Hlaða upp hljóð og velja mark rödd.

                Beiðni (multipart/form-data)
                
                    
                        
                            Viðföng Tegund Nauðsynlegt Lýsing
                        
                        
                            
                                file
                                file
                                Já
                                Upprunaleg hljóðskrá (MP3, WAV, FLAC). Hámark 50MB.
                            
                            
                                target_voice
                                string
                                Já
                                Tilgreindu raddauðkenni sem á að breyta í (notaðu /v1/voices/ til að skrá tiltækar raddir)
                            
                            
                                model
                                string
                                Nei
                                Raddbreytingarlíkan: openvoice (sjálfgefið), knn-vc
                            
                            
                                format
                                string
                                Nei
                                Úttakssnið: wav (sjálfgefið), mp3, flac
                            
                        
                    
                

                Dæmi um beiðni
                
                    
                        cURL
                        
                    
curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav
                

                Svar
                Skilur eftir breytta hljóðskrá sem tvíundagögn.
            

            
            
                TalþýðingName
                
                    POST /v1/speech-translate/
                
                Sameinar tal-til-texta, þýðing, og texti-til-tal í einu símtali.Það er auðvelt að nota og auðvelt að nota.

                Beiðni (multipart/form-data)
                
                    
                        
                            Viðföng Tegund Nauðsynlegt Lýsing
                        
                        
                            
                                file
                                file
                                Já
                                Upprunaleg hljóðskrá á upprunalegu tungumáli. Hámark 100MB.
                            
                            
                                target_language
                                string
                                Já
                                Tungumálakóði (t.d. is, is, is, is)
                            
                            
                                voice
                                string
                                Nei
                                Rödd fyrir þýtt úttak. Sjálfvirkt valið ef sleppt er.
                            
                            
                                preserve_voice
                                boolean
                                Nei
                                Reyna að varðveita upprunalega raddeiginleika ræðumannsins. Sjálfgefið: false
                            
                        
                    
                

                Svar
                
                    JSON svar
{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}
                
            

            
            
                Tal til tals
                
                    POST /v1/speech-to-speech/
                
                Umbreyta talstíl, tilfinningar, eða afhendingu en halda innihaldi. Gagnlegt fyrir að stilla tón, hraða og tjáningarmátt.

                Beiðni (multipart/form-data)
                
                    
                        
                            Viðföng Tegund Nauðsynlegt Lýsing
                        
                        
                            
                                file
                                file
                                Já
                                Upprunaleg tal hljóðskrá. Hámark 50MB.
                            
                            
                                voice
                                string
                                Já
                                Markmið raddgreining fyrir framleiðsla ræðu
                            
                            
                                model
                                string
                                Nei
                                Model: openvoice (sjálfgefið), chatterbox
                            
                            
                                emotion
                                string
                                Nei
                                Tilfinningar: hlutlaus, hamingjusöm, sorgleg, reiður, spennt
                            
                            
                                speed
                                float
                                Nei
                                Hraðastilling. Sjálfgefið: 1.0. Svið: 0.5 til 2.0
                            
                        
                    
                

                Svar
                Sýnir breytta hljóðskrá sem tvíunda gögn.
            

            
            
                HljóðtólName
                Hljóðvinnsla endapunkta til að auka, radd fjarlægja, stilkur skipting, og fleira.

                
                
                    
                        
                            POST /v1/audio/enhance/
                        
                        Auka hljóðgæði: denoise, bæta skýrleika, frábær upplausn.
                        
                            
                                
                                    file file Hljóðskrá til að auka
                                    denoise boolean Virkja hávaðaeyðingu (sjálfgefið: satt)
                                    enhance_clarity boolean Auka talskýringu (sjálfgefið: satt)
                                    super_resolution boolean Uppskalun hljóðgæða (sjálfgefið: ósatt)
                                    strength integer 1- 3 (létt, meðal, sterkt). Sjálfgefið: 2
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/separate/
                        
                        Aðskilja raddir frá hljóðfærum (rödd fjarlægja) eða skipt í stilkar.
                        
                            
                                
                                    file file Hljóðskrá sem á að aðskilja
                                    model string demucs (sjálfgefið) eða spleeter
                                    stems integer Fjöldi stilka: 2, 4, 5 eða 6 (sjálfgefið: 2)
                                    format string Úttakssnið: wav, mp3, flac
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/dereverb/
                        
                        Fjarlægðu echo og reverb frá hljóðupptökum.
                        
                            
                                
                                    file file Hljóðskrá sem á að vinna úr
                                    type string echo or reverb (default: both)
                                    intensity integer 1-5 (default: 3)
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/analyze/
                            Frjáls
                        
                        Greina hljóð til að greina lykil, BPM og tíma undirskrift.
                        
                            
                                
                                    file file Hljóðskrá til að greina
                                
                            
                        
                        
                            Svar
{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/convert/
                            Frjáls
                        
                        Umbreyta hljóð milli snið.
                        
                            
                                
                                    file file Hljóðskrá sem á að umbreyta
                                    format string Marksnið: mp3, wav, flac, ogg, m4a, aac
                                    bitrate integer Úttaks bitahraði í kbps: 64, 128, 192, 256, 320
                                    sample_rate integer Sýnatökutíðni: 22050, 44100, 48000
                                    channels string mono eða stereo
                                
                            
                        
                    
                
            

            
            
                Raddspjall
                
                    POST /v1/voice-chat/
                
                Senda hljóð eða texta og fáðu AI svar með samsettri ræðu.

                Beiðni (multipart/form-data eða JSON)
                
                    
                        
                            Viðföng Tegund Nauðsynlegt Lýsing
                        
                        
                            
                                audio
                                file
                                Nei*
                                Hljóðinntak (annaðhvort hljóð eða texti nauðsynlegt)
                            
                            
                                text
                                string
                                Nei*
                                Texta inntak (annaðhvort audio eða text nauðsynlegt)
                            
                            
                                voice
                                string
                                Nei
                                Sjálfgefið: af_bella
                            
                            
                                tts_model
                                string
                                Nei
                                TTS líkan fyrir svar. Sjálfgefið: kokoro
                            
                            
                                system_prompt
                                string
                                Nei
                                Sérsniðin kerfiskveikja fyrir AI
                            
                            
                                conversation_id
                                string
                                Nei
                                Halda áfram núverandi samtali
                            
                        
                    
                

                Svar
                
                    JSON svar
{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}
                
            

            
            
                Batch TTS
                
                    POST /v1/tts/batch/
                
                Sendu inn marga texta fyrir samhliða TTS myndun. Valfrjálst að fá webhook callback þegar öllum verkefnum er lokið.

                Breytur
                
                    Breyta Tegund Lýsing
                    
                        texts array Array of objects: {text, model, voice}. Max 50 items.
                        webhook_url string Optional URL to POST results when batch completes.
                    
                

                Svar
                
                    JSON svar
{
  "batch_id": "abc123",
  "total": 3,
  "completed": 0,
  "status": "processing"
}
                
                Framvinda könnunar með GET /v1/tts/batch/result/?batch_id=abc123
            

            
            
                Innfelling raddupplýsinga
                
                    POST /v1/voice-embed/
                
                Forreikna innfellingu radd frá tilvísunarhljóði. Notaðu skilað embed_id í síðari beiðnir um raddklónun til að ná næstum samstundis myndun.

                Breytur
                
                    Breyta Tegund Lýsing
                    
                        file file Reference audio file (WAV, MP3, FLAC).
                        model string Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.
                    
                

                Svar
                
                    JSON svar
{
  "embed_id": "emb_abc123",
  "model": "chatterbox",
  "duration_ms": 450
}
                
            

            
            
                Heilsuskoðun
                
                    GET /v1/health/
                
                Athuga stöðu GPU þjóns, hlaðin líkön og biðröðastærð. Engin auðkenning krafist. Skyndiminni í 30 sekúndur.

                Svar
                
                    JSON svar
{
  "status": "online",
  "latency_ms": 45,
  "queue_size": 3,
  "models_loaded": ["kokoro", "chatterbox", "cosyvoice2"]
}
                
            

            
            
                Listi yfir gerðir
                
                    GET /v1/models/
                
                Sýnir lista yfir allar tiltækar gerðir með getu þeirra.

                Svar
                
                    JSON svar
{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}
                
            

            
            
                Listi yfir raddir
                
                    GET /v1/voices/
                
                Sýnir lista yfir allar tiltækar raddir, valfrjálst síað eftir gerð eða tungumáli.

                Stillingar fyrirspurnar
                
                    
                        
                            Viðföng Tegund Lýsing
                        
                        
                            
                                model
                                string
                                Sía eftir tegundarnúmeri (t.d. kokoro)
                            
                            
                                language
                                string
                                Sía eftir tungumálakóða (t.d. is)
                            
                            
                                gender
                                string
                                Sía eftir kyni: karlkyns, kvenkyns, hlutlaust
                            
                        
                    
                

                Svar
                
                    JSON svar
{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}
                
            

            
            
                Texti (SRT / VTT) nýtt
                
                    GET /v1/speech/subtitles/?uuid=<job_uuid>&format=srt|vtt&download=1
                
                Búa til samstillta texta fyrir öll TTS verk sem eru lokið. Keyrir Whisper samræmingu yfir hljóð og skilar SRT eða WebVTT. Niðurstaðan er skyndiminni á disknum svo annað símtal fyrir sama uuid er lestur á disk.
                Stillingar fyrirspurnar
                
                    
                        Viðföng Nauðsynlegt Lýsing
                        
                            uuid Já Verk UUID skilað af / v1 / tts / eða / v1 / voice- clone /.
                            format Nei srt (sjálfgefið) eða vtt.
                            download Nei 1 til að senda Content-Disposition: attachment þannig að vafrinn vistir frekar en birtir.
                            language Nei Vísbending um samræmingarlíkanið (sjálfvirkt greint ef sleppt er).
                        
                    
                
                
                    cURL
curl "https://api.tts.ai/v1/speech/subtitles/?uuid=$UUID&format=srt&download=1" -o subtitles.srt
                
            

            
            
                Framburður orðabók nýtt
                
                    GET
                    POST
                    DELETE
                    /api/v1/pronunciations/
                
                Segðu TTS vélinni hvernig á að bera fram tiltekin orð. Vistaðar færslur eru sjálfkrafa beitt á hverja TTS beiðni sem þú gerir. 200 færslur á reikning.
                Beiðni (POST)
                
                    
                        Viðföng Tegund Lýsing
                        
                            word string Orðið sem á að yfirfæra (t.d. GIF, Anthropic). Orðmörk samsvarandi.
                            replacement string Hvernig á að stafa það fyrir líkanið (t.d. jiff, ann THROP ick).
                            language string Valfrjáls ISO kóði. Tómur = gildir um öll tungumál.
                            case_sensitive boolean Sjálfgefið false. Passa hástafi nákvæmlega þegar true.
                        
                    
                
                
                    cURL
# Save an entry
curl -X POST https://tts.ai/api/v1/pronunciations/ \
  -H "Authorization: Bearer sk-tts-..." \
  -H "Content-Type: application/json" \
  -d '{"word": "GIF", "replacement": "jiff"}'

# List your entries
curl https://tts.ai/api/v1/pronunciations/ -H "Authorization: Bearer sk-tts-..."

# Delete entry by id
curl -X DELETE "https://tts.ai/api/v1/pronunciations/?id=42" -H "Authorization: Bearer sk-tts-..."
                
                Þú getur líka sent fram yfirfærslur á hverri beiðni án þess að vista þær — með pronunciations á hvaða /v1/tts/ kall sem er, annað hvort sem hlut eða fylki (sjá TTS endapunkts breytur).
            

            
            
                Greinarlesari nýtt
                Slepptu einu

Viðföng	Tegund	Nauðsynlegt	Lýsing
file	file	Já	Hljóðskrá (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Hámark 100MB.
model	string	Nei	STT líkan: `hvísla` (sjálfgefið), `hraðari-hvísla`, `skynsamleg-rödd`
language	string	Nei	Tungumálakóði. `auto` fyrir sjálfvirka uppgötvun (sjálfgefið).
timestamps	boolean	Nei	Sjálfgefið: `false`
diarize	boolean	Nei	Sjálfgefið: `false`

Viðföng	Tegund	Nauðsynlegt	Lýsing
reference_audio	file	Já	Tilvísun rödd hljóð (10-30 sekúndur mælt með). Max 20MB.
text	string	Já	Texti til að tala í klónuðu rödd.
model	string	Nei	Klón líkan: `chatterbox` (sjálfgefið), `cosyvoice2`, `gpt-sovits`
format	string	Nei	Úttakssnið: `mp3` (sjálfgefið), `wav`, `flac`
language	string	Nei	Tungumálakóði. Verður að vera studdur af valið gerð.

Viðföng	Tegund	Nauðsynlegt	Lýsing
file	file	Já	Upprunaleg hljóðskrá (MP3, WAV, FLAC). Hámark 50MB.
target_voice	string	Já	Tilgreindu raddauðkenni sem á að breyta í (notaðu `/v1/voices/` til að skrá tiltækar raddir)
model	string	Nei	Raddbreytingarlíkan: `openvoice` (sjálfgefið), `knn-vc`
format	string	Nei	Úttakssnið: `wav` (sjálfgefið), `mp3`, `flac`

Viðföng	Tegund	Nauðsynlegt	Lýsing
file	file	Já	Upprunaleg hljóðskrá á upprunalegu tungumáli. Hámark 100MB.
target_language	string	Já	Tungumálakóði (t.d. is, is, is, is)
voice	string	Nei	Rödd fyrir þýtt úttak. Sjálfvirkt valið ef sleppt er.
preserve_voice	boolean	Nei	Reyna að varðveita upprunalega raddeiginleika ræðumannsins. Sjálfgefið: `false`

Viðföng	Tegund	Nauðsynlegt	Lýsing
file	file	Já	Upprunaleg tal hljóðskrá. Hámark 50MB.
voice	string	Já	Markmið raddgreining fyrir framleiðsla ræðu
model	string	Nei	Model: `openvoice` (sjálfgefið), `chatterbox`
emotion	string	Nei	Tilfinningar: hlutlaus, hamingjusöm, sorgleg, reiður, spennt
speed	float	Nei	Hraðastilling. Sjálfgefið: `1.0`. Svið: `0.5` til `2.0`

file file	Hljóðskrá til að auka
denoise boolean	Virkja hávaðaeyðingu (sjálfgefið: satt)
enhance_clarity boolean	Auka talskýringu (sjálfgefið: satt)
super_resolution boolean	Uppskalun hljóðgæða (sjálfgefið: ósatt)
strength integer	1- 3 (létt, meðal, sterkt). Sjálfgefið: 2

file file	Hljóðskrá sem á að aðskilja
model string	`demucs` (sjálfgefið) eða `spleeter`
stems integer	Fjöldi stilka: 2, 4, 5 eða 6 (sjálfgefið: 2)
format string	Úttakssnið: `wav`, `mp3`, `flac`

file file	Hljóðskrá sem á að vinna úr
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

file file	Hljóðskrá sem á að umbreyta
format string	Marksnið: `mp3`, `wav`, `flac`, `ogg`, `m4a`, `aac`
bitrate integer	Úttaks bitahraði í kbps: 64, 128, 192, 256, 320
sample_rate integer	Sýnatökutíðni: 22050, 44100, 48000
channels string	`mono` eða `stereo`

Viðföng	Tegund	Nauðsynlegt	Lýsing
audio	file	Nei*	Hljóðinntak (annaðhvort `hljóð` eða `texti` nauðsynlegt)
text	string	Nei*	Texta inntak (annaðhvort `audio` eða `text` nauðsynlegt)
voice	string	Nei	Sjálfgefið: `af_bella`
tts_model	string	Nei	TTS líkan fyrir svar. Sjálfgefið: `kokoro`
system_prompt	string	Nei	Sérsniðin kerfiskveikja fyrir AI
conversation_id	string	Nei	Halda áfram núverandi samtali

Breyta	Tegund	Lýsing
texts	array	Array of objects: `{text, model, voice}`. Max 50 items.
webhook_url	string	Optional URL to POST results when batch completes.

Breyta	Tegund	Lýsing
file	file	Reference audio file (WAV, MP3, FLAC).
model	string	Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.

Viðföng	Tegund	Lýsing
model	string	Sía eftir tegundarnúmeri (t.d. `kokoro`)
language	string	Sía eftir tungumálakóða (t.d. is)
gender	string	Sía eftir kyni: `karlkyns`, `kvenkyns`, `hlutlaust`

Viðföng	Nauðsynlegt	Lýsing
uuid	Já	Verk UUID skilað af / v1 / tts / eða / v1 / voice- clone /.
format	Nei	`srt` (sjálfgefið) eða `vtt`.
download	Nei	`1` til að senda `Content-Disposition: attachment` þannig að vafrinn vistir frekar en birtir.
language	Nei	Vísbending um samræmingarlíkanið (sjálfvirkt greint ef sleppt er).

Viðföng	Tegund	Lýsing
word	string	Orðið sem á að yfirfæra (t.d. `GIF`, `Anthropic`). Orðmörk samsvarandi.
replacement	string	Hvernig á að stafa það fyrir líkanið (t.d. `jiff`, `ann THROP ick`).
language	string	Valfrjáls ISO kóði. Tómur = gildir um öll tungumál.
case_sensitive	boolean	Sjálfgefið `false`. Passa hástafi nákvæmlega þegar `true`.