Як отримати ключ API?

Підписатися на вільний обліковий запис TTS.ai, а потім перейти до панелі керування вашим обліковим записом і натиснути кнопку " Створити ключ API." Ваш ключ буде позначено префіксом sk- tts - і ви зможете негайно скористатися цим пунктом. Щоб розпочати роботу, програма отримає 15 000 символів.

Чи сумісний API з форматом OpenAI?

Так, наш API відповідає сумісному з OpenAI запитам і форматам відповідей. Якщо у вас вже існує код, який використовує інтерфейс TTS OpenAI, ви можете перемикатися на TTS.ai зміною базового ключа URL і API з мінімальними змінами у коді.

Які мови підтримуються програмуванням?

Програмний інтерфейс REST працює з будь- якою мовою, яка може надсилати запити на HTTP. У програмі передбачено приклади коду у Python, JavaScript (Node. js та переглядачі), cURL тощо. Будь- яка мова з бібліотекою HTTP- клієнтом (Goo, Ruby, Java, C#, PHP тощо) може використовувати API.

Які обмеження швидкості API?

Вільні рахунки обмежено 3 запитами на годину. Параметри Paid мають вищі обмеження на основі вашої краватки підписки: Starter (60/ hours), Profect (300/ hours), Explory (необмежено). Заголовки обмеження курсів включено до всіх відповідей API.

Як працює ціноутворення API?

Використання API використовує символи, засновані на моделях прив' язки і тривалості тексту. Вільні моделі використовують 0 символів, стандартні моделі використовують 2x символи, а внескові символи - 4x. Символи включаються до всіх оплачуваних планів, а також можна придбати окремо як пачки символів.

Які кінцеві точки є досяжні?

У API передбачено кінцеві пункти для синтезу мовлення з тексту (POST / v1/ tts /), синтезу мовлення з тексту (POST / v1/ trancess /), перетворення звуку (POST / v1/ voice- chone /), перетворення голосів (POST / v1/ voice- convert /), переклад мовлення (POST1/ v1/ transfer /), покращення звуку (POST1 / v1/ audio- enhance /), вилучення голосів, розбиття стовбурів, аналіз BPM тощо.

Які формати звукових даних повертає API?

Типово, програма API повертає звукові дані у форматі WAV. Ви можете вказати формат виводу (mp3, wav, ogg, flac) за допомогою параметра return_ format. Рекомендуємо вам скористатися MP3 для веб- програм, WAV для подальшої обробки звукових даних.

Чи існує потікний API для TTS у режимі реального часу?

Так, наш асинхронний API повертає ідентифікатор завдання, за допомогою якого ви можете проводити опитування результатів. Для моделей, що підтримуються, на зразок Kokro, створення звукових даних достатньо швидке для програм майже у реальному часі. Точка завершення опитування повертає адресу звукової адреси після завершення обробки.

Як мені впоратися з помилками в API?

API повертає стандартні коди стану HTTP (400 для поганих запитів, 401 для помилок автентифікації, 429 для обмеження швидкості, 500 для помилок сервера) з повідомленнями про помилки JSON. Завжди перевіряйте поле стану і помилки у відповідях на правильну обробку помилок.

Чи можна використовувати API для комерційних програм?

Так, API розроблено для комерційного використання. Звук, створений за допомогою API, можна використовувати у ваших продуктах, програмах і службах. Всі моделі використовують ліцензії з відкритим кодом, крім того, для створення звукових даних немає додаткових роялей.

Чи є середовище для перевірки чи пісочниці?

Моделі " Вільні" (Kokoro, Piper, VITS, Milotts) слугують як чудова пісочниця } Вони використовують нуль символів і доступні для всіх рахунків. Випробовуйте вашу інтеграцію з вільними моделями, перш ніж перемикатися на першопрохідні моделі для використання.

Як мені показати список доступних голосів і моделей за допомогою API?

Скористайтеся пунктом GET / v1/ voices, щоб переглянути список всіх можливих голосів з параметрами фільтрування (модель, мова, стать). Скористайтеся пунктом GET / v1/ models для того, щоб переглянути список всіх доступних моделей TTS з інформацією про їх можливості та інформацію щодо прив' язки. Обидві кінцеві точки повертають відповіді JSON.

Надіслати звіт про помилку / запит на можливості

Документація з API

Інтегрувати TTS.ai до ваших програм за допомогою нашого API REST. Сумісний з OpenAI формат для легкої міграції.

REST API Сумісний OpenAI ДЖСОН відповідає Підтримка потоку

Огляд

У TTS.ai API передбачено програмний доступ до всіх можливостей платформи: синтез синтезу мовлення, текстовий текст, клонування голосів, покращення звукових даних тощо. У API використано стандартні конгреси REST з тілом JSON query/respons.

Ключ API

Отримати ваш ключ API від Параметри облікового запису. Доступні щодо Про та промислових планів.

Базова адреса URL

https://api.tts.ai/v1/

Auth

Помітка з медведем Authorization заголовок

Розпізнавання

Безкоштовна краватка не обов'язково. Анонімний POST до /v1/tts/ працює без розпізнавання, до 5000 символів/дня за IP, використовуючи будь-яку з наших вільних моделей (piper, vits, melotts, kokoro). Підписуйтесь на безкоштовний рахунок, щоб отримати 15 000 бонусів і доступ до преміальних моделей.

Для преміальних моделей і обмеження вищих частот розпізнавання з жетоном у Authorization заголовок.

Заголовок HTTP

Authorization: Bearer sk-tts-your-api-key-here

Тримайте ваш ключ API в секреті. Не ділити його між клієнтськими кодами, публічними сховищами або журналами. регулярно повертати клавіші з параметрів вашого облікового запису.

SDKs

Офіційна SDK спрощує інтеграцію TTS.ai до вашої програми. Обидва програми є відкритим джерелом і доступними для GitHub.

Python

pip install ttsai

from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")
audio = client.generate(
    text="Hello world!",
    model="kokoro"
)
client.save(audio, "output.wav")

GitHub

JavaScript / Node.js

npm install @ttsainpm/ttsai

const { TTSClient } = require('@ttsainpm/ttsai');

const client = new TTSClient({
  apiKey: 'sk-tts-...'
});
const audio = await client.generate({
  input: 'Hello world!',
  model: 'kokoro'
});
await client.saveToFile(audio, 'output.wav');

GitHub

Базова адреса URL

Базова адреса URL: https://api.tts.ai/v1/

Всі кінцеві точки відносяться до цієї базової адреси URL. Наприклад, кінцева точка TTS:

POST https://api.tts.ai/v1/tts/

Обмеження швидкості

Обмеження швидкості API різняться за планом:

План	Запити/мін	Зберігання	Макс. довжина тексту
Вільно	10	2	500 символів
Започаткування	30	3	1 000 000 символів
Pro	60	5	1 000 000 символів
Підприємство	300	20	50 000 символів

Заголовки обмеження оцінки буде включено до кожного відповіді: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

Кошти кредиту

Служба	Вартість	Одиниця
TTS (Free Model: Piper, VITS, MellotTS)	1000 символів	на 1000 символів
TTS (звичайні моделі: Kokro, CosyWham 2 тощо)	2000 символів	на 1000 символів
TTS (моделі Premium: Tortoise, Chatterbox тощо)	4000 символів	на 1000 символів
Мова до тексту	2000 символів	на хвилину звуку
Клонування голосу	4000 символів	на 1000 символів
Зміна голосу	3000 символів	на хвилину звуку
Покращення звуку	2000 символів	на хвилину звуку
Vocal Delete / Stem spliting	3000- 4000 символів	на хвилину звуку
Переклад мовлення	5000 символів	на хвилину звуку
Голосова балачка	3000 символів	на хід
Пошук ключів & BPM	Вільно	--
Перетворювач звуку	Вільно	--

Текст для мовлення

POST /v1/tts/

Перетворити текст на аудіовимовний. Повертає звуковий файл у вказаному форматі.

Вимагати тіло

Параметр	Тип	Обов' язково	Опис
model	string	Ні	Ідентифікатор моделі (наприклад, `kokoro`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `singlebox`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `каналізатор`). Якщо не вказано, ми автоматично вибираємо модель, яка підтримує запитане `мова` що? `kokoro` en/ja/zh/ko/fr/de/it/pt/es/hi/ru, `каналізатор` для інших підтримуваних мов (ar/pl/nl/cs/da/fi/el/hu/tr/uk/vi/etc.)
text	string	Так.	Текст для перетворення на мовлення. Заголовка для перевірки: 500 символів (безіменний), 5000 (вільний рахунок), 1 000 000 (оплачений план). Довгі входи - це автоматичний запит на сервер.
voice	string	Так.	ІД голосу (використовуйте `/v1/voices/ для списку доступних голосів)`
format	string	Ні	Формат виводу: `mp3` (типовий), `wav`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `flac`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `ogg`
speed	float	Ні	Множення швидкості читання. Типове значення: < code > 1. 0 . Range: < code > 0. 5 <\ >\ > < <\ > < > <\ \ > <\ > <\ \ > <\ > <\ >\ \ > <\ \ > <\ \ > <\
language	string	Ні	Код мови (e. g., `en`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `es`). Якщо не вказано, буде автоматично визначено.
instructions	string	Ні	Дія / доставка} (} 500 символів). Наприклад, < code >\ Do not translate the keyword between brackets (e. g. ServerName, ServerAdmin, etc.)
pronunciations	object \| array	Ні	Заміна вимови < code > {\
stream	boolean	Ні	Увімкнути потокову відповідь. Типове значення: < code > false <\ >

Приклад запиту

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

Теґи SSML < scipe- as >

Переносити номери, дати, валюту, номери телефонів і абревіатури у < code > <\ >

інтерпретувати- as	Ввід	Як було сказано
`cardinal`	`1234`	one thousand two hundred thirty-four
`ordinal`	`21`	twenty-first
`date`	`1999-12-31`	грудень тридцять перший, дев'ятнадцять дев'ять
`time`	`14:30`	two thirty PM
`telephone`	`+1-555-867-5309`	plus one five five five eight six seven…
`currency`	`$1,234.56`	one thousand two hundred thirty-four dollars and fifty-six cents
`spell-out`	`NASA`	N A S A

Типовим форматом дати є mdy для англійської і дмиunit description in lists у іншому місці; перевизначити на format=\


                
                    
                        Приклад
                        
                    
{
  "model": "kokoro",
  "voice": "af_bella",
  "text": "Your appointment is on <say-as interpret-as=\"date\">2026-04-26</say-as> at <say-as interpret-as=\"time\">14:30</say-as>. Please call <say-as interpret-as=\"telephone\">+1-555-867-5309</say-as> if you need to reschedule."
}
                

                Відповідь
                The TTS endpoint queues your request and returns a JSON response with a job UUID. You then poll for the result.

                Step 1: Submit request
                
                    
                        Response (JSON)
                    
{
  "uuid": "77b71db532874ce98e84a69a2d740d4c",
  "job_id": "f21316bb-aefa-480d-8523-701d1e3184ce",
  "status": "queued",
  "credits_used": 11,
  "credits_remaining": 15000
}
                

                Step 2: Poll for result
                
                    GET /v1/speech/results/?uuid=<job_uuid>
                
                Poll this endpoint every 1-2 seconds until status is completed or failed.
                
                    
                        Polling response (completed)
                    
{
  "status": "completed",
  "result_url": "https://api.tts.ai/static/downloads/77b71db5.../output.mp3"
}
                
                
                    
                        Polling response (still processing)
                    
{
  "status": "processing"
}
                

                Step 3: Download audio
                Fetch the result_url from the completed response to download the audio file.

                Повний приклад
                
                    
                        Python
                        
                    
import requests, time

API_KEY = "sk-tts-your-key"
BASE = "https://api.tts.ai"

# 1. Submit TTS request
resp = requests.post(f"{BASE}/v1/tts/", json={
    "model": "kokoro",
    "text": "Hello from TTS.ai!",
    "voice": "af_bella"
}, headers={"Authorization": f"Bearer {API_KEY}"})
data = resp.json()
uuid = data["uuid"]

# 2. Poll for result
while True:
    result = requests.get(f"{BASE}/v1/speech/results/",
        params={"uuid": uuid}).json()
    if result["status"] == "completed":
        # 3. Download audio
        audio = requests.get(result["result_url"])
        with open("output.mp3", "wb") as f:
            f.write(audio.content)
        break
    elif result["status"] == "failed":
        raise Exception(result.get("error", "Generation failed"))
    time.sleep(1.5)
                

                Streaming alternative: For supported models (Kokoro, MeloTTS), use POST /v1/tts/stream/ for real-time Server-Sent Events (SSE) streaming — no polling needed.



            
            
                Мова до тексту
                
                    POST /v1/stt/
                
                Переписування звуку на текст. Підтримує 99 мов автовиявленням.

                Вимагати тіло (multipart/form-data)
                
                    
                        
                            Параметр Тип Обов' язково Опис
                        
                        
                            
                                file
                                file
                                Так.
                                Звуковий файл (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Макс. 100MБ.
                            
                            
                                model
                                string
                                Ні
                                Модель STT: while (типовий), швидше - шепіння, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) feelword
                            
                            
                                language
                                string
                                Ні
                                Код мови. < code > auto  для автоматичного визначення (типово).
                            
                            
                                timestamps
                                boolean
                                Ні
                                Включити часові штампи текстового рівня. Типове значення: < code > false <\ >
                            
                            
                                diarize
                                boolean
                                Ні
                                Увімкнути диалізацію звуку. Типове значення: < code > false <\ >
                            
                        
                    
                

                Відповідь
                
                    
                        ДЖСОН - відповідь
                    
{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}
                
            

            
            
                Клонування голосу
                
                    POST /v1/tts/clone/
                
                Створювати мовлення у клонованому голосі. Вивантажити еталонний звук і текст.

                Вимагати тіло (multipart/form-data)
                
                    
                        
                            Параметр Тип Обов' язково Опис
                        
                        
                            
                                reference_audio
                                file
                                Так.
                                Рекомендовано посилання на звуковий голос (10- 30 секунд). Макс. 20 Мб.
                            
                            
                                text
                                string
                                Так.
                                Текст для декламування в голосі клонованого клону.
                            
                            
                                model
                                string
                                Ні
                                Модель клонування: < code > chatockbox  (типовий), < code > cosyvoice2 , < code > gpt- sowits 
                            
                            
                                format
                                string
                                Ні
                                Формат виводу: mp3 (типовий), wav, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) flac
                            
                            
                                language
                                string
                                Ні
                                Код мови призначення. Слід підтримувати вибраною моделлю.
                            
                        
                    
                

                Відповідь
                Повертає звуковий файл як двійкові дані, те саме, що і кінцева точка TTS.
            

            
            
                Зміна голосу
                
                    POST /v1/voice-convert/
                
                Перетворити аудіо на звук іншого голосу. Вивантажити звуковий код і обрати цільовий голос.

                Вимагати тіло (multipart/form-data)
                
                    
                        
                            Параметр Тип Обов' язково Опис
                        
                        
                            
                                file
                                file
                                Так.
                                Звуковий файл джерела (MP3, WAV, FLAC). Макс. 50 Мб.
                            
                            
                                target_voice
                                string
                                Так.
                                Цільовий ідентифікатор голосу для перетворення (використовуйте < code >/ v1/ voices/  для списку доступних голосів)
                            
                            
                                model
                                string
                                Ні
                                Модель перетворення голосу: < code > openvoice  (типовий), < code > kn- vc <\ >
                            
                            
                                format
                                string
                                Ні
                                Формат виводу: wav (типовий), mp3, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) flac
                            
                        
                    
                

                Приклад запиту
                
                    
                        cURL
                        
                    
curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav
                

                Відповідь
                Повертає перетворений звуковий файл як двійкові дані.
            

            
            
                Переклад мовлення
                
                    POST /v1/speech-translate/
                
                Перекладати розмовний звук з однієї мови на іншу. До одного дзвінка слід додати текст, переклад і мовлення з тексту.

                Вимагати тіло (multipart/form-data)
                
                    
                        
                            Параметр Тип Обов' язково Опис
                        
                        
                            
                                file
                                file
                                Так.
                                Звуковий файл джерела мовою оригіналу. Макс. 100 Мб.
                            
                            
                                target_language
                                string
                                Так.
                                Код мови призначення (наприклад, es, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) fr, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) de, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) ya)
                            
                            
                                voice
                                string
                                Ні
                                Голос для перекладу виводу. Автовибрано, якщо не вказано.
                            
                            
                                preserve_voice
                                boolean
                                Ні
                                Намагатися зберегти характеристики голосу оригінального промовця. Типове значення: < code > false <\ >
                            
                        
                    
                

                Відповідь
                
                    ДЖСОН - відповідь
{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}
                
            

            
            
                Мовлення
                
                    POST /v1/speech-to-speech/
                
                Перетворювати стиль мовлення, емоції або доставку з збереженням змісту. Корисно для зміни тону, тону і виразності.

                Вимагати тіло (multipart/form-data)
                
                    
                        
                            Параметр Тип Обов' язково Опис
                        
                        
                            
                                file
                                file
                                Так.
                                Звуковий файл джерела мовлення. Макс. 50 Мб.
                            
                            
                                voice
                                string
                                Так.
                                ІД голосу цілі для вихідної мови
                            
                            
                                model
                                string
                                Ні
                                Модель: < code > openvoice  (типовий), < code > chatcessbox 
                            
                            
                                emotion
                                string
                                Ні
                                Почуття цілі: нейтральний, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) щасливий, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) сумний, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) агресивний, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) збуджений
                            
                            
                                speed
                                float
                                Ні
                                Налаштування швидкості. Типове значення: < code > 1. 0 . Range: < code > 0. 5 <\ > < > <\ > < <\ \ > <\ > <\ \ > <\ > <\ >\ >\ \ > <\ \ >\ \ > <\ \ >\ \ > <
                            
                        
                    
                

                Відповідь
                Повертає змінений звуковий файл як двійкові дані.
            

            
            
                Звукові інструменти
                Кінцеві точки для покращення, видалення голосу, поділ стовбурів тощо.

                
                
                    
                        
                            POST /v1/audio/enhance/
                        
                        Покращення якості звукових даних: де noise, покращення прозорості, суперрозмірність.
                        
                            
                                
                                    file file Звуковий файл для покращення
                                    denoise boolean Увімкнути деноазування (типовий: true)
                                    enhance_clarity boolean Яскрава мова (типовий: так)
                                    super_resolution boolean Якість висотних розмірів звукових даних (типовий: false)
                                    strength integer 1- 3 (світло, середній, сильний). Типове значення: 2
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/separate/
                        
                        Відокремлювати голоси від інструментальних засобів (vocal remove) або розділяти їх на стебла.
                        
                            
                                
                                    file file Аудіо файл, який слід розділити
                                    model string demucs (типовий) або spleeter
                                    stems integer Кількість стебел: 2, 4, 5 або 6 (типово: 2)
                                    format string Формат виводу: wav, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) mp3, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) flac
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/dereverb/
                        
                        Вилучити відлуння і відлуння з аудіозаписів.
                        
                            
                                
                                    file file Аудіо файл для обробки
                                    type string echo or reverb (default: both)
                                    intensity integer 1-5 (default: 3)
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/analyze/
                            Вільно
                        
                        Аналіз звукових даних для виявлення ключа, BPM і підпису часу.
                        
                            
                                
                                    file file Аудіо файл для аналізу
                                
                            
                        
                        
                            Відповідь
{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/convert/
                            Вільно
                        
                        Перетворити аудіо у форматах.
                        
                            
                                
                                    file file Аудіо файл для перетворення
                                    format string Формат призначення: mp3, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) wav, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) flac, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) ogg, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) m4a, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) aac
                                    bitrate integer Бітова швидкість виводу в кбітах: 64, 128, 192, 256, 320
                                    sample_rate integer Частота вибірки: 22050, 44100, 48000
                                    channels string mono або stereo
                                
                            
                        
                    
                
            

            
            
                Голосова балачка
                
                    POST /v1/voice-chat/
                
                Надіслати звукову або текстову інформацію і отримати відповідь комп' ютерного гравця з синтезованою мовою.

                Вимагати тіло (multipart/form-data або JSON)
                
                    
                        
                            Параметр Тип Обов' язково Опис
                        
                        
                            
                                audio
                                file
                                Ні*
                                Вхідні дані аудіо (або < code > audio  або < code > text <\ >)
                            
                            
                                text
                                string
                                Ні*
                                Ввід тексту (або < code > audio  або < code > text <\ >)
                            
                            
                                voice
                                string
                                Ні
                                Голос для відповіді комп' ютера. Типове значення: < code > bella <\ >
                            
                            
                                tts_model
                                string
                                Ні
                                Модель TTS для відповіді. Типове значення: < code >kro <\ >
                            
                            
                                system_prompt
                                string
                                Ні
                                Запит нетипової системи для комп' ютерного гравця
                            
                            
                                conversation_id
                                string
                                Ні
                                Продовжити існуючу розмову
                            
                        
                    
                

                Відповідь
                
                    ДЖСОН - відповідь
{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}
                
            

            
            
                Пакетне TTS
                
                    POST /v1/tts/batch/
                
                Надіслати декілька текстів для паралельного створення TTS. За бажання, отримувати зворотний виклик з веб- сайтом після завершення всіх завдань.

                Параметри
                
                    Параметр Тип Опис
                    
                        texts array Array of objects: {text, model, voice}. Max 50 items.
                        webhook_url string Додаткова адреса URL результатів POST, якщо пакет завершується.
                    
                

                Відповідь
                
                    ДЖСОН - відповідь
{
  "batch_id": "abc123",
  "total": 3,
  "completed": 0,
  "status": "processing"
}
                
                Опитування поступу за допомогою Get / v1/ tts/ batch/result /? batch_ id=abc123
            

            
            
                Вбудовування голосу
                
                    POST /v1/voice-embed/
                
                Попереднє налаштування вбудовування голосу з аудіо. Скористайтеся отриманим ідентифікатором include_ id у наступних запитах на клонування голосів для близького створення.

                Параметри
                
                    Параметр Тип Опис
                    
                        file file Reference audio file (WAV, MP3, FLAC).
                        model string Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.
                    
                

                Відповідь
                
                    ДЖСОН - відповідь
{
  "embed_id": "emb_abc123",
  "model": "chatterbox",
  "duration_ms": 450
}
                
            

            
            
                Перевірка здоров'я
                
                    GET /v1/health/
                
                Перевірте стан сервера GPU, завантажені моделі і розмір черги. Не потрібно автентифікації. Кешовано протягом 30 секунд.

                Відповідь
                
                    ДЖСОН - відповідь
{
  "status": "online",
  "latency_ms": 45,
  "queue_size": 3,
  "models_loaded": ["kokoro", "chatterbox", "cosyvoice2"]
}
                
            

            
            
                Моделі списку
                
                    GET /v1/models/
                
                Повертає список всіх доступних моделей з їх можливостями.

                Відповідь
                
                    ДЖСОН - відповідь
{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}
                
            

            
            
                Голоси списку
                
                    GET /v1/voices/
                
                Повертає список всіх доступних голосів, за бажання, відфільтрований моделлю або мовою.

                Параметри запиту
                
                    
                        
                            Параметр Тип Опис
                        
                        
                            
                                model
                                string
                                Фільтрувати за моделлю ID (наприклад, kokoro)
                            
                            
                                language
                                string
                                Фільтрувати за кодом мови (наприклад, < code > en <\ >)
                            
                            
                                gender
                                string
                                Фільтрувати за статтю: чоловічий, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) жіночий, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) нейтральний
                            
                        
                    
                

                Відповідь
                
                    ДЖСОН - відповідь
{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}
                
            

            
            
                Subtitles (SRT / VTT) новий
                
                    GET /v1/speech/subtitles/?uuid=<job_uuid>&format=srt|vtt&download=1
                
                Створює синхронізовані субтитри для всіх завершених завдань TTS. Виконує вирівнювання Whisper над аудіо і повертає SRT або WebVTT. Результат буде кешовано на диску, отже другим викликом одного uid є читання диска.
                Параметри запиту
                
                    
                        Параметр Обов' язково Опис
                        
                            uuid Так. Завдання UUID повернуто за адресою / v1/ tts / або / v1/ voice- cloone /.
                            format Ні < code >srt <\ > або vt .
                            download Ні 1 надіслати Розташування вмісту: долучення отже переглядач зберігає, а не показує.
                            language Ні Підказка моделі вирівнювання (автовизначення, якщо пропущено).
                        
                    
                
                
                    cURL
curl "https://api.tts.ai/v1/speech/subtitles/?uuid=$UUID&format=srt&download=1" -o subtitles.srt
                
            

            
            
                Словник вимови новий
                
                    GET
                    POST
                    DELETE
                    /api/v1/pronunciations/
                
                Повідомити рушієві TTS про те, як вимовляти окремі слова. Записи автоматично буде застосовано до всіх запитів на TTS, які ви робите. 200- entry для кожного рахунка.
                Вимагати тіло (POST)
                
                    
                        Параметр Тип Опис
                        
                            word string Слово, яке слід перевизначити (наприклад, GIF, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) АнтропічніKCharselect unicode block name) Слово співпадає.
                            replacement string Як його записати для моделі (наприклад, < code > jiff , < code >, < code > ick <\ >.
                            language string Необов' язковий код ISO. Порожній = стосується всіх мов.
                            case_sensitive boolean Типове значення < code > false . Враховувати регістр, точно якщо < code > = <\ >.
                        
                    
                
                
                    cURL
# Save an entry
curl -X POST https://tts.ai/api/v1/pronunciations/ \
  -H "Authorization: Bearer sk-tts-..." \
  -H "Content-Type: application/json" \
  -d '{"word": "GIF", "replacement": "jiff"}'

# List your entries
curl https://tts.ai/api/v1/pronunciations/ -H "Authorization: Bearer sk-tts-..."

# Delete entry by id
curl -X DELETE "https://tts.ai/api/v1/pronunciations/?id=42" -H "Authorization: Bearer sk-tts-..."
                
                Крім того, ви можете передавати параметри sper- request без збереження їх значення < code >prolues <\ > на будь- якому з / v1/tts/ call як об' єкт або масив (див. параметри кінцевої точки TTS).
            

            
            
                Стаття Наглядач новий
                Викинути один

Параметр	Тип	Обов' язково	Опис
file	file	Так.	Звуковий файл (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Макс. 100MБ.
model	string	Ні	Модель STT: `while` (типовий), `швидше - шепіння`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `feelword`
language	string	Ні	Код мови. < code > auto для автоматичного визначення (типово).
timestamps	boolean	Ні	Включити часові штампи текстового рівня. Типове значення: < code > false <\ >
diarize	boolean	Ні	Увімкнути диалізацію звуку. Типове значення: < code > false <\ >

Параметр	Тип	Обов' язково	Опис
reference_audio	file	Так.	Рекомендовано посилання на звуковий голос (10- 30 секунд). Макс. 20 Мб.
text	string	Так.	Текст для декламування в голосі клонованого клону.
model	string	Ні	Модель клонування: < code > chatockbox (типовий), < code > cosyvoice2 , < code > gpt- sowits
format	string	Ні	Формат виводу: `mp3` (типовий), `wav`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `flac`
language	string	Ні	Код мови призначення. Слід підтримувати вибраною моделлю.

file file	Звуковий файл для покращення
denoise boolean	Увімкнути деноазування (типовий: true)
enhance_clarity boolean	Яскрава мова (типовий: так)
super_resolution boolean	Якість висотних розмірів звукових даних (типовий: false)
strength integer	1- 3 (світло, середній, сильний). Типове значення: 2

file file	Аудіо файл, який слід розділити
model string	`demucs` (типовий) або `spleeter`
stems integer	Кількість стебел: 2, 4, 5 або 6 (типово: 2)
format string	Формат виводу: `wav`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `mp3`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `flac`

file file	Аудіо файл для обробки
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

file file	Аудіо файл для перетворення
format string	Формат призначення: `mp3`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `wav`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `flac`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `ogg`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `m4a`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `aac`
bitrate integer	Бітова швидкість виводу в кбітах: 64, 128, 192, 256, 320
sample_rate integer	Частота вибірки: 22050, 44100, 48000
channels string	`mono` або `stereo`

Параметр	Тип	Обов' язково	Опис
audio	file	Ні*	Вхідні дані аудіо (або < code > audio або < code > text <\ >)
text	string	Ні*	Ввід тексту (або < code > audio або < code > text <\ >)
voice	string	Ні	Голос для відповіді комп' ютера. Типове значення: < code > bella <\ >
tts_model	string	Ні	Модель TTS для відповіді. Типове значення: < code >kro <\ >
system_prompt	string	Ні	Запит нетипової системи для комп' ютерного гравця
conversation_id	string	Ні	Продовжити існуючу розмову

Параметр	Тип	Опис
texts	array	Array of objects: `{text, model, voice}`. Max 50 items.
webhook_url	string	Додаткова адреса URL результатів POST, якщо пакет завершується.

Параметр	Тип	Опис
file	file	Reference audio file (WAV, MP3, FLAC).
model	string	Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.

Параметр	Тип	Опис
model	string	Фільтрувати за моделлю ID (наприклад, `kokoro`)
language	string	Фільтрувати за кодом мови (наприклад, < code > en <\ >)
gender	string	Фільтрувати за статтю: `чоловічий`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `жіночий`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `нейтральний`

Параметр	Обов' язково	Опис
uuid	Так.	Завдання UUID повернуто за адресою / v1/ tts / або / v1/ voice- cloone /.
format	Ні	< code >srt <\ > або `vt .`
download	Ні	`1` надіслати `Розташування вмісту: долучення` отже переглядач зберігає, а не показує.
language	Ні	Підказка моделі вирівнювання (автовизначення, якщо пропущено).

Параметр	Тип	Опис
word	string	Слово, яке слід перевизначити (наприклад, `GIF`, Description of a condition. Do not translate key words (# V1S #, # V1 #,...) `АнтропічніKCharselect unicode block name`) Слово співпадає.
replacement	string	Як його записати для моделі (наприклад, < code > jiff , < code >, < code > ick <\ >.
language	string	Необов' язковий код ISO. Порожній = стосується всіх мов.
case_sensitive	boolean	Типове значення < code > false . Враховувати регістр, точно якщо < code > = <\ >.