Надіслати звіт про помилку / запит на можливості

Текст для програмного інтерфейсу мовлення для розробників

Build voice-enabled applications with our REST API. Add natural text-to-speech, voice cloning, speech-to-text, and audio processing to your apps, chatbots, voice assistants, and SaaS products. OpenAI-compatible format, 20+ models, simple integration.

REST API Chatbots Апти голосів Продукти SaaS Автоматизація

Повноцінний редактор TTS Документи API

Спробуйте зараз

0/500

Вільно з Kokro, Piper, VITS, MeloTTS

Тут буде показано ваш створений звуковий файл

Відкрити повний редактор TTS

Можливості API для розробників

Все, що вам потрібно для побудови програм, увімкнених голосом

Простий програмний інтерфейс REST

Один запит POST для створення мовлення. JSON- запит, звукова відповідь. Працює з будь- якою мовою програмування, що підтримує HTTP.

OpenAI-Comatible

Заміна doll- in для OpenAI TTS API. Перемкніть ваш базовий адреса_ адреса і клавіша API, що працює негайно.

24+ Моделі доступні

Доступ до кожної моделі за допомогою одного API. Перемкнути моделі можна за допомогою зміни одного параметра. Порівняйте якість, швидкість і вартість.

Суб' ємність

Kokoro створює звукові дані не менше 1 секунди. Досконало для справжніх chatbots, асистентів голосів та інтерактивних програм.

API голосового клонування

Клонувати будь- який голос з короткої вибірки аудіо за допомогою API. Використовувати клоновані голоси для всіх наступних поколінь.

Декілька форматів

Вивід у вигляді WAV, MP3, OGG або FLAC. Оберіть частоту вибірки і бітову глибину. Підтримка звукових даних для програм у режимі реального часу.

Найкращі моделі для інтеграції розробника

Виберіть правильну модель для вимог швидкості, якості та вартості вашої програми

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Швидка 5/5

Найкраще для: Найшвидша модель } під-секунда mincy, ідеальна для програм у режимі реального часу і chatbots

Спробувати Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Середній 5/5 Клонування голосу

Найкраще для: Потік TTS з клонуванням голосів для допоміжних програм для голосових повідомлень

Спробувати CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Повільно 5/5

Найкраще для: Компактальний комп' ютер з природним часом для chatbot і допоміжним голосом

Спробувати Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Швидка 3/5

Найкраще для: Вільна модель ЦП для програм з високими об' ємами з нульовими витратами кредиту

Спробувати Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Повільно 4/5

Найкраще для: Створення аудіо з звуковими ефектами для програм для творчих та розважальних програм

Спробувати Bark

Як інтегрувати API TTS

Від підпису до першого дзвінка API менш ніж 5 хвилин

Отримати ваш ключ API

Запишіться безкоштовно і створіть ключ API з панелі керування обліковими записами. Включено 15 000 символів.

Перш за все дзвоніть

POST до / v1/ tts з текстом, моделлю і голосом. Отримати звукові байти назад. На 5 рядках коду.

Виберіть вашу модель

Перевіряти різні моделі вашого випадку використання. Порівняйте швидкість, якість і вартість для покоління.

Корабель у виробництво

Влаштуйте масштаб символами сплати за- як- у- ви- ви. Без обмежень у оплачуваних планах. Використання монітора у панелі приладів.

Приклади швидкого запуску коду

Інтегрувати TTS.ai у будь-якій мові за допомогою нашого програмного інтерфейсу REST

Python Популярний

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Універсальний

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

Формат OpenAI-Compty Format Вкинути

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Отримати ваш вільний ключ API

Інструмент збирання розробників за допомогою TTS.ai

Загальні шаблони і програми для інтеграції

AI Chatbots і помічники

Додайте вивід до вашого чатбота або помічника комп' ютерного зв' язку. Відповіді на каналі LLM через TTS для інтерфейсів, увімкнених голосом. Kokro постачає підсекундну латку для спілкування у режимі реального часу. Сезаме CSM створює розмовну мову з природним часом.

Відповідь LLM на трубопровод мовлення
Пізня після секунди з Kokoro
Розмова з Sesame CSM
Потік аудіовиходу

Застосунки мобільного & голосу

Створити платформи для читання програм і вивчення мов, увімкнені для мобільних програм, інструментів доступності. Наш API REST працює з будь- якою мобільною оболонкою. Звантажте звукові файли або спрямуйте їх безпосередньо до клієнта.

Реагувати на місцеве, Flutter, Swift, Kotlin
Доступність та читання програм
Платформи для вивчення мов
Створення аудіо- вмісту

Продукти SaaS

Можливості голосу білого надпису у вашому продукті SaaS. Додати TTS, STT, клонувати голос і обробляти аудіо як можливості на вашій платформі. Використовуйте наш API як ваш голосовий сервер без керування інфраструктурою GPU.

Можливості голосу з білим написом
Не потрібна інфраструктура GPU
Заплати за використання ціноутворення
20+ Моделі, які будуть пропонувати вашим користувачам

Автоматичні канали

Інтегрувати створення голосів у трубопроводах CI/CD, автоматизація вмісту і роботи пакетної обробки. Створення тисяч звукових файлів з даних електронної таблиці, створення автотрансляції або збирання каналів локалізації вмісту.

Пакетна обробка за допомогою API
трубопроводи локалізації вмісту
Інтеграція CI/CD
Електронна таблиця для автоматизації звуку

Перегляд Повнофункціональна документація

Специфікації API

Вбудовано для програм для розробки

20+

Моделі TTS

100+

Голоси

30+

Мови

<1s

Затримка (Kokoro)

Підписаємося вперед без охоти ⇩ 15 000 символів.

Часті запитання

Поширені питання щодо API розробника TTS.ai

Так. Наш API працює у форматі звукової мовлення OpenAI. Якщо ви використовуєте бібліотеку клієнта OpenAI Python або JavaScript, ви можете перемикатися на TTS.ai зміною параметрів базового_ url і api_ key. Ваш існуючий код працює без зміни.

Kokro створює звукові дані у діапазоні до 1 секунди для типових речень. ComyGore 2 підтримує потік виведених даних для того, щоб навіть нижче сприймалося скасування часу. Для чатботів і асистентів голосів, загальний час округлення зазвичай дорівнює 1- 3 секундам, залежно від тривалості і вибору моделі тексту.

Безкоштовні моделі (Kokoro, Piper, VITS, MelotTS) є повністю вільними. Стандартні моделі використовують 2x символи на 1K тексту. Моделі Premium використовують 4x символи на 1K тексту. Безкоштовно підписуйте 15 000 символів. Плани починаються з $9/ місячних для 500 000 символів.

Так. Вивантажуйте еталонну модель звуку (5- 30 секунд) до точки завершення клонування голосу, а потім скористайтеся ідентифікатором клонованого голосу у наступних запитах на TTS. Моделі, які підтримують клонування: CosyGore 2, Chatterbox, Fish Speech і GPT- SoviTS.

Вільна прив' язка має базову швидкість, обмежену (3 запити за годину без рахунка). У планах пайдів передбачено обмеження на більшу ставку, що відповідає програмам виробництва. Зв' яжіться з нами щодо вимог комп' ютерного забезпечення.

WAV (без стискання, найвищої якості), MP3 (пакувальні, менші файли), OGG (відкриті формат) і FLAC (без стискання). Вкажіть формат у вашому запиті. Типове значення: WAV на рідній швидкості вибірки моделі.

Так. Поєднайте наш API TTS з моделлю мовлення і LLM для побудови повного апарату для голосових апаратів. Kokro надає можливість підсекундного програмного забезпечення для спілкування у режимі реального часу. ComyGore 2 підтримує потік виведених даних для навіть менш низьких моментів сприйняття відповіді.

Підтримка комбінованого звуку 2 і Kokro, що потече поточно, де під час створення звукових шматків. Це зменшує часовий вимір для програм у режимі реального часу, таких як допоміжні засоби для роботи з голосами та інтерактивний досвід.

API повертає стандартні коди стану HTTP. Реалізація експоненційного зворотного зв' язку для 5xx помилок і відповідей на обмеження швидкості. Для програм, які відповідають за виконання місії, додайте чергу з повторною логікою. У нашому API є високий час, але завжди рекомендується працювати з гнучкими помилками.

Так. За допомогою / v1/ voices і / v1/ models кінцеві точки поверне список всіх можливих голосів і моделей з їх метаданими (підтримка мови, оцінка якості, оцінки швидкості і прив' язки ціноутворення). Скористайтеся ними для побудови динамічних моделей у вашій програмі.

Вільні моделі (Kokoro, Piper, VITS, MelotTS) слугують ефективними пісочницями, оскільки вони коштують нуль кредитів. Перевірте вашу інтеграцію з вільними моделями, а потім перемкніться на першокласні моделі шляхом зміни параметра моделі. Не потрібно окремого тестового середовища.

Більшість з наших моделей відкриті у коді програми і можуть бути автоматично утримані. Але для роботи з самим собою потрібні значні ресурси GPU (ми використовуємо 4x NVIDIA Tesa P40 з загаломю кількістю даних 96GB VRAM). У API передбачено альтернативну альтернативу, яка забезпечує витрати без керування інфраструктурою.

5.0/5 (1)

Готові до створення за допомогою комп'ютера голосу?

Отримайте вільний ключ API і почніть будувати. 15 кредитів з підписом, безкоштовні моделі доступні, комплексна документація.

Вільний підпис Перегляд Приоритет

Текст для програмного інтерфейсу мовлення для розробників

Спробуйте зараз

Любити TTS.ai?

Можливості API для розробників

Простий програмний інтерфейс REST

OpenAI-Comatible

24+ Моделі доступні

Суб' ємність

API голосового клонування

Декілька форматів

Найкращі моделі для інтеграції розробника

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Як інтегрувати API TTS

Отримати ваш ключ API

Перш за все дзвоніть

Виберіть вашу модель

Корабель у виробництво

Приклади швидкого запуску коду

Інструмент збирання розробників за допомогою TTS.ai

AI Chatbots і помічники

Застосунки мобільного & голосу

Продукти SaaS

Автоматичні канали

Специфікації API

Часті запитання

Чи сумісний з API з форматом OpenAI TTS?

Яке програмне забезпечення у режимі реального часу?

Як ціноутворення працює для використання API?

Чи можна використовувати клонування голосів через API?

Чи є якісь обмеження на ставку?

Які формати звукових даних повертає API?

Чи можу я використовувати API для побудови голосового помічника або чатбота?

Чи існує API WebSocket чи потік даних?

Як мені впоратися з помилками і повтореннями у виробництві?

Чи можу я скласти список наявних голосів і моделей програмно?

Чи є якесь середовище для перевірки або пісочниці?

Чи можу я самостійно розмістити моделі замість API?

Готові до створення за допомогою комп'ютера голосу?