Текст для програмного інтерфейсу мовлення для розробників

Побудова програм з правами голосу за допомогою нашого програмного інтерфейсу REST. Додайте природні текстові повідомлення, клонування голосів, синтез мовлення з тексту і обробку звукових даних до ваших програм, чатботів, помічників голосу і продуктів SaaaS. Формат, сумісний з OpenAI, 20 моделей, проста інтеграція.

REST API Chatbots Апти голосів Продукти SaaS Автоматизація

Спробуйте зараз

Вільно з Kokro, Piper, VITS, MeloTTS
Тут буде показано ваш створений звуковий файл
Створено
Звантажити
Любити TTS.ai?

Можливості API для розробників

Все, що вам потрібно для побудови програм, увімкнених голосом

Простий програмний інтерфейс REST

Один запит POST для створення мовлення. JSON- запит, звукова відповідь. Працює з будь- якою мовою програмування, що підтримує HTTP.

OpenAI-Comatible

Заміна doll- in для OpenAI TTS API. Перемкніть ваш базовий адреса_ адреса і клавіша API, що працює негайно.

24+ Моделі доступні

Доступ до кожної моделі за допомогою одного API. Перемкнути моделі можна за допомогою зміни одного параметра. Порівняйте якість, швидкість і вартість.

Суб' ємність

Kokoro створює звукові дані не менше 1 секунди. Досконало для справжніх chatbots, асистентів голосів та інтерактивних програм.

API голосового клонування

Клонувати будь- який голос з короткої вибірки аудіо за допомогою API. Використовувати клоновані голоси для всіх наступних поколінь.

Декілька форматів

Вивід у вигляді WAV, MP3, OGG або FLAC. Оберіть частоту вибірки і бітову глибину. Підтримка звукових даних для програм у режимі реального часу.

Найкращі моделі для інтеграції розробника

Виберіть правильну модель для вимог швидкості, якості та вартості вашої програми

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Найкраще для: Найшвидша модель } під-секунда mincy, ідеальна для програм у режимі реального часу і chatbots

Спробувати Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Клонування голосу

Найкраще для: Потік TTS з клонуванням голосів для допоміжних програм для голосових повідомлень

Спробувати CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Найкраще для: Компактальний комп' ютер з природним часом для chatbot і допоміжним голосом

Спробувати Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Найкраще для: Вільна модель ЦП для програм з високими об' ємами з нульовими витратами кредиту

Спробувати Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Найкраще для: Створення аудіо з звуковими ефектами для програм для творчих та розважальних програм

Спробувати Bark

Як інтегрувати API TTS

Від підпису до першого дзвінка API менш ніж 5 хвилин

1

Отримати ваш ключ API

Запишіться безкоштовно і створіть ключ API з панелі керування обліковими записами. Включено 15 000 символів.

2

Перш за все дзвоніть

POST до / v1/ tts з текстом, моделлю і голосом. Отримати звукові байти назад. На 5 рядках коду.

3

Виберіть вашу модель

Перевіряти різні моделі вашого випадку використання. Порівняйте швидкість, якість і вартість для покоління.

4

Корабель у виробництво

Влаштуйте масштаб символами сплати за- як- у- ви- ви. Без обмежень у оплачуваних планах. Використання монітора у панелі приладів.

Приклади швидкого запуску коду

Інтегрувати TTS.ai у будь-якій мові за допомогою нашого програмного інтерфейсу REST

Python Популярний
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Універсальний
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Формат OpenAI-Compty Format Вкинути
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Інструмент збирання розробників за допомогою TTS.ai

Загальні шаблони і програми для інтеграції

AI Chatbots і помічники

Додайте вивід до вашого чатбота або помічника комп' ютерного зв' язку. Відповіді на каналі LLM через TTS для інтерфейсів, увімкнених голосом. Kokro постачає підсекундну латку для спілкування у режимі реального часу. Сезаме CSM створює розмовну мову з природним часом.

  • Відповідь LLM на трубопровод мовлення
  • Пізня після секунди з Kokoro
  • Розмова з Sesame CSM
  • Потік аудіовиходу

Застосунки мобільного & голосу

Створити платформи для читання програм і вивчення мов, увімкнені для мобільних програм, інструментів доступності. Наш API REST працює з будь- якою мобільною оболонкою. Звантажте звукові файли або спрямуйте їх безпосередньо до клієнта.

  • Реагувати на місцеве, Flutter, Swift, Kotlin
  • Доступність та читання програм
  • Платформи для вивчення мов
  • Створення аудіо- вмісту

Продукти SaaS

Можливості голосу білого надпису у вашому продукті SaaS. Додати TTS, STT, клонувати голос і обробляти аудіо як можливості на вашій платформі. Використовуйте наш API як ваш голосовий сервер без керування інфраструктурою GPU.

  • Можливості голосу з білим написом
  • Не потрібна інфраструктура GPU
  • Заплати за використання ціноутворення
  • 20+ Моделі, які будуть пропонувати вашим користувачам

Автоматичні канали

Інтегрувати створення голосів у трубопроводах CI/CD, автоматизація вмісту і роботи пакетної обробки. Створення тисяч звукових файлів з даних електронної таблиці, створення автотрансляції або збирання каналів локалізації вмісту.

  • Пакетна обробка за допомогою API
  • трубопроводи локалізації вмісту
  • Інтеграція CI/CD
  • Електронна таблиця для автоматизації звуку

Специфікації API

Вбудовано для програм для розробки

20+

Моделі TTS

100+

Голоси

30+

Мови

<1s

Затримка (Kokoro)

Часті запитання

Поширені питання щодо API розробника TTS.ai

Так. Наш API працює у форматі звукової мовлення OpenAI. Якщо ви використовуєте бібліотеку клієнта OpenAI Python або JavaScript, ви можете перемикатися на TTS.ai зміною параметрів базового_ url і api_ key. Ваш існуючий код працює без зміни.

Kokro створює звукові дані у діапазоні до 1 секунди для типових речень. ComyGore 2 підтримує потік виведених даних для того, щоб навіть нижче сприймалося скасування часу. Для чатботів і асистентів голосів, загальний час округлення зазвичай дорівнює 1- 3 секундам, залежно від тривалості і вибору моделі тексту.

Безкоштовні моделі (Kokoro, Piper, VITS, MelotTS) є повністю вільними. Стандартні моделі використовують 2x символи на 1K тексту. Моделі Premium використовують 4x символи на 1K тексту. Безкоштовно підписуйте 15 000 символів. Плани починаються з $9/ місячних для 500 000 символів.

Так. Вивантажуйте еталонну модель звуку (5- 30 секунд) до точки завершення клонування голосу, а потім скористайтеся ідентифікатором клонованого голосу у наступних запитах на TTS. Моделі, які підтримують клонування: CosyGore 2, Chatterbox, Fish Speech і GPT- SoviTS.

Вільна прив' язка має базову швидкість, обмежену (3 запити за годину без рахунка). У планах пайдів передбачено обмеження на більшу ставку, що відповідає програмам виробництва. Зв' яжіться з нами щодо вимог комп' ютерного забезпечення.

WAV (без стискання, найвищої якості), MP3 (пакувальні, менші файли), OGG (відкриті формат) і FLAC (без стискання). Вкажіть формат у вашому запиті. Типове значення: WAV на рідній швидкості вибірки моделі.

Так. Поєднайте наш API TTS з моделлю мовлення і LLM для побудови повного апарату для голосових апаратів. Kokro надає можливість підсекундного програмного забезпечення для спілкування у режимі реального часу. ComyGore 2 підтримує потік виведених даних для навіть менш низьких моментів сприйняття відповіді.

Підтримка комбінованого звуку 2 і Kokro, що потече поточно, де під час створення звукових шматків. Це зменшує часовий вимір для програм у режимі реального часу, таких як допоміжні засоби для роботи з голосами та інтерактивний досвід.

API повертає стандартні коди стану HTTP. Реалізація експоненційного зворотного зв' язку для 5xx помилок і відповідей на обмеження швидкості. Для програм, які відповідають за виконання місії, додайте чергу з повторною логікою. У нашому API є високий час, але завжди рекомендується працювати з гнучкими помилками.

Так. За допомогою / v1/ voices і / v1/ models кінцеві точки поверне список всіх можливих голосів і моделей з їх метаданими (підтримка мови, оцінка якості, оцінки швидкості і прив' язки ціноутворення). Скористайтеся ними для побудови динамічних моделей у вашій програмі.

Вільні моделі (Kokoro, Piper, VITS, MelotTS) слугують ефективними пісочницями, оскільки вони коштують нуль кредитів. Перевірте вашу інтеграцію з вільними моделями, а потім перемкніться на першокласні моделі шляхом зміни параметра моделі. Не потрібно окремого тестового середовища.

Більшість з наших моделей відкриті у коді програми і можуть бути автоматично утримані. Але для роботи з самим собою потрібні значні ресурси GPU (ми використовуємо 4x NVIDIA Tesa P40 з загаломю кількістю даних 96GB VRAM). У API передбачено альтернативну альтернативу, яка забезпечує витрати без керування інфраструктурою.
5.0/5 (1)

Ваші відгуки допомагають нам вирішити проблеми.

Готові до створення за допомогою комп'ютера голосу?

Отримайте вільний ключ API і почніть будувати. 15 кредитів з підписом, безкоштовні моделі доступні, комплексна документація.