Текст для програмного інтерфейсу мовлення для розробників

Побудова програм з правами голосу за допомогою нашого програмного інтерфейсу REST. Додайте природні текстові повідомлення, клонування голосів, синтез мовлення з тексту і обробку звукових даних до ваших програм, чатботів, помічників голосу і продуктів SaaaS. Формат, сумісний з OpenAI, 20 моделей, проста інтеграція.

REST API Chatbots Апти голосів Продукти SaaS Автоматизація

Спробуйте зараз

Вільно з Kokro, Piper, VITS, MeloTTS
Тут буде показано ваш створений звуковий файл
Створено
0:00
Звантажити
Любити TTS.ai?

Можливості API для розробників

Все, що вам потрібно для побудови програм, увімкнених голосом

Простий програмний інтерфейс REST

Один запит POST для створення мовлення. JSON- запит, звукова відповідь. Працює з будь- якою мовою програмування, що підтримує HTTP.

OpenAI-Comatible

Заміна doll- in для OpenAI TTS API. Перемкніть ваш базовий адреса_ адреса і клавіша API, що працює негайно.

24+ Моделі доступні

Доступ до кожної моделі за допомогою одного API. Перемкнути моделі можна за допомогою зміни одного параметра. Порівняйте якість, швидкість і вартість.

Суб' ємність

Kokoro створює звукові дані не менше 1 секунди. Досконало для справжніх chatbots, асистентів голосів та інтерактивних програм.

API голосового клонування

Клонувати будь- який голос з короткої вибірки аудіо за допомогою API. Використовувати клоновані голоси для всіх наступних поколінь.

Декілька форматів

Вивід у вигляді WAV, MP3, OGG або FLAC. Оберіть частоту вибірки і бітову глибину. Підтримка звукових даних для програм у режимі реального часу.

Найкращі моделі для інтеграції розробника

Виберіть правильну модель для вимог швидкості, якості та вартості вашої програми

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Найкраще для: Найшвидша модель } під-секунда mincy, ідеальна для програм у режимі реального часу і chatbots

Спробувати Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Клонування голосу

Найкраще для: Потік TTS з клонуванням голосів для допоміжних програм для голосових повідомлень

Спробувати CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Найкраще для: Компактальний комп' ютер з природним часом для chatbot і допоміжним голосом

Спробувати Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Найкраще для: Вільна модель ЦП для програм з високими об' ємами з нульовими витратами кредиту

Спробувати Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Найкраще для: Створення аудіо з звуковими ефектами для програм для творчих та розважальних програм

Спробувати Bark

Як інтегрувати API TTS

Від підпису до першого дзвінка API менш ніж 5 хвилин

1

Отримати ваш ключ API

Запишіться безкоштовно і створіть ключ API з панелі керування обліковими записами. Включено 15 000 символів.

2

Перш за все дзвоніть

POST до / v1/ tts з текстом, моделлю і голосом. Отримати звукові байти назад. На 5 рядках коду.

3

Виберіть вашу модель

Перевіряти різні моделі вашого випадку використання. Порівняйте швидкість, якість і вартість для покоління.

4

Корабель у виробництво

Влаштуйте масштаб символами сплати за- як- у- ви- ви. Без обмежень у оплачуваних планах. Використання монітора у панелі приладів.

Приклади швидкого запуску коду

Інтегрувати TTS.ai у будь-якій мові за допомогою нашого програмного інтерфейсу REST

Python Популярний
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Універсальний
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Формат OpenAI-Compty Format Вкинути
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Інструмент збирання розробників за допомогою TTS.ai

Загальні шаблони і програми для інтеграції

AI Chatbots і помічники

Додайте вивід до вашого чатбота або помічника комп' ютерного зв' язку. Відповіді на каналі LLM через TTS для інтерфейсів, увімкнених голосом. Kokro постачає підсекундну латку для спілкування у режимі реального часу. Сезаме CSM створює розмовну мову з природним часом.

  • Відповідь LLM на трубопровод мовлення
  • Пізня після секунди з Kokoro
  • Розмова з Sesame CSM
  • Потік аудіовиходу

Застосунки мобільного & голосу

Створити платформи для читання програм і вивчення мов, увімкнені для мобільних програм, інструментів доступності. Наш API REST працює з будь- якою мобільною оболонкою. Звантажте звукові файли або спрямуйте їх безпосередньо до клієнта.

  • Реагувати на місцеве, Flutter, Swift, Kotlin
  • Доступність та читання програм
  • Платформи для вивчення мов
  • Створення аудіо- вмісту

Продукти SaaS

Можливості голосу білого надпису у вашому продукті SaaS. Додати TTS, STT, клонувати голос і обробляти аудіо як можливості на вашій платформі. Використовуйте наш API як ваш голосовий сервер без керування інфраструктурою GPU.

  • Можливості голосу з білим написом
  • Не потрібна інфраструктура GPU
  • Заплати за використання ціноутворення
  • 20+ Моделі, які будуть пропонувати вашим користувачам

Автоматичні канали

Інтегрувати створення голосів у трубопроводах CI/CD, автоматизація вмісту і роботи пакетної обробки. Створення тисяч звукових файлів з даних електронної таблиці, створення автотрансляції або збирання каналів локалізації вмісту.

  • Пакетна обробка за допомогою API
  • трубопроводи локалізації вмісту
  • Інтеграція CI/CD
  • Електронна таблиця для автоматизації звуку

Специфікації API

Вбудовано для програм для розробки

20+

Моделі TTS

100+

Голоси

30+

Мови

<1s

Затримка (Kokoro)

Часті запитання

Поширені питання щодо API розробника TTS.ai

Так. Наш API працює у форматі звукової мовлення OpenAI. Якщо ви використовуєте бібліотеку клієнта OpenAI Python або JavaScript, ви можете перемикатися на TTS.ai зміною параметрів базового_ url і api_ key. Ваш існуючий код працює без зміни.

Kokro створює звукові дані у діапазоні до 1 секунди для типових речень. ComyGore 2 підтримує потік виведених даних для того, щоб навіть нижче сприймалося скасування часу. Для чатботів і асистентів голосів, загальний час округлення зазвичай дорівнює 1- 3 секундам, залежно від тривалості і вибору моделі тексту.

Безкоштовні моделі (Kokoro, Piper, VITS, MelotTS) є повністю вільними. Стандартні моделі використовують 2x символи на 1K тексту. Моделі Premium використовують 4x символи на 1K тексту. Безкоштовно підписуйте 15 000 символів. Плани починаються з $9/ місячних для 500 000 символів.

Так. Вивантажуйте еталонну модель звуку (5- 30 секунд) до точки завершення клонування голосу, а потім скористайтеся ідентифікатором клонованого голосу у наступних запитах на TTS. Моделі, які підтримують клонування: CosyGore 2, Chatterbox, Fish Speech і GPT- SoviTS.

Вільна прив' язка має базову швидкість, обмежену (3 запити за годину без рахунка). У планах пайдів передбачено обмеження на більшу ставку, що відповідає програмам виробництва. Зв' яжіться з нами щодо вимог комп' ютерного забезпечення.

WAV (без стискання, найвищої якості), MP3 (пакувальні, менші файли), OGG (відкриті формат) і FLAC (без стискання). Вкажіть формат у вашому запиті. Типове значення: WAV на рідній швидкості вибірки моделі.

Так. Поєднайте наш API TTS з моделлю мовлення і LLM для побудови повного апарату для голосових апаратів. Kokro надає можливість підсекундного програмного забезпечення для спілкування у режимі реального часу. ComyGore 2 підтримує потік виведених даних для навіть менш низьких моментів сприйняття відповіді.

Підтримка комбінованого звуку 2 і Kokro, що потече поточно, де під час створення звукових шматків. Це зменшує часовий вимір для програм у режимі реального часу, таких як допоміжні засоби для роботи з голосами та інтерактивний досвід.

API повертає стандартні коди стану HTTP. Реалізація експоненційного зворотного зв' язку для 5xx помилок і відповідей на обмеження швидкості. Для програм, які відповідають за виконання місії, додайте чергу з повторною логікою. У нашому API є високий час, але завжди рекомендується працювати з гнучкими помилками.

Так. За допомогою / v1/ voices і / v1/ models кінцеві точки поверне список всіх можливих голосів і моделей з їх метаданими (підтримка мови, оцінка якості, оцінки швидкості і прив' язки ціноутворення). Скористайтеся ними для побудови динамічних моделей у вашій програмі.

Вільні моделі (Kokoro, Piper, VITS, MelotTS) слугують ефективними пісочницями, оскільки вони коштують нуль кредитів. Перевірте вашу інтеграцію з вільними моделями, а потім перемкніться на першокласні моделі шляхом зміни параметра моделі. Не потрібно окремого тестового середовища.

Більшість з наших моделей відкриті у коді програми і можуть бути автоматично утримані. Але для роботи з самим собою потрібні значні ресурси GPU (ми використовуємо 4x NVIDIA Tesa P40 з загаломю кількістю даних 96GB VRAM). У API передбачено альтернативну альтернативу, яка забезпечує витрати без керування інфраструктурою.
5.0/5 (1)

Ваші відгуки допомагають нам вирішити проблеми.

Готові до створення за допомогою комп'ютера голосу?

Отримайте вільний ключ API і почніть будувати. 15 кредитів з підписом, безкоштовні моделі доступні, комплексна документація.