TTS у режимі реального часу

Потік текстового повідомлення з підсекундою першого звукового спізнення. Збудований для голосових агентів і живих програм.

Текст

Потік
0/5,000 символи ~0.3s перший аудіо

Параметри голосу

Только с потоковой модели.

Live Latency

Клацніть потокою, щоб виміряти час запізнення першого запису

Вивід

Звукові шматки буде відтворено тут під час потоку.

0:00
Перший шматок:
Всього шматків: 0
Загальний час:

Як працює потік TTS

1. Надіслати текст

Текст POST до / v1/ tts/ stream / як запит на події з запитом на запит на сервер.

2. Модель створює

Кокоро відрізає текст і генерує звукові зразки на GPU.

3. Потокові смуги

Закодовані у Base64 шматки WAV надсилаються через SSE і починають гру негайно.

4. Слухайте, будь ласка, живіть

Користувач чує початок речення під секундою, навіть на довгих входах.

Випадки використання

Де піддруга спізнення розблоковує нові досвіди.

Голосові агенти

Мотузки, що реагують так швидко, як людина.

Живе випаровування

Перекласти і об' єднати потік у режимі реального часу без призупинки буферизації.

Ігри

Діалогове вікно NPC, яке реагує на вибір гравця миттєво, без попереднього запуску OVA.

Доступність

Програма для читання екранів і допоміжні інструменти, які починають вимовляти текст, коли користувач клацає кнопкою миші.

Плани TTS в реальному часі

Запустити вільний, оновити, якщо потрібно більше

Вільно
  • Потоковий потік Kokro (вільна модель)
  • 500 символів на покоління
  • 10 вільних потоків/ днів на анонімного користувача
  • Підсекунди першого аудіозапису спізнення
  • SSE потік через HTTPS
Найпоширеніша
Вільний рахунок
  • 15 000 символів при підписуванні
  • 5000 символів на потік
  • Ключ API для програмного доступу
  • Історія створення
  • Немає щоденної трансляції
Вільний підпис
Pro
  • MOSS- TTS- Realtime (коли живе)
  • 100 000 символів на потік
  • Черга пріоритету GPU
  • Агент голосового голосу + інтеграція Twilio
  • Обмеження вищої швидкості
Оновити

Часті запитання

У режимі реального часу, під час створення звукових шматків, замість того, щоб чекати на завершення всього речення. Перший зразок звукової інформації з' явиться за одну секунду, що робить його придатним для звичайних голосових агентів, випаровування і інтерактивних програм, які мають значення pernny.

Звичайний TTS створює повний звуковий файл перед поверненням будь- яких даних ♫ Зачекайте, а потім слухайте всю фразу одночасно. У режимі реального часу TTS для потоку коротких шматків звукових даних, оскільки модель їх створює. Користувач чує початок речення майже негайно, навіть на довгих входах.

Kokoro - це типовий сервер } Програма створює звукові дані приблизно у 100x швидше, ніж реальний час на сучасному GPU. Ми об' єднуємо MOS- TTS- Realtime як високоякісну альтернативу; користувачі зможуть обирати за запити одразу після запуску кораблів.

Типовий номер першого запису програми на Kokroo має 300- 800 мс над публічним з' єднанням. Після цього домінує і кругла мережа. Після цього на сторінці буде показано виміряний час, який ви можете побачити на комп' ютері, отже, ви зможете побачити, скільки часу було затрачено кожен запит.

Голосові агенти, які реагують на спілкування, живуть у ефірі для потокових носіїв, інтерактивної гри NPCs, читачів доступності, які починають говорити про момент клацання користувачем, і будь-яка програма, що чекає на звук на дві-три секунди, почуватиметься лінивою.

Так. POST до https: // api. tts. ai/ v1/ tts/ stream / з тим самим тілом, що і звичайний / v1/ tts/ end point. Відповідь - це потік даних SSE з шматків base64- encoded WAV. Вільна краватка підтримує 10 поколінь на день для анонімного користувача; розпізнані користувачі отримують повну кількість символів.

Koro використовує попередньо підготовлені голоси і не клонує їх. MOS- TTS- Realtime (якщо інтегровано) підтримує клонування голоса з трьох секунд. Для повного клонування голосів сьогодні скористайтеся звичайним / text- to- entry/ page за допомогою chatterbox або GPT- SoVITS, які не можна обтікати, але створюють нетипові голоси.

Ціна символів подібна до звичайної кінцевої точки TTS. Kokro є вільним- tier (1x вартості). MOS- TTS- Realtime буде запущено зі стандартними значеннями краватки (2x). Протокол потоку не додає заряду ціноутворення.

Так, ♫ трансляційна точка з гучномовцем Twilio, щоб передати звуковий звук у телефонний дзвінок. Наша платформа- агент вже робить це для IVR і поза межами дзвінка. End- to- endendy на телефонному дзвінку зазвичай 1- 2 секунди, зокрема відповідь STT і LLM.

Якщо у вашій мережі буде пропущено шматок у транзисторі, гравець, який працює поточною мережею, пропускатиме шлях вперед, а не зупинятиметься. Для програм, які не можуть терпіти пропуски, поверніть до звичайної не стриманої кінцевої точки або буфера 500 мс аудіо перед початком відтворення.
5.0/5 (1)

Ваші відгуки допомагають нам вирішити проблеми.

Потокова мова у режимі реального часу

Вивільнення для перших 10 поколінь на день. Підпишіться, щоб відкрити повний доступ до символів і доступ до API.