Надіслати звіт про помилку / запит на можливості

TTS у режимі реального часу

Потік текстового повідомлення з підсекундою першого звукового спізнення. Збудований для голосових агентів і живих програм.

Вільний підпис

Текст

Потік

0/5,000 символи ~0.3s перший аудіо

Параметри голосу

Модель Только с потоковой модели.

Голос

Швидкість 1.0x

Live Latency

—

Клацніть потокою, щоб виміряти час запізнення першого запису

Вивід

Звукові шматки буде відтворено тут під час потоку.

Як працює потік TTS

1. Надіслати текст

Текст POST до / v1/ tts/ stream / як запит на події з запитом на запит на сервер.

2. Модель створює

Кокоро відрізає текст і генерує звукові зразки на GPU.

3. Потокові смуги

Закодовані у Base64 шматки WAV надсилаються через SSE і починають гру негайно.

4. Слухайте, будь ласка, живіть

Користувач чує початок речення під секундою, навіть на довгих входах.

Випадки використання

Де піддруга спізнення розблоковує нові досвіди.

Голосові агенти

Мотузки, що реагують так швидко, як людина.

Живе випаровування

Перекласти і об' єднати потік у режимі реального часу без призупинки буферизації.

Ігри

Діалогове вікно NPC, яке реагує на вибір гравця миттєво, без попереднього запуску OVA.

Доступність

Програма для читання екранів і допоміжні інструменти, які починають вимовляти текст, коли користувач клацає кнопкою миші.

Плани TTS в реальному часі

Запустити вільний, оновити, якщо потрібно більше

Вільно

Потоковий потік Kokro (вільна модель)
500 символів на покоління
10 вільних потоків/ днів на анонімного користувача
Підсекунди першого аудіозапису спізнення
SSE потік через HTTPS

Найпоширеніша

Вільний рахунок

15 000 символів при підписуванні
5000 символів на потік
Ключ API для програмного доступу
Історія створення
Немає щоденної трансляції

Вільний підпис

Pro

MOSS- TTS- Realtime (коли живе)
100 000 символів на потік
Черга пріоритету GPU
Агент голосового голосу + інтеграція Twilio
Обмеження вищої швидкості

Оновити

Часті запитання

У режимі реального часу, під час створення звукових шматків, замість того, щоб чекати на завершення всього речення. Перший зразок звукової інформації з' явиться за одну секунду, що робить його придатним для звичайних голосових агентів, випаровування і інтерактивних програм, які мають значення pernny.

Звичайний TTS створює повний звуковий файл перед поверненням будь- яких даних ♫ Зачекайте, а потім слухайте всю фразу одночасно. У режимі реального часу TTS для потоку коротких шматків звукових даних, оскільки модель їх створює. Користувач чує початок речення майже негайно, навіть на довгих входах.

Kokoro - це типовий сервер } Програма створює звукові дані приблизно у 100x швидше, ніж реальний час на сучасному GPU. Ми об' єднуємо MOS- TTS- Realtime як високоякісну альтернативу; користувачі зможуть обирати за запити одразу після запуску кораблів.

Типовий номер першого запису програми на Kokroo має 300- 800 мс над публічним з' єднанням. Після цього домінує і кругла мережа. Після цього на сторінці буде показано виміряний час, який ви можете побачити на комп' ютері, отже, ви зможете побачити, скільки часу було затрачено кожен запит.

Голосові агенти, які реагують на спілкування, живуть у ефірі для потокових носіїв, інтерактивної гри NPCs, читачів доступності, які починають говорити про момент клацання користувачем, і будь-яка програма, що чекає на звук на дві-три секунди, почуватиметься лінивою.

Так. POST до https: // api. tts. ai/ v1/ tts/ stream / з тим самим тілом, що і звичайний / v1/ tts/ end point. Відповідь - це потік даних SSE з шматків base64- encoded WAV. Вільна краватка підтримує 10 поколінь на день для анонімного користувача; розпізнані користувачі отримують повну кількість символів.

Koro використовує попередньо підготовлені голоси і не клонує їх. MOS- TTS- Realtime (якщо інтегровано) підтримує клонування голоса з трьох секунд. Для повного клонування голосів сьогодні скористайтеся звичайним / text- to- entry/ page за допомогою chatterbox або GPT- SoVITS, які не можна обтікати, але створюють нетипові голоси.

Ціна символів подібна до звичайної кінцевої точки TTS. Kokro є вільним- tier (1x вартості). MOS- TTS- Realtime буде запущено зі стандартними значеннями краватки (2x). Протокол потоку не додає заряду ціноутворення.

Так, ♫ трансляційна точка з гучномовцем Twilio, щоб передати звуковий звук у телефонний дзвінок. Наша платформа- агент вже робить це для IVR і поза межами дзвінка. End- to- endendy на телефонному дзвінку зазвичай 1- 2 секунди, зокрема відповідь STT і LLM.

Якщо у вашій мережі буде пропущено шматок у транзисторі, гравець, який працює поточною мережею, пропускатиме шлях вперед, а не зупинятиметься. Для програм, які не можуть терпіти пропуски, поверніть до звичайної не стриманої кінцевої точки або буфера 500 мс аудіо перед початком відтворення.

5.0/5 (1)

Потокова мова у режимі реального часу

Вивільнення для перших 10 поколінь на день. Підпишіться, щоб відкрити повний доступ до символів і доступ до API.

Вільний підпис Перегляд Приоритет

TTS у режимі реального часу

Текст

Параметри голосу

Live Latency

Вивід

Як працює потік TTS

1. Надіслати текст

2. Модель створює

3. Потокові смуги

4. Слухайте, будь ласка, живіть

Випадки використання

Голосові агенти

Живе випаровування

Ігри

Доступність

Плани TTS в реальному часі

Часті запитання

Що таке TTS у режимі реального часу?

Чим відрізняються TTS у режимі реального часу від звичайного TTS?

Какую модель силы на странице времени?

Як швидко спізнення першого аудіо?

Що можна зробити за допомогою реального часу TTS?

Чи існує API для реального часу TTS?

Чи він підтримує клонування голосів?

Скільки коштує ТТЗ в реальному часі?

Могу я использовать это на звонках?

Чому іноді відрізається середнє слово?

Потокова мова у режимі реального часу