TTS у режимі реального часу
Потік текстового повідомлення з підсекундою першого звукового спізнення. Збудований для голосових агентів і живих програм.
Як працює потік TTS
1. Надіслати текст
Текст POST до / v1/ tts/ stream / як запит на події з запитом на запит на сервер.
2. Модель створює
Кокоро відрізає текст і генерує звукові зразки на GPU.
3. Потокові смуги
Закодовані у Base64 шматки WAV надсилаються через SSE і починають гру негайно.
4. Слухайте, будь ласка, живіть
Користувач чує початок речення під секундою, навіть на довгих входах.
Випадки використання
Де піддруга спізнення розблоковує нові досвіди.
Голосові агенти
Мотузки, що реагують так швидко, як людина.
Живе випаровування
Перекласти і об' єднати потік у режимі реального часу без призупинки буферизації.
Ігри
Діалогове вікно NPC, яке реагує на вибір гравця миттєво, без попереднього запуску OVA.
Доступність
Програма для читання екранів і допоміжні інструменти, які починають вимовляти текст, коли користувач клацає кнопкою миші.
Плани TTS в реальному часі
Запустити вільний, оновити, якщо потрібно більше
- Потоковий потік Kokro (вільна модель)
- 500 символів на покоління
- 10 вільних потоків/ днів на анонімного користувача
- Підсекунди першого аудіозапису спізнення
- SSE потік через HTTPS
- 15 000 символів при підписуванні
- 5000 символів на потік
- Ключ API для програмного доступу
- Історія створення
- Немає щоденної трансляції
- MOSS- TTS- Realtime (коли живе)
- 100 000 символів на потік
- Черга пріоритету GPU
- Агент голосового голосу + інтеграція Twilio
- Обмеження вищої швидкості
Часті запитання
Ваші відгуки допомагають нам вирішити проблеми.
Потокова мова у режимі реального часу
Вивільнення для перших 10 поколінь на день. Підпишіться, щоб відкрити повний доступ до символів і доступ до API.