Доклад " Bugg " / " Особенности запроса "

TTS в режиме реального времени

Построен для голосовых агентов и приложений в прямом эфире.

Текст

Стремление
0/5,000 символы ~0.3s первый звук

Параметры голоса

Только мощные модели.

Жизнеспособность

Нажмите Стрем для измерения запоздалости первого аудио

Мероприятие

Аудиовизуальные куски будут играть здесь, пока текут внутрь.

0:00
Первый кусок:
Итого, куски: 0
Общее время:

Как работает ТСТ

1. Отправить текст

Текст POST в /v1/tts/stream/ в качестве запроса на проведение мероприятий с использованием сервера.

2. Генераторы моделей

Kokoro отрезает текст и создает аудиовыборку по выборке на GPU.

3. Курсовые пробки

Бэйс-64, закодированные WAV куски приходят через SSE и начинают играть немедленно.

4. < < Слушать в прямом эфире > >

Пользователи слышат начало предложения за секунду, даже при длительном вводе.

Примеры использования

Где подсекундная латентность открывает новые опыты.

Голосовые агенты

Спорные боты, которые реагируют так быстро, как и люди.

Жизненно-поглощающее

Переворачивай и держи поток в режиме реального времени без паузы буфера.

Игры

Диалог NCC, который реагирует на выбор игрока мгновенно, нет предварительного VO.

Доступность

Скриншоты и ассистивные инструменты, которые начинают говорить с момента щелчка пользователя.

Планы TTS в режиме реального времени

Начать бесплатно, обновить, когда нужно больше

Свободные
  • Потоки " Кокоро " (свободная модель)
  • 500 знаков в расчете на одно поколение
  • 10 бесплатных потоков в день на анонимного пользователя
  • Подвторая очередь на запоздание
  • SSE транслируется через HTTPS
Самые популярные
Свободный счет
  • 15 000 символов при регистрации
  • 5 000 шаров на один поток
  • API ключ к программному доступу
  • История поколений
  • Нет ежедневной крышки русла
Не подписываться
Про
  • MOSS-TTS-RealTime (когда живёт)
  • 100 000 шаров на один поток
  • Приоритетная очередь GPU
  • Голосовой агент + интеграция Твилио
  • Более высокие предельные ставки
Модернизация

Часто задаваемые вопросы

В режиме реального времени текст-скрипка подает звуковые кусочки по мере их создания, вместо того, чтобы ждать завершения всего предложения. Первая аудиовыборка поступает в течение одной секунды, что делает ее пригодной для голосовых агентов в прямом эфире, обманчивой и интерактивной прикладных программ, где имеет значение латентность.

Обычный TTS генерирует полный аудио файл, прежде чем возвращать что-либо — вы ждёте, затем сразу же услышите все предложение. В режиме реального времени TTS использует Server-Sent Events (SSE) для подачи коротких аудиоотрезков, когда модель производит их. Пользователь слышит начало предложения почти сразу, даже при длительном вводе.

Kokoro — это запасной вариант по умолчанию — он генерирует аудио примерно 100x быстрее, чем в реальном времени на современном GPU. Мы интегрируем MOSS-TTS-Realtime в качестве более качественной альтернативы; пользователи смогут выбрать каждый запрос после того, как корабли.

Типичная латентность первого аудио на Кокоро составляет 300-800 м над связями с общественностью. После этого доминирует сетевой круглосуточный маршрут. Страница покрывает замеренное время до первого аудио в UI, так что вы можете точно увидеть, сколько времени заняла каждая просьба.

Голосовые агенты, реагирующие в разговоре, в прямом эфире болтающие для потоковых СМИ, интерактивные игровые НПЦ, доступные читатели, которые начинают говорить в момент, когда пользователь кликает, и любое приложение, в котором ожидание звука на две или три секунды будет чувствовать себя вялым.

Да. POST - https://api.tts.ai/v1/tts/stream/ с тем же телом, что и обычный /v1/tts/ конечный пункт. Ответом является поток SSE из 64-кодированных WAV кусок. Свободный уровень поддерживает 10 поколений в день на анонимного пользователя; удостоверенные пользователи получают полную надбавку на персонажи по счету.

Кокоро использует предварительно подготовленные голоса и не клонирует. MOSS-TTS-Realtime (когда они интегрируются) поддерживает клонирование с нулевым голосом с трехсекундной ссылки. Для полного клонирования к голосу сегодня, используйте обычную/текст-скрипку/страничную страницу с Chatterbox или GPT-SOVITS — они не пригодны для к трансляции, а генерируют индивидуальные голоса.

Такая же стоимость, как и конечная точка обычных TTS. Kokoro является свободным по размеру (1 x стоимость). MOSS-TTS-Realtime будет работать на стандартном уровне (2 x стоимость). Протокол трансляции не добавляет никакого повышения цен.

Да — спаривая конечный пункт с голосовым голосом Twilio web-крюком, который включит прямой звук в телефонный звонок. Наша платформа голосового агента уже делает это для IVR и выезжающего звонка. Конец переписки на телефонный звонок обычно составляет 1-2 секунды, включая ответ STT и LLM.

Если ваша сеть уронит кусочек в пути, то ручной игрок пропустит вперед, а не затянет. Для приложений, которые не могут выдержать пробелы, отойдите назад к обычной нетрансформирующей конечной точке, или буферу 500 м звука перед началом воспроизведения.
5.0/5 (1)

Твоя обратная связь помогает нам решать проблемы.

Стремительная речь в реальном времени

Для первых десяти поколений в день подписывайтесь, чтобы открыть полное пособие на персонаж и доступ к API.