Доклад " Bugg " / " Особенности запроса "

TTS в режиме реального времени

Построен для голосовых агентов и приложений в прямом эфире.

Не подписываться

Текст

Стремление

0/5,000 символы ~0.3s первый звук

Параметры голоса

Модель Только мощные модели.

Голос

Скорость 1.0x

Жизнеспособность

—

Нажмите Стрем для измерения запоздалости первого аудио

Мероприятие

Аудиовизуальные куски будут играть здесь, пока текут внутрь.

Как работает ТСТ

1. Отправить текст

Текст POST в /v1/tts/stream/ в качестве запроса на проведение мероприятий с использованием сервера.

2. Генераторы моделей

Kokoro отрезает текст и создает аудиовыборку по выборке на GPU.

3. Курсовые пробки

Бэйс-64, закодированные WAV куски приходят через SSE и начинают играть немедленно.

4. < < Слушать в прямом эфире > >

Пользователи слышат начало предложения за секунду, даже при длительном вводе.

Примеры использования

Где подсекундная латентность открывает новые опыты.

Голосовые агенты

Спорные боты, которые реагируют так быстро, как и люди.

Жизненно-поглощающее

Переворачивай и держи поток в режиме реального времени без паузы буфера.

Игры

Диалог NCC, который реагирует на выбор игрока мгновенно, нет предварительного VO.

Доступность

Скриншоты и ассистивные инструменты, которые начинают говорить с момента щелчка пользователя.

Планы TTS в режиме реального времени

Начать бесплатно, обновить, когда нужно больше

Свободные

Потоки " Кокоро " (свободная модель)
500 знаков в расчете на одно поколение
10 бесплатных потоков в день на анонимного пользователя
Подвторая очередь на запоздание
SSE транслируется через HTTPS

Самые популярные

Свободный счет

15 000 символов при регистрации
5 000 шаров на один поток
API ключ к программному доступу
История поколений
Нет ежедневной крышки русла

Не подписываться

Про

MOSS-TTS-RealTime (когда живёт)
100 000 шаров на один поток
Приоритетная очередь GPU
Голосовой агент + интеграция Твилио
Более высокие предельные ставки

Модернизация

Часто задаваемые вопросы

В режиме реального времени текст-скрипка подает звуковые кусочки по мере их создания, вместо того, чтобы ждать завершения всего предложения. Первая аудиовыборка поступает в течение одной секунды, что делает ее пригодной для голосовых агентов в прямом эфире, обманчивой и интерактивной прикладных программ, где имеет значение латентность.

Обычный TTS генерирует полный аудио файл, прежде чем возвращать что-либо — вы ждёте, затем сразу же услышите все предложение. В режиме реального времени TTS использует Server-Sent Events (SSE) для подачи коротких аудиоотрезков, когда модель производит их. Пользователь слышит начало предложения почти сразу, даже при длительном вводе.

Kokoro — это запасной вариант по умолчанию — он генерирует аудио примерно 100x быстрее, чем в реальном времени на современном GPU. Мы интегрируем MOSS-TTS-Realtime в качестве более качественной альтернативы; пользователи смогут выбрать каждый запрос после того, как корабли.

Типичная латентность первого аудио на Кокоро составляет 300-800 м над связями с общественностью. После этого доминирует сетевой круглосуточный маршрут. Страница покрывает замеренное время до первого аудио в UI, так что вы можете точно увидеть, сколько времени заняла каждая просьба.

Голосовые агенты, реагирующие в разговоре, в прямом эфире болтающие для потоковых СМИ, интерактивные игровые НПЦ, доступные читатели, которые начинают говорить в момент, когда пользователь кликает, и любое приложение, в котором ожидание звука на две или три секунды будет чувствовать себя вялым.

Да. POST - https://api.tts.ai/v1/tts/stream/ с тем же телом, что и обычный /v1/tts/ конечный пункт. Ответом является поток SSE из 64-кодированных WAV кусок. Свободный уровень поддерживает 10 поколений в день на анонимного пользователя; удостоверенные пользователи получают полную надбавку на персонажи по счету.

Кокоро использует предварительно подготовленные голоса и не клонирует. MOSS-TTS-Realtime (когда они интегрируются) поддерживает клонирование с нулевым голосом с трехсекундной ссылки. Для полного клонирования к голосу сегодня, используйте обычную/текст-скрипку/страничную страницу с Chatterbox или GPT-SOVITS — они не пригодны для к трансляции, а генерируют индивидуальные голоса.

Такая же стоимость, как и конечная точка обычных TTS. Kokoro является свободным по размеру (1 x стоимость). MOSS-TTS-Realtime будет работать на стандартном уровне (2 x стоимость). Протокол трансляции не добавляет никакого повышения цен.

Да — спаривая конечный пункт с голосовым голосом Twilio web-крюком, который включит прямой звук в телефонный звонок. Наша платформа голосового агента уже делает это для IVR и выезжающего звонка. Конец переписки на телефонный звонок обычно составляет 1-2 секунды, включая ответ STT и LLM.

Если ваша сеть уронит кусочек в пути, то ручной игрок пропустит вперед, а не затянет. Для приложений, которые не могут выдержать пробелы, отойдите назад к обычной нетрансформирующей конечной точке, или буферу 500 м звука перед началом воспроизведения.

5.0/5 (1)

Стремительная речь в реальном времени

Для первых десяти поколений в день подписывайтесь, чтобы открыть полное пособие на персонаж и доступ к API.

Не подписываться Вид Ценообразование

TTS в режиме реального времени

Текст

Параметры голоса

Жизнеспособность

Мероприятие

Как работает ТСТ

1. Отправить текст

2. Генераторы моделей

3. Курсовые пробки

4. < < Слушать в прямом эфире > >

Примеры использования

Голосовые агенты

Жизненно-поглощающее

Игры

Доступность

Планы TTS в режиме реального времени

Часто задаваемые вопросы

Что такое TTS в реальном времени?

Чем TTS отличается от обычных TTS в реальном времени?

Какая модель настраивает страницу в реальном времени?

Как быстро начинается опоздание?

Что я могу построить с TTS в реальном времени?

Есть ли API для TTS в реальном времени?

Он поддерживает клонирование голоса?

Сколько стоит TTS в реальном времени?

Могу я использовать его для телефонных звонков?

Почему звук иногда отрезает слово?

Стремительная речь в реальном времени