ТТС в реално време

Ускоряване на текст-то-спеец с подсекунда първи-аудио латенция. Построен за гласови агенти и приложения на живо.

Все още нямаме ТТС гласове на вашия език. Помогнете ни да добавим вашия! Продажби на гласа си

Текст

Преминаване
0/5,000 символи ~0.3s първо аудио

& Настройки на гласа

Само модели, които могат да се преобразят.

Жива латенция

Натиснете потока, за да измервате първо-аудио латенцията

Изход

Аудио парчета ще свирят тук, докато те точат.

0:00
Първа част:
Общо парчета: 0
Общо време:

Как действа стрийминг ТТС

1. Изпращане на текст

Текстът на POST до /v1/tts/stream/ като запитване за сървър-Сент събития.

2. Модел генерира

Kokoro засича текста и генерира аудио проба по проба на GPU.

3. Поточни парчета

Басе64-кодирани WAV парчета пристигат над SSE и започват да играят незабавно.

4. Слушайте на живо

Потребителят чува началото на изречението в под секунда, дори и при дълги входове.

Случаи за използване

Където подсекунда латенция отключва нови преживявания.

Гласови агенти

Разговорни боти, които реагират толкова бързо, колкото човек би.

Живо дърпане

Превод и дуб поток в реално време без буферни паузи.

Игри

NCC диалог, който реагира на изборите на играча незабавно, без предварително предаден VO.

Достъпност

Читатели на екрана и асистентски инструменти, които започват да говорят в момента, в който потребителят кликне.

Планове за TTS в реално време

Стартиране безплатно, ъпгрейд, когато се нуждаете от повече

Безплатен
  • Кокоро поток (безплатен модел)
  • 500 символа на поколение
  • 10 безплатни потоци/дневни за анонимен потребител
  • Подвтора първа аудио латенция
  • SSE преминаване през HTTPS
Най-популярното
Безплатна сметка
  • 15 000 символа при регистрация
  • 5000 символа на поток
  • API ключ за програмен достъп
  • История на генерирането
  • Без дневна капачка на потока
Запишете се безплатно
Професионален
  • MOSS-TTS-Реално време (когато е живо)
  • 100 000 символа на поток
  • Приоритетна опашка на GPU
  • Гласов агент + интеграция в Твилио
  • Гранични стойности на по-високите ставки
Надграждане

Често задавани въпроси

Реално време текстови потоци, както те са генерирани, вместо да чакат за завършване на цялото изречение. Първата аудио пробата пристига в рамките на една секунда, което го прави подходящ за живи гласови агенти, дублинг и интерактивни приложения, където латентността е важна.

Редовният TTS генерира пълния аудио файл, преди да върнете нещо — чакате, след това чувате цялото изречение наведнъж. Realtime TTS използва Server-Sent Events (SSE), за да излъчва къси аудио парчета, тъй като моделът ги произвежда. Потребителят чува началото на изречението почти незабавно, дори и при дълги входове.

Kokoro е по подразбиране заден — генерира звук приблизително 100x по-бързо от реалното време на модерна GPU. Интегрираме MOSS-TTS-Realtime като по-висока алтернатива за качеството; потребителите ще могат да избират на заявка, след като тези кораби.

Типичното първо-аудио латенция на Kokoro е 300-800 м над обществена връзка. Мрежа кръгла лента доминира след това. Страницата повърхност на живо измерва време-на-първо-аудио в УИ, така че можете да видите точно колко време отнема всяко искане.

Гласови агенти, които отговарят разговорно, живо дублиране за струминг медии, интерактивна игра NPCs, читатели на достъпността, които започват да говорят в момента, в който потребителят кликне, и всяко приложение, където чакане две или три секунди за аудио ще се чувстват слабо.

Да. ПОСТ на https://api.tts.ai/v1/tts/stream/ със същото тяло като редовния /v1/tts/ крайна точка. Отговорът е SSE поток от бази64-кодирани WAV парчета. Свободен лейтенант поддържа 10 поколения на ден за анонимен потребител; автентифицирани потребители получават пълната квота за характер на сметка.

Кокоро използва предварително обучени гласове и не клонира. MOSS-TTS-Realtime (когато е интегриран) поддържа клониране на глас с нулеви точки от 3 секунди. За пълно клониране на гласа днес, използвайте редовната /text-to-speech/ page с Chatterbox или GPT-SoviTS – те не са клонирани, но произвеждат свои гласове.

Същата стойност като нормалната крайна точка на TTS. Kokoro е безплатна стойност (1x разходи). MOSS-TTS-Realtime ще работи на стандартен ниво (2x разходи) когато е включена.

Да — двойката на крайната точка на тока с Twilio глас уебхоок, за да се нахрани на живо аудио в телефонно обаждане. Нашата гласова платформа вече прави това за IVR и изходни обаждания. Край-то-край латентност при телефонно обаждане е обикновено 1-2 секунди, включително STT и LLM отговор.

Ако вашата мрежа падне парче в транзита, струйният играч ще пропусне напред, а не да забави. За приложения, които не могат да толерират пропуски, се връщат към редовната не-трансферна крайна точка, или буфер 500 м звук преди да започнете да отваряте.
5.0/5 (1)

Какво можем да подобрим? Твоята обратна връзка ни помага да решим проблемите.

Течеща реч в реално време

Безплатен за първите 10 поколения на ден. Регистрирайте се, за да отключите пълния характер надбавка и API достъп.