Докладване на грешка / заявка за функция

ТТС в реално време

Ускоряване на текст-то-спеец с подсекунда първи-аудио латенция. Построен за гласови агенти и приложения на живо.

Запишете се безплатно

Все още нямаме ТТС гласове на вашия език. Помогнете ни да добавим вашия! Продажби на гласа си

Текст

Преминаване

0/5,000 символи ~0.3s първо аудио

& Настройки на гласа

Модел Само модели, които могат да се преобразят.

Глас

Скорост 1.0x

Жива латенция

—

Натиснете потока, за да измервате първо-аудио латенцията

Изход

Аудио парчета ще свирят тук, докато те точат.

Как действа стрийминг ТТС

1. Изпращане на текст

Текстът на POST до /v1/tts/stream/ като запитване за сървър-Сент събития.

2. Модел генерира

Kokoro засича текста и генерира аудио проба по проба на GPU.

3. Поточни парчета

Басе64-кодирани WAV парчета пристигат над SSE и започват да играят незабавно.

4. Слушайте на живо

Потребителят чува началото на изречението в под секунда, дори и при дълги входове.

Случаи за използване

Където подсекунда латенция отключва нови преживявания.

Гласови агенти

Разговорни боти, които реагират толкова бързо, колкото човек би.

Живо дърпане

Превод и дуб поток в реално време без буферни паузи.

Игри

NCC диалог, който реагира на изборите на играча незабавно, без предварително предаден VO.

Достъпност

Читатели на екрана и асистентски инструменти, които започват да говорят в момента, в който потребителят кликне.

Планове за TTS в реално време

Стартиране безплатно, ъпгрейд, когато се нуждаете от повече

Безплатен

Кокоро поток (безплатен модел)
500 символа на поколение
10 безплатни потоци/дневни за анонимен потребител
Подвтора първа аудио латенция
SSE преминаване през HTTPS

Най-популярното

Безплатна сметка

15 000 символа при регистрация
5000 символа на поток
API ключ за програмен достъп
История на генерирането
Без дневна капачка на потока

Запишете се безплатно

Професионален

MOSS-TTS-Реално време (когато е живо)
100 000 символа на поток
Приоритетна опашка на GPU
Гласов агент + интеграция в Твилио
Гранични стойности на по-високите ставки

Надграждане

Често задавани въпроси

Реално време текстови потоци, както те са генерирани, вместо да чакат за завършване на цялото изречение. Първата аудио пробата пристига в рамките на една секунда, което го прави подходящ за живи гласови агенти, дублинг и интерактивни приложения, където латентността е важна.

Редовният TTS генерира пълния аудио файл, преди да върнете нещо — чакате, след това чувате цялото изречение наведнъж. Realtime TTS използва Server-Sent Events (SSE), за да излъчва къси аудио парчета, тъй като моделът ги произвежда. Потребителят чува началото на изречението почти незабавно, дори и при дълги входове.

Kokoro е по подразбиране заден — генерира звук приблизително 100x по-бързо от реалното време на модерна GPU. Интегрираме MOSS-TTS-Realtime като по-висока алтернатива за качеството; потребителите ще могат да избират на заявка, след като тези кораби.

Типичното първо-аудио латенция на Kokoro е 300-800 м над обществена връзка. Мрежа кръгла лента доминира след това. Страницата повърхност на живо измерва време-на-първо-аудио в УИ, така че можете да видите точно колко време отнема всяко искане.

Гласови агенти, които отговарят разговорно, живо дублиране за струминг медии, интерактивна игра NPCs, читатели на достъпността, които започват да говорят в момента, в който потребителят кликне, и всяко приложение, където чакане две или три секунди за аудио ще се чувстват слабо.

Да. ПОСТ на https://api.tts.ai/v1/tts/stream/ със същото тяло като редовния /v1/tts/ крайна точка. Отговорът е SSE поток от бази64-кодирани WAV парчета. Свободен лейтенант поддържа 10 поколения на ден за анонимен потребител; автентифицирани потребители получават пълната квота за характер на сметка.

Кокоро използва предварително обучени гласове и не клонира. MOSS-TTS-Realtime (когато е интегриран) поддържа клониране на глас с нулеви точки от 3 секунди. За пълно клониране на гласа днес, използвайте редовната /text-to-speech/ page с Chatterbox или GPT-SoviTS – те не са клонирани, но произвеждат свои гласове.

Същата стойност като нормалната крайна точка на TTS. Kokoro е безплатна стойност (1x разходи). MOSS-TTS-Realtime ще работи на стандартен ниво (2x разходи) когато е включена.

Да — двойката на крайната точка на тока с Twilio глас уебхоок, за да се нахрани на живо аудио в телефонно обаждане. Нашата гласова платформа вече прави това за IVR и изходни обаждания. Край-то-край латентност при телефонно обаждане е обикновено 1-2 секунди, включително STT и LLM отговор.

Ако вашата мрежа падне парче в транзита, струйният играч ще пропусне напред, а не да забави. За приложения, които не могат да толерират пропуски, се връщат към редовната не-трансферна крайна точка, или буфер 500 м звук преди да започнете да отваряте.

5.0/5 (1)

Течеща реч в реално време

Безплатен за първите 10 поколения на ден. Регистрирайте се, за да отключите пълния характер надбавка и API достъп.

Запишете се безплатно Преглед на цените

ТТС в реално време

Текст

& Настройки на гласа

Жива латенция

Изход

Как действа стрийминг ТТС

1. Изпращане на текст

2. Модел генерира

3. Поточни парчета

4. Слушайте на живо

Случаи за използване

Гласови агенти

Живо дърпане

Игри

Достъпност

Планове за TTS в реално време

Често задавани въпроси

Какво е TTS в реално време?

Как се различава TTS в реално време от редовните TTS?

Кой модел захранва страницата в реално време?

Колко бързо е първият аудио латенс?

Какво мога да изградя с ТТС в реално време?

Има ли API за ТТС в реално време?

Подкрепя ли клонирането на гласа?

Колко струва TTS в реално време?

Мога ли да го използвам по телефона?

Защо аудиото понякога отрязва средната дума?

Течеща реч в реално време