Катаны / мүмкүнчүлүктү билдирүү

Тизме

Текст-в-слов поток секунданын ичиндеги биринчи аудионун кечигиш менен. Сөз агенттери жана түз эфирдеги колдонмолор үчүн иштелип чыккан.

Акысыз катталуу

Сиздин тилиңиз үчүн TTS үндөрү азырынча жок. Бизге өзүңүздүн үндөрүңүздү кошуп берүүңүздү сурайбыз! Сиздин үнүңүздү сатуу

Текст

Стриминг

0/5,000 символ ~0.3s биринчи аудио

Сөздү орнотуулар

Модель Тексттик билдирүүлөрдү кабыл алууга мүмкүнчүлүк берген моделдер гана.

Сөз

Жылдамдык 1.0x

Жаңылоо

—

Биринчи аудионун кечигишин өлчөө үчүн "Стремка" баскычын чыкылдатыңыз

Чыгаруу

Аудио бөлүктөрүн ойнотуу

Транслирование TTS как работает

Текстти жөнөтүү

POST текста в /v1/tts/stream/ как запроса на события, отправленные сервером.

2. Модель түзөт

Kokoro текстти бөлүп, аудиону GPU аркылуу семплден-семплге генерациялайт.

3. Потоктун бөлүктөрү

Base64-кодировкадагы WAV-фрагменттер SSE аркылуу келип, бир эле учурда ойнотулат.

4. Тез угуу

Колдонуучу узун сөздөрдүн киришин да бир секундадан кийин угуп калат.

Колдонуу мисалдары

Кайсы жерде секунданын бир бөлүгү ичиндеги кечиктирүү жаңы тажрыйбаларды ачат.

Сөз агенттери

Адамга окшоп тез жооп берген чат-боттор.

Дублирование

Буферизациялоосуз, реалдуу убакытта трансляциялоо жана дублдоо.

Оюндар

NPC диалогу, который реагирует на выборы игрока, без предварительного отображения голоса.

Артыкчылыктар

Экран окутуучу жана жардамчы аспаптар, алар колдонуучунун басуусу менен сүйлөй башташат.

Тизмелерди түзүү

Акысыз баштаңыз, керек болсо жаңыртыңыз

Акысыз

Kokoro поток (свободный вариант)
500 символ бир генерацияда
10 акысыз агым/күн ар бир анонимдүү колдонуучуга
Биринчи аудионун секунданын бир бөлүгү ичиндеги кечигиши
HTTPS аркылуу SSE поток

Эң популярдуу

Акысыз эсеп-кысап

15000 символ
5000 символ бир поток үчүн
Программалык кирүү үчүн API ачкыч
Жаңылоо тарыхы
Күнүнө агымдын чектөөсү жок

Акысыз каттоо

Про

MOSS-TTS-Realtime (ачык болгондо)
100,000 символ бир поток үчүн
GPU кезектери
Твиллионун үн агенти жана интеграциясы
Жогору ылдамдыктагы чектөөлөр

Жаңылоо

Көп берилүүчү суроолор

Тексттен сүйлөмгө которуу процесси тексттен сүйлөмгө которуу процесси бүтүп жатканда аудио бөлүктөрүн түзөт, ал эми бүт сүйлөм бүтүп калганда күтпөйт. Биринчи аудио үлгүсү бир секундадан кийин келет, бул аны үн агенттери, дублёрлор жана интерактивдүү колдонмолор үчүн ылайыктуу кылат.

Жөнөкөй TTS толук аудио файлды эч нерсе кайтарбай туруп жаратат — сиз күтүп, андан кийин бүт сүйлөмдү бир эле учурда угуп аласыз. Реалдуу убакыттагы TTS Server-Sent Events (SSE) колдонуп, кыска аудио бөлүктөрдү моделдин чыгаруусу менен берүүгө мүмкүндүк берет. Колдонуучу узун сүйлөмдөрдүн башында да сөздүн башталышын бир эле учурда угат.

Kokoro - бул стандарттуу backend - ал заманбап GPU-да реалдуу убакытта болгондон 100 эсе тез генерациялайт. Биз MOSS-TTS-Realtime-ди сапаттуу альтернатива катары интеграциялап жатабыз; колдонуучуларга аны жүктөп алгандан кийин ар бир суроо боюнча тандоо мүмкүнчүлүгү берилет.

Kokoro'нун биринчи аудио сигналынын күтүлүүчү убактысы 300-800 мс. Андан кийин тармактык байланыштын ылдамдыгы жогорулайт. Бул барактын интерфейсинде биринчи аудио сигналга чейинки убакытты көрсөтөт, ошондуктан ар бир суроонун канча убакытты алганын көрө аласыз.

Конверсациялык жооп берген үн агенттери, медиа-транзит үчүн түз эфирдеги дублирование, интерактивдүү оюн NPCs, колдонуучунун чыкылдатканда сүйлөй баштаган жеткиликтүүлүк окурмандар, жана аудиону эки же үч секунд күтүп турган ар кандай тиркеме.

Да. POST https://api.tts.ai/v1/tts/stream/ менен, кадимки /v1/tts/ endpoint менен бирдей дене менен. Жауап base64-кодталған WAV фрагменттерінің SSE-ағысымен келеді. Тегін деңгей анонимді пайдаланушы үшін күн сайын 10 генерацияны қолдайды; аутентификацияланған пайдаланушылар үшін есептік жазба үшін толық символдық шектеулер бар.

Kokoro алдын-ала даярдалган үндөрү менен иштейт жана клондоого жол бербейт. MOSS-TTS-Realtime (интеграцияланганда) 3 секундалык шилтемеден 0-шот үн клондоону колдойт. Бүгүнкү күндө толук үн клондоо үчүн, Chatterbox же GPT-SoVITS менен адаттагы /text-to-speech/ бетин колдонуп көрүңүз — алар поток-кабилитеттүү эмес, бирок өз алдынча үн чыгарат.

Кокоро акысыз (1x баасы). MOSS-TTS-Realtime стандарттык (2x баасы) деңгээлде иштей алат, эгерде ал иштетилсе. Протоколдун агымы эч кандай кошумча бааны кошпойт.

Да — потоктук конечный пункт с Twilio голосовым веб-узелом для подачи живого аудио в телефонный звонок. Наша платформа голосового агента уже делает это для IVR и выходящих звонков. Конечный задержка на телефонном звонке обычно составляет 1-2 секунды, включая STT и LLM ответ.

Эгерде сиздин тармак транзит учурунда бир бөлүгүн жоготуп алса, поток ойноткучу токтоп калуудан көрө, алдыга жылат. Аралыктарды тоскоол кылбаган колдонмолор үчүн, адаттагы потоксуз аяктоо пунктуна кайтып келүү керек, же ойнотуудан мурун 500 мс аудиону буферге сактоо керек.

5.0/5 (1)

Сөздү реалдуу убакытта берүү

Күнүнө 10 генерацияга акысыз. Символдорду толук колдонууга жана APIге кирүү үчүн каттоодон өтүү керек.

Акысыз катталуу Бааны көрүү

Тизме

Текст

Сөздү орнотуулар

Жаңылоо

Чыгаруу

Транслирование TTS как работает

Текстти жөнөтүү

2. Модель түзөт

3. Потоктун бөлүктөрү

4. Тез угуу

Колдонуу мисалдары

Сөз агенттери

Дублирование

Оюндар

Артыкчылыктар

Тизмелерди түзүү

Көп берилүүчү суроолор

Тизмедеги текстти жазуу деген эмне?

Реалдуу убакыттагы TTS кадимки TTSден эмнеси менен айырмаланат?

Кайсы модель реалдуулукта иштөөчү бетти иштетет?

Биринчи аудионун кечигип келүү убактысы канча?

Тизмелерди түзүү үчүн эмнелерди колдонсо болот?

Тизмелерди жазуу үчүн API барбы?

Сөздү клондоону колдойтпу?

Транслёр канча турат?

Телефон чалууларында колдонсо болобу?

Эмне үчүн кээде сөздүн ортосунан үнүнөн ажырайт?

Сөздү реалдуу убакытта берүү