Хато ҳақида хабар бериш / Хусусият талаби

Тўлиқ вақтли TTS

Текстдан сўзга стрийминг, биринчи аудионинг кечикиши секунддан кичик. Товуш агентлари ва жонли дастурлар учун яратилган.

Бепул рўйхатдан ўтиш

Бизда сизнинг тилингизда TTS овозлари ҳали йўқ. Бизга ўзингизникини қўшишимизга ёрдам беринг! Ўз овозингизни сотинг

Матн

Трансляция

0/5,000 белгилар ~0.3s биринчи аудио

Товуш параметрлари

Модель Фақат стрийм-модельлари.

Овоз

Тезлик 1.0x

Оддий кечикиш

—

Биринчи аудионинг кечикишини ўлчаш учун Stream тугмасини босинг

Чоп этиш

Аудио парчалари бу ерда улар кириб келганда янграйди.

ТТС қандай ишлайди

1. Матнни жўнатиш

/v1/tts/stream/га POST матнини сервер-жўнатган ҳодиса талаби сифатида юбориш.

2. Модель яратилади

Kokoro матнни парчалаб, GPUда аудио намуна-намуна асосида яратади.

3. Стрим парчалари

Base64 кодланган WAV парчалари SSE орқали келиб, дарҳол тинглашга киришади.

4. Тезкор эшиттириш

Ҳаттоки узун киритмалар ҳам, фойдаланувчи бир сониядан камроқ вақт ичида жумланинг бошини эшитади.

Ишлатиш ҳолатлари

Бу ерда суб-секундлик кутиш янги тажрибани очади.

Товуш агентлари

Одамдек тез жавоб берадиган суҳбатлашиш ботлари.

Жиддий дубллаш

Буферлаштириш тўхтатишларсиз реал вақтда таржима ва дубл қилинг.

Ўйинлар

Ўйинчи танлаган ўйинга тезкор жавоб берадиган NPC диалоги, олдиндан кўрсатилган овоз йўқ.

Қўллатиш

Экран ўқитувчилари ва ёрдамчи асбоблар фойдаланувчи тугма босган заҳоти гапиришни бошлайди.

ТТС режалари

Бепул бошланг, яна кўпроқ керак бўлса янгиланг

Оқ

Kokoro стриминги (пулли модел)
Ҳар бир авлод учун 500 ҳарф
Ҳар бир номаълум фойдаланувчи учун кунига 10 та бепул узатма
Биринчи аудионинг секунддан кичик кечикиши
HTTPS орқали SSE узатиш

Энг машҳур

Бепул ҳисоб

15000 аломат рўйхатдан ўтиш вақтида
Ҳар бир оқим учун 5000 белги
Программавий кириш учун API калити
Юклаш тарихи
Кунлик стрийм чеклови йўқ

Бепул рўйхатдан ўтиш

Про

MOSS-TTS-Realtime (яқинда)
Ҳар бир оқим учун 100,000 белги
Авваллик GPU навбати
Товуш агенти + Twilio интеграцияси
Юқори тезлик чегаралари

Янгилаш

Кўп бериладиган саволлар

Реал вақтдаги матндан сўзга ўтиш бутун жумла тугагунча кутиш ўрнига, улар яратилганда аудио парчаларини узатади. Биринчи аудио намунаси бир сониядан камроқ вақтда келади, бу уни жонли овоз агентлари, дубллаш ва кечикиш муҳим бўлган интерактив дастурлар учун мос қилади.

Оддий TTS ҳеч нарсани қайтармасдан олдин тўлиқ аудио файлни яратади — сиз кутиб турасиз, сўнгра бутун жумлани бирдан эшитасиз. Тўғридан-тўғри TTS эса, сервердан юборилган воқеаларни (SSE) фойдаланиб, модел уларни ишлаб чиқарганда, қисқа аудио парчаларини узатади. Фойдаланувчи ҳаттоки узун киритмаларда ҳам жумланинг бошини деярли дарҳол эшитади.

Kokoro - бу стандарт backend - у замонавий GPUда реал вақтдан 100x тезроқ аудиони яратади. Биз MOSS-TTS-Realtime'ни юқори сифатли альтернатива сифатида интеграция қилмоқдамиз; фойдаланувчилар буни тақдим этилганда талаб бўйича танлаш имкониятига эга бўладилар.

Kokoro'даги оддий биринчи аудио кутиш вақти оммавий алоқа орқали 300-800ms. Бу вақтдан кейин тармоқ айланма йўли ҳукмронлик қилади. Саҳифа UI'да биринчи аудиога қадар аниқ вақтни кўрсатади, шунинг учун ҳар бир талаб қанча вақтни олганини аниқ кўришингиз мумкин.

Мулоқот тарзида жавоб берадиган овоз агентлари, медиа стриминги учун жонли дубл, интерактив ўйин NPCлар, фойдаланувчи тугмасини босган заҳоти гапиришни бошлаган қулфланган ўқитувчи ва аудио учун икки ёки уч сония кутиш унчалик тез бўлмаслиги мумкин бўлган барча дастурлар.

Ҳа. POST https://api.tts.ai/v1/tts/stream/га оддий /v1/tts/ охирги нуқтаси билан бир хил таркиб билан юборилади. Жавоб base64-кодланган WAV парчаларининг SSE оқими бўлади. Бепул даража ҳар бир номаълум фойдаланувчи учун кунига 10 та авлодни қўллаб-қувватлайди; аутентификация қилинган фойдаланувчилар ҳар бир ҳисоб учун тўлиқ белгилар миқдорини олади.

Kokoro олдиндан тайёрланган овозларни ишлатади ва клонламайди. MOSS-TTS-Realtime (интеграция қилинганда) 3 сониялик манбадан 0-шот овоз клонлашини қўллаб-қувватлайди. Бугунги кунда тўлиқ овоз клонлаш учун, Chatterbox ёки GPT-SoVITS билан оддий /text-to-speech/ саҳифасини ишлатинг — улар стрийм-фаол эмас, аммо ўз овозларини ишлаб чиқаради.

ТТС-реал вақт стандарт даражасида ишлайди (2x қиймати). Транспорт протоколи ҳеч қандай нарх қўшиб бермайди.

Ҳа — узатиш охирги нуқтаси Twilio овозли веб-ҳукки билан боғланиб, телефон қўнғироқларига жонли аудиони узатади. Бизнинг овозли агент платформамиз буни IVR ва чиқувчи қўнғироқлар учун аллақачон бажариб келмоқда. Телефон қўнғироқларининг охиридан охиригача бўлган кутиш вақти одатда STT ва LLM жавоблари билан биргаликда 1-2 секундни ташкил қилади.

Агар тармоқингиз ўтказувчанлик вақтида бирор парчани йўқотса, стрийм плеер тўхтаб қолиш ўрнига олдинга ўтиб кетади. Бузилишга чидамли бўлмаган дастурлар учун, стриймсиз нормал охирги нуқтага қайтинг ёки 500 мс аудиони буферга жойланг ва кейин ундан кейин стриймни бошланг.

5.0/5 (1)

Реал вақтда сўзлашувни узатиш

Кунига биринчи 10 авлод учун бепул. тўлиқ белгилар миқдорини ва APIга киришни қулфдан чиқариш учун рўйхатдан ўтинг.

Бепул рўйхатдан ўтиш Нархларни кўриш

Тўлиқ вақтли TTS

Матн

Товуш параметрлари

Оддий кечикиш

Чоп этиш

ТТС қандай ишлайди

1. Матнни жўнатиш

2. Модель яратилади

3. Стрим парчалари

4. Тезкор эшиттириш

Ишлатиш ҳолатлари

Товуш агентлари

Жиддий дубллаш

Ўйинлар

Қўллатиш

ТТС режалари

Кўп бериладиган саволлар

ТТС нима?

Тўлиқ вақтли TTS оддий TTSдан қандай фарқ қилади?

Қайси модел реал вақт саҳифасини қувватлайди?

Биринчи аудионинг кутиш вақти қанча тез?

ТТС билан нима қуриш мумкин?

ТТС учун реал вақтдаги API борми?

У овозни клонлашни қўллай оладими?

ТТС қанча туради?

Уни телефон қўнғироқларида ишлата оламанми?

Нима учун баъзан сўзлар орасида аудио тўхтайди?

Реал вақтда сўзлашувни узатиш