Тўлиқ вақтли TTS

Текстдан сўзга стрийминг, биринчи аудионинг кечикиши секунддан кичик. Товуш агентлари ва жонли дастурлар учун яратилган.

Бизда сизнинг тилингизда TTS овозлари ҳали йўқ. Бизга ўзингизникини қўшишимизга ёрдам беринг! Ўз овозингизни сотинг

Матн

Трансляция
0/5,000 белгилар ~0.3s биринчи аудио

Товуш параметрлари

Фақат стрийм-модельлари.

Оддий кечикиш

Биринчи аудионинг кечикишини ўлчаш учун Stream тугмасини босинг

Чоп этиш

Аудио парчалари бу ерда улар кириб келганда янграйди.

0:00
Биринчи бўлак:
Жами бўлаклар: 0
Жами вақт:

ТТС қандай ишлайди

1. Матнни жўнатиш

/v1/tts/stream/га POST матнини сервер-жўнатган ҳодиса талаби сифатида юбориш.

2. Модель яратилади

Kokoro матнни парчалаб, GPUда аудио намуна-намуна асосида яратади.

3. Стрим парчалари

Base64 кодланган WAV парчалари SSE орқали келиб, дарҳол тинглашга киришади.

4. Тезкор эшиттириш

Ҳаттоки узун киритмалар ҳам, фойдаланувчи бир сониядан камроқ вақт ичида жумланинг бошини эшитади.

Ишлатиш ҳолатлари

Бу ерда суб-секундлик кутиш янги тажрибани очади.

Товуш агентлари

Одамдек тез жавоб берадиган суҳбатлашиш ботлари.

Жиддий дубллаш

Буферлаштириш тўхтатишларсиз реал вақтда таржима ва дубл қилинг.

Ўйинлар

Ўйинчи танлаган ўйинга тезкор жавоб берадиган NPC диалоги, олдиндан кўрсатилган овоз йўқ.

Қўллатиш

Экран ўқитувчилари ва ёрдамчи асбоблар фойдаланувчи тугма босган заҳоти гапиришни бошлайди.

ТТС режалари

Бепул бошланг, яна кўпроқ керак бўлса янгиланг

Оқ
  • Kokoro стриминги (пулли модел)
  • Ҳар бир авлод учун 500 ҳарф
  • Ҳар бир номаълум фойдаланувчи учун кунига 10 та бепул узатма
  • Биринчи аудионинг секунддан кичик кечикиши
  • HTTPS орқали SSE узатиш
Энг машҳур
Бепул ҳисоб
  • 15000 аломат рўйхатдан ўтиш вақтида
  • Ҳар бир оқим учун 5000 белги
  • Программавий кириш учун API калити
  • Юклаш тарихи
  • Кунлик стрийм чеклови йўқ
Бепул рўйхатдан ўтиш
Про
  • MOSS-TTS-Realtime (яқинда)
  • Ҳар бир оқим учун 100,000 белги
  • Авваллик GPU навбати
  • Товуш агенти + Twilio интеграцияси
  • Юқори тезлик чегаралари
Янгилаш

Кўп бериладиган саволлар

Реал вақтдаги матндан сўзга ўтиш бутун жумла тугагунча кутиш ўрнига, улар яратилганда аудио парчаларини узатади. Биринчи аудио намунаси бир сониядан камроқ вақтда келади, бу уни жонли овоз агентлари, дубллаш ва кечикиш муҳим бўлган интерактив дастурлар учун мос қилади.

Оддий TTS ҳеч нарсани қайтармасдан олдин тўлиқ аудио файлни яратади — сиз кутиб турасиз, сўнгра бутун жумлани бирдан эшитасиз. Тўғридан-тўғри TTS эса, сервердан юборилган воқеаларни (SSE) фойдаланиб, модел уларни ишлаб чиқарганда, қисқа аудио парчаларини узатади. Фойдаланувчи ҳаттоки узун киритмаларда ҳам жумланинг бошини деярли дарҳол эшитади.

Kokoro - бу стандарт backend - у замонавий GPUда реал вақтдан 100x тезроқ аудиони яратади. Биз MOSS-TTS-Realtime'ни юқори сифатли альтернатива сифатида интеграция қилмоқдамиз; фойдаланувчилар буни тақдим этилганда талаб бўйича танлаш имкониятига эга бўладилар.

Kokoro'даги оддий биринчи аудио кутиш вақти оммавий алоқа орқали 300-800ms. Бу вақтдан кейин тармоқ айланма йўли ҳукмронлик қилади. Саҳифа UI'да биринчи аудиога қадар аниқ вақтни кўрсатади, шунинг учун ҳар бир талаб қанча вақтни олганини аниқ кўришингиз мумкин.

Мулоқот тарзида жавоб берадиган овоз агентлари, медиа стриминги учун жонли дубл, интерактив ўйин NPCлар, фойдаланувчи тугмасини босган заҳоти гапиришни бошлаган қулфланган ўқитувчи ва аудио учун икки ёки уч сония кутиш унчалик тез бўлмаслиги мумкин бўлган барча дастурлар.

Ҳа. POST https://api.tts.ai/v1/tts/stream/га оддий /v1/tts/ охирги нуқтаси билан бир хил таркиб билан юборилади. Жавоб base64-кодланган WAV парчаларининг SSE оқими бўлади. Бепул даража ҳар бир номаълум фойдаланувчи учун кунига 10 та авлодни қўллаб-қувватлайди; аутентификация қилинган фойдаланувчилар ҳар бир ҳисоб учун тўлиқ белгилар миқдорини олади.

Kokoro олдиндан тайёрланган овозларни ишлатади ва клонламайди. MOSS-TTS-Realtime (интеграция қилинганда) 3 сониялик манбадан 0-шот овоз клонлашини қўллаб-қувватлайди. Бугунги кунда тўлиқ овоз клонлаш учун, Chatterbox ёки GPT-SoVITS билан оддий /text-to-speech/ саҳифасини ишлатинг — улар стрийм-фаол эмас, аммо ўз овозларини ишлаб чиқаради.

ТТС-реал вақт стандарт даражасида ишлайди (2x қиймати). Транспорт протоколи ҳеч қандай нарх қўшиб бермайди.

Ҳа — узатиш охирги нуқтаси Twilio овозли веб-ҳукки билан боғланиб, телефон қўнғироқларига жонли аудиони узатади. Бизнинг овозли агент платформамиз буни IVR ва чиқувчи қўнғироқлар учун аллақачон бажариб келмоқда. Телефон қўнғироқларининг охиридан охиригача бўлган кутиш вақти одатда STT ва LLM жавоблари билан биргаликда 1-2 секундни ташкил қилади.

Агар тармоқингиз ўтказувчанлик вақтида бирор парчани йўқотса, стрийм плеер тўхтаб қолиш ўрнига олдинга ўтиб кетади. Бузилишга чидамли бўлмаган дастурлар учун, стриймсиз нормал охирги нуқтага қайтинг ёки 500 мс аудиони буферга жойланг ва кейин ундан кейин стриймни бошланг.
5.0/5 (1)

Биз нимани яхшилашимиз мумкин? Сизнинг фикрингиз бизга муаммоларни ҳал қилишга ёрдам беради.

Реал вақтда сўзлашувни узатиш

Кунига биринчи 10 авлод учун бепул. тўлиқ белгилар миқдорини ва APIга киришни қулфдан чиқариш учун рўйхатдан ўтинг.