Рэальны час TTS

Праграма пераўтварэньня тэксту ў мову з затрымакай першага гуку менш за секунду. Стварана для галасавых агентаў і праграмаў, якія працуюць у рэжыме рэальнага часу.

Тэкст

Стрым
0/5,000 сімвалы ~0.3s Першы гукавы файл

Настаўленні голасу

Ужываецца толькі ў тэхнічных мэтах.

Затрымка ўзроўню

Націсніце на «Прагляд» для вымярэньня затрымак першага гуку

Вывад

Тут будуць прайгравацца аўдыё- фрагменты, якія будуць уводзіцца ў стрымінг.

0:00
Першы кавалак:
Усяго блокаў: 0
Усяго часу:

Як працуе TTS

1. Даслаць тэкст

У 1999 годзе 1-я і 2-я лініі былі злучаны лініяй «Сіці-Сіці».

2. Стварэнне мадэлі

У тэксце гаворыцца пра гістарычную і культурную спадчыну Беларусі.

3. Часткі патоку

У 1964 годзе вёска была перайменавана ў Слабаду і стала цэнтрам сельсавета.

Слухаць у рэжыме рэальнага часу

У пачатку 2000-х гадоў стаў карыстацца папулярнасцю, у тым ліку і ў Расіі.

Выкарыстанне

У выніку доўгіх перамоваў быў заключаны новы дагавор.

Галасовыя агенты

Усе тыя ж самыя рэчы, якія звычайна карыстаюцца попытам у людзей.

Дубляж у рэжыме рэальнага часу

Пераклад і дубляваньне стужак у рэальным часе без буферызацыі.

ГульніName

У ёй гаворыцца, што NPC не могуць быць выкарыстаны для гульні ў гульні, а толькі для зносін.

Даступнасць

Экранныя чытачы і дапаможныя інструменты, якія пачынаюць размаўляць у момант націску карыстальніка.

Планаванне TTS у рэальным часе

Пачаць бясплатна, абнавіць, калі спатрэбіцца больш

Вольна
  • Kokoro- стрымінг (свободная мадэль)
  • 500 знакаў на пакаленне
  • 10 бясплатных стрымінгаў/дзённа на аднаго ананімнага карыстальніка
  • Затрымка першага гукавога паведамлення ў секундах
  • SSE-прайгравальнік праз HTTPS
Самыя папулярныя
Вольны рахунак
  • 15000 знакаў пры рэгістрацыі
  • 5000 знакаў на потік
  • Ключ API для праграмнага доступу
  • Гісторыя генерацыі
  • Няма штодзённага абмежаваньня патоку
Падпісацца бясплатна
Прафесійны
  • MOSS- TTS- Realtime (калі ў рэжыме рэальнага часу)
  • 100, 000 знакаў на потік
  • Чарга прыярытэтнага GPU
  • Інтэграцыя з галасавым мэнэджэрам і Twilio
  • Вышэйшае абмежаванне хуткасці
Абнавіць

Частыя пытанні

Праграма пераўтварэння тэксту ў мову ў рэальным часе перадае гукавыя файлы па меры іх стварэння, замест чакання, пакуль будзе завершанае цэлае сказа. Першы гукавы прыклад прыходзіць менш чым за секунду, што робіць яе прыдатнай для рэальных гукавых агентаў, дубляваньня і інтэрактыўных праграмаў, дзе важная зацягнутасьць.

Звычайны TTS стварае поўны аўдыё файл перад тым, як вярнуць што- небудзь - вы чакаеце, а потым чуеце ўсё сказа адразу. Рэальны TTS выкарыстоўвае Server- Sent Events (SSE) для перадачы кароткіх аўдыё фрагментаў, як толькі мадэль іх стварае. Карыстач чуе пачатак сказа амаль адразу, нават пры доўгіх уводных дадзеных.

Kokoro - гэта стандартны backend - ён генеруе гук у 100 разоў хутчэй, чым у рэальным часе на сучасным GPU. Мы ўбудоўваем MOSS- TTS- Realtime як альтэрнатыву вышэйшай якасці; карыстальнікі змогуць выбіраць па запыце, калі ён будзе даступны.

Сярэдняя задержка першага гукавога запыту на Kokoro складае 300- 800 мс пры агульным падлучэнні. Пасля гэтага пераважае сеткавая задержка. На старонцы паказваецца рэальны час да першага гукавога запыту ў інтэрфейсе карыстальніка, так што вы можаце ўбачыць, колькі часу заняла кожная запыт.

Усе тэксты, якія змяшчаюцца ў ёй, напісаны на англійскай мове, з выкарыстаннем тэкставых рэдактараў, якія дазваляюць карыстальнікам карыстацца тэкстам у любым фармаце, уключаючы PDF, і з дапамогай тэкставых рэдактараў, якія дазваляюць карыстальнікам карыстацца тэкстам у любым фармаце.

Так. POST у https:// api. tts. ai/ v1/ tts/ stream / з тым жа целам, што і звычайная канечная кропка / v1/ tts /. Адказ - SSE- патокі base64- закодаваных WAV- фрагментаў. Бясплатны ўзровень падтрымлівае 10 генерацый у дзень на анімаванага карыстальніка; аўтэнтыфікаваныя карыстальнікі атрымліваюць поўны ліміт сімвалаў на рахунак.

Kokoro выкарыстоўвае падрыхтаваныя галасы і не клануецца. MOSS- TTS- Realtime (калі інтэгравана) падтрымлівае кланаваньне галасоў з 3- секунднай спасылкай. Для поўнага кланаваньня галасоў сёньня, выкарыстоўвайце звычайную старонку / text- to- speech / з Chatterbox або GPT- SoVITS - яны не маюць магчымасьці стрымінгу, але ствараюць уласныя галасы.

Кошт звычайнага TTS такі ж, як і ў звычайнай канечнай кропцы. Kokoro - гэта бясплатны пакет (кошт 1x). MOSS- TTS- Realtime будзе працаваць на стандартным пакете (кошт 2x), калі ўключаны. Пратакол стрымінгу не дадае дадатковых выдаткаў.

Так — спалучыце канечную кропку трансляцыі з галасавым webhook Twilio, каб падаваць жывы гук у тэлефонны званок. Наша платформа галасавых агентаў ужо робіць гэта для IVR і выязных выклікаў. Затрымка паміж канцамі тэлефоннага званку звычайна складае 1- 2 секунды, уключаючы STT і LLM адказ.

Калі сетка перапыняецца, прагравальнік будзе пераходзіць на наступны фрагмент, а не затрымлівацца. Для праграм, якія не могуць вытрымаць перапынкаў, пераключыцеся на звычайны канец не- стрымінгавай сувязі або буферызуйце 500 мс гуку перад пачаткам прайгравання.
5.0/5 (1)

Што мы можам палепшыць? Ваша ацэнка дапаможа нам выправіць праблемы.

Праграма для перакладу мовыName

Бясплатна на першыя 10 пакаленняў у дзень. Зарэгіструйцеся, каб атрымаць поўны ліміт сімвалаў і доступ да API.