Паведаміць пра памылку / запыт на магчымасць

Рэальны час TTS

Праграма пераўтварэньня тэксту ў мову з затрымакай першага гуку менш за секунду. Стварана для галасавых агентаў і праграмаў, якія працуюць у рэжыме рэальнага часу.

Падпісацца бясплатна

Мы Прадавай свой голас

Тэкст

Стрым

0/5,000 сімвалы ~0.3s Першы гукавы файл

Настаўленні голасу

Модуль Ужываецца толькі ў тэхнічных мэтах.

Голас

Хуткасць 1.0x

Затрымка ўзроўню

—

Націсніце на «Прагляд» для вымярэньня затрымак першага гуку

Вывад

Тут будуць прайгравацца аўдыё- фрагменты, якія будуць уводзіцца ў стрымінг.

Як працуе TTS

1. Даслаць тэкст

У 1999 годзе 1-я і 2-я лініі былі злучаны лініяй «Сіці-Сіці».

2. Стварэнне мадэлі

У тэксце гаворыцца пра гістарычную і культурную спадчыну Беларусі.

3. Часткі патоку

У 1964 годзе вёска была перайменавана ў Слабаду і стала цэнтрам сельсавета.

Слухаць у рэжыме рэальнага часу

У пачатку 2000-х гадоў стаў карыстацца папулярнасцю, у тым ліку і ў Расіі.

Выкарыстанне

У выніку доўгіх перамоваў быў заключаны новы дагавор.

Галасовыя агенты

Усе тыя ж самыя рэчы, якія звычайна карыстаюцца попытам у людзей.

Дубляж у рэжыме рэальнага часу

Пераклад і дубляваньне стужак у рэальным часе без буферызацыі.

ГульніName

У ёй гаворыцца, што NPC не могуць быць выкарыстаны для гульні ў гульні, а толькі для зносін.

Даступнасць

Экранныя чытачы і дапаможныя інструменты, якія пачынаюць размаўляць у момант націску карыстальніка.

Планаванне TTS у рэальным часе

Пачаць бясплатна, абнавіць, калі спатрэбіцца больш

Вольна

Kokoro- стрымінг (свободная мадэль)
500 знакаў на пакаленне
10 бясплатных стрымінгаў/дзённа на аднаго ананімнага карыстальніка
Затрымка першага гукавога паведамлення ў секундах
SSE-прайгравальнік праз HTTPS

Самыя папулярныя

Вольны рахунак

15000 знакаў пры рэгістрацыі
5000 знакаў на потік
Ключ API для праграмнага доступу
Гісторыя генерацыі
Няма штодзённага абмежаваньня патоку

Падпісацца бясплатна

Прафесійны

MOSS- TTS- Realtime (калі ў рэжыме рэальнага часу)
100, 000 знакаў на потік
Чарга прыярытэтнага GPU
Інтэграцыя з галасавым мэнэджэрам і Twilio
Вышэйшае абмежаванне хуткасці

Абнавіць

Частыя пытанні

Праграма пераўтварэння тэксту ў мову ў рэальным часе перадае гукавыя файлы па меры іх стварэння, замест чакання, пакуль будзе завершанае цэлае сказа. Першы гукавы прыклад прыходзіць менш чым за секунду, што робіць яе прыдатнай для рэальных гукавых агентаў, дубляваньня і інтэрактыўных праграмаў, дзе важная зацягнутасьць.

Звычайны TTS стварае поўны аўдыё файл перад тым, як вярнуць што- небудзь - вы чакаеце, а потым чуеце ўсё сказа адразу. Рэальны TTS выкарыстоўвае Server- Sent Events (SSE) для перадачы кароткіх аўдыё фрагментаў, як толькі мадэль іх стварае. Карыстач чуе пачатак сказа амаль адразу, нават пры доўгіх уводных дадзеных.

Kokoro - гэта стандартны backend - ён генеруе гук у 100 разоў хутчэй, чым у рэальным часе на сучасным GPU. Мы ўбудоўваем MOSS- TTS- Realtime як альтэрнатыву вышэйшай якасці; карыстальнікі змогуць выбіраць па запыце, калі ён будзе даступны.

Сярэдняя задержка першага гукавога запыту на Kokoro складае 300- 800 мс пры агульным падлучэнні. Пасля гэтага пераважае сеткавая задержка. На старонцы паказваецца рэальны час да першага гукавога запыту ў інтэрфейсе карыстальніка, так што вы можаце ўбачыць, колькі часу заняла кожная запыт.

Усе тэксты, якія змяшчаюцца ў ёй, напісаны на англійскай мове, з выкарыстаннем тэкставых рэдактараў, якія дазваляюць карыстальнікам карыстацца тэкстам у любым фармаце, уключаючы PDF, і з дапамогай тэкставых рэдактараў, якія дазваляюць карыстальнікам карыстацца тэкстам у любым фармаце.

Так. POST у https:// api. tts. ai/ v1/ tts/ stream / з тым жа целам, што і звычайная канечная кропка / v1/ tts /. Адказ - SSE- патокі base64- закодаваных WAV- фрагментаў. Бясплатны ўзровень падтрымлівае 10 генерацый у дзень на анімаванага карыстальніка; аўтэнтыфікаваныя карыстальнікі атрымліваюць поўны ліміт сімвалаў на рахунак.

Kokoro выкарыстоўвае падрыхтаваныя галасы і не клануецца. MOSS- TTS- Realtime (калі інтэгравана) падтрымлівае кланаваньне галасоў з 3- секунднай спасылкай. Для поўнага кланаваньня галасоў сёньня, выкарыстоўвайце звычайную старонку / text- to- speech / з Chatterbox або GPT- SoVITS - яны не маюць магчымасьці стрымінгу, але ствараюць уласныя галасы.

Кошт звычайнага TTS такі ж, як і ў звычайнай канечнай кропцы. Kokoro - гэта бясплатны пакет (кошт 1x). MOSS- TTS- Realtime будзе працаваць на стандартным пакете (кошт 2x), калі ўключаны. Пратакол стрымінгу не дадае дадатковых выдаткаў.

Так — спалучыце канечную кропку трансляцыі з галасавым webhook Twilio, каб падаваць жывы гук у тэлефонны званок. Наша платформа галасавых агентаў ужо робіць гэта для IVR і выязных выклікаў. Затрымка паміж канцамі тэлефоннага званку звычайна складае 1- 2 секунды, уключаючы STT і LLM адказ.

Калі сетка перапыняецца, прагравальнік будзе пераходзіць на наступны фрагмент, а не затрымлівацца. Для праграм, якія не могуць вытрымаць перапынкаў, пераключыцеся на звычайны канец не- стрымінгавай сувязі або буферызуйце 500 мс гуку перад пачаткам прайгравання.

5.0/5 (1)

Праграма для перакладу мовыName

Бясплатна на першыя 10 пакаленняў у дзень. Зарэгіструйцеся, каб атрымаць поўны ліміт сімвалаў і доступ да API.

Падпісацца бясплатна Прагляд цаны

Рэальны час TTS

Тэкст

Настаўленні голасу

Затрымка ўзроўню

Вывад

Як працуе TTS

1. Даслаць тэкст

2. Стварэнне мадэлі

3. Часткі патоку

Слухаць у рэжыме рэальнага часу

Выкарыстанне

Галасовыя агенты

Дубляж у рэжыме рэальнага часу

ГульніName

Даступнасць

Планаванне TTS у рэальным часе

Частыя пытанні

Што такое рэальны час TTS?

Як рэальны час TTS адрозніваецца ад звычайнага TTS?

Якая мадэль падтрымлівае старонку рэальнага часу?

Як хутка адбываецца першае замыканне гуку?

Што я магу зрабіць з рэальным часам TTS?

Ці існуе API для рэальнага часу TTS?

Ці падтрымлівае ён клонаванне голасу?

Колькі каштуе рэальны час TTS?

Ці магу я выкарыстоўваць яго для тэлефонных званкоў?

Чаму гук часам перарываецца ў сярэдзіне слова?

Праграма для перакладу мовыName