> Iulat ang Bug / Feature Request

Realtime TTS

> Streaming text-to-speech na may sub-second first-audio latency. Built para sa mga ahente ng boses at live na mga application.

Mag-sign up para sa libreng

Hindi pa kami may mga boses ng TTS sa iyong wika. Tulungan mo kaming magdagdag ng iyong mga ito! Ibenta ang Iyong Tinig

Teksto

Streaming

0/5,000 Mga character ~0.3s > unang audio

Mga setting ng boses

Modelo Ang mga modelong may kakayahang streaming lamang.

Tinig

Bilis 1.0x

Live latency

—

> I-click ang Stream upang sukatin ang unang-audio latency

Output

> Audio chunks ay maglaro dito bilang sila stream sa.

> Paano Streaming TTS gumagana

1. Ipadala ang teksto

Ang 1/1000 ng isang segundo ay isang segundong-degree o isang-degree na segundo.

2. Modelo ng mga Generates

Ang mga ito ay tinatawag na mga sampler at ginagamit sa pag-record ng audio.

3. Stream ng mga piraso

Ang mga 64-bit na mga kompyuter ay maaaring mag-imbak ng mga datos sa isang 64-bit na base64.

4. Makikinig ng live

> User narinig ang simula ng pangungusap sa ilalim ng isang segundo, kahit na sa mahabang input.

> Gamitin ang mga kaso

> Kung saan sub-ikalawang latency unlocks bagong karanasan.

Mga Ahente ng Tinig

Ang mga ito ay mga karaniwang mga tao na may mga katangiang tulad ng isang tao.

Mga Live na Dubbed

> Isalin at dub ng isang stream sa real time nang walang buffering pauses.

Laro

Ang mga NPC ay maaaring mag-react sa mga desisyon ng manlalaro nang direkta, walang pre-render VO.

Aksesibilidad

> Screen readers at mga kasamang tool na nagsisimulang magsalita sa sandaling mag-click ang isang user.

> Realtime TTS Plano

> Magsimula nang libre, i-upgrade kapag kailangan mo ng higit pa

Libre

> Kokoro streaming (libreng modelo)
> 500 mga character sa bawat henerasyon
> 10 libreng stream / araw bawat anonymous user
> Sub-ikalawang unang-audio latency
SSE streaming sa HTTPS

Karamihan Popular

Libreng Account

> 15,000 character sa pag-signup
> 5,000 mga character sa bawat stream
API key para sa programang pag-access
> Generation kasaysayan
> Walang araw-araw na stream cap

Mag-sign up para sa libreng

Pro

> MOSS-TTS-Realtime (kapag live)
> 100,000 mga character sa bawat stream
< Prioridad GPU queue
> Voice agent + Twilio pagsasama
> Mas mataas na limitasyon ng rate

I-upgrade

Mga Madalas Itanong

> Realtime text-to-speech streams audio chunks bilang sila ay nabuo, sa halip na maghintay para sa buong pangungusap upang makumpleto. Ang unang audio sample dumating sa ilalim ng isang segundo, na ginagawang angkop para sa live na boses ahente, dubbing, at interactive na mga application kung saan ang latency bagay.

> Regular TTS bumubuo ng buong audio file bago bumalik anumang bagay - maghintay ka, pagkatapos ay marinig ang buong pangungusap sa isang pagkakataon. Realtime TTS gumagamit ng Server-Ipadala Kaganapan (SSE) upang i-stream maikling audio chunks bilang ang modelo ay gumagawa ng mga ito. Ang user ay naririnig ang simula ng pangungusap halos kaagad, kahit na sa mahabang input.

> Kokoro ay ang default na backend — ito ay bumubuo ng audio humigit-kumulang 100x mas mabilis kaysa sa real time sa isang modernong GPU. Kami ay pagsasama MOSS-TTS-Realtime bilang isang mas mataas na kalidad na alternatibo; mga gumagamit ay magagawang upang pumili sa bawat kahilingan sa sandaling na ships.

> Tipikal unang-audio latency sa Kokoro ay 300-800ms sa isang pampublikong koneksyon. Network round-trip dominates pagkatapos na. Ang pahina ay nagpapakita ng live na sinusukat na oras-sa-unang-audio sa UI upang maaari mong makita kung gaano katagal ang bawat kahilingan kinuha.

Ang mga ahente ng boses na tumutugon sa pakikipag-usap, live na pag-dub para sa streaming media, interactive na mga NPC ng laro, mga mambabasa ng accessibility na nagsisimulang magsalita sa sandaling mag-click ang isang user, at anumang mga aplikasyon kung saan ang paghihintay ng dalawang o tatlong segundo para sa audio ay magiging mabagal.

Ang mga ito ay maaaring maging isang simpleng SSE stream ng base64-encoded WAV chunks. Ang libreng antas ay sumusuporta sa 10 henerasyon sa isang araw bawat anonymous user; authenticated mga gumagamit makakuha ng buong per-account character allowance.

> Kokoro gumagamit ng pre-trained boses at hindi klon. MOSS-TTS-Realtime (kapag isinama) sumusuporta sa zero-shot boses cloning mula sa isang3segundo reference. Para sa buong boses cloning ngayon, gamitin ang regular na /text-to-speech/ pahina sa Chatterbox o GPT-SoVITS — ang mga ito ay hindi streaming-kakayanin ngunit gumawa ng mga pasadyang boses.

> Parehong character gastos bilang ang regular na TTS endpoint. Kokoro ay libreng-tier (1x gastos). MOSS-TTS-Realtime ay tumatakbo sa standard tier (2x gastos) kapag pinagana. Ang streaming protocol ay hindi magdagdag ng anumang pricing surcharge.

> Oo — magkapareho ang streaming endpoint sa isang Twilio boses webhook upang feed live audio sa isang tawag sa telepono. Ang aming boses agent platform na ginagawa ito para sa IVR at outbound na tawag. End-to-end latency sa isang tawag sa telepono ay karaniwang 1-2 segundo kabilang ang STT at LLM tugon.

> Kung ang iyong network drop ng isang piraso sa transit, ang streaming player ay lumiko pasulong sa halip na stall. Para sa mga application na hindi kayang tanggapin ang mga puwang, bumalik sa regular na non-streaming endpoint, o buffer 500ms ng audio bago simulan ang pag-playback.

5.0/5 (1)

> Stream ng Pagsasalita sa Real Time

> Libre para sa unang 10 henerasyon sa isang araw. Mag-sign up upang i-unlock ang buong allowance character at API access.

Mag-sign up para sa libreng tl> Tingnan ang Pagpepresyo

Realtime TTS

Teksto

Mga setting ng boses

Live latency

Output

> Paano Streaming TTS gumagana

1. Ipadala ang teksto

2. Modelo ng mga Generates

3. Stream ng mga piraso

4. Makikinig ng live

> Gamitin ang mga kaso

Mga Ahente ng Tinig

Mga Live na Dubbed

Laro

Aksesibilidad

> Realtime TTS Plano

Mga Madalas Itanong

Ano ang realtime TTS?

> Paano ay realtime TTS naiiba mula sa regular na TTS?

> Aling modelo kapangyarihan ang realtime pahina?

> Paano mabilis ang unang-audio latency?

> Ano ang maaari kong bumuo sa realtime TTS?

Mayroon bang isang API para sa realtime TTS?

> Suportahan ba nito ang cloning ng boses?

> Gaano karaming gastos ang realtime TTS?

>Maaari ko bang gamitin ito sa mga tawag sa telepono?

> Bakit minsan ang audio ay nakatigil sa gitna ng salita?

> Stream ng Pagsasalita sa Real Time