Realtime TTS

> Streaming text-to-speech na may sub-second first-audio latency. Built para sa mga ahente ng boses at live na mga application.

Hindi pa kami may mga boses ng TTS sa iyong wika. Tulungan mo kaming magdagdag ng iyong mga ito! Ibenta ang Iyong Tinig

Teksto

Streaming
0/5,000 Mga character ~0.3s > unang audio

Mga setting ng boses

Ang mga modelong may kakayahang streaming lamang.

Live latency

> I-click ang Stream upang sukatin ang unang-audio latency

Output

> Audio chunks ay maglaro dito bilang sila stream sa.

0:00
Unang piraso:
> Kabuuang mga piraso: 0
Kabuuang oras:

> Paano Streaming TTS gumagana

1. Ipadala ang teksto

Ang 1/1000 ng isang segundo ay isang segundong-degree o isang-degree na segundo.

2. Modelo ng mga Generates

Ang mga ito ay tinatawag na mga sampler at ginagamit sa pag-record ng audio.

3. Stream ng mga piraso

Ang mga 64-bit na mga kompyuter ay maaaring mag-imbak ng mga datos sa isang 64-bit na base64.

4. Makikinig ng live

> User narinig ang simula ng pangungusap sa ilalim ng isang segundo, kahit na sa mahabang input.

> Gamitin ang mga kaso

> Kung saan sub-ikalawang latency unlocks bagong karanasan.

Mga Ahente ng Tinig

Ang mga ito ay mga karaniwang mga tao na may mga katangiang tulad ng isang tao.

Mga Live na Dubbed

> Isalin at dub ng isang stream sa real time nang walang buffering pauses.

Laro

Ang mga NPC ay maaaring mag-react sa mga desisyon ng manlalaro nang direkta, walang pre-render VO.

Aksesibilidad

> Screen readers at mga kasamang tool na nagsisimulang magsalita sa sandaling mag-click ang isang user.

> Realtime TTS Plano

> Magsimula nang libre, i-upgrade kapag kailangan mo ng higit pa

Libre
  • > Kokoro streaming (libreng modelo)
  • > 500 mga character sa bawat henerasyon
  • > 10 libreng stream / araw bawat anonymous user
  • > Sub-ikalawang unang-audio latency
  • SSE streaming sa HTTPS
Karamihan Popular
Libreng Account
  • > 15,000 character sa pag-signup
  • > 5,000 mga character sa bawat stream
  • API key para sa programang pag-access
  • > Generation kasaysayan
  • > Walang araw-araw na stream cap
Mag-sign up para sa libreng
Pro
  • > MOSS-TTS-Realtime (kapag live)
  • > 100,000 mga character sa bawat stream
  • < Prioridad GPU queue
  • > Voice agent + Twilio pagsasama
  • > Mas mataas na limitasyon ng rate
I-upgrade

Mga Madalas Itanong

> Realtime text-to-speech streams audio chunks bilang sila ay nabuo, sa halip na maghintay para sa buong pangungusap upang makumpleto. Ang unang audio sample dumating sa ilalim ng isang segundo, na ginagawang angkop para sa live na boses ahente, dubbing, at interactive na mga application kung saan ang latency bagay.

> Regular TTS bumubuo ng buong audio file bago bumalik anumang bagay - maghintay ka, pagkatapos ay marinig ang buong pangungusap sa isang pagkakataon. Realtime TTS gumagamit ng Server-Ipadala Kaganapan (SSE) upang i-stream maikling audio chunks bilang ang modelo ay gumagawa ng mga ito. Ang user ay naririnig ang simula ng pangungusap halos kaagad, kahit na sa mahabang input.

> Kokoro ay ang default na backend — ito ay bumubuo ng audio humigit-kumulang 100x mas mabilis kaysa sa real time sa isang modernong GPU. Kami ay pagsasama MOSS-TTS-Realtime bilang isang mas mataas na kalidad na alternatibo; mga gumagamit ay magagawang upang pumili sa bawat kahilingan sa sandaling na ships.

> Tipikal unang-audio latency sa Kokoro ay 300-800ms sa isang pampublikong koneksyon. Network round-trip dominates pagkatapos na. Ang pahina ay nagpapakita ng live na sinusukat na oras-sa-unang-audio sa UI upang maaari mong makita kung gaano katagal ang bawat kahilingan kinuha.

Ang mga ahente ng boses na tumutugon sa pakikipag-usap, live na pag-dub para sa streaming media, interactive na mga NPC ng laro, mga mambabasa ng accessibility na nagsisimulang magsalita sa sandaling mag-click ang isang user, at anumang mga aplikasyon kung saan ang paghihintay ng dalawang o tatlong segundo para sa audio ay magiging mabagal.

Ang mga ito ay maaaring maging isang simpleng SSE stream ng base64-encoded WAV chunks. Ang libreng antas ay sumusuporta sa 10 henerasyon sa isang araw bawat anonymous user; authenticated mga gumagamit makakuha ng buong per-account character allowance.

> Kokoro gumagamit ng pre-trained boses at hindi klon. MOSS-TTS-Realtime (kapag isinama) sumusuporta sa zero-shot boses cloning mula sa isang3segundo reference. Para sa buong boses cloning ngayon, gamitin ang regular na /text-to-speech/ pahina sa Chatterbox o GPT-SoVITS — ang mga ito ay hindi streaming-kakayanin ngunit gumawa ng mga pasadyang boses.

> Parehong character gastos bilang ang regular na TTS endpoint. Kokoro ay libreng-tier (1x gastos). MOSS-TTS-Realtime ay tumatakbo sa standard tier (2x gastos) kapag pinagana. Ang streaming protocol ay hindi magdagdag ng anumang pricing surcharge.

> Oo — magkapareho ang streaming endpoint sa isang Twilio boses webhook upang feed live audio sa isang tawag sa telepono. Ang aming boses agent platform na ginagawa ito para sa IVR at outbound na tawag. End-to-end latency sa isang tawag sa telepono ay karaniwang 1-2 segundo kabilang ang STT at LLM tugon.

> Kung ang iyong network drop ng isang piraso sa transit, ang streaming player ay lumiko pasulong sa halip na stall. Para sa mga application na hindi kayang tanggapin ang mga puwang, bumalik sa regular na non-streaming endpoint, o buffer 500ms ng audio bago simulan ang pag-playback.
5.0/5 (1)

> Ano ang maaari naming mapabuti? Tutulong sa amin ang iyong feedback na ayusin ang mga isyu.

> Stream ng Pagsasalita sa Real Time

> Libre para sa unang 10 henerasyon sa isang araw. Mag-sign up upang i-unlock ang buong allowance character at API access.