Realtime TTS

Stroom teks-na-sech met ondertweede eerste-audio latency. Gebou vir stemagente en lewende toepassings.

Ons het nog nie TTS-stemme in jou taal nie, help ons om joune by te voeg! Verkoop jou stem

Teks

Stroomende
0/5,000 karakters ~0.3s eerste oudio

Stem Instellings

Stroom-deugsame modelle slegs.

Lewensversorging

Kliek Stroom na meet eerste- audio latency

Uitset

Oudiobrokke sal hier speel wanneer hulle instroom.

0:00
Eerste stuk:
Totaal stukke: 0
Totaal Tyd:

Hoe dit werk om TTS te maal

1. Stuur Teks

POS-teks na /v1/ts/stream/ as 'n Bediener-Sent events versoek.

2. Model Genereer

Kokoro stukke van die teks en genereer klankmonster-by-aples op die GPU.

3. Stroomkunks

Basis64-en-gekodeerde WAV-brokke kom oor SSE en begin dadelik speel.

4. Luister lewe

Gebruiker hoor die begin van die sin in onder 'n sekonde, selfs op lang invoere.

Gebruik letterkase

Waar sub-second latency nuwe ondervindinge ontsluit.

Stemagente

Gesprekke wat so vinnig soos'n mens reageer.

Lewende teistering

Vertaal en dub 'n stroom in' n regte tyd sonder bufferspouses.

Speletjies

NPC dialoog wat reageer op speler keuses onmiddellik, geen voorafverdrade VO nie.

Toeganklikheid

Skermlesers en helpende hulpmiddels wat begin praat die oomblik wat 'n gebruiker kliek.

Reële TTS - planne

Begin sonder, opgradering wanneer u meer nodig het

Beskikbaar
  • Kokoro - strooming (vrye model)
  • 500 karakters per geslag
  • 10 vrye strome/dag per anonieme gebruiker
  • Subtweede eerste- audio latency
  • SSE stroom oor HTTP's
Die gewildste
Vry rekening
  • 15 000 karakters by ondertekening
  • 5 000 karakters per stroom
  • API-sleutel vir programmemamatiese toegang
  • Geslaggeskiedenis
  • Geen dagstroommap nie
Meld aan om vry te wees
Pro
  • MOSS-TTS-Realtime (wanneer lewe)
  • 100 000 chars per stroom
  • Prioriteit GPU wagtou
  • Stem agent + Twilio integrasie
  • Hoër tempo beperk
Gradeer op

Vrae wat dikwels gevra word

realtime teks- to-sech strome klankbroke as hulle word gegenereer, in plaas van te wag vir die hele sin om te voltooi. Die eerste klankmonster kom onder een sekonde in, wat dit geskik maak vir lewende stem agente, dubbing en interaktiewe programme waar laatncy sake.

Gewone TTS genereer die volle oudio lêer voordat jy enigiets terugverwys, dan hoor jy die hele sin dadelik. Realtime TTS gebruik Bediener-Sent events (SSE) om kort oudiobroke te stroom wanneer die model dit vervaardig. Die gebruiker hoor die begin van die sin byna onmiddellik, selfs op lang invoere.

Kokoro is die verstek agterkant aardwye dit genereer klank ongeveer 100x vinniger as regte tyd op 'n moderne GPU. Ons is integrawing MS-TTS-Raltime as' n hoër-kwaliteit alternatief; gebruikers sal kan kies per versoek een keer dat skepe.

Tipiese eerste-audio latency op Kokoro is 300-800's oor 'n openbare verbinding. Netwerk rond-turip oorheers daarna. Die bladsyoppervlakte het tyd-na-eerste-audio in die UI gemeet sodat jy kan sien presies hoe lank elke versoek geneem het.

Stemagente wat op 'n gesprek reageer, wat lewe terwyl hulle stroom media, interaktiewe speletjie NPC's, toeganklikheid lesers wat begin praat die oomblik 'n gebruiker klieke, en enige aansoek waar wag twee of drie sekondes vir oudio sal traag voel.

Ja. POST aan https://api.tts.ai/v1/tts/stream/met dieselfde liggaam as die gewone /v1/ts/ end point. Die antwoord is 'n SSE stroom van basis64-enkoded WAV-brokke. Die vry vlak ondersteun 10 geslagte per dag per anonieme gebruiker; bevestigde gebruikers kry die volle per-telling karaktertoe.

Kokoro gebruik voorafgeleide stemme en klon nie. MOSS-TTS-Realtime (wanneer geïntegreer) ondersteun nul- kie stem kloning van 'n 3-second verwysing. Vir volle stem kloning vandag, gebruik die gewone / text- to-Spech/ bladsy met Chatterbox of GPT-SoVITS aux diegene wat nie stroom-dic maar bring pasmaak stemme voort.

Dieselfde karakter kos as die gewone TTS-punt. Kokoro is vry-tier (1x cost). MOS-TTS-Realtime sal hardloop op die standaard vlak (2x cost) wanneer geaktiveer. Die stroom protokol voeg nie toe enige prikting surmatge nie.

Ja Giovanni paar die stroompunt met 'n Twilio stem webhoek om lewende klank in 'n telefoonoproep te voer. Ons stemagent platform doen dit reeds vir IVR en uitgebonde roep. End-na-end latency op 'n telefoonoproep is tipies 1-2 sekondes, insluitend STT en LLM-reaksie.

As jou netwerk val 'n stuk in vervoering, die stroom speler sal spring vorentoe eerder as stalletjie. Vir programme wat nie gapings kan duld nie, terugval na die gewone niestroompunt, of buffer 500ms van oudio voor begin terugspeel.
5.0/5 (1)

U terugvoer help ons om geskille reg te stel.

Stroom spraak in die regte tyd

Vry vir die eerste 10 geslagte per dag. Teken op om die volle karaktertoelae en API toegang te ontsluit.