Denbora errealeko TTS

Testu-hizketaren streaminga, segundo azpiko lehen audioaren latentziarekin. Ahots-agenteen eta zuzeneko aplikazioentzat eraikia.

-Bai, bai. Saldu zure ahotsa

Testua

Korrontea
0/5,000 karaktereak ~0.3s lehen audioa

Ahotsaren & ezarpenak

Transmisio-gaitasuna duten modeloak soilik.

Live-ren atzerapena

Egin klik korrontean lehen audioaren atzerapena neurtzeko

Irteera

Audio zatiak hemen erreproduzituko dira sartzen direnean.

0:00
Lehen zatiketa:
Guztira: 0
Denbora guztira:

Nola funtzionatzen du TTS streaming-ak

1. Bidali testua

POST testua /v1/tts/stream/-era Zerbitzariak bidalitako gertaeren eskaera gisa.

2. Ereduak sortzen du

Kokorok testua zatitu eta audioa sortzen du lagin-lagin GPUan.

3. Korronte-zatiak

Base64-ko WAV zatiak SSE-tik iristen dira eta berehala erreproduzitzen hasten dira.

4. Entzun zuzenean

Erabiltzaileak esaldiaren hasiera segundo bat baino gutxiagotan entzuten du, baita sarrera luzeetan ere.

Erabilera-kasuak

Bigarren mailako latentziak esperientzia berriak irekitzen dituena.

Ahots- agenteak

Gizakiak bezalako izaki bizidunek ere, euren burua erreproduzitzeko gaitasuna dute.

Zuzeneko bikoizpena

Itzul ezazu eta bikoiztu korronte bat denbora errealean, buffer-etenaldiarik gabe.

Jokoak

NPC elkarrizketa-koadroa, jokalarien aukeraketei berehala erantzuten diena, ez aurre-errendatutako ahotsa.

Erabilerraztasuna

Pantaila irakurleak eta erabiltzaileak klik egiten duen unean hitz egiten hasten diren tresna lagungarriak.

TTS denbora errealeko planak

Hasi doan, bertsio-berritu gehiago behar duzunean

Libre
  • Kokoro streaming (modelo librea)
  • 500 karaktere belaunaldiko
  • 10 korronte libre/egun erabiltzaile anonimo bakoitzeko
  • Lehenengo audioaren segundo azpiko atzerapena
  • SSE fluxua HTTPS bidez
Ospetsuenak
Kontu librea
  • 15.000 karaktere erregistroan
  • 5.000 karaktere korronte bakoitzeko
  • API gakoa programa bidezko sarbiderako
  • Sorkuntzaren historia
  • Ez dago eguneroko korronte-mugarik
Izena eman doan
Pro
  • MOSS-TTS-Realtime (bizirik dagoenean)
  • 100.000 karaktere korronte bakoitzeko
  • GPUaren lehentasun-ilara
  • Ahots-agentea + Twilio integrazioa
  • Emaria mugatzea
Berritu

Maiz egiten diren galderak

Denbora errealeko testu-hizketak audio-zatiak sortzen ditu, esaldi osoa amaitzeko itxaron beharrean. Lehen audio-lagina segundo bat baino gutxiagotan iristen da, eta, beraz, zuzeneko ahots-agenteen, bikoizketaren eta latentzia kontuan hartzen duten aplikazio interaktiboentzat egokia da.

TTS arruntak audio-fitxategi osoa sortzen du ezer itzuli aurretik — itxaron eta esaldiak entzun egiten dituzu aldi berean. Denbora errealeko TTSk Zerbitzariak bidalitako gertaerak (SSE) erabiltzen ditu audio-zati laburrak modeloak sortzen dituen heinean transmititzeko. Erabiltzaileak esaldiaren hasiera ia berehala entzuten du, sarrera luzeetan ere.

Kokoro motor lehenetsia da — GPU moderno batean denbora errealean baino 100 aldiz azkarrago sortzen du audioa. MOSS-TTS-Realtime integratzen ari gara kalitate hobeko alternatiba gisa; erabiltzaileek eskaera bakoitzeko aukeratu ahal izango dute hori bidaltzen denean.

Kokoro-ren lehen audioaren atzerapen tipikoa 300-800ms da konexio publiko batean. Gero, sareko itzulerako bidaiak nagusitzen dira. Orrialdeak UI-n lehen audiora arte denbora zuzenean neurtzen du, eskaera bakoitzak zenbat denbora behar duen zehazki ikusi ahal izateko.

Ahots agenteak, elkarrizketan erantzuten dutenak, zuzeneko bikoizketa streaming mediarako, joko interaktiboetako NPCak, erabiltzaile batek klik egiten duen unean hitz egiten hasten diren irisgarritasun irakurleak, eta audioa bi edo hiru segundo itxarotea motela sentituko litzatekeen edozein aplikazio.

Bai. POST egin https://api.tts.ai/v1/tts/stream/-era /v1/tts/ amaiera-puntu arruntarekin gorputz bera erabiliz. Erantzuna base64-enkodetutako WAV zatien SSE korrontea da. Doako maila erabiltzaile anonimo bakoitzeko 10 sorkuntza eguneko onartzen ditu; autentifikatutako erabiltzaileek kontu bakoitzeko karaktere-kopuru osoa jasotzen dute.

Kokorok aurrez prestatutako ahotsak erabiltzen ditu eta ez du klonatzen. MOSS-TTS-Realtime-k (integratuta dagoenean) zero-shot ahots klonaketa onartzen du 3 segundoko erreferentziatik. Ahots klonaketa osoa egiteko, gaur egun, erabili /text-to-speech/ orria Chatterbox edo GPT-SoVITS-ekin — hauek ez dira streaming-erako gai, baina ahots pertsonalizatuak sortzen dituzte.

TTS amaierako puntu arruntaren karaktere-kostu bera. Kokoro maila librekoa da (kostu 1x). MOSS-TTS-Realtime maila estandarrean exekutatuko da (kostu 2x) gaituta dagoenean. Streaming protokoloak ez du prezio-gehigarririk gehitzen.

Bai — streaming-aren amaiera-puntua Twilio ahots-webhook batekin parekatu behar da zuzeneko audioa telefono-dei batean sartzeko. Gure ahots-agenteen plataformak jadanik egiten du hau IVR eta irteerako deietarako. Telefono-dei baten amaieratik amaierara arteko atzerapena normalean 1-2 segundokoa da, STT eta LLM erantzunak barne.

Zure sareak zati bat galduko balu bidean, korronte-erreproduzitzaileak aurrera egingo luke gelditu beharrean. Hutsuneak jasan ezin dituzten aplikazioentzat, itzuli korronterik gabeko amaiera-puntura, edo bufferizatu 500 ms audioa erreproduzitzea hasi aurretik.
5.0/5 (1)

Zer hobetu dezakegu? Zure iritziak arazoak konpontzen laguntzen digu.

Hizketa denbora errealean

Doakoa egunean lehen 10 belaunaldietan. Harpidetu karaktere-kopuru osoa eta API sarbide osoa desblokeatzeko.