Txostendu programa- errorea / Eskaera

Denbora errealeko TTS

Testu-hizketaren streaminga, segundo azpiko lehen audioaren latentziarekin. Ahots-agenteen eta zuzeneko aplikazioentzat eraikia.

Izena eman doan

-Bai, bai. Saldu zure ahotsa

Testua

Korrontea

0/5,000 karaktereak ~0.3s lehen audioa

Ahotsaren & ezarpenak

Modeloa Transmisio-gaitasuna duten modeloak soilik.

Ahotsa

Abiadura 1.0x

Live-ren atzerapena

—

Egin klik korrontean lehen audioaren atzerapena neurtzeko

Irteera

Audio zatiak hemen erreproduzituko dira sartzen direnean.

Nola funtzionatzen du TTS streaming-ak

1. Bidali testua

POST testua /v1/tts/stream/-era Zerbitzariak bidalitako gertaeren eskaera gisa.

2. Ereduak sortzen du

Kokorok testua zatitu eta audioa sortzen du lagin-lagin GPUan.

3. Korronte-zatiak

Base64-ko WAV zatiak SSE-tik iristen dira eta berehala erreproduzitzen hasten dira.

4. Entzun zuzenean

Erabiltzaileak esaldiaren hasiera segundo bat baino gutxiagotan entzuten du, baita sarrera luzeetan ere.

Erabilera-kasuak

Bigarren mailako latentziak esperientzia berriak irekitzen dituena.

Ahots- agenteak

Gizakiak bezalako izaki bizidunek ere, euren burua erreproduzitzeko gaitasuna dute.

Zuzeneko bikoizpena

Itzul ezazu eta bikoiztu korronte bat denbora errealean, buffer-etenaldiarik gabe.

Jokoak

NPC elkarrizketa-koadroa, jokalarien aukeraketei berehala erantzuten diena, ez aurre-errendatutako ahotsa.

Erabilerraztasuna

Pantaila irakurleak eta erabiltzaileak klik egiten duen unean hitz egiten hasten diren tresna lagungarriak.

TTS denbora errealeko planak

Hasi doan, bertsio-berritu gehiago behar duzunean

Libre

Kokoro streaming (modelo librea)
500 karaktere belaunaldiko
10 korronte libre/egun erabiltzaile anonimo bakoitzeko
Lehenengo audioaren segundo azpiko atzerapena
SSE fluxua HTTPS bidez

Ospetsuenak

Kontu librea

15.000 karaktere erregistroan
5.000 karaktere korronte bakoitzeko
API gakoa programa bidezko sarbiderako
Sorkuntzaren historia
Ez dago eguneroko korronte-mugarik

Izena eman doan

Pro

MOSS-TTS-Realtime (bizirik dagoenean)
100.000 karaktere korronte bakoitzeko
GPUaren lehentasun-ilara
Ahots-agentea + Twilio integrazioa
Emaria mugatzea

Berritu

Maiz egiten diren galderak

Denbora errealeko testu-hizketak audio-zatiak sortzen ditu, esaldi osoa amaitzeko itxaron beharrean. Lehen audio-lagina segundo bat baino gutxiagotan iristen da, eta, beraz, zuzeneko ahots-agenteen, bikoizketaren eta latentzia kontuan hartzen duten aplikazio interaktiboentzat egokia da.

TTS arruntak audio-fitxategi osoa sortzen du ezer itzuli aurretik — itxaron eta esaldiak entzun egiten dituzu aldi berean. Denbora errealeko TTSk Zerbitzariak bidalitako gertaerak (SSE) erabiltzen ditu audio-zati laburrak modeloak sortzen dituen heinean transmititzeko. Erabiltzaileak esaldiaren hasiera ia berehala entzuten du, sarrera luzeetan ere.

Kokoro motor lehenetsia da — GPU moderno batean denbora errealean baino 100 aldiz azkarrago sortzen du audioa. MOSS-TTS-Realtime integratzen ari gara kalitate hobeko alternatiba gisa; erabiltzaileek eskaera bakoitzeko aukeratu ahal izango dute hori bidaltzen denean.

Kokoro-ren lehen audioaren atzerapen tipikoa 300-800ms da konexio publiko batean. Gero, sareko itzulerako bidaiak nagusitzen dira. Orrialdeak UI-n lehen audiora arte denbora zuzenean neurtzen du, eskaera bakoitzak zenbat denbora behar duen zehazki ikusi ahal izateko.

Ahots agenteak, elkarrizketan erantzuten dutenak, zuzeneko bikoizketa streaming mediarako, joko interaktiboetako NPCak, erabiltzaile batek klik egiten duen unean hitz egiten hasten diren irisgarritasun irakurleak, eta audioa bi edo hiru segundo itxarotea motela sentituko litzatekeen edozein aplikazio.

Bai. POST egin https://api.tts.ai/v1/tts/stream/-era /v1/tts/ amaiera-puntu arruntarekin gorputz bera erabiliz. Erantzuna base64-enkodetutako WAV zatien SSE korrontea da. Doako maila erabiltzaile anonimo bakoitzeko 10 sorkuntza eguneko onartzen ditu; autentifikatutako erabiltzaileek kontu bakoitzeko karaktere-kopuru osoa jasotzen dute.

Kokorok aurrez prestatutako ahotsak erabiltzen ditu eta ez du klonatzen. MOSS-TTS-Realtime-k (integratuta dagoenean) zero-shot ahots klonaketa onartzen du 3 segundoko erreferentziatik. Ahots klonaketa osoa egiteko, gaur egun, erabili /text-to-speech/ orria Chatterbox edo GPT-SoVITS-ekin — hauek ez dira streaming-erako gai, baina ahots pertsonalizatuak sortzen dituzte.

TTS amaierako puntu arruntaren karaktere-kostu bera. Kokoro maila librekoa da (kostu 1x). MOSS-TTS-Realtime maila estandarrean exekutatuko da (kostu 2x) gaituta dagoenean. Streaming protokoloak ez du prezio-gehigarririk gehitzen.

Bai — streaming-aren amaiera-puntua Twilio ahots-webhook batekin parekatu behar da zuzeneko audioa telefono-dei batean sartzeko. Gure ahots-agenteen plataformak jadanik egiten du hau IVR eta irteerako deietarako. Telefono-dei baten amaieratik amaierara arteko atzerapena normalean 1-2 segundokoa da, STT eta LLM erantzunak barne.

Zure sareak zati bat galduko balu bidean, korronte-erreproduzitzaileak aurrera egingo luke gelditu beharrean. Hutsuneak jasan ezin dituzten aplikazioentzat, itzuli korronterik gabeko amaiera-puntura, edo bufferizatu 500 ms audioa erreproduzitzea hasi aurretik.

5.0/5 (1)

Hizketa denbora errealean

Doakoa egunean lehen 10 belaunaldietan. Harpidetu karaktere-kopuru osoa eta API sarbide osoa desblokeatzeko.

Izena eman doan Ikusi prezioa

Denbora errealeko TTS

Testua

Ahotsaren & ezarpenak

Live-ren atzerapena

Irteera

Nola funtzionatzen du TTS streaming-ak

1. Bidali testua

2. Ereduak sortzen du

3. Korronte-zatiak

4. Entzun zuzenean

Erabilera-kasuak

Ahots- agenteak

Zuzeneko bikoizpena

Jokoak

Erabilerraztasuna

TTS denbora errealeko planak

Maiz egiten diren galderak

Zer da denbora errealeko TTS?

Nola desberdintzen da denbora errealeko TTS TTS arruntetik?

Zein modelok funtzionatzen du denbora errealeko orrialdearekin?

Zenbat denbora behar da lehen audioaren atzerapena?

Zer egin dezaket denbora errealeko TTS-arekin?

Ba al dago denbora errealeko TTS-rako API bat?

Ahots klonatzea onartzen du?

Zenbat balio du denbora errealeko TTS-ak?

Telefono deietan erabil dezaket?

Zergatik eten da audioa batzuetan hitzen erdian?

Hizketa denbora errealean