Ziņot par kļūdu / funkciju pieprasījumu

Reāllaika TTS

Straumējot tekstu uz speech ar sub-sekundi pirmā-audio latency. Paredzēts balss aģentiem un tiešraides lietojumprogrammām.

Pierakstīties brīvībā

Mums vēl nav TTS balsis jūsu valodā. Palīdziet mums pievienot savu! Pārdod savu balsi

Teksts

Straume

0/5,000 rakstzīmes ~0.3s pirmais audio

Balss & iestatījumi

Paraugs Tikai straumējami modeļi.

Balss

Ātrums 1.0x

Dzīva latenta

—

Noklikšķiniet Stream, lai mērītu pirmās-audio latency

Izvade

Audio gabali spēlēs šeit, kā tie straumes.

Kā darbojas straumēšanas TTS

1. Sūtīt tekstu

Pēc teksta uz / v1/ tts/ straume/ kā servera nosūtīto notikumu pieprasījumu.

2. Paraugs ģenerators

Kokoro satver tekstu un rada audio paraugu pa paraugiem GPU.

3. Stream gabali

Base64 kodēti WAV gabali ierodas pāri SSE un sākt spēlēt nekavējoties.

4. Klausīties dzīvi

Lietotājs uzklausa teikuma sākumu pēc otrās, pat par gariem ievades.

Izmantošanas gadījumi

Ja sekundārā latence atklāj jaunu pieredzi.

Balss aģenti

Sarunu roboti, kas reaģē tik ātri, cik cilvēks būtu.

Dzīvs dubbs

Tulkot un rakt plūsmu reālajā laikā bez bufera pauzes.

Spēles

NPC logs, kas reaģē uz spēlētāju izvēli uzreiz, nav iepriekš izsludināts VO.

Pieejamība

Ekrāna lasītāji un palīglīdzekļi, kas sāk runāt brīdī, kad lietotājs klikšķ.

Reāllaika TTS plāni

Sākt bezmaksas, uzlabot, kad jums ir nepieciešams vairāk

Bezmaksas

Kokoro straumēšana (brīvais modelis)
500 rakstzīmes paaudzē
10 brīvas plūsmas/dienā vienam anonīmam lietotājam
Sub-otrā pirmā laikmeta latentums
SSE straumēšana pa HTTPS

Populārākais

Bezmaksas konts

Pierakstīšanās brīdī 15 000 rakstzīmju
5 000 rakstzīmju uz plūsmu
API atslēga programmātiskai piekļuvei
Paaudžu vēsture
Nav ikdienas plūsmas vāciņa

Pierakstīties brīvībā

Pro

MOSS-TTS-Realtime (ja dzīvs)
100 000 chars uz plūsmu
Prioritārais GPU rinda
Balss aģents + Twilio integrācija
Augstākas likmes ierobežojumi

Atjaunināt

Bieži uzdoti jautājumi

Reāllaika teksta-to-speech plūsmas audio gabali, jo tie tiek radīti, nevis gaidot visu teikumu, lai pabeigtu. Pirmais audio paraugs ierodas zem vienas sekundes, padarot to piemērotu dzīvot balss aģentiem, dublēšana, un interaktīvas lietojumprogrammas, kur latentums ir svarīgi.

Regulārs TTS ģenerē pilnu audio failu pirms atgriežot kaut ko — jūs gaidīt, tad dzirdēt visu teikumu uzreiz. Reāllaika TTS izmanto Server-Sent Events (SSE) straumēt īsus audio gabaliem, kā modelis ražo tos. Lietotājs dzird sākuma teikumu gandrīz nekavējoties, pat uz gariem ieejas.

Kokoro ir noklusējuma aizmugure — tas rada audio aptuveni 100x ātrāk nekā reālā laikā modernā GPU. Mēs integrējam MOSS-TTS-Realtime kā augstākās kvalitātes alternatīvu; lietotāji varēs izvēlēties vienu pieprasījumu, kad kuģi.

Tipiskā pirmā-audio latentums par Kokoro ir 300-800ms pār sabiedrisko savienojumu. Tīkla apaļā-trippa dominē pēc tam. Lapas virsmas dzīvs mērīts laiks-līdz pirmajam-audio UI, lai jūs varētu redzēt, cik ilgi katrs pieprasījums bija.

Balss aģenti, kas atbild sarunīgi, tiešraidē dubbing straumēšanas plašsaziņas līdzekļiem, interaktīva spēle NPCs, pieejamības lasītāji, kas sāk runāt brīdi lietotāja klikšķus, un jebkura aplikācija, kur gaida divas vai trīs sekundes, lai audio justos lēni.

Jā.Pēc https://api.tts.ai/v1/tts/stream/ ar to pašu ķermeni kā regulārais /v1/tts/ galapunkts. Atbilde ir SSE straume bāzes64-enkodēts WAV gabali. Bezmaksas līmenis atbalsta 10 paaudzes dienā uz vienu lietotāju; autentificēts lietotāji saņem pilnu rakstzīmju apjomu.

Kokoro izmanto iepriekš apmācītas balsis un ne klonē. MOSS- TTS- Realtime (kad integrēts) atbalsta nulles smailes balss klonēšanu no 3 sekunžu atsauces. Pilnai balss klonēšanai šodien izmantojiet regulāru / tekstu- to- speech/ lapu ar Chatterbox vai GPT- SoVITS - tie nav straumējami capable, bet rada pielāgotu balsis.

Tas pats rakstzīmju izmaksas, kā regulārais TTS rezultāts. Kokoro ir bezmaksas līmenis (1x izmaksas). MOSS-TTS-Realtime darbosies standarta līmenī (2x izmaksas), kad ieslēgts. Straumēšanas protokols nepievieno cenu papildināšanu.

Jā — pāra straumēšanas galapunkts ar Twilio balss webhook, lai barotu audio tiešraidē uz tālruņa zvanu. Mūsu balss aģents platforma jau to dara IVR un izejošs zvans. Gala līdz gala latentums uz tālruņa zvanu parasti ir 1-2 sekundes, ieskaitot STT un LLM atbildi.

Ja jūsu tīkls nolaiž gabals tranzītā, straumēšanas atskaņotājs izlaiž uz priekšu, nevis aizkavē. Pie lietojumprogrammām, kas nepanes spraugas, pirms sākt atskaņošanu, atgriezieties pie regulārā ne straumēšanas mērķa, vai bufera 500 m.

5.0/5 (1)

Straumes runa reālā laikā

Bez maksas pirmajām 10 paaudzēm dienā. Pierakstīties, lai atslēgtu pilnu rakstzīmju pabalstu un API piekļuvi.

Pierakstīties brīvībā Skatīt cenu

Reāllaika TTS

Teksts

Balss & iestatījumi

Dzīva latenta

Izvade

Kā darbojas straumēšanas TTS

1. Sūtīt tekstu

2. Paraugs ģenerators

3. Stream gabali

4. Klausīties dzīvi

Izmantošanas gadījumi

Balss aģenti

Dzīvs dubbs

Spēles

Pieejamība

Reāllaika TTS plāni

Bieži uzdoti jautājumi

Kas ir reālā laika TTS?

Kā reāllaika TTS atšķiras no regulārajiem TTS?

Kurš modelis spēj reāllaika lapu?

Cik ātri ir pirmā laikmeta latentums?

Ko es varu veidot ar reālā laika TTS?

Vai ir API reāllaika TTS?

Vai tā atbalsta balss klonēšanu?

Cik maksā reālā laika TTS?

Vai varu to izmantot zvanot?

Kāpēc dažreiz audio pārtrauc vidusvārdu?

Straumes runa reālā laikā