Reāllaika TTS

Straumējot tekstu uz speech ar sub-sekundi pirmā-audio latency. Paredzēts balss aģentiem un tiešraides lietojumprogrammām.

Mums vēl nav TTS balsis jūsu valodā. Palīdziet mums pievienot savu! Pārdod savu balsi

Teksts

Straume
0/5,000 rakstzīmes ~0.3s pirmais audio

Balss & iestatījumi

Tikai straumējami modeļi.

Dzīva latenta

Noklikšķiniet Stream, lai mērītu pirmās-audio latency

Izvade

Audio gabali spēlēs šeit, kā tie straumes.

0:00
Pirmais gabals:
Kopā gabali: 0
Kopējais laiks:

Kā darbojas straumēšanas TTS

1. Sūtīt tekstu

Pēc teksta uz / v1/ tts/ straume/ kā servera nosūtīto notikumu pieprasījumu.

2. Paraugs ģenerators

Kokoro satver tekstu un rada audio paraugu pa paraugiem GPU.

3. Stream gabali

Base64 kodēti WAV gabali ierodas pāri SSE un sākt spēlēt nekavējoties.

4. Klausīties dzīvi

Lietotājs uzklausa teikuma sākumu pēc otrās, pat par gariem ievades.

Izmantošanas gadījumi

Ja sekundārā latence atklāj jaunu pieredzi.

Balss aģenti

Sarunu roboti, kas reaģē tik ātri, cik cilvēks būtu.

Dzīvs dubbs

Tulkot un rakt plūsmu reālajā laikā bez bufera pauzes.

Spēles

NPC logs, kas reaģē uz spēlētāju izvēli uzreiz, nav iepriekš izsludināts VO.

Pieejamība

Ekrāna lasītāji un palīglīdzekļi, kas sāk runāt brīdī, kad lietotājs klikšķ.

Reāllaika TTS plāni

Sākt bezmaksas, uzlabot, kad jums ir nepieciešams vairāk

Bezmaksas
  • Kokoro straumēšana (brīvais modelis)
  • 500 rakstzīmes paaudzē
  • 10 brīvas plūsmas/dienā vienam anonīmam lietotājam
  • Sub-otrā pirmā laikmeta latentums
  • SSE straumēšana pa HTTPS
Populārākais
Bezmaksas konts
  • Pierakstīšanās brīdī 15 000 rakstzīmju
  • 5 000 rakstzīmju uz plūsmu
  • API atslēga programmātiskai piekļuvei
  • Paaudžu vēsture
  • Nav ikdienas plūsmas vāciņa
Pierakstīties brīvībā
Pro
  • MOSS-TTS-Realtime (ja dzīvs)
  • 100 000 chars uz plūsmu
  • Prioritārais GPU rinda
  • Balss aģents + Twilio integrācija
  • Augstākas likmes ierobežojumi
Atjaunināt

Bieži uzdoti jautājumi

Reāllaika teksta-to-speech plūsmas audio gabali, jo tie tiek radīti, nevis gaidot visu teikumu, lai pabeigtu. Pirmais audio paraugs ierodas zem vienas sekundes, padarot to piemērotu dzīvot balss aģentiem, dublēšana, un interaktīvas lietojumprogrammas, kur latentums ir svarīgi.

Regulārs TTS ģenerē pilnu audio failu pirms atgriežot kaut ko — jūs gaidīt, tad dzirdēt visu teikumu uzreiz. Reāllaika TTS izmanto Server-Sent Events (SSE) straumēt īsus audio gabaliem, kā modelis ražo tos. Lietotājs dzird sākuma teikumu gandrīz nekavējoties, pat uz gariem ieejas.

Kokoro ir noklusējuma aizmugure — tas rada audio aptuveni 100x ātrāk nekā reālā laikā modernā GPU. Mēs integrējam MOSS-TTS-Realtime kā augstākās kvalitātes alternatīvu; lietotāji varēs izvēlēties vienu pieprasījumu, kad kuģi.

Tipiskā pirmā-audio latentums par Kokoro ir 300-800ms pār sabiedrisko savienojumu. Tīkla apaļā-trippa dominē pēc tam. Lapas virsmas dzīvs mērīts laiks-līdz pirmajam-audio UI, lai jūs varētu redzēt, cik ilgi katrs pieprasījums bija.

Balss aģenti, kas atbild sarunīgi, tiešraidē dubbing straumēšanas plašsaziņas līdzekļiem, interaktīva spēle NPCs, pieejamības lasītāji, kas sāk runāt brīdi lietotāja klikšķus, un jebkura aplikācija, kur gaida divas vai trīs sekundes, lai audio justos lēni.

Jā.Pēc https://api.tts.ai/v1/tts/stream/ ar to pašu ķermeni kā regulārais /v1/tts/ galapunkts. Atbilde ir SSE straume bāzes64-enkodēts WAV gabali. Bezmaksas līmenis atbalsta 10 paaudzes dienā uz vienu lietotāju; autentificēts lietotāji saņem pilnu rakstzīmju apjomu.

Kokoro izmanto iepriekš apmācītas balsis un ne klonē. MOSS- TTS- Realtime (kad integrēts) atbalsta nulles smailes balss klonēšanu no 3 sekunžu atsauces. Pilnai balss klonēšanai šodien izmantojiet regulāru / tekstu- to- speech/ lapu ar Chatterbox vai GPT- SoVITS - tie nav straumējami capable, bet rada pielāgotu balsis.

Tas pats rakstzīmju izmaksas, kā regulārais TTS rezultāts. Kokoro ir bezmaksas līmenis (1x izmaksas). MOSS-TTS-Realtime darbosies standarta līmenī (2x izmaksas), kad ieslēgts. Straumēšanas protokols nepievieno cenu papildināšanu.

Jā — pāra straumēšanas galapunkts ar Twilio balss webhook, lai barotu audio tiešraidē uz tālruņa zvanu. Mūsu balss aģents platforma jau to dara IVR un izejošs zvans. Gala līdz gala latentums uz tālruņa zvanu parasti ir 1-2 sekundes, ieskaitot STT un LLM atbildi.

Ja jūsu tīkls nolaiž gabals tranzītā, straumēšanas atskaņotājs izlaiž uz priekšu, nevis aizkavē. Pie lietojumprogrammām, kas nepanes spraugas, pirms sākt atskaņošanu, atgriezieties pie regulārā ne straumēšanas mērķa, vai bufera 500 m.
5.0/5 (1)

Ko mēs varam uzlabot? Jūsu atgriezeniskā saite palīdz mums atrisināt problēmas.

Straumes runa reālā laikā

Bez maksas pirmajām 10 paaudzēm dienā. Pierakstīties, lai atslēgtu pilnu rakstzīmju pabalstu un API piekļuvi.