TTS în timp real

Streaming text-to-speech cu sub-secund latență prim-audio. Construit pentru agenți vocali și aplicații live.

Text

Fluctuare
0/5,000 caractere ~0.3s primul audio

Configurări & voce

Numai modele capabile de streaming.

Latenţă în viaţă

Faceți clic pe Stream pentru a măsura prima latenție audio

Ieșire

Bucăţi audio se vor juca aici, în timp ce vor intra.

0:00
Prima bucată:
Total bucăți: 0
Timp total:

Cum funcționează streaming TTS

1. Trimite text

Text POST pentru /v1/tts/stream/ ca o cerere de evenimente Server-Send.

2. Modelul generează

Kokoro îngroapă textul și generează eșantion-pe-eșantion pe GPU.

3. Trucuri de stream

Base64-encodat bucăți WAV ajunge peste SSE și începe să joace imediat.

4. Ascultaţi în direct

Utilizatorul aude începutul propoziției într-o secundă, chiar și pe intrari lungi.

Cazuri de utilizare

În cazul în care sub-a doua latență deblochează noi experiențe.

Agenţi vocali

Boturile de conversaţie care răspund la fel de repede ca un om.

Dobândă în direct

Traduceți și dublați un flux în timp real fără pauze tamponare.

Jocuri

dialogul NPC care reacționează la alegerile jucătorului instantaneu, fără VO pre-referit.

Accesibilitate

Cititorii de ecran și instrumente de asistență care încep să vorbească în momentul în care un utilizator clicează.

Planurile TTS în timp real

Pornește gratuit, upgrade atunci când aveți nevoie de mai mult

Gratuit
  • Flux Kokoro (model liber)
  • 500 de caractere pe generație
  • 10 fluxuri/zi gratuite pe utilizator anonim
  • Sub-a doua latență de primă audiență
  • SSE streaming peste HTTPS
Cel mai popular
Cont liber
  • 15.000 de caractere la înscrierea
  • 5.000 de caractere pe flux
  • Cheie API pentru accesul programmatic
  • Istoric generație
  • Fără capac zilnic al fluxului
Inscrie-te gratis
Pro
  • MOSS-TTS-Realtime (când trăiesc)
  • 100.000 de caractere pe râu
  • Coada GPU prioritară
  • Agent vocal + Integrare Twilio
  • Limitele ratei mai mari
Actualizează

Întrebări frecvente

În timp real streams text-to-speech streams bucati audio pe măsură ce sunt generate, în loc de așteptare pentru completarea întregii fraze. Primul eșantion audio ajunge sub o secundă, făcându-l potrivit pentru agenți vocali live, dubbing, și aplicații interactive în cazul în care latenția contează.

TTS regulat generează fișierul audio complet înainte de a returna orice — așteptați, apoi auziți întreaga frază imediat. TTS în timp real folosește Server-Sent Events (SSE) pentru a transmite bucăți audio scurte pe măsură ce modelul le produce. Utilizatorul aude începutul frazei aproape imediat, chiar și pe intrari lungi.

Kokoro este motorul implicit – produce audio de aproximativ 100x mai repede decât în timp real pe o GPU modernă. Integram MOSS-TTS-Realtime ca o alternativă de calitate mai mare; utilizatorii vor putea alege pe cerere o dată când navele vor nava.

Latenţa tipică a primului audio pe Kokoro este de 300-800ms peste o conexiune publică. Itinerarea rotundă a reţelei domina după aceea. Pagina supravieţuieşte mediul live-to-prim-audio în UI astfel încât să puteţi vedea exact cât de mult a luat fiecare cerere.

Agenții de voce care răspunde conversațional, dubling live pentru mass-media de streaming, joc interactiv NPCs, cititorii de accesibilitate care încep să vorbească în momentul în care un utilizator clicuri, și orice aplicație în care așteptarea de două sau trei secunde pentru audio ar se simte lent.

Da. POST la https://api.tts.ai/v1/tts/stream/ cu același organism ca regulat /v1/tts/ endpoint. Răspunsul este un flux SSE de bucăți WAV codificate de bază64. Nivelul gratuit suportă 10 generații pe zi pe utilizator anonim; utilizatorii autentificati obțin alocația completă de caracter per cont.

Kokoro folosește voci pre- instruite și nu clonează. MOSS-TTS-Realtime (cando este integrat) suportă clonarea vocală zero-shot dintr-o referință de 3 secunde. Pentru clonarea vocală completă astăzi, utilizați /text-to- speech/ pagina regulată cu Chatterbox sau GPT- SoVITS – acestea nu sunt streaming-capabil, dar produc voci personalizate.

Același cost de caracter ca punctul final TTS regulat. Kokoro este gratuit (1x cost). MOSS-TTS-Realtime va rula la nivelul standard (2x cost) atunci când este activat. Protocolul de streaming nu adaugă nici o sursă de preţ.

Da — perechea cu un webhook de voce Twilio pentru a hrăni audio live într-un apel telefonic. Platforma noastră de agent de voce face deja acest lucru pentru IPR și de apel orizontal. Latența de sfârșit la sfârșit la un apel telefonic este de tip 1-2 secunde, inclusiv răspunsul STT și LLM.

În cazul în care rețeaua dvs. scade o bucată în tranzit, jucătorul de streaming va trece mai degrabă înainte decât să stea. Pentru aplicațiile care nu pot tolera lacune, se retrage la punctul final netransformator regulat, sau buffer 500ms de audio înainte de a începe redarea.
5.0/5 (1)

Feedback-ul vostru ne ajută să rezolvăm problemele.

Discursul de discuţii în timp real

Gratuit pentru primele 10 generatii pe zi. Inscrie-te pentru a debloca alocatia completa de caracter si accesul API.