Raportează cererea de eroare / caracteristică

TTS în timp real

Streaming text-to-speech cu sub-secund latență prim-audio. Construit pentru agenți vocali și aplicații live.

Inscrie-te gratis

Text

Fluctuare

0/5,000 caractere ~0.3s primul audio

Configurări & voce

Model Numai modele capabile de streaming.

Voce

Viteză 1.0x

Latenţă în viaţă

—

Faceți clic pe Stream pentru a măsura prima latenție audio

Ieșire

Bucăţi audio se vor juca aici, în timp ce vor intra.

Cum funcționează streaming TTS

1. Trimite text

Text POST pentru /v1/tts/stream/ ca o cerere de evenimente Server-Send.

2. Modelul generează

Kokoro îngroapă textul și generează eșantion-pe-eșantion pe GPU.

3. Trucuri de stream

Base64-encodat bucăți WAV ajunge peste SSE și începe să joace imediat.

4. Ascultaţi în direct

Utilizatorul aude începutul propoziției într-o secundă, chiar și pe intrari lungi.

Cazuri de utilizare

În cazul în care sub-a doua latență deblochează noi experiențe.

Agenţi vocali

Boturile de conversaţie care răspund la fel de repede ca un om.

Dobândă în direct

Traduceți și dublați un flux în timp real fără pauze tamponare.

Jocuri

dialogul NPC care reacționează la alegerile jucătorului instantaneu, fără VO pre-referit.

Accesibilitate

Cititorii de ecran și instrumente de asistență care încep să vorbească în momentul în care un utilizator clicează.

Planurile TTS în timp real

Pornește gratuit, upgrade atunci când aveți nevoie de mai mult

Gratuit

Flux Kokoro (model liber)
500 de caractere pe generație
10 fluxuri/zi gratuite pe utilizator anonim
Sub-a doua latență de primă audiență
SSE streaming peste HTTPS

Cel mai popular

Cont liber

15.000 de caractere la înscrierea
5.000 de caractere pe flux
Cheie API pentru accesul programmatic
Istoric generație
Fără capac zilnic al fluxului

Inscrie-te gratis

Pro

MOSS-TTS-Realtime (când trăiesc)
100.000 de caractere pe râu
Coada GPU prioritară
Agent vocal + Integrare Twilio
Limitele ratei mai mari

Actualizează

Întrebări frecvente

În timp real streams text-to-speech streams bucati audio pe măsură ce sunt generate, în loc de așteptare pentru completarea întregii fraze. Primul eșantion audio ajunge sub o secundă, făcându-l potrivit pentru agenți vocali live, dubbing, și aplicații interactive în cazul în care latenția contează.

TTS regulat generează fișierul audio complet înainte de a returna orice — așteptați, apoi auziți întreaga frază imediat. TTS în timp real folosește Server-Sent Events (SSE) pentru a transmite bucăți audio scurte pe măsură ce modelul le produce. Utilizatorul aude începutul frazei aproape imediat, chiar și pe intrari lungi.

Kokoro este motorul implicit – produce audio de aproximativ 100x mai repede decât în timp real pe o GPU modernă. Integram MOSS-TTS-Realtime ca o alternativă de calitate mai mare; utilizatorii vor putea alege pe cerere o dată când navele vor nava.

Latenţa tipică a primului audio pe Kokoro este de 300-800ms peste o conexiune publică. Itinerarea rotundă a reţelei domina după aceea. Pagina supravieţuieşte mediul live-to-prim-audio în UI astfel încât să puteţi vedea exact cât de mult a luat fiecare cerere.

Agenții de voce care răspunde conversațional, dubling live pentru mass-media de streaming, joc interactiv NPCs, cititorii de accesibilitate care încep să vorbească în momentul în care un utilizator clicuri, și orice aplicație în care așteptarea de două sau trei secunde pentru audio ar se simte lent.

Da. POST la https://api.tts.ai/v1/tts/stream/ cu același organism ca regulat /v1/tts/ endpoint. Răspunsul este un flux SSE de bucăți WAV codificate de bază64. Nivelul gratuit suportă 10 generații pe zi pe utilizator anonim; utilizatorii autentificati obțin alocația completă de caracter per cont.

Kokoro folosește voci pre- instruite și nu clonează. MOSS-TTS-Realtime (cando este integrat) suportă clonarea vocală zero-shot dintr-o referință de 3 secunde. Pentru clonarea vocală completă astăzi, utilizați /text-to- speech/ pagina regulată cu Chatterbox sau GPT- SoVITS – acestea nu sunt streaming-capabil, dar produc voci personalizate.

Același cost de caracter ca punctul final TTS regulat. Kokoro este gratuit (1x cost). MOSS-TTS-Realtime va rula la nivelul standard (2x cost) atunci când este activat. Protocolul de streaming nu adaugă nici o sursă de preţ.

Da — perechea cu un webhook de voce Twilio pentru a hrăni audio live într-un apel telefonic. Platforma noastră de agent de voce face deja acest lucru pentru IPR și de apel orizontal. Latența de sfârșit la sfârșit la un apel telefonic este de tip 1-2 secunde, inclusiv răspunsul STT și LLM.

În cazul în care rețeaua dvs. scade o bucată în tranzit, jucătorul de streaming va trece mai degrabă înainte decât să stea. Pentru aplicațiile care nu pot tolera lacune, se retrage la punctul final netransformator regulat, sau buffer 500ms de audio înainte de a începe redarea.

5.0/5 (1)

Discursul de discuţii în timp real

Gratuit pentru primele 10 generatii pe zi. Inscrie-te pentru a debloca alocatia completa de caracter si accesul API.

Inscrie-te gratis Vizualizare preţuri

TTS în timp real

Text

Configurări & voce

Latenţă în viaţă

Ieșire

Cum funcționează streaming TTS

1. Trimite text

2. Modelul generează

3. Trucuri de stream

4. Ascultaţi în direct

Cazuri de utilizare

Agenţi vocali

Dobândă în direct

Jocuri

Accesibilitate

Planurile TTS în timp real

Întrebări frecvente

Ce este TTS în timp real?

Cum este diferit TTS în timp real de TTS în mod regulat?

Care model împuternici pagina în timp real?

Cât de repede e prima latenţă de audio?

Ce pot construi cu TTS în timp real?

Există o API pentru TTS în timp real?

Suportă clonarea vocală?

Cât costă TTS în timp real?

Pot să-l folosesc la apeluri telefonice?

De ce se taie audio-ul, uneori, la mijlocul cuvântului?

Discursul de discuţii în timp real