TTS in tempo reale

Streaming text-to-speech con latenza sub-second first-audio. Costruito per agenti vocali e applicazioni live.

Testo

StreamingCity name (optional, probably does not need a translation)
0/5,000 caratteri ~0.3s primo audio

& Impostazioni voce

Solo modelli compatibili con lo streaming.

Latenza dal vivo

Fare clic su Stream per misurare la latenza di primo ascolto

Output

I pezzi audio suoneranno qui durante lo streaming.

0:00
Prima parte:
Totale pezzi: 0
Tempo totale:

Come funziona lo Streaming TTS

1. Invia testo

Testo POST a /v1/tts/stream/ come richiesta di eventi inviati dal server.

2. Genera i modelli

Kokoro scrive il testo e genera un campione per campione audio sulla GPU.

3. Stream Chunks

I pezzi WAV codificati Base64 arrivano sopra SSE e iniziano a giocare immediatamente.

4. Ascoltare dal vivo

L'utente sente l'inizio della frase in meno di un secondo, anche su input lunghi.

Casi di utilizzo

Dove la latenza sub-secondo sblocca nuove esperienze.

Agenti vocali

I bot conversazionali che rispondono velocemente come un umano.

Live Dubbing

Tradurre e doppiare un flusso in tempo reale senza bufferare pause.

Giochi

Finestra di dialogo NPC che reagisce alle scelte del giocatore istantaneamente, nessun VO pre-rendered.

Accessibilità

Lettori di schermo e strumenti di assistenza che iniziano a parlare nel momento in cui un utente fa clic.

Piani TTS in tempo reale

Avvia gratis, aggiorna quando ne hai bisogno

Libero
  • Streaming Kokoro (modello libero)
  • 500 caratteri per generazione
  • 10 flussi gratuiti/giorno per utente anonimo
  • Sottosecondo prima latenza audio
  • SSE in streaming su HTTPS
Più popolare
Account gratuito
  • 15.000 caratteri alla registrazione
  • 5.000 caratteri per ruscello
  • Chiave API per l'accesso programmatico
  • Storia della generazione
  • Nessun tappo di flusso giornaliero
Iscriviti gratis
Pro
  • MOSS-TTS-Realtime (quando in diretta)
  • 100.000 caratteri per ruscello
  • Coda GPU prioritaria
  • Voice agent + integrazione Twilio
  • Limiti di tasso più elevati
Aggiornamento

Domande frequenti

Il primo campione audio arriva sotto un secondo, rendendolo adatto ad agenti vocali dal vivo, al doppiaggio e ad applicazioni interattive dove la latenza conta.

Regolare TTS genera il file audio completo prima di restituire tutto ciò che si aspetta, quindi ascoltare l'intera frase in una sola volta. In tempo reale TTS utilizza Server-Sent Events (SSE) per trasmettere brevi pezzi audio come il modello li produce. L'utente sente l'inizio della frase quasi immediatamente, anche su lunghi input.

Kokoro è il backend predefinito che genera audio circa 100x più velocemente che in tempo reale su una moderna GPU. Stiamo integrando MOSS-TTS-Realtime come alternativa di alta qualità; gli utenti saranno in grado di scegliere per richiesta una volta che le navi.

La latenza tipica della prima audio su Kokoro è di 300-800m su una connessione pubblica. La rete di andata e ritorno domina dopo di che. La pagina supera il tempo misurato dal vivo-al-primo-audio nell'interfaccia utente in modo da poter vedere esattamente quanto tempo ogni richiesta ha richiesto.

Agenti vocali che rispondono con conversazione, doppiaggio dal vivo per i media in streaming, NPC interattivi, lettori di accessibilità che iniziano a parlare nel momento in cui un utente fa clic, e qualsiasi applicazione in cui l'attesa di due o tre secondi per l'audio si sentirebbe lento.

Sì. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. The response is an SSE stream of base64-encoded WAV chunks. The free tier supports 10 generations to day per anonimo user; autenticated users get the full per-account character lealty.

Kokoro utilizza le voci pre-allenate e non clona. MOSS-TTS-Realtime (quando integrato) supporta la clonazione vocale a zero colpi da un riferimento di 3 secondi. Per la clonazione vocale completa oggi, utilizzare la pagina regolare /text-to-speech/ con Chatterbox o GPT-SoVITS

Stesso costo del carattere come l'endpoint TTS regolare. Kokoro è free-tier (1x costo). MOSS-TTS-Realtime verrà eseguito al livello standard (2x costo) quando abilitato. Il protocollo di streaming non aggiunge alcun supplemento di prezzo.

Sì, accoppiare l'endpoint di streaming con un webhook vocale Twilio per alimentare l'audio dal vivo in una telefonata. La nostra piattaforma di agente vocale lo fa già per l'IVR e la chiamata in uscita. La latenza end-to-end su una telefonata è tipicamente 1-2 secondi tra cui la risposta STT e LLM.

Se la rete lascia cadere un pezzo in transito, il lettore di streaming salterà avanti piuttosto che stallo. Per le applicazioni che non possono tollerare lacune, tornare all'endpoint normale non streaming, o buffer 500m di audio prima di avviare la riproduzione.
5.0/5 (1)

Cosa potremmo migliorare? Il tuo feedback ci aiuta a risolvere i problemi.

Discorso di stream in tempo reale

Gratis per le prime 10 generazioni al giorno. Iscriviti per sbloccare l'intera quota di carattere e l'accesso API.