TTS in tempo reale
Streaming text-to-speech con latenza sub-second first-audio. Costruito per agenti vocali e applicazioni live.
Testo
StreamingCity name (optional, probably does not need a translation)& Impostazioni voce
Come funziona lo Streaming TTS
1. Invia testo
Testo POST a /v1/tts/stream/ come richiesta di eventi inviati dal server.
2. Genera i modelli
Kokoro scrive il testo e genera un campione per campione audio sulla GPU.
3. Stream Chunks
I pezzi WAV codificati Base64 arrivano sopra SSE e iniziano a giocare immediatamente.
4. Ascoltare dal vivo
L'utente sente l'inizio della frase in meno di un secondo, anche su input lunghi.
Casi di utilizzo
Dove la latenza sub-secondo sblocca nuove esperienze.
Agenti vocali
I bot conversazionali che rispondono velocemente come un umano.
Live Dubbing
Tradurre e doppiare un flusso in tempo reale senza bufferare pause.
Giochi
Finestra di dialogo NPC che reagisce alle scelte del giocatore istantaneamente, nessun VO pre-rendered.
Accessibilità
Lettori di schermo e strumenti di assistenza che iniziano a parlare nel momento in cui un utente fa clic.
Piani TTS in tempo reale
Avvia gratis, aggiorna quando ne hai bisogno
- Streaming Kokoro (modello libero)
- 500 caratteri per generazione
- 10 flussi gratuiti/giorno per utente anonimo
- Sottosecondo prima latenza audio
- SSE in streaming su HTTPS
- 15.000 caratteri alla registrazione
- 5.000 caratteri per ruscello
- Chiave API per l'accesso programmatico
- Storia della generazione
- Nessun tappo di flusso giornaliero
- MOSS-TTS-Realtime (quando in diretta)
- 100.000 caratteri per ruscello
- Coda GPU prioritaria
- Voice agent + integrazione Twilio
- Limiti di tasso più elevati
Domande frequenti
Cosa potremmo migliorare? Il tuo feedback ci aiuta a risolvere i problemi.
Discorso di stream in tempo reale
Gratis per le prime 10 generazioni al giorno. Iscriviti per sbloccare l'intera quota di carattere e l'accesso API.