TTS em tempo real
Streaming de texto a voz com subsegundo latência de primeiro audio. Construído para agentes de voz e aplicações ao vivo.
Texto
FluxoConfiguração da Voz
Como a transmissão TTS funciona
1. Enviar texto
Texto POST para /v1/tts/stream/ como um pedido Server-Send Eventos.
2. O modelo gera
O Kokoro fragmenta o texto e gera amostras de áudio por amostra na GPU.
3. Chunks Stream
Base64-encoding WAV pedaços chegar sobre SSE e começar a jogar imediatamente.
4. Ouça ao vivo
O usuário ouve o início da frase em um segundo, mesmo em entradas longas.
Casos de utilização
Onde a subsegundo latência desbloqueia novas experiências.
Agentes de Voz
Bots de conversa que respondem tão rápido como um humano.
Dobramento ao vivo
Traduzir e dub um fluxo em tempo real sem tampão pausas.
Jogos
Diálogo NPC que reage às escolhas de jogador instantaneamente, sem VO pré-rendado.
Acessibilidade
Leitores de tela e ferramentas de assistência que começam a falar no momento em que um usuário clica.
Planos TTS em tempo real
Comece livre, atualização quando você precisa mais
- streaming Kokoro (modelo livre)
- 500 caracteres por geração
- 10 fluxos livres/dia por usuário anônimo
- Subsegundo latência de primeiro-auditório
- SSE streaming sobre HTTPS
- 15.000 caracteres na inscrição
- 5000 caracteres por fluxo
- Chave API para acesso programático
- História da geração
- Sem tampa de fluxo diária
- MOSS-TTS-Realtime (quando vivo)
- 100.000 caracteres por fluxo
- Fila GPU prioritária
- Agente de voz + Integração Twilio
- Limites de taxa mais elevados
Perguntas Frequentes
O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.
Discurso em tempo real
Gratuito para as primeiras 10 gerações por dia. Inscreva-se para desbloquear o subsídio de caráter completo e acesso API.