TTS en tempo real
Transmisión de texto a voz con latencia de subsegundos no primeiro son. Desenvolvido para axentes de voz e aplicacións en directo.
Texto
TransmisiónConfiguración da voz
Como funciona o TTS en streaming
1. Enviar texto
Texto POST a /v1/tts/stream/ como unha petición de eventos enviados polo servidor.
2. O modelo xera
Kokoro fragmenta o texto e xera son mostra a mostra na GPU.
3. Fragmentos de fluxo
Os anacos WAV codificados en Base64 chegan por SSE e comezan a reproducirse inmediatamente.
4. Escoitar en directo
O usuario escoita o comezo da oración en menos dun segundo, mesmo en entradas longas.
Casos de uso
Onde a latencia de subsegundos desbloquea novas experiencias.
Axentes de voz
Bots conversacionais que responden tan rápido como un humano.
Doblaje en directo
Traduza e duble unha transmisión en tempo real sen pausas de almacenamento en búfer.
Xogos
Diálogo de NPC que reacciona instantaneamente ás eleccións do xogador, sen voz pre- renderizada.
Accesibilidade
Lectores de pantalla e ferramentas de axuda que comezan a falar no momento en que un usuario preme.
Plans de TTS en tempo real
Comece de balde, actualice cando precise máis
- Transmisión en fluxo Kokoro (modelo libre)
- 500 caracteres por xeración
- 10 fluxos gratuítos/día por usuario anónimo
- Latencia do primeiro son de subsegundos
- Transmisión SSE a través de HTTPS
- 15. 000 caracteres ao rexistrarse
- 5000 caracteres por fluxo
- Chave da API para acceso por programación
- Historial de xeración
- Sen límite diario de fluxo
- MOSS- TTS- Realtime (cando en directo)
- 100. 000 caracteres por fluxo
- Fila de prioridade da GPU
- Axente de voz + integración con Twilio
- Límites de taxa máis altos
Preguntas frecuentes
Que podemos mellorar? Os seus comentarios axúdannos a corrixir os problemas.
Transmisión de voz en tempo real
Gratuito durante as primeiras 10 xeracións por día. Inscríbase para desbloquear o número total de caracteres e o acceso á API.