TTS en tiempo real
Transmitiendo texto a voz con subsegundo de latencia de primer audio. Construido para agentes de voz y aplicaciones en vivo.
Texto
StreamingConfiguración de voz
Cómo funciona la transmisión TTS
1. Enviar texto
Mensaje de texto a /v1/tts/stream/ como una solicitud de eventos de servidor-enviado.
2. El modelo genera
Kokoro trocea el texto y genera audio muestra por muestra en la GPU.
3. Chunks de la corriente
Los trozos de WAV codificados Base64 llegan sobre SSE y comienzan a jugar inmediatamente.
4. Escuchad en vivo
El usuario escucha el inicio de la oración en un segundo, incluso en entradas largas.
Casos de uso
Donde la latencia sub-segundo desbloquea nuevas experiencias.
Agentes de voz
Bots conversacionales que responden tan rápido como lo haría un humano.
Doblaje en vivo
Traduzca y dub una corriente en tiempo real sin pausas de buffering.
Juegos
Diálogo NPC que reacciona al instante a las elecciones del jugador, sin VO pre-renderizado.
Accesibilidad
Lectores de pantalla y herramientas de asistencia que comienzan a hablar en el momento en que un usuario hace clic.
Planes TTS en tiempo real
Comience gratis, actualice cuando necesite más
- Kokoro streaming (modelo gratuito)
- 500 caracteres por generación
- 10 transmisiones gratuitas/día por usuario anónimo
- Subsegundo latencia de la primera audición
- Transmisión SSE a través de HTTPS
- 15.000 caracteres al registrarse
- 5.000 caracteres por riachuelo
- Clave API para el acceso programático
- Historial de generación
- Sin gorro diario
- MOSS-TTS-En tiempo real (en vivo)
- 100.000 caracteres por riachuelo
- Cola de GPU prioritaria
- Agente de voz + integración Twilio
- Límites de tarifas más elevados
Preguntas frecuentes
¿Qué podríamos mejorar? Sus comentarios nos ayudan a solucionar problemas.
Transmitir el discurso en tiempo real
Gratis para las primeras 10 generaciones al día. Regístrese para desbloquear la asignación de carácter completo y acceso API.