TTS en tiempo real

Transmitiendo texto a voz con subsegundo de latencia de primer audio. Construido para agentes de voz y aplicaciones en vivo.

Texto

Streaming
0/5,000 caracteres ~0.3s primer audio

Configuración de voz

Sólo modelos con capacidad de transmisión.

Latencia en vivo

Haga clic en Stream para medir la latencia de primer audio

Producto

Los trozos de audio se reproducirán aquí mientras fluyen.

0:00
Primer trozo:
Trozos totales: 0
Tiempo total:

Cómo funciona la transmisión TTS

1. Enviar texto

Mensaje de texto a /v1/tts/stream/ como una solicitud de eventos de servidor-enviado.

2. El modelo genera

Kokoro trocea el texto y genera audio muestra por muestra en la GPU.

3. Chunks de la corriente

Los trozos de WAV codificados Base64 llegan sobre SSE y comienzan a jugar inmediatamente.

4. Escuchad en vivo

El usuario escucha el inicio de la oración en un segundo, incluso en entradas largas.

Casos de uso

Donde la latencia sub-segundo desbloquea nuevas experiencias.

Agentes de voz

Bots conversacionales que responden tan rápido como lo haría un humano.

Doblaje en vivo

Traduzca y dub una corriente en tiempo real sin pausas de buffering.

Juegos

Diálogo NPC que reacciona al instante a las elecciones del jugador, sin VO pre-renderizado.

Accesibilidad

Lectores de pantalla y herramientas de asistencia que comienzan a hablar en el momento en que un usuario hace clic.

Planes TTS en tiempo real

Comience gratis, actualice cuando necesite más

Libre
  • Kokoro streaming (modelo gratuito)
  • 500 caracteres por generación
  • 10 transmisiones gratuitas/día por usuario anónimo
  • Subsegundo latencia de la primera audición
  • Transmisión SSE a través de HTTPS
Más populares
Cuenta gratuita
  • 15.000 caracteres al registrarse
  • 5.000 caracteres por riachuelo
  • Clave API para el acceso programático
  • Historial de generación
  • Sin gorro diario
Regístrate gratis
Pro
  • MOSS-TTS-En tiempo real (en vivo)
  • 100.000 caracteres por riachuelo
  • Cola de GPU prioritaria
  • Agente de voz + integración Twilio
  • Límites de tarifas más elevados
Actualizar

Preguntas frecuentes

La primera muestra de audio llega por debajo de un segundo, por lo que es adecuada para los agentes de voz en vivo, doblaje y aplicaciones interactivas donde la latencia importa.

Regular TTS genera el archivo de audio completo antes de devolver cualquier cosa — espera, luego escucha toda la oración a la vez. TTS en tiempo real utiliza eventos de servidor-sent (SSE) para transmitir trozos de audio cortos como el modelo los produce. El usuario escucha el inicio de la oración casi inmediatamente, incluso en entradas largas.

Kokoro es el motor predeterminado: genera audio aproximadamente 100 veces más rápido que en tiempo real en una GPU moderna. Estamos integrando MOSS-TTS-Realtime como una alternativa de mayor calidad; los usuarios podrán elegir por petición una vez que se envíe.

La latencia típica del primer audio en Kokoro es de 300-800ms a través de una conexión pública. La red de ida y vuelta domina después de eso. La página sobresale el tiempo medido en vivo al primer audio en la interfaz de usuario para que pueda ver exactamente cuánto tiempo tomó cada solicitud.

Agentes de voz que responden conversacionalmente, doblaje en vivo para medios de streaming, NPCs de juegos interactivos, lectores de accesibilidad que comienzan a hablar en el momento en que un usuario hace clic, y cualquier aplicación donde esperar dos o tres segundos para el audio se sentiría lento.

Sí. Mensaje a https://api.tts.ai/v1/tts/stream/ con el mismo cuerpo que el estándar /v1/tts/ endpoint. La respuesta es un flujo SSE de trozos de WAV de base64 codificados. El nivel libre soporta 10 generaciones por día por usuario anónimo; los usuarios autenticados obtienen la asignación de caracteres por cuenta completa.

Kokoro utiliza voces pre-entrenadas y no clona. MOSS-TTS-Realtime (cuando está integrado) admite la clonación de voz de cero imágenes desde una referencia de 3 segundos. Para la clonación de voz completa hoy en día, utilice la página /text-to-speech/ regular con Chatterbox o GPT-SoVITS, que no son capaces de transmitir, sino que producen voces personalizadas.

El mismo costo de carácter que el endpoint TTS regular. Kokoro es de nivel libre (1x costo). MOSS-TTS-Realtime se ejecutará en el nivel estándar (2x costo) cuando esté habilitado. El protocolo de streaming no añade ningún recargo de precio.

Sí — emparejar el endpoint de streaming con un webhook de voz Twilio para alimentar audio en vivo en una llamada telefónica. Nuestra plataforma de agente de voz ya hace esto para IVR y llamadas salientes. Latencia de extremo a extremo en una llamada telefónica es típicamente 1-2 segundos incluyendo respuesta STT y LLM.

Si su red deja caer un trozo en tránsito, el reproductor de streaming saltará adelante en lugar de parar. Para las aplicaciones que no pueden tolerar huecos, vuelva al punto final no de transmisión regular, o buffer 500ms de audio antes de comenzar la reproducción.
5.0/5 (1)

¿Qué podríamos mejorar? Sus comentarios nos ayudan a solucionar problemas.

Transmitir el discurso en tiempo real

Gratis para las primeras 10 generaciones al día. Regístrese para desbloquear la asignación de carácter completo y acceso API.