Informar de fallo / Petición de características

TTS en tiempo real

Transmitiendo texto a voz con subsegundo de latencia de primer audio. Construido para agentes de voz y aplicaciones en vivo.

Regístrate gratis

Texto

Streaming

0/5,000 caracteres ~0.3s primer audio

Configuración de voz

Modelo Sólo modelos con capacidad de transmisión.

Voz

Velocidad 1.0x

Latencia en vivo

—

Haga clic en Stream para medir la latencia de primer audio

Producto

Los trozos de audio se reproducirán aquí mientras fluyen.

Cómo funciona la transmisión TTS

1. Enviar texto

Mensaje de texto a /v1/tts/stream/ como una solicitud de eventos de servidor-enviado.

2. El modelo genera

Kokoro trocea el texto y genera audio muestra por muestra en la GPU.

3. Chunks de la corriente

Los trozos de WAV codificados Base64 llegan sobre SSE y comienzan a jugar inmediatamente.

4. Escuchad en vivo

El usuario escucha el inicio de la oración en un segundo, incluso en entradas largas.

Casos de uso

Donde la latencia sub-segundo desbloquea nuevas experiencias.

Agentes de voz

Bots conversacionales que responden tan rápido como lo haría un humano.

Doblaje en vivo

Traduzca y dub una corriente en tiempo real sin pausas de buffering.

Juegos

Diálogo NPC que reacciona al instante a las elecciones del jugador, sin VO pre-renderizado.

Accesibilidad

Lectores de pantalla y herramientas de asistencia que comienzan a hablar en el momento en que un usuario hace clic.

Planes TTS en tiempo real

Comience gratis, actualice cuando necesite más

Libre

Kokoro streaming (modelo gratuito)
500 caracteres por generación
10 transmisiones gratuitas/día por usuario anónimo
Subsegundo latencia de la primera audición
Transmisión SSE a través de HTTPS

Preguntas frecuentes

La primera muestra de audio llega por debajo de un segundo, por lo que es adecuada para los agentes de voz en vivo, doblaje y aplicaciones interactivas donde la latencia importa.

Regular TTS genera el archivo de audio completo antes de devolver cualquier cosa — espera, luego escucha toda la oración a la vez. TTS en tiempo real utiliza eventos de servidor-sent (SSE) para transmitir trozos de audio cortos como el modelo los produce. El usuario escucha el inicio de la oración casi inmediatamente, incluso en entradas largas.

Kokoro es el motor predeterminado: genera audio aproximadamente 100 veces más rápido que en tiempo real en una GPU moderna. Estamos integrando MOSS-TTS-Realtime como una alternativa de mayor calidad; los usuarios podrán elegir por petición una vez que se envíe.

La latencia típica del primer audio en Kokoro es de 300-800ms a través de una conexión pública. La red de ida y vuelta domina después de eso. La página sobresale el tiempo medido en vivo al primer audio en la interfaz de usuario para que pueda ver exactamente cuánto tiempo tomó cada solicitud.

Agentes de voz que responden conversacionalmente, doblaje en vivo para medios de streaming, NPCs de juegos interactivos, lectores de accesibilidad que comienzan a hablar en el momento en que un usuario hace clic, y cualquier aplicación donde esperar dos o tres segundos para el audio se sentiría lento.

Sí. Mensaje a https://api.tts.ai/v1/tts/stream/ con el mismo cuerpo que el estándar /v1/tts/ endpoint. La respuesta es un flujo SSE de trozos de WAV de base64 codificados. El nivel libre soporta 10 generaciones por día por usuario anónimo; los usuarios autenticados obtienen la asignación de caracteres por cuenta completa.

Kokoro utiliza voces pre-entrenadas y no clona. MOSS-TTS-Realtime (cuando está integrado) admite la clonación de voz de cero imágenes desde una referencia de 3 segundos. Para la clonación de voz completa hoy en día, utilice la página /text-to-speech/ regular con Chatterbox o GPT-SoVITS, que no son capaces de transmitir, sino que producen voces personalizadas.

El mismo costo de carácter que el endpoint TTS regular. Kokoro es de nivel libre (1x costo). MOSS-TTS-Realtime se ejecutará en el nivel estándar (2x costo) cuando esté habilitado. El protocolo de streaming no añade ningún recargo de precio.

Sí — emparejar el endpoint de streaming con un webhook de voz Twilio para alimentar audio en vivo en una llamada telefónica. Nuestra plataforma de agente de voz ya hace esto para IVR y llamadas salientes. Latencia de extremo a extremo en una llamada telefónica es típicamente 1-2 segundos incluyendo respuesta STT y LLM.

Si su red deja caer un trozo en tránsito, el reproductor de streaming saltará adelante en lugar de parar. Para las aplicaciones que no pueden tolerar huecos, vuelva al punto final no de transmisión regular, o buffer 500ms de audio antes de comenzar la reproducción.

5.0/5 (1)

Transmitir el discurso en tiempo real

Gratis para las primeras 10 generaciones al día. Regístrese para desbloquear la asignación de carácter completo y acceso API.

Regístrate gratis Ver precios

TTS en tiempo real

Texto

Configuración de voz

Latencia en vivo

Producto

Cómo funciona la transmisión TTS

1. Enviar texto

2. El modelo genera

3. Chunks de la corriente

4. Escuchad en vivo

Casos de uso

Agentes de voz

Doblaje en vivo

Juegos

Accesibilidad

Planes TTS en tiempo real

Preguntas frecuentes

¿Qué es TTS en tiempo real?

¿Cómo es la TTS en tiempo real diferente de la TTS regular?

¿Qué modelo activa la página en tiempo real?

¿Qué tan rápido es la latencia del primer audio?

¿Qué puedo construir con TTS en tiempo real?

¿Hay una API para TTS en tiempo real?

¿Apoya la clonación de voz?

¿Cuánto cuesta TTS en tiempo real?

¿Puedo usarlo en llamadas telefónicas?

¿Por qué el audio corta a veces la palabra intermedia?

Transmitir el discurso en tiempo real