TTS en tempo real

Transmisión de texto a voz con latencia de subsegundos no primeiro son. Desenvolvido para axentes de voz e aplicacións en directo.

Non o facemos. Vender a túa voz

Texto

Transmisión
0/5,000 caracteres ~0.3s primeiro audio

Configuración da voz

Só modelos con capacidade de transmisión.

Latencia en directo

Prema en Transmisión para medir a latencia do primeiro son

Saída

Os anacos de son reproduciranse aquí á medida que cheguen.

0:00
Primeiro anaco:
Total de anacos: 0
Tempo total:

Como funciona o TTS en streaming

1. Enviar texto

Texto POST a /v1/tts/stream/ como unha petición de eventos enviados polo servidor.

2. O modelo xera

Kokoro fragmenta o texto e xera son mostra a mostra na GPU.

3. Fragmentos de fluxo

Os anacos WAV codificados en Base64 chegan por SSE e comezan a reproducirse inmediatamente.

4. Escoitar en directo

O usuario escoita o comezo da oración en menos dun segundo, mesmo en entradas longas.

Casos de uso

Onde a latencia de subsegundos desbloquea novas experiencias.

Axentes de voz

Bots conversacionais que responden tan rápido como un humano.

Doblaje en directo

Traduza e duble unha transmisión en tempo real sen pausas de almacenamento en búfer.

Xogos

Diálogo de NPC que reacciona instantaneamente ás eleccións do xogador, sen voz pre- renderizada.

Accesibilidade

Lectores de pantalla e ferramentas de axuda que comezan a falar no momento en que un usuario preme.

Plans de TTS en tempo real

Comece de balde, actualice cando precise máis

Libre
  • Transmisión en fluxo Kokoro (modelo libre)
  • 500 caracteres por xeración
  • 10 fluxos gratuítos/día por usuario anónimo
  • Latencia do primeiro son de subsegundos
  • Transmisión SSE a través de HTTPS
Máis popular
Conta libre
  • 15. 000 caracteres ao rexistrarse
  • 5000 caracteres por fluxo
  • Chave da API para acceso por programación
  • Historial de xeración
  • Sen límite diario de fluxo
Inscríbete gratis
Pro
  • MOSS- TTS- Realtime (cando en directo)
  • 100. 000 caracteres por fluxo
  • Fila de prioridade da GPU
  • Axente de voz + integración con Twilio
  • Límites de taxa máis altos
Actualizar

Preguntas frecuentes

O texto- para- voz en tempo real transmite fragmentos de son a medida que se xeran, no canto de agardar a que se complete a oración enteira. A primeira mostra de son chega en menos dun segundo, o que o fai axeitado para axentes de voz en directo, dobraxe e aplicacións interactivas onde a latencia é importante.

O TTS normal xera o ficheiro de son completo antes de devolver nada: agarda e logo escoita a frase enteira de unha vez. O TTS en tempo real emprega os eventos enviados polo servidor (SSE) para transmitir fragmentos curtos de son a medida que o modelo os produce. O usuario escoita o comezo da frase case inmediatamente, mesmo en entradas longas.

Kokoro é a infraestrutura predeterminada — xera son aproximadamente 100 veces máis rápido que en tempo real nunha GPU moderna. Estamos a integrar MOSS- TTS- Realtime como unha alternativa de maior calidade; os usuarios poderán escoller por petición unha vez que estea dispoñíbel.

A latencia típica do primeiro son en Kokoro é de 300- 800 ms nunha conexión pública. Despois predomina a viaxe de ida e volta pola rede. A páxina mostra o tempo medido en directo ata o primeiro son na interface de usuario para que poida ver exactamente canto tempo levou cada petición.

Axentes de voz que responden conversacionalmente, dobraxe en directo para medios en fluxo, NPCs interactivos de xogos, lectores de accesibilidade que comezan a falar no momento en que un usuario preme, e calquera aplicación onde esperar dous ou tres segundos para o son se sentiría lenta.

Si. POST a https:// api. tts. ai/ v1/ tts/ stream/ co mesmo corpo que o punto final / v1/ tts/ normal. A resposta é unha transmisión SSE de anacos WAV codificados en base64. O nivel libre soporta 10 xeracións por día por usuario anónimo; os usuarios autenticados obteñen o número total de caracteres por conta.

Kokoro emprega voces pre- adestradas e non clona. MOSS- TTS- Realtime (cando está integrado) admite a clonación de voz a partir dunha referencia de 3 segundos. Para a clonación completa de voz hoxe, use a páxina / text- to- speech / normal con Chatterbox ou GPT- SoVITS — estes non son capaces de transmisión pero producen voces personalizadas.

O mesmo custo de caracteres que o punto final TTS normal. Kokoro é de nivel libre (custo 1x). MOSS- TTS- Realtime executarase no nivel estándar (custo 2x) cando estea activado. O protocolo de transmisión non engade ningún custo adicional.

Si, emparella o punto final de transmisión cun webhook de voz de Twilio para alimentar o son en directo nunha chamada telefónica. A nosa plataforma de axente de voz xa o fai para IVR e chamadas saíntes. A latencia de extremo a extremo nunha chamada telefónica é normalmente de 1- 2 segundos, incluíndo a resposta STT e LLM.

Se a rede perde un anaco en tránsito, o reprodutor de transmisións saltará cara adiante en vez de parar. Para os programas que non toleran as pausas, volve ao punto final normal sen transmisións, ou almacénase 500 ms de son antes de comezar a reprodución.
5.0/5 (1)

Que podemos mellorar? Os seus comentarios axúdannos a corrixir os problemas.

Transmisión de voz en tempo real

Gratuito durante as primeiras 10 xeracións por día. Inscríbase para desbloquear o número total de caracteres e o acceso á API.