TTS em tempo real

Streaming de texto a voz com subsegundo latência de primeiro audio. Construído para agentes de voz e aplicações ao vivo.

Texto

Fluxo
0/5,000 caracteres ~0.3s primeiro áudio

Configuração da Voz

Modelos com capacidade de transmissão apenas.

Latência ao vivo

Clique em Stream para medir a latência de primeiro audio

Produção

Os pedaços de áudio jogarão aqui enquanto eles fluirem.

0:00
Primeiro pedaço:
Pedaços totais: 0
Tempo total:

Como a transmissão TTS funciona

1. Enviar texto

Texto POST para /v1/tts/stream/ como um pedido Server-Send Eventos.

2. O modelo gera

O Kokoro fragmenta o texto e gera amostras de áudio por amostra na GPU.

3. Chunks Stream

Base64-encoding WAV pedaços chegar sobre SSE e começar a jogar imediatamente.

4. Ouça ao vivo

O usuário ouve o início da frase em um segundo, mesmo em entradas longas.

Casos de utilização

Onde a subsegundo latência desbloqueia novas experiências.

Agentes de Voz

Bots de conversa que respondem tão rápido como um humano.

Dobramento ao vivo

Traduzir e dub um fluxo em tempo real sem tampão pausas.

Jogos

Diálogo NPC que reage às escolhas de jogador instantaneamente, sem VO pré-rendado.

Acessibilidade

Leitores de tela e ferramentas de assistência que começam a falar no momento em que um usuário clica.

Planos TTS em tempo real

Comece livre, atualização quando você precisa mais

Grátis
  • streaming Kokoro (modelo livre)
  • 500 caracteres por geração
  • 10 fluxos livres/dia por usuário anônimo
  • Subsegundo latência de primeiro-auditório
  • SSE streaming sobre HTTPS
Mais Popular
Conta Livre
  • 15.000 caracteres na inscrição
  • 5000 caracteres por fluxo
  • Chave API para acesso programático
  • História da geração
  • Sem tampa de fluxo diária
Inscreva-se gratuitamente
Pro
  • MOSS-TTS-Realtime (quando vivo)
  • 100.000 caracteres por fluxo
  • Fila GPU prioritária
  • Agente de voz + Integração Twilio
  • Limites de taxa mais elevados
Actualização

Perguntas Frequentes

A primeira amostra de áudio chega abaixo de um segundo, tornando-a adequada para agentes de voz ao vivo, duplicando e aplicações interativas onde a latência é importante.

TTS regular gera o arquivo de áudio completo antes de retornar qualquer coisa — você espera, depois ouve a frase inteira de uma vez. TTS em tempo real utiliza Server-Sent Events (SSE) para transmitir fragmentos de áudio curtos como o modelo os produz. O usuário ouve o início da frase quase imediatamente, mesmo em entradas longas.

O Kokoro é o mecanismo padrão — gera áudio cerca de 100x mais rápido do que o tempo real em um GPU moderno. Estamos integrando o MOSS-TTS-Realtime como uma alternativa de maior qualidade; os usuários poderão escolher por pedido uma vez que os navios.

A latência típica do primeiro-audio em Kokoro é de 300-800ms sobre uma conexão pública. O itinerário de rede domina depois disso. A página sobrepõe o tempo-a-primeiro-audio medido ao vivo na IU para que você possa ver exatamente quanto tempo cada pedido levou.

Agentes de voz que respondem conversativamente, duplicando ao vivo para mídia de streaming, jogo interativo NPCs, leitores de acessibilidade que começam a falar no momento em que um usuário clica, e qualquer aplicativo onde esperar dois ou três segundos para áudio se sentiria lento.

Sim. POST para https://api.tts.ai/v1/tts/stream/ com o mesmo corpo que o /v1/tts/ endpoint regular. A resposta é um fluxo SSE de WAVs codificado em base64. A faixa livre suporta 10 gerações por dia por usuário anônimo; os usuários autenticados recebem o subsídio de caráter completo por conta.

O Kokoro usa vozes pré-formadas e não clona. O MOSS-TTS-Realtime (quando integrado) suporta clonagem de voz a zero a partir de uma referência de 3 segundos. Para clonagem de voz completa hoje, use a página regular /text-to-speech/ com Chatterbox ou GPT-SoVITS — que não são streaming-capable, mas produzem vozes personalizadas.

O mesmo custo de caracteres que o endpoint normal do TTS. Kokoro é gratuito (1x custo). MOSS-TTS-Realtime será executado no nível padrão (2x custo) quando ativado. O protocolo de streaming não adiciona qualquer sobretaxa de preços.

Sim — emparelhe o endpoint de streaming com um webhook de voz Twilio para alimentar áudio ao vivo em uma chamada telefônica. Nossa plataforma de agente de voz já faz isso para o IVR e chamada fora. Latência final a final em uma chamada telefônica é tipicamente 1-2 segundos, incluindo a resposta STT e LLM.

Se a sua rede deixar um pedaço em trânsito, o leitor de streaming vai saltar adiante em vez de bloquear. Para aplicações que não podem tolerar lacunas, volte para o endpoint não-streaming regular, ou buffer 500ms de áudio antes de começar a reprodução.
5.0/5 (1)

O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.

Discurso em tempo real

Gratuito para as primeiras 10 gerações por dia. Inscreva-se para desbloquear o subsídio de caráter completo e acesso API.