Informar de Bug / Pedido de Feature

TTS em tempo real

Streaming de texto a voz com subsegundo latência de primeiro audio. Construído para agentes de voz e aplicações ao vivo.

Inscreva-se gratuitamente

Texto

Fluxo

0/5,000 caracteres ~0.3s primeiro áudio

Configuração da Voz

Modelo Modelos com capacidade de transmissão apenas.

Voz

Velocidade 1.0x

Latência ao vivo

—

Clique em Stream para medir a latência de primeiro audio

Produção

Os pedaços de áudio jogarão aqui enquanto eles fluirem.

Como a transmissão TTS funciona

1. Enviar texto

Texto POST para /v1/tts/stream/ como um pedido Server-Send Eventos.

2. O modelo gera

O Kokoro fragmenta o texto e gera amostras de áudio por amostra na GPU.

3. Chunks Stream

Base64-encoding WAV pedaços chegar sobre SSE e começar a jogar imediatamente.

4. Ouça ao vivo

O usuário ouve o início da frase em um segundo, mesmo em entradas longas.

Casos de utilização

Onde a subsegundo latência desbloqueia novas experiências.

Agentes de Voz

Bots de conversa que respondem tão rápido como um humano.

Dobramento ao vivo

Traduzir e dub um fluxo em tempo real sem tampão pausas.

Jogos

Diálogo NPC que reage às escolhas de jogador instantaneamente, sem VO pré-rendado.

Acessibilidade

Leitores de tela e ferramentas de assistência que começam a falar no momento em que um usuário clica.

Planos TTS em tempo real

Comece livre, atualização quando você precisa mais

Grátis

streaming Kokoro (modelo livre)
500 caracteres por geração
10 fluxos livres/dia por usuário anônimo
Subsegundo latência de primeiro-auditório
SSE streaming sobre HTTPS

Mais Popular

Conta Livre

15.000 caracteres na inscrição
5000 caracteres por fluxo
Chave API para acesso programático
História da geração
Sem tampa de fluxo diária

Inscreva-se gratuitamente

Pro

MOSS-TTS-Realtime (quando vivo)
100.000 caracteres por fluxo
Fila GPU prioritária
Agente de voz + Integração Twilio
Limites de taxa mais elevados

Actualização

Perguntas Frequentes

A primeira amostra de áudio chega abaixo de um segundo, tornando-a adequada para agentes de voz ao vivo, duplicando e aplicações interativas onde a latência é importante.

TTS regular gera o arquivo de áudio completo antes de retornar qualquer coisa — você espera, depois ouve a frase inteira de uma vez. TTS em tempo real utiliza Server-Sent Events (SSE) para transmitir fragmentos de áudio curtos como o modelo os produz. O usuário ouve o início da frase quase imediatamente, mesmo em entradas longas.

O Kokoro é o mecanismo padrão — gera áudio cerca de 100x mais rápido do que o tempo real em um GPU moderno. Estamos integrando o MOSS-TTS-Realtime como uma alternativa de maior qualidade; os usuários poderão escolher por pedido uma vez que os navios.

A latência típica do primeiro-audio em Kokoro é de 300-800ms sobre uma conexão pública. O itinerário de rede domina depois disso. A página sobrepõe o tempo-a-primeiro-audio medido ao vivo na IU para que você possa ver exatamente quanto tempo cada pedido levou.

Agentes de voz que respondem conversativamente, duplicando ao vivo para mídia de streaming, jogo interativo NPCs, leitores de acessibilidade que começam a falar no momento em que um usuário clica, e qualquer aplicativo onde esperar dois ou três segundos para áudio se sentiria lento.

Sim. POST para https://api.tts.ai/v1/tts/stream/ com o mesmo corpo que o /v1/tts/ endpoint regular. A resposta é um fluxo SSE de WAVs codificado em base64. A faixa livre suporta 10 gerações por dia por usuário anônimo; os usuários autenticados recebem o subsídio de caráter completo por conta.

O Kokoro usa vozes pré-formadas e não clona. O MOSS-TTS-Realtime (quando integrado) suporta clonagem de voz a zero a partir de uma referência de 3 segundos. Para clonagem de voz completa hoje, use a página regular /text-to-speech/ com Chatterbox ou GPT-SoVITS — que não são streaming-capable, mas produzem vozes personalizadas.

O mesmo custo de caracteres que o endpoint normal do TTS. Kokoro é gratuito (1x custo). MOSS-TTS-Realtime será executado no nível padrão (2x custo) quando ativado. O protocolo de streaming não adiciona qualquer sobretaxa de preços.

Sim — emparelhe o endpoint de streaming com um webhook de voz Twilio para alimentar áudio ao vivo em uma chamada telefônica. Nossa plataforma de agente de voz já faz isso para o IVR e chamada fora. Latência final a final em uma chamada telefônica é tipicamente 1-2 segundos, incluindo a resposta STT e LLM.

Se a sua rede deixar um pedaço em trânsito, o leitor de streaming vai saltar adiante em vez de bloquear. Para aplicações que não podem tolerar lacunas, volte para o endpoint não-streaming regular, ou buffer 500ms de áudio antes de começar a reprodução.

5.0/5 (1)

Discurso em tempo real

Gratuito para as primeiras 10 gerações por dia. Inscreva-se para desbloquear o subsídio de caráter completo e acesso API.

Inscreva-se gratuitamente Ver Preços

TTS em tempo real

Texto

Configuração da Voz

Latência ao vivo

Produção

Como a transmissão TTS funciona

1. Enviar texto

2. O modelo gera

3. Chunks Stream

4. Ouça ao vivo

Casos de utilização

Agentes de Voz

Dobramento ao vivo

Jogos

Acessibilidade

Planos TTS em tempo real

Perguntas Frequentes

O que é o TTS em tempo real?

Como é que o TTS em tempo real é diferente do TTS regular?

Qual modelo dá poder à página em tempo real?

Quão rápido é a latência de primeiro audio?

O que posso construir com TTS em tempo real?

Existe uma API para o TTS em tempo real?

Apoia a clonagem de voz?

Quanto custa o TTS em tempo real?

Posso usá-lo nas chamadas telefónicas?

Por que o áudio corta a palavra média às vezes?

Discurso em tempo real