Informar dun erro / Solicitar unha funcionalidade

TTS en tempo real

Transmisión de texto a voz con latencia de subsegundos no primeiro son. Desenvolvido para axentes de voz e aplicacións en directo.

Inscríbete gratis

Non o facemos. Vender a túa voz

Texto

Transmisión

0/5,000 caracteres ~0.3s primeiro audio

Configuración da voz

Modelo Só modelos con capacidade de transmisión.

Voz

Velocidade 1.0x

Latencia en directo

—

Prema en Transmisión para medir a latencia do primeiro son

Saída

Os anacos de son reproduciranse aquí á medida que cheguen.

Como funciona o TTS en streaming

1. Enviar texto

Texto POST a /v1/tts/stream/ como unha petición de eventos enviados polo servidor.

2. O modelo xera

Kokoro fragmenta o texto e xera son mostra a mostra na GPU.

3. Fragmentos de fluxo

Os anacos WAV codificados en Base64 chegan por SSE e comezan a reproducirse inmediatamente.

4. Escoitar en directo

O usuario escoita o comezo da oración en menos dun segundo, mesmo en entradas longas.

Casos de uso

Onde a latencia de subsegundos desbloquea novas experiencias.

Axentes de voz

Bots conversacionais que responden tan rápido como un humano.

Doblaje en directo

Traduza e duble unha transmisión en tempo real sen pausas de almacenamento en búfer.

Xogos

Diálogo de NPC que reacciona instantaneamente ás eleccións do xogador, sen voz pre- renderizada.

Accesibilidade

Lectores de pantalla e ferramentas de axuda que comezan a falar no momento en que un usuario preme.

Plans de TTS en tempo real

Comece de balde, actualice cando precise máis

Libre

Transmisión en fluxo Kokoro (modelo libre)
500 caracteres por xeración
10 fluxos gratuítos/día por usuario anónimo
Latencia do primeiro son de subsegundos
Transmisión SSE a través de HTTPS

Máis popular

Conta libre

15. 000 caracteres ao rexistrarse
5000 caracteres por fluxo
Chave da API para acceso por programación
Historial de xeración
Sen límite diario de fluxo

Inscríbete gratis

Pro

MOSS- TTS- Realtime (cando en directo)
100. 000 caracteres por fluxo
Fila de prioridade da GPU
Axente de voz + integración con Twilio
Límites de taxa máis altos

Actualizar

Preguntas frecuentes

O texto- para- voz en tempo real transmite fragmentos de son a medida que se xeran, no canto de agardar a que se complete a oración enteira. A primeira mostra de son chega en menos dun segundo, o que o fai axeitado para axentes de voz en directo, dobraxe e aplicacións interactivas onde a latencia é importante.

O TTS normal xera o ficheiro de son completo antes de devolver nada: agarda e logo escoita a frase enteira de unha vez. O TTS en tempo real emprega os eventos enviados polo servidor (SSE) para transmitir fragmentos curtos de son a medida que o modelo os produce. O usuario escoita o comezo da frase case inmediatamente, mesmo en entradas longas.

Kokoro é a infraestrutura predeterminada — xera son aproximadamente 100 veces máis rápido que en tempo real nunha GPU moderna. Estamos a integrar MOSS- TTS- Realtime como unha alternativa de maior calidade; os usuarios poderán escoller por petición unha vez que estea dispoñíbel.

A latencia típica do primeiro son en Kokoro é de 300- 800 ms nunha conexión pública. Despois predomina a viaxe de ida e volta pola rede. A páxina mostra o tempo medido en directo ata o primeiro son na interface de usuario para que poida ver exactamente canto tempo levou cada petición.

Axentes de voz que responden conversacionalmente, dobraxe en directo para medios en fluxo, NPCs interactivos de xogos, lectores de accesibilidade que comezan a falar no momento en que un usuario preme, e calquera aplicación onde esperar dous ou tres segundos para o son se sentiría lenta.

Si. POST a https:// api. tts. ai/ v1/ tts/ stream/ co mesmo corpo que o punto final / v1/ tts/ normal. A resposta é unha transmisión SSE de anacos WAV codificados en base64. O nivel libre soporta 10 xeracións por día por usuario anónimo; os usuarios autenticados obteñen o número total de caracteres por conta.

Kokoro emprega voces pre- adestradas e non clona. MOSS- TTS- Realtime (cando está integrado) admite a clonación de voz a partir dunha referencia de 3 segundos. Para a clonación completa de voz hoxe, use a páxina / text- to- speech / normal con Chatterbox ou GPT- SoVITS — estes non son capaces de transmisión pero producen voces personalizadas.

O mesmo custo de caracteres que o punto final TTS normal. Kokoro é de nivel libre (custo 1x). MOSS- TTS- Realtime executarase no nivel estándar (custo 2x) cando estea activado. O protocolo de transmisión non engade ningún custo adicional.

Si, emparella o punto final de transmisión cun webhook de voz de Twilio para alimentar o son en directo nunha chamada telefónica. A nosa plataforma de axente de voz xa o fai para IVR e chamadas saíntes. A latencia de extremo a extremo nunha chamada telefónica é normalmente de 1- 2 segundos, incluíndo a resposta STT e LLM.

Se a rede perde un anaco en tránsito, o reprodutor de transmisións saltará cara adiante en vez de parar. Para os programas que non toleran as pausas, volve ao punto final normal sen transmisións, ou almacénase 500 ms de son antes de comezar a reprodución.

5.0/5 (1)

Transmisión de voz en tempo real

Gratuito durante as primeiras 10 xeracións por día. Inscríbase para desbloquear o número total de caracteres e o acceso á API.

Inscríbete gratis Ver os prezos

TTS en tempo real

Texto

Configuración da voz

Latencia en directo

Saída

Como funciona o TTS en streaming

1. Enviar texto

2. O modelo xera

3. Fragmentos de fluxo

4. Escoitar en directo

Casos de uso

Axentes de voz

Doblaje en directo

Xogos

Accesibilidade

Plans de TTS en tempo real

Preguntas frecuentes

Que é o TTS en tempo real?

En que se diferencia o TTS en tempo real do TTS normal?

Que modelo alimenta a páxina en tempo real?

Que tan rápido é o primeiro son?

Que podo construír con TTS en tempo real?

Existe unha API para TTS en tempo real?

Soporta a clonación de voz?

Canto custa o TTS en tempo real?

Podo usalo para facer chamadas?

Por que ás veces o son se corta a medio da palabra?

Transmisión de voz en tempo real