TTS en temps réel

Streaming text-to-speech avec sous-seconde première latence audio. Construit pour les agents vocaux et les applications en direct.

Texte

Streaming
0/5,000 caractères ~0.3s premier son

Configuration de la voix

Modèles capables de Streaming seulement.

Latence vivante

Cliquez sur Stream pour mesurer la latence de premier-audio

Produit

Des morceaux d'audio vont jouer ici pendant qu'ils streament.

0:00
Première partie:
Total des morceaux: 0
Durée totale:

Comment fonctionne la diffusion TTS

1. Envoyer un texte

POST texte vers /v1/tts/stream/ en tant que requête Server-Sent Events.

2. Génération de modèles

Kokoro découpe le texte et génère un échantillon audio par échantillon sur le GPU.

3. Les morceaux de ruisseaux

Les morceaux WAV encodés de base64 arrivent sur SSE et commencent à jouer immédiatement.

4. Écoutez en direct

L'utilisateur entend le début de la phrase en moins d'une seconde, même sur de longues entrées.

Cas d'utilisation

Où la sous-seconde latence ouvre de nouvelles expériences.

Agents vocaux

Des robots de conversation qui réagissent aussi vite qu'un humain le ferait.

Doublage vivant

Traduire et dub un flux en temps réel sans tamponner les pauses.

Jeux

Boîte de dialogue NPC qui réagit aux choix des joueurs instantanément, pas de VO pré-rendu.

Accessibilité

Les lecteurs d'écran et les outils d'assistance qui commencent à parler le moment où un utilisateur clique.

Plans TTS en temps réel

Commencez gratuitement, mise à niveau lorsque vous avez besoin de plus

Gratuit
  • streaming Kokoro (modèle gratuit)
  • 500 caractères par génération
  • 10 flux gratuits/jour par utilisateur anonyme
  • Sous-deuxième latence de première audition
  • SSE en streaming sur HTTPS
Les plus populaires
Compte gratuit
  • 15 000 caractères à l'inscription
  • 5 000 charniers par cours d'eau
  • Clé API pour l'accès programmatique
  • Historique des générations
  • Pas de bouchon quotidien
Inscription gratuite
Pour
  • MOSS-TTS-En temps réel (lorsqu'ils vivent)
  • 100 000 charniers par cours d'eau
  • file d'attente GPU prioritaire
  • Agent vocal + intégration Twilio
  • Limites de taux plus élevées
Mise à jour

Foire aux questions

En temps réel text-to-speech streams morceaux audio tels qu'ils sont générés, au lieu d'attendre que la phrase complète. Le premier échantillon audio arrive en dessous d'une seconde, ce qui le rend adapté pour les agents de voix en direct, le doublage, et les applications interactives où la latence compte.

TTS regular génère le fichier audio complet avant de retourner quoi que ce soit — vous attendez, puis entendez la phrase entière à la fois. TTS en temps réel utilise Server-Sent Events (SSE) pour diffuser des morceaux audio courts comme le modèle les produit. L'utilisateur entend le début de la phrase presque immédiatement, même sur de longues entrées.

Kokoro est le moteur par défaut — il génère de l'audio environ 100x plus rapidement que le temps réel sur un GPU moderne. Nous intégrons MOSS-TTS-Realtime comme une alternative de meilleure qualité; les utilisateurs seront en mesure de choisir par demande une fois que ce navire.

La latence typique de premier-audio sur Kokoro est de 300-800ms sur une connexion publique. Le réseau aller-retour domine ensuite. La page surface le temps mesuré de temps à premier-audio dans l'interface utilisateur afin que vous puissiez voir exactement combien de temps chaque demande a pris.

Les agents vocaux qui répondent en conversation, le doublage en direct pour les médias en streaming, les NPC de jeux interactifs, les lecteurs d'accessibilité qui commencent à parler le moment où un utilisateur clique, et toute application où attendre deux ou trois secondes pour l'audio se sentirait paresseux.

Oui. POST to https://api.tts.ai/v1/tts/stream/ with the meme body that the regular /v1/tts/ endpoint. La réponse est un flux SSE de morceaux WAV encodés de base64. Le niveau gratuit prend en charge 10 générations par jour par utilisateur anonyme; les utilisateurs authentifiés obtiennent la pleine allocation de caractères par compte.

Kokoro utilise des voix pré-formées et ne clone pas. MOSS-TTS-Realtime (lorsque intégré) supporte le clonage vocal zéro-shot à partir d'une référence de 3 secondes. Pour le clonage vocal complet aujourd'hui, utilisez la page /text-to-speech/ régulière avec Chatterbox ou GPT-SoviTS — ceux-ci ne sont pas capables de diffuser en continu mais produisent des voix personnalisées.

Le même coût de caractère que le paramètre TTS régulier. Kokoro est de niveau gratuit (1x coût). MOSS-TTS-Realtime fonctionnera au niveau standard (2x coût) lorsque activé. Le protocole de streaming n'ajoute aucun supplément de prix.

Oui — jumelez le paramètre de streaming avec un webhook vocal Twilio pour alimenter l'audio en direct dans un appel téléphonique. Notre plateforme d'agent vocal le fait déjà pour les appels IVR et sortants. La latence de bout en bout sur un appel téléphonique est généralement de 1 à 2 secondes, y compris la réponse STT et LLM.

Si votre réseau lâche un morceau en transit, le lecteur de streaming sautera avant plutôt que de décrocher. Pour les applications qui ne tolèrent pas les lacunes, revenez à l'extrémité normale de non-streaming, ou buffer 500ms d'audio avant de commencer la lecture.
5.0/5 (1)

Que pourrions-nous améliorer? Vos commentaires nous aident à résoudre les problèmes.

Diffusion du discours en temps réel

Gratuit pour les 10 premières générations par jour. Inscrivez-vous pour débloquer l'allocation de caractère complète et l'accès API.