Signaler la demande de bogue/caractère

TTS en temps réel

Streaming text-to-speech avec sous-seconde première latence audio. Construit pour les agents vocaux et les applications en direct.

Inscription gratuite

Texte

Streaming

0/5,000 caractères ~0.3s premier son

Configuration de la voix

Modèle Modèles capables de Streaming seulement.

Voix

Régime 1.0x

Latence vivante

—

Cliquez sur Stream pour mesurer la latence de premier-audio

Produit

Des morceaux d'audio vont jouer ici pendant qu'ils streament.

Comment fonctionne la diffusion TTS

1. Envoyer un texte

POST texte vers /v1/tts/stream/ en tant que requête Server-Sent Events.

2. Génération de modèles

Kokoro découpe le texte et génère un échantillon audio par échantillon sur le GPU.

3. Les morceaux de ruisseaux

Les morceaux WAV encodés de base64 arrivent sur SSE et commencent à jouer immédiatement.

4. Écoutez en direct

L'utilisateur entend le début de la phrase en moins d'une seconde, même sur de longues entrées.

Cas d'utilisation

Où la sous-seconde latence ouvre de nouvelles expériences.

Agents vocaux

Des robots de conversation qui réagissent aussi vite qu'un humain le ferait.

Doublage vivant

Traduire et dub un flux en temps réel sans tamponner les pauses.

Jeux

Boîte de dialogue NPC qui réagit aux choix des joueurs instantanément, pas de VO pré-rendu.

Accessibilité

Les lecteurs d'écran et les outils d'assistance qui commencent à parler le moment où un utilisateur clique.

Plans TTS en temps réel

Commencez gratuitement, mise à niveau lorsque vous avez besoin de plus

Gratuit

streaming Kokoro (modèle gratuit)
500 caractères par génération
10 flux gratuits/jour par utilisateur anonyme
Sous-deuxième latence de première audition
SSE en streaming sur HTTPS

Les plus populaires

Compte gratuit

15 000 caractères à l'inscription
5 000 charniers par cours d'eau
Clé API pour l'accès programmatique
Historique des générations
Pas de bouchon quotidien

Inscription gratuite

Pour

MOSS-TTS-En temps réel (lorsqu'ils vivent)
100 000 charniers par cours d'eau
file d'attente GPU prioritaire
Agent vocal + intégration Twilio
Limites de taux plus élevées

Mise à jour

Foire aux questions

En temps réel text-to-speech streams morceaux audio tels qu'ils sont générés, au lieu d'attendre que la phrase complète. Le premier échantillon audio arrive en dessous d'une seconde, ce qui le rend adapté pour les agents de voix en direct, le doublage, et les applications interactives où la latence compte.

TTS regular génère le fichier audio complet avant de retourner quoi que ce soit — vous attendez, puis entendez la phrase entière à la fois. TTS en temps réel utilise Server-Sent Events (SSE) pour diffuser des morceaux audio courts comme le modèle les produit. L'utilisateur entend le début de la phrase presque immédiatement, même sur de longues entrées.

Kokoro est le moteur par défaut — il génère de l'audio environ 100x plus rapidement que le temps réel sur un GPU moderne. Nous intégrons MOSS-TTS-Realtime comme une alternative de meilleure qualité; les utilisateurs seront en mesure de choisir par demande une fois que ce navire.

La latence typique de premier-audio sur Kokoro est de 300-800ms sur une connexion publique. Le réseau aller-retour domine ensuite. La page surface le temps mesuré de temps à premier-audio dans l'interface utilisateur afin que vous puissiez voir exactement combien de temps chaque demande a pris.

Les agents vocaux qui répondent en conversation, le doublage en direct pour les médias en streaming, les NPC de jeux interactifs, les lecteurs d'accessibilité qui commencent à parler le moment où un utilisateur clique, et toute application où attendre deux ou trois secondes pour l'audio se sentirait paresseux.

Oui. POST to https://api.tts.ai/v1/tts/stream/ with the meme body that the regular /v1/tts/ endpoint. La réponse est un flux SSE de morceaux WAV encodés de base64. Le niveau gratuit prend en charge 10 générations par jour par utilisateur anonyme; les utilisateurs authentifiés obtiennent la pleine allocation de caractères par compte.

Kokoro utilise des voix pré-formées et ne clone pas. MOSS-TTS-Realtime (lorsque intégré) supporte le clonage vocal zéro-shot à partir d'une référence de 3 secondes. Pour le clonage vocal complet aujourd'hui, utilisez la page /text-to-speech/ régulière avec Chatterbox ou GPT-SoviTS — ceux-ci ne sont pas capables de diffuser en continu mais produisent des voix personnalisées.

Le même coût de caractère que le paramètre TTS régulier. Kokoro est de niveau gratuit (1x coût). MOSS-TTS-Realtime fonctionnera au niveau standard (2x coût) lorsque activé. Le protocole de streaming n'ajoute aucun supplément de prix.

Oui — jumelez le paramètre de streaming avec un webhook vocal Twilio pour alimenter l'audio en direct dans un appel téléphonique. Notre plateforme d'agent vocal le fait déjà pour les appels IVR et sortants. La latence de bout en bout sur un appel téléphonique est généralement de 1 à 2 secondes, y compris la réponse STT et LLM.

Si votre réseau lâche un morceau en transit, le lecteur de streaming sautera avant plutôt que de décrocher. Pour les applications qui ne tolèrent pas les lacunes, revenez à l'extrémité normale de non-streaming, ou buffer 500ms d'audio avant de commencer la lecture.

5.0/5 (1)

Diffusion du discours en temps réel

Gratuit pour les 10 premières générations par jour. Inscrivez-vous pour débloquer l'allocation de caractère complète et l'accès API.

Inscription gratuite Voir le prix

TTS en temps réel

Texte

Configuration de la voix

Latence vivante

Produit

Comment fonctionne la diffusion TTS

1. Envoyer un texte

2. Génération de modèles

3. Les morceaux de ruisseaux

4. Écoutez en direct

Cas d'utilisation

Agents vocaux

Doublage vivant

Jeux

Accessibilité

Plans TTS en temps réel

Foire aux questions

Qu'est-ce que le TTS en temps réel?

En quoi le TTS en temps réel est-il différent du TTS régulier?

Quel modèle alimente la page en temps réel?

Quelle est la vitesse de la latence de premier-audio?

Que puis-je construire avec TTS en temps réel?

Y a-t-il une API pour TTS en temps réel?

Est-ce qu'il soutient le clonage vocal?

Combien coûte TTS en temps réel?

Je peux l'utiliser pour les appels téléphoniques?

Pourquoi l'audio coupe-t-il parfois la mi-mot?

Diffusion du discours en temps réel