TTS en temps réel
Streaming text-to-speech avec sous-seconde première latence audio. Construit pour les agents vocaux et les applications en direct.
Texte
StreamingConfiguration de la voix
Comment fonctionne la diffusion TTS
1. Envoyer un texte
POST texte vers /v1/tts/stream/ en tant que requête Server-Sent Events.
2. Génération de modèles
Kokoro découpe le texte et génère un échantillon audio par échantillon sur le GPU.
3. Les morceaux de ruisseaux
Les morceaux WAV encodés de base64 arrivent sur SSE et commencent à jouer immédiatement.
4. Écoutez en direct
L'utilisateur entend le début de la phrase en moins d'une seconde, même sur de longues entrées.
Cas d'utilisation
Où la sous-seconde latence ouvre de nouvelles expériences.
Agents vocaux
Des robots de conversation qui réagissent aussi vite qu'un humain le ferait.
Doublage vivant
Traduire et dub un flux en temps réel sans tamponner les pauses.
Jeux
Boîte de dialogue NPC qui réagit aux choix des joueurs instantanément, pas de VO pré-rendu.
Accessibilité
Les lecteurs d'écran et les outils d'assistance qui commencent à parler le moment où un utilisateur clique.
Plans TTS en temps réel
Commencez gratuitement, mise à niveau lorsque vous avez besoin de plus
- streaming Kokoro (modèle gratuit)
- 500 caractères par génération
- 10 flux gratuits/jour par utilisateur anonyme
- Sous-deuxième latence de première audition
- SSE en streaming sur HTTPS
- 15 000 caractères à l'inscription
- 5 000 charniers par cours d'eau
- Clé API pour l'accès programmatique
- Historique des générations
- Pas de bouchon quotidien
- MOSS-TTS-En temps réel (lorsqu'ils vivent)
- 100 000 charniers par cours d'eau
- file d'attente GPU prioritaire
- Agent vocal + intégration Twilio
- Limites de taux plus élevées
Foire aux questions
Que pourrions-nous améliorer? Vos commentaires nous aident à résoudre les problèmes.
Diffusion du discours en temps réel
Gratuit pour les 10 premières générations par jour. Inscrivez-vous pour débloquer l'allocation de caractère complète et l'accès API.