TTS in Echtzeit
Streaming von Text-zu-Speech mit Sub-Sekunde erste Audio Latenz. Gebaut für Sprach-Agenten und Live-Anwendungen.
Wie das Streaming von TTS funktioniert
1. Text senden
POST-Text in /v1/tts/stream/ als Server-Sent-Events-Anfrage.
2. Modell erzeugt
Kokoro spaltet den Text und erzeugt Audio-Sample-by-Sample auf der GPU.
3. Stream-Chunks
Base64-kodierte WAV-Teile kommen über SSE und beginnen sofort zu spielen.
4. Hören Sie live
Der Benutzer hört den Beginn des Satzes in unter einer Sekunde, auch bei langen Eingängen.
Anwendungsfälle
Wo die Subsekundenlatenz neue Erfahrungen eröffnet.
Sprach-Agenten
Gesprächsbots, die so schnell reagieren wie ein Mensch.
Live-Dubbing
Übersetzen und Dub einen Stream in Echtzeit ohne Pufferpausen.
Spiele
NPC-Dialog, der sofort auf Spielerwahl reagiert, keine vorgerenderte VO.
Zugänglichkeit
Bildschirmleser und unterstützende Werkzeuge, die anfangen zu sprechen, sobald ein Benutzer klickt.
TTS-Pläne in Echtzeit
Starten Sie kostenlos, aktualisieren Sie, wenn Sie mehr benötigen
- Kokoro-Streaming (kostenloses Modell)
- 500 Zeichen pro Generation
- 10 kostenlose Streams/Tag pro anonymen Benutzer
- Sub-Sekunden-Erstaudio-Latenz
- SSE-Streaming über HTTPS
- 15.000 Zeichen bei der Anmeldung
- 5.000 Zeichen pro Stream
- API-Schlüssel für den programmatischen Zugriff
- Erzeugungsgeschichte
- Keine tägliche Stream-Kappe
- MOSS-TTS-Echtzeit (wenn lebend)
- 100.000 Zeichen pro Stream
- Prioritäts-GPU-Warteschlange
- Voice agent + Twilio Integration
- Höhere Steuersätze
Häufig gestellte Fragen
Was könnten wir verbessern? Ihr Feedback hilft uns, Probleme zu beheben.
Stream-Rede in Echtzeit
Kostenlos für die ersten 10 Generationen am Tag. Melden Sie sich an, um die volle Zeichenzugabe und API-Zugriff freizuschalten.