TTS in Echtzeit

Streaming von Text-zu-Speech mit Sub-Sekunde erste Audio Latenz. Gebaut für Sprach-Agenten und Live-Anwendungen.

Wortlaut

Streaming
0/5,000 Zeichen ~0.3s Erstes Audio

Spracheinstellungen

Nur streamingfähige Modelle.

Lebenslänglich

Klicken Sie auf Stream, um die erste Audio-Latenz zu messen

Ausgabe

Audio-Teile werden hier spielen, während sie einströmen.

0:00
Erstes Stück:
Teile insgesamt: 0
Gesamtzeit:

Wie das Streaming von TTS funktioniert

1. Text senden

POST-Text in /v1/tts/stream/ als Server-Sent-Events-Anfrage.

2. Modell erzeugt

Kokoro spaltet den Text und erzeugt Audio-Sample-by-Sample auf der GPU.

3. Stream-Chunks

Base64-kodierte WAV-Teile kommen über SSE und beginnen sofort zu spielen.

4. Hören Sie live

Der Benutzer hört den Beginn des Satzes in unter einer Sekunde, auch bei langen Eingängen.

Anwendungsfälle

Wo die Subsekundenlatenz neue Erfahrungen eröffnet.

Sprach-Agenten

Gesprächsbots, die so schnell reagieren wie ein Mensch.

Live-Dubbing

Übersetzen und Dub einen Stream in Echtzeit ohne Pufferpausen.

Spiele

NPC-Dialog, der sofort auf Spielerwahl reagiert, keine vorgerenderte VO.

Zugänglichkeit

Bildschirmleser und unterstützende Werkzeuge, die anfangen zu sprechen, sobald ein Benutzer klickt.

TTS-Pläne in Echtzeit

Starten Sie kostenlos, aktualisieren Sie, wenn Sie mehr benötigen

Frei
  • Kokoro-Streaming (kostenloses Modell)
  • 500 Zeichen pro Generation
  • 10 kostenlose Streams/Tag pro anonymen Benutzer
  • Sub-Sekunden-Erstaudio-Latenz
  • SSE-Streaming über HTTPS
Am beliebtesten
Kostenloses Konto
  • 15.000 Zeichen bei der Anmeldung
  • 5.000 Zeichen pro Stream
  • API-Schlüssel für den programmatischen Zugriff
  • Erzeugungsgeschichte
  • Keine tägliche Stream-Kappe
Kostenlos anmelden
Pro
  • MOSS-TTS-Echtzeit (wenn lebend)
  • 100.000 Zeichen pro Stream
  • Prioritäts-GPU-Warteschlange
  • Voice agent + Twilio Integration
  • Höhere Steuersätze
Aktualisierung

Häufig gestellte Fragen

Echtzeit-Text-to-Speech streamt Audio-Teile, wie sie erzeugt werden, anstatt zu warten, bis der gesamte Satz abgeschlossen. Das erste Audio-Sample kommt in unter einer Sekunde, so dass es für Live-Sprach-Agenten, Synchronisierung und interaktive Anwendungen, wo Latenz zählt.

Regular TTS erzeugt die gesamte Audiodatei, bevor Sie etwas zurückgeben — Sie warten, dann hören Sie den gesamten Satz auf einmal. Realtime TTS verwendet Server-Sent Events (SSE), um kurze Audiostücke zu streamen, wie das Modell sie produziert. Der Benutzer hört den Anfang des Satzes fast sofort, auch bei langen Eingängen.

Kokoro ist das Standard-Backend — es erzeugt Audio ungefähr 100x schneller als Echtzeit auf einer modernen GPU. Wir integrieren MOSS-TTS-Realtime als eine qualitativ hochwertigere Alternative; Benutzer werden in der Lage sein, pro Anfrage zu wählen, sobald das Schiff.

Typische First-Audio-Latenz auf Kokoro ist 300-800ms über eine öffentliche Verbindung. Network Round-Trip dominiert danach. Die Seite Oberflächen der live gemessenen Time-to-First-Audio in der Benutzeroberfläche so können Sie genau sehen, wie lange jede Anfrage dauerte.

Sprachagenten, die gesprächig reagieren, Live-Dubbeln für Streaming-Medien, interaktives Spiel NPCs, Zugänglichkeit Leser, die anfangen, den Moment zu sprechen ein Benutzer klickt, und jede Anwendung, wo warten zwei oder drei Sekunden für Audio würde träge fühlen.

Ja. POST auf https://api.tts.ai/v1/tts/stream/ mit dem gleichen Körper wie der normale /v1/tts/endpoint. Die Antwort ist ein SSE-Stream von base64-kodierten WAV-Klumpen. Die freie Ebene unterstützt 10 Generationen pro Tag pro anonymen Benutzer; authentifizierte Benutzer erhalten die volle pro-Account-Zeichenzugabe.

Kokoro verwendet vortrainierte Stimmen und klont nicht. MOSS-TTS-Realtime (wenn integriert) unterstützt Null-Shot-Stimme Klonen von einer 3-Sekunden-Referenz. Für volle Stimme Klonen heute, verwenden Sie die regelmäßige /text-to-Speech/Seite mit Chatterbox oder GPT-SoVITS - diese sind nicht Streaming-fähig, sondern produzieren benutzerdefinierte Stimmen.

Gleiche Zeichenkosten wie der normale TTS-Endpunkt. Kokoro ist frei verfügbar (1x Kosten). MOSS-TTS-Realtime läuft bei aktivierter Aktivierung auf der Standardebene (2x Kosten). Das Streaming-Protokoll fügt keinen Preiszuschlag hinzu.

Ja — Paaren Sie den Streaming-Endpunkt mit einem Twilio Voice Webhook, um Live-Audio in einen Telefonanruf einzuspeisen. Unsere Voice Agent Plattform tut dies bereits für IVR- und Outbound-Anrufe. End-to-End Latenz bei einem Telefonanruf beträgt typischerweise 1-2 Sekunden einschließlich STT und LLM-Antwort.

Wenn Ihr Netzwerk ein Stück im Transit abstürzt, wird der Streaming-Player vorüberspringen, anstatt zu stoppen. Für Anwendungen, die Lücken nicht tolerieren können, fallen Sie zurück auf den regulären Non-Streaming-Endpunkt oder Puffer 500ms Audio vor dem Start der Wiedergabe.
5.0/5 (1)

Was könnten wir verbessern? Ihr Feedback hilft uns, Probleme zu beheben.

Stream-Rede in Echtzeit

Kostenlos für die ersten 10 Generationen am Tag. Melden Sie sich an, um die volle Zeichenzugabe und API-Zugriff freizuschalten.