Fehler melden / Feature-Anforderung

TTS in Echtzeit

Streaming von Text-zu-Speech mit Sub-Sekunde erste Audio Latenz. Gebaut für Sprach-Agenten und Live-Anwendungen.

Kostenlos anmelden

Wortlaut

Streaming

0/5,000 Zeichen ~0.3s Erstes Audio

Spracheinstellungen

Modell Nur streamingfähige Modelle.

Stimme

Geschwindigkeit 1.0x

Lebenslänglich

—

Klicken Sie auf Stream, um die erste Audio-Latenz zu messen

Ausgabe

Audio-Teile werden hier spielen, während sie einströmen.

Wie das Streaming von TTS funktioniert

1. Text senden

POST-Text in /v1/tts/stream/ als Server-Sent-Events-Anfrage.

2. Modell erzeugt

Kokoro spaltet den Text und erzeugt Audio-Sample-by-Sample auf der GPU.

3. Stream-Chunks

Base64-kodierte WAV-Teile kommen über SSE und beginnen sofort zu spielen.

4. Hören Sie live

Der Benutzer hört den Beginn des Satzes in unter einer Sekunde, auch bei langen Eingängen.

Anwendungsfälle

Wo die Subsekundenlatenz neue Erfahrungen eröffnet.

Sprach-Agenten

Gesprächsbots, die so schnell reagieren wie ein Mensch.

Live-Dubbing

Übersetzen und Dub einen Stream in Echtzeit ohne Pufferpausen.

Spiele

NPC-Dialog, der sofort auf Spielerwahl reagiert, keine vorgerenderte VO.

Zugänglichkeit

Bildschirmleser und unterstützende Werkzeuge, die anfangen zu sprechen, sobald ein Benutzer klickt.

TTS-Pläne in Echtzeit

Starten Sie kostenlos, aktualisieren Sie, wenn Sie mehr benötigen

Frei

Kokoro-Streaming (kostenloses Modell)
500 Zeichen pro Generation
10 kostenlose Streams/Tag pro anonymen Benutzer
Sub-Sekunden-Erstaudio-Latenz
SSE-Streaming über HTTPS

Am beliebtesten

Kostenloses Konto

15.000 Zeichen bei der Anmeldung
5.000 Zeichen pro Stream
API-Schlüssel für den programmatischen Zugriff
Erzeugungsgeschichte
Keine tägliche Stream-Kappe

Kostenlos anmelden

Pro

MOSS-TTS-Echtzeit (wenn lebend)
100.000 Zeichen pro Stream
Prioritäts-GPU-Warteschlange
Voice agent + Twilio Integration
Höhere Steuersätze

Aktualisierung

Häufig gestellte Fragen

Echtzeit-Text-to-Speech streamt Audio-Teile, wie sie erzeugt werden, anstatt zu warten, bis der gesamte Satz abgeschlossen. Das erste Audio-Sample kommt in unter einer Sekunde, so dass es für Live-Sprach-Agenten, Synchronisierung und interaktive Anwendungen, wo Latenz zählt.

Regular TTS erzeugt die gesamte Audiodatei, bevor Sie etwas zurückgeben — Sie warten, dann hören Sie den gesamten Satz auf einmal. Realtime TTS verwendet Server-Sent Events (SSE), um kurze Audiostücke zu streamen, wie das Modell sie produziert. Der Benutzer hört den Anfang des Satzes fast sofort, auch bei langen Eingängen.

Kokoro ist das Standard-Backend — es erzeugt Audio ungefähr 100x schneller als Echtzeit auf einer modernen GPU. Wir integrieren MOSS-TTS-Realtime als eine qualitativ hochwertigere Alternative; Benutzer werden in der Lage sein, pro Anfrage zu wählen, sobald das Schiff.

Typische First-Audio-Latenz auf Kokoro ist 300-800ms über eine öffentliche Verbindung. Network Round-Trip dominiert danach. Die Seite Oberflächen der live gemessenen Time-to-First-Audio in der Benutzeroberfläche so können Sie genau sehen, wie lange jede Anfrage dauerte.

Sprachagenten, die gesprächig reagieren, Live-Dubbeln für Streaming-Medien, interaktives Spiel NPCs, Zugänglichkeit Leser, die anfangen, den Moment zu sprechen ein Benutzer klickt, und jede Anwendung, wo warten zwei oder drei Sekunden für Audio würde träge fühlen.

Ja. POST auf https://api.tts.ai/v1/tts/stream/ mit dem gleichen Körper wie der normale /v1/tts/endpoint. Die Antwort ist ein SSE-Stream von base64-kodierten WAV-Klumpen. Die freie Ebene unterstützt 10 Generationen pro Tag pro anonymen Benutzer; authentifizierte Benutzer erhalten die volle pro-Account-Zeichenzugabe.

Kokoro verwendet vortrainierte Stimmen und klont nicht. MOSS-TTS-Realtime (wenn integriert) unterstützt Null-Shot-Stimme Klonen von einer 3-Sekunden-Referenz. Für volle Stimme Klonen heute, verwenden Sie die regelmäßige /text-to-Speech/Seite mit Chatterbox oder GPT-SoVITS - diese sind nicht Streaming-fähig, sondern produzieren benutzerdefinierte Stimmen.

Gleiche Zeichenkosten wie der normale TTS-Endpunkt. Kokoro ist frei verfügbar (1x Kosten). MOSS-TTS-Realtime läuft bei aktivierter Aktivierung auf der Standardebene (2x Kosten). Das Streaming-Protokoll fügt keinen Preiszuschlag hinzu.

Ja — Paaren Sie den Streaming-Endpunkt mit einem Twilio Voice Webhook, um Live-Audio in einen Telefonanruf einzuspeisen. Unsere Voice Agent Plattform tut dies bereits für IVR- und Outbound-Anrufe. End-to-End Latenz bei einem Telefonanruf beträgt typischerweise 1-2 Sekunden einschließlich STT und LLM-Antwort.

Wenn Ihr Netzwerk ein Stück im Transit abstürzt, wird der Streaming-Player vorüberspringen, anstatt zu stoppen. Für Anwendungen, die Lücken nicht tolerieren können, fallen Sie zurück auf den regulären Non-Streaming-Endpunkt oder Puffer 500ms Audio vor dem Start der Wiedergabe.

5.0/5 (1)

Stream-Rede in Echtzeit

Kostenlos für die ersten 10 Generationen am Tag. Melden Sie sich an, um die volle Zeichenzugabe und API-Zugriff freizuschalten.

Kostenlos anmelden Preise anzeigen

TTS in Echtzeit

Wortlaut

Spracheinstellungen

Lebenslänglich

Ausgabe

Wie das Streaming von TTS funktioniert

1. Text senden

2. Modell erzeugt

3. Stream-Chunks

4. Hören Sie live

Anwendungsfälle

Sprach-Agenten

Live-Dubbing

Spiele

Zugänglichkeit

TTS-Pläne in Echtzeit

Häufig gestellte Fragen

Was ist Echtzeit-TTS?

Wie unterscheidet sich Echtzeit-TTS von regulären TTS?

Welches Modell macht die Echtzeit-Seite?

Wie schnell ist die erste Audio-Latenz?

Was kann ich mit Echtzeit TTS bauen?

Gibt es eine API für Echtzeit-TTS?

Unterstützt es das Klonen der Stimme?

Wie viel kostet Echtzeit-TTS?

Kann ich es bei Anrufen benutzen?

Warum schneidet das Audio manchmal das Mittelwort ab?

Stream-Rede in Echtzeit