Echtzäit-TTS

Stream Text-to-Speech mat Sub-Sekonn First-Audio Latency. Gebaut fir Sproochagenten a Live-Applikatiounen.

Mir maachen dat D'Stëmm vum Mënsch

Text

Streaming
0/5,000 Zeichen ~0.3s first audio

Sprooch-Einstellungen

D'Modeller sinn net méi verfügbar.

Live-Latenz

Klick op Stream fir d'Latenz vum éischten Audio ze moossen

Ausgabe

D'Spill gëtt op der Plaz gespillt, wou d'Spill stattfënnt.

0:00
Erste Schnëtt:
Total Stücke: 0
Gesamtzäit:

D'Spill ass op Twitch verfügbar.

Text senden

D'Serie 1000/10 ass eng Serie vu 4000-PS-Serie-Motore fir d'Elektromobilitéit.

Modeller

De Kokoro chunks de Text an generéiert Audio Sample-by-Sample op der GPU.

3. Stream-Stücken

De 64-Bit-System ass an der Regel méi séier wéi de 32-Bit-System.

Lëscht vu lëtzebuergesche Lidder

De Begrëff gëtt och fir d'Zäit no der éischter Verëffentlechung gebraucht.

Use Cases

D'Serie huet sech an zwou Phasen opgedeelt.

Sprooche

D'Spill ass sou einfach wéi et kléngt.

Däitsche Biergerkrich

Et gëtt och eng Versioun mat enger synchroniséierter Versioun.

Spill

D'NPCs sinn déi Spiller, déi am Spill no der éischter Persoun spillen.

Zougänglechkeet

Et gëtt och eng Rei vun Instrumenter déi d'Stëmm vum Benotzer ophuelen.

Lëscht vun de Planéiten

Gratis ufänken, aktualiséieren wann Dir méi braucht

Free
  • Lëscht vu lëtzebuergesche Filmer (fr)
  • 500 Zeichen pro Generatioun
  • 100 Joer Lëtzebuerger Radio an Televisioun
  • Lëscht vun de lëtzebuergesche Filmer
  • Lëscht vun de lëtzebuergesche Gemengen
Déi populärst
Free Account
  • 15.000 Zeichen bei der Umeldungssäit
  • 5000 Zeichen pro Stream
  • API Schlëssel fir programmateschen Zougang
  • Historie vum Veräin
  • Keng tägliche Stream-Obergrenz
Gratis anmelden
Pro
  • MOSS-TTS-Realtime (wann live)
  • 100.000 Zeichen pro Stream
  • Prioritéit GPU-Warteschlange
  • Sproochagent + Twilio-Integratioun
  • Héichfrequenz
Aktualiséieren

Häufig gestallte Froen

Echtzäit-Text-zu-Sprooch streamt Audio-Blocken wéi se generéiert ginn, anstatt op d'Komplettéierung vum ganzen Saz ze waarden. D'éischt Audio-Sampling kënnt an ënner enger Sekonn un, wat et fir Live-Stëmmagenten, Synchroniséierung an interaktiv Applikatiounen, wou Latenz wichteg ass, gëeegent mécht.

Normal TTS generéiert déi komplett Audiodatei ier et eppes zréck gëtt - Dir waart, da héiert Dir de ganzen Saz op eemol. Echtzäit TTS benotzt Server-Sent Events (SSE) fir kuerz Audio-Blocken ze streamen wéi se vum Modell produzéiert ginn. De Benotzer héiert de Sazbeginn bal direkt, och bei laange Inputs.

Kokoro ass de Standard-Backend — et generéiert Audio ongeféier 100x méi séier wéi Echtzäit op enger moderner GPU. Mir integréieren MOSS-TTS-Realtime als eng qualitativ héichwäerteg Alternativ; d'Benotzer kënnen no Ufro wielen, wann et verschéckt gëtt.

Typesch ass d'Latenz vum éischten Audio op Kokoro 300-800ms iwwer eng ëffentlech Verbindung. Nodeem dominéiert de Netzwierk-Round-Trip. D'Säit weist d'live gemessen Zäit bis zum éischten Audio an der UI, sou datt Dir genau gesi kënnt wéi laang all Ufro gedauert huet.

D'Spill ass op 3D-Technik baséiert, an et gëtt eng Rei vu Spiller, déi op der Basis vun der 3D-Technik entwéckelt goufen, déi awer och op d'Spill selwer baséieren.

Ja. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. The response is an SSE stream of base64-encoded WAV chunks. The free tier supports 10 generations per day per anonymous user; authenticated users get the full per-account character allowance.

Kokoro benotzt virgetraint Stimmen an klont net. MOSS-TTS-Realtime (wann integréiert) ënnerstëtzt Zero-Shot Stimmklonen aus enger 3-Sekonnen Referenz. Fir voll Stëmmklonen haut, benotzt d'regelméisseg /text-to-speech/ Säit mat Chatterbox oder GPT-SoVITS — déi sinn net streaming-fäeg, awer produzéieren eege Stimmen.

D'selwechte Zeichenkäschte wéi de reguläre TTS-Ennpunkt. Kokoro ass gratis (1x Käschte). MOSS-TTS-Realtime gëtt op der Standard-Tier (2x Käschte) ausgefouert wann aktivéiert. D'Streaming-Protokoll füügt keng Präiszuschläge bäi.

Ja — den Streaming-Enddrock mat engem Twilio-Stëmm-Webhook koppelen, fir Live-Audio an en Telefonsgespréich ze féieren. Eis Stëmmagent-Plattform mécht dat schonn fir IVR an ausgehenden Anrufe. End-to-End-Latenz bei engem Telefonsgespréich ass normalerweis 1-2 Sekonnen, inklusiv STT a LLM-Äntwert.

Wann Äre Netzwierk e Stéck während der Iwwerdroung verléiert, da wäert de Streaming-Player virum Stillstand weidergoen. Fir Uwendungen, déi keng Pause toleréieren, kënnt Dir op de reguläre Endpunkt ouni Streaming zréckgoen, oder 500 ms Audio pufferen ier Dir mat der Wiedergabe ufänkt.
5.0/5 (1)

Wat kéinte mir verbesseren? Äert Feedback hëlleft eis, Problemer ze léisen.

Sproochstreaming an Echtzäit

Gratis fir déi éischt 10 Generatiounen pro Dag. Registréiert Iech fir d'voll Zeichenzuel an den API-Accès ze entsperren.