Valós idejű TTS

Streaming sms-to-speech sub-second first-audio latency. Hanganyagokhoz és élő alkalmazásokhoz építették.

Szöveg

Áramlás
0/5,000 karakterek ~0.3s első hang

Hangbeállítások

Csak streaming-képes modellek.

Élő olvashatóság

Kattintson a Stream gombra az első audio latencia méréséhez

Kimenet

A hang darabkák itt fognak játszani, ahogy beáramlanak.

0:00
Első darab:
Összes darab: 0
Teljes idő:

Hogyan működik a TTS-ek közvetítése?

1. Szöveg küldése

POST szöveg /v1/tts/stream/ a Server-Sent Event kéréséhez.

2. Model Generations

Kokoro darabolja a szöveget, és a GPU-n audio mintázatot generál.

3. Stream Chunks

Base64 kódolt WAV darabok érkezik az SSE és elkezd játszani azonnal.

4. Figyelj élőben

A felhasználó egy másodperc alatt hallja a mondat kezdetét, még hosszú bemeneteken is.

Esetek használata

Ahol a másodperc alatti késés új élményeket tár fel.

Hanganyagok

Társalgó robotok, amik olyan gyorsan reagálnak, mint egy ember.

Élő dubbing

Fordítsa le és szinkronizálja a patak valós időben puffer szünetek nélkül.

Játékok

NPC párbeszédablak, amely azonnal reagál a játékosok választására, nincs előre megadott VO.

Hozzáférhetőség

Képernyő olvasók és segítő eszközök, amelyek elkezdenek beszélni abban a pillanatban, amikor egy felhasználó kattint.

Valós idejű TTS-tervek

Ingyenes indítás, frissítés, ha többre van szükséged

Ingyenes
  • Kokoro streaming (szabad modell)
  • 500 karakter generációnként
  • 10 ingyenes patak/nap anonim felhasználónként
  • Másodperces első audio-késleltetés
  • SSE streaming over HTTPS
Legnépszerűbb
Ingyenes számla
  • 15.000 karakter a regisztrációkor
  • 5000 chars per stream
  • API kulcs a programmatikus hozzáféréshez
  • Generációs történelem
  • Nincs napi átfolyási kupak
Regisztráció Ingyenes
Pro
  • MOSS-TTS-Realtime (élőben)
  • 100,000 chars per stream
  • Prioritású GPU sor
  • Hanganyag + Twilio integráció
  • Magasabb adókulcsi határértékek
Frissítés

Gyakran ismételt kérdések

Az első hangminta egy másodperc alatt érkezik meg, így alkalmas élő hanganyagokra, szinkronizálásra és interaktív alkalmazásokra, ahol a latencia számít.

A regular TTS generálja a teljes audio fájlt, mielőtt bármit visszaküldenél, majd egyszerre hallod az egész mondatot. A valós idejű TTS a Server-Sent Events (SSE) segítségével rövid hangdarabokat streamel, ahogy a modell termeli őket. A felhasználó szinte azonnal hallja a mondat kezdetét, még hosszú bemeneteken is.

A Kokoro az alapértelmezett backend, audio kb. 100x gyorsabb, mint a valós időben egy modern GPU. Mi integráljuk a MOSS-TTS-Realtime, mint egy jobb minőségű alternatíva; a felhasználók képesek lesznek választani kérésre, ha ez a hajók.

Tipikus első audio latencia Kokoro 300-800ms egy nyilvános kapcsolat. Hálózati körutazás dominál utána. Az oldal felületen az élő mért idő-első audio az UI, így láthatja, hogy pontosan mennyi ideig tartott minden kérés.

Hang ügynökök, hogy válaszoljon a társalgás, élő szinkronizálás streaming média, interaktív játék NPC, hozzáférhetőség olvasók, hogy elkezd beszélni abban a pillanatban, amikor a felhasználó kattint, és minden alkalmazás, ahol vár két-három másodperc audio úgy érzi, lassú.

Igen. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ point. A válasz egy SSE stream of base64- encoded WAV chunks. Az ingyenes réteg támogatja 10 generáció / anonim felhasználó; hitelesített felhasználók kap a teljes /- account karakter támogatás.

Kokoro előképzett hangokat használ, és nem klónoz. A MOSS-TTS-Realtime (ha integrált) támogatja a zéró hang klónozását egy 3 másodperces referenciából. A teljes hang klónozáshoz a mai napon használja a Chatterbox vagy GPT-SoVITS oldalt, amely nem streaming-cappable, hanem egyéni hangokat hoz létre.

Ugyanaz a karakterköltség, mint a normál TTS végpont. Kokoro ingyenes-tier (1x költség). MOSS-TTS-Realtime fut a standard szint (2x költség) ha engedélyezve. A streaming protokoll nem ad hozzá semmilyen árképzési felárat.

Igen, párosítja a streaming végpontot egy Twilio hang webhook-tal, hogy élő audiót tápláljon egy telefonhívásba. Hangügynök platformunk már ezt teszi az IVR-hez és a kimenő híváshoz. Végtől-végig latency egy telefonhíváson jellemzően 1-2 másodperc, beleértve az STT-t és az LLM-reagálást.

Ha a hálózat leejt egy darab tranzit, a streaming játékos skip előre, mint stand. Az alkalmazások, amelyek nem tolerálják rések, visszaesik a rendszeres nem streaming végpont, vagy buffer 500 ms audio megkezdése előtt lejátszás.
5.0/5 (1)

Mit lehetne javítani? A visszajelzés segít megoldani a problémákat.

Stream beszéd valós időben

Ingyenes az első 10 generáció egy nap. Iratkozzon fel, hogy felszabadítsa a teljes karakter támogatás és API hozzáférést.