Hibajelentés / feladatkérés

Valós idejű TTS

Streaming sms-to-speech sub-second first-audio latency. Hanganyagokhoz és élő alkalmazásokhoz építették.

Regisztráció Ingyenes

Szöveg

Áramlás

0/5,000 karakterek ~0.3s első hang

Hangbeállítások

Minta Csak streaming-képes modellek.

Hang

Sebesség 1.0x

Élő olvashatóság

—

Kattintson a Stream gombra az első audio latencia méréséhez

Kimenet

A hang darabkák itt fognak játszani, ahogy beáramlanak.

Hogyan működik a TTS-ek közvetítése?

1. Szöveg küldése

POST szöveg /v1/tts/stream/ a Server-Sent Event kéréséhez.

2. Model Generations

Kokoro darabolja a szöveget, és a GPU-n audio mintázatot generál.

3. Stream Chunks

Base64 kódolt WAV darabok érkezik az SSE és elkezd játszani azonnal.

4. Figyelj élőben

A felhasználó egy másodperc alatt hallja a mondat kezdetét, még hosszú bemeneteken is.

Esetek használata

Ahol a másodperc alatti késés új élményeket tár fel.

Hanganyagok

Társalgó robotok, amik olyan gyorsan reagálnak, mint egy ember.

Élő dubbing

Fordítsa le és szinkronizálja a patak valós időben puffer szünetek nélkül.

Játékok

NPC párbeszédablak, amely azonnal reagál a játékosok választására, nincs előre megadott VO.

Hozzáférhetőség

Képernyő olvasók és segítő eszközök, amelyek elkezdenek beszélni abban a pillanatban, amikor egy felhasználó kattint.

Valós idejű TTS-tervek

Ingyenes indítás, frissítés, ha többre van szükséged

Ingyenes

Kokoro streaming (szabad modell)
500 karakter generációnként
10 ingyenes patak/nap anonim felhasználónként
Másodperces első audio-késleltetés
SSE streaming over HTTPS

Legnépszerűbb

Ingyenes számla

15.000 karakter a regisztrációkor
5000 chars per stream
API kulcs a programmatikus hozzáféréshez
Generációs történelem
Nincs napi átfolyási kupak

Regisztráció Ingyenes

Pro

MOSS-TTS-Realtime (élőben)
100,000 chars per stream
Prioritású GPU sor
Hanganyag + Twilio integráció
Magasabb adókulcsi határértékek

Frissítés

Gyakran ismételt kérdések

Az első hangminta egy másodperc alatt érkezik meg, így alkalmas élő hanganyagokra, szinkronizálásra és interaktív alkalmazásokra, ahol a latencia számít.

A regular TTS generálja a teljes audio fájlt, mielőtt bármit visszaküldenél, majd egyszerre hallod az egész mondatot. A valós idejű TTS a Server-Sent Events (SSE) segítségével rövid hangdarabokat streamel, ahogy a modell termeli őket. A felhasználó szinte azonnal hallja a mondat kezdetét, még hosszú bemeneteken is.

A Kokoro az alapértelmezett backend, audio kb. 100x gyorsabb, mint a valós időben egy modern GPU. Mi integráljuk a MOSS-TTS-Realtime, mint egy jobb minőségű alternatíva; a felhasználók képesek lesznek választani kérésre, ha ez a hajók.

Tipikus első audio latencia Kokoro 300-800ms egy nyilvános kapcsolat. Hálózati körutazás dominál utána. Az oldal felületen az élő mért idő-első audio az UI, így láthatja, hogy pontosan mennyi ideig tartott minden kérés.

Hang ügynökök, hogy válaszoljon a társalgás, élő szinkronizálás streaming média, interaktív játék NPC, hozzáférhetőség olvasók, hogy elkezd beszélni abban a pillanatban, amikor a felhasználó kattint, és minden alkalmazás, ahol vár két-három másodperc audio úgy érzi, lassú.

Igen. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ point. A válasz egy SSE stream of base64- encoded WAV chunks. Az ingyenes réteg támogatja 10 generáció / anonim felhasználó; hitelesített felhasználók kap a teljes /- account karakter támogatás.

Kokoro előképzett hangokat használ, és nem klónoz. A MOSS-TTS-Realtime (ha integrált) támogatja a zéró hang klónozását egy 3 másodperces referenciából. A teljes hang klónozáshoz a mai napon használja a Chatterbox vagy GPT-SoVITS oldalt, amely nem streaming-cappable, hanem egyéni hangokat hoz létre.

Ugyanaz a karakterköltség, mint a normál TTS végpont. Kokoro ingyenes-tier (1x költség). MOSS-TTS-Realtime fut a standard szint (2x költség) ha engedélyezve. A streaming protokoll nem ad hozzá semmilyen árképzési felárat.

Igen, párosítja a streaming végpontot egy Twilio hang webhook-tal, hogy élő audiót tápláljon egy telefonhívásba. Hangügynök platformunk már ezt teszi az IVR-hez és a kimenő híváshoz. Végtől-végig latency egy telefonhíváson jellemzően 1-2 másodperc, beleértve az STT-t és az LLM-reagálást.

Ha a hálózat leejt egy darab tranzit, a streaming játékos skip előre, mint stand. Az alkalmazások, amelyek nem tolerálják rések, visszaesik a rendszeres nem streaming végpont, vagy buffer 500 ms audio megkezdése előtt lejátszás.

5.0/5 (1)

Stream beszéd valós időben

Ingyenes az első 10 generáció egy nap. Iratkozzon fel, hogy felszabadítsa a teljes karakter támogatás és API hozzáférést.

Regisztráció Ingyenes Tekintse meg az árakat

Valós idejű TTS

Szöveg

Hangbeállítások

Élő olvashatóság

Kimenet

Hogyan működik a TTS-ek közvetítése?

1. Szöveg küldése

2. Model Generations

3. Stream Chunks

4. Figyelj élőben

Esetek használata

Hanganyagok

Élő dubbing

Játékok

Hozzáférhetőség

Valós idejű TTS-tervek

Gyakran ismételt kérdések

Mi az a valós idejű TTS?

Miben különbözik a valós idejű TTS a normál TTS-től?

Melyik modell működteti a valós idejű oldalt?

Milyen gyors az első audio késés?

Mit építhetek valós idejű TTS-sel?

Van API valós idejű TTS-re?

Támogatja a hang klónozást?

Mennyibe kerül a valós idejű TTS?

Használhatom telefonon?

Miért vágja le néha a hang a középső szót?

Stream beszéd valós időben