Reaaliaikainen TTS
Virrataan tekstistä ääneen sub-sekunnin ensimmäisen äänen latenssilla, joka on rakennettu ääniagenteille ja livesovelluksille.
Miten TTS:n virtaviivaistaminen toimii?
1. Lähetä teksti
POST-teksti osoitteeseen /v1/tts/stream/ as a Server-Sent Events -pyyntö.
2. Malli luo
Kokoro pilkkoo tekstiä ja tuottaa ääninäytteen näytteeltä GPU:lle.
3. Stream Chunks
Base64-koodatut WAV-lohkot saapuvat SSE:n ohi ja alkavat pelata välittömästi.
4. Kuuntele Live
Käyttäjä kuulee lauseen alun alle sekunnissa, jopa pitkistä syötöistä.
Käytä tapauksia
Siellä alisekunnin latenssi avaa uusia kokemuksia.
Ääniagentit
Keskustelubotit, jotka reagoivat niin nopeasti kuin ihminen.
Elävää kuuntelua
Käännä ja piirrä virta reaaliajassa ilman puskurointipysähdyksiä.
Pelit
NPC-valintaikkuna, joka reagoi pelaajavalintoihin välittömästi, ei ennalta renderoitua VO:ta.
Esteettömyys
Näytönlukijat ja avustavat työkalut, jotka alkavat puhua, kun käyttäjä napsauttaa.
Reaaliaikaiset TTS-suunnitelmat
Aloita ilmaiseksi, päivitä kun tarvitset lisää
- Kokoro-suoratoisto (ilmaismalli)
- 500 merkkiä sukupolvea kohti
- 10 ilmaista virtaa/päivä per nimetön käyttäjä
- Sub-second First Audio -latenssi
- SSE:n suoratoisto HTTPS:n yllä
- 15 000 merkkiä ilmoittautumassa
- 5 000 chars per virta
- Ohjelmallisen pääsyn API-avain
- Sukupolven historia
- Ei päivittäistä virtauksen suojusta
- MOSS-TTS-Tosiaika (eläessä)
- 100 000 chars per virta
- Ensisijainen GPU-jono
- Ääniaine + Twilio-integraatio
- Korkeammat korkorajat
Usein kysyttyjä kysymyksiä
Mitä voisimme parantaa? Palautteesi auttaa meitä korjaamaan ongelmia.
Virtapuhetta reaaliajassa
Ilmaisena ensimmäiset 10 sukupolvea päivässä. Rekisteröidy avataksesi täyden hahmotuen ja API-yhteyden.