Reaaliaikainen TTS

Virrataan tekstistä ääneen sub-sekunnin ensimmäisen äänen latenssilla, joka on rakennettu ääniagenteille ja livesovelluksille.

Teksti

Virtaus
0/5,000 hahmot ~0.3s ensimmäinen äänentoisto

Ääniasetukset

Virtauskykyisiä malleja vain.

Elä latenssia

Klikkaa Stream mittaamaan ensiäänilatenssia

Tuloste

Äänipalat soivat täällä, kun ne virtaavat sisään.

0:00
Ensimmäinen osa:
Osuudet yhteensä: 0
Kokonaisaika:

Miten TTS:n virtaviivaistaminen toimii?

1. Lähetä teksti

POST-teksti osoitteeseen /v1/tts/stream/ as a Server-Sent Events -pyyntö.

2. Malli luo

Kokoro pilkkoo tekstiä ja tuottaa ääninäytteen näytteeltä GPU:lle.

3. Stream Chunks

Base64-koodatut WAV-lohkot saapuvat SSE:n ohi ja alkavat pelata välittömästi.

4. Kuuntele Live

Käyttäjä kuulee lauseen alun alle sekunnissa, jopa pitkistä syötöistä.

Käytä tapauksia

Siellä alisekunnin latenssi avaa uusia kokemuksia.

Ääniagentit

Keskustelubotit, jotka reagoivat niin nopeasti kuin ihminen.

Elävää kuuntelua

Käännä ja piirrä virta reaaliajassa ilman puskurointipysähdyksiä.

Pelit

NPC-valintaikkuna, joka reagoi pelaajavalintoihin välittömästi, ei ennalta renderoitua VO:ta.

Esteettömyys

Näytönlukijat ja avustavat työkalut, jotka alkavat puhua, kun käyttäjä napsauttaa.

Reaaliaikaiset TTS-suunnitelmat

Aloita ilmaiseksi, päivitä kun tarvitset lisää

Vapaa
  • Kokoro-suoratoisto (ilmaismalli)
  • 500 merkkiä sukupolvea kohti
  • 10 ilmaista virtaa/päivä per nimetön käyttäjä
  • Sub-second First Audio -latenssi
  • SSE:n suoratoisto HTTPS:n yllä
Suosituin
Vapaa tili
  • 15 000 merkkiä ilmoittautumassa
  • 5 000 chars per virta
  • Ohjelmallisen pääsyn API-avain
  • Sukupolven historia
  • Ei päivittäistä virtauksen suojusta
Rekisteröidy ilmaiseksi
Pro
  • MOSS-TTS-Tosiaika (eläessä)
  • 100 000 chars per virta
  • Ensisijainen GPU-jono
  • Ääniaine + Twilio-integraatio
  • Korkeammat korkorajat
Päivitys

Usein kysyttyjä kysymyksiä

Reaaliaikaiset teksti-äänestä-äänet virtaavat äänikappaleita, kun niitä syntyy, sen sijaan että odotettaisiin koko lauseen valmistumista. Ensimmäinen ääninäyte saapuu alle sekunnin, mikä tekee siitä sopivan live-ääniagenteille, dubbaamiselle ja vuorovaikutteisille sovelluksille, joissa viiveellä on merkitystä.

Säännöllinen TTS luo koko äänitiedoston ennen kuin palauttaa mitään – odotat ja kuulet koko lauseen kerralla. Realtime TTS käyttää Server-Sent Events (SSE) -ohjelmaa lyhyiden äänikappaleiden streamaamiseen mallin tuottaessa niitä. Käyttäjä kuulee lauseen alkamisen lähes välittömästi, jopa pitkillä tuloksilla.

Kokoro on oletuksena backend – se tuottaa äänen noin 100 kertaa nopeammin kuin reaaliajassa nykyaikaisella GPU:lla. Integroimme MOSS-TTS-realtimea laadukkaammaksi vaihtoehdoksi. Käyttäjät voivat valita pyynnöstä, kun laivat lähetetään.

Kokorolla tyypillinen ensiaudio-latenssi on 300-800 metriä yleisellä yhteydellä. Verkkokierros on sen jälkeen hallitseva. Sivulla näkyy suora mitattu aika ensiaudioon UI:ssa, jotta näet tarkalleen, kuinka kauan kukin pyyntö kesti.

Ääniagentit, jotka vastaavat keskusteluyhteyksiin, suoratoistopuheluihin, vuorovaikutteisiin NPC-peleihin, saavutettavuuslukijoihin, jotka alkavat puhua sillä hetkellä, kun käyttäjä napsauttaa, ja sovelluksiin, joissa odotetaan kahta tai kolmea sekuntia ääntä, tuntuisivat hitailta.

Kyllä. POST to https://api.tts.ai/v1/tts/stream/ with the same body with the Regular/v1/tts/ subjective. Vastaus on SSE-virta, jossa on base64-koodattuja WAV-lohkoja. Vapaa taso tukee 10 sukupolvea päivässä jokaista anonyymiä käyttäjää kohden; oikeaksi todistetut käyttäjät saavat täydet tilikohtaiset tunnusluvut.

Kokoro käyttää valmiiksi koulutettuja ääniä eikä kloonaa. MOSS-TTS-Realtime (kun se on integroitu) tukee kolmen sekunnin referenssillä nollakuormitettua äänen kloonausta. Täyden äänen kloonauksessa käytetään tänään Chatterboxin tai GPT-SoVITS:n kanssa säännöllistä / tekstistä ääneen -sivua, joka ei ole suoratoistokykyinen, vaan tuottaa mukautettuja ääniä.

Kokoro on vapaatasoinen (1x cost). MOSS-TTS-realtime kulkee vakiotasolla (2x cost) kun se otetaan käyttöön. Suoratoistoprotokolla ei lisää hinnoittelun lisämaksua.

Kyllä – yhdistä suoratoiston päätetapahtuma Twilio-äänikoukkuun, joka syöttää live-äänen puheluun. Ääniagenttialustamme tekee tämän jo IVR:lle ja lähtevälle puhelulle. Puhelun loppuhuipennus on tyypillisesti 1-2 sekuntia, mukaan lukien STT:n ja LLM:n vastaus.

Jos verkkosi putoaa läpikulussa, suoratoistosoitin ei pysähdy. Sovelluksissa, jotka eivät kestä aukkoja, peräänny tavalliseen ei-streaming-päätteeseen tai puskuriin 500 ms ääntä ennen toiston aloittamista.
5.0/5 (1)

Mitä voisimme parantaa? Palautteesi auttaa meitä korjaamaan ongelmia.

Virtapuhetta reaaliajassa

Ilmaisena ensimmäiset 10 sukupolvea päivässä. Rekisteröidy avataksesi täyden hahmotuen ja API-yhteyden.