Ilmoita vika / Ominaisuuspyyntö

Reaaliaikainen TTS

Virrataan tekstistä ääneen sub-sekunnin ensimmäisen äänen latenssilla, joka on rakennettu ääniagenteille ja livesovelluksille.

Rekisteröidy ilmaiseksi

Teksti

Virtaus

0/5,000 hahmot ~0.3s ensimmäinen äänentoisto

Ääniasetukset

Malli Virtauskykyisiä malleja vain.

Ääni

Nopeus 1.0x

Elä latenssia

—

Klikkaa Stream mittaamaan ensiäänilatenssia

Tuloste

Äänipalat soivat täällä, kun ne virtaavat sisään.

Miten TTS:n virtaviivaistaminen toimii?

1. Lähetä teksti

POST-teksti osoitteeseen /v1/tts/stream/ as a Server-Sent Events -pyyntö.

2. Malli luo

Kokoro pilkkoo tekstiä ja tuottaa ääninäytteen näytteeltä GPU:lle.

3. Stream Chunks

Base64-koodatut WAV-lohkot saapuvat SSE:n ohi ja alkavat pelata välittömästi.

4. Kuuntele Live

Käyttäjä kuulee lauseen alun alle sekunnissa, jopa pitkistä syötöistä.

Käytä tapauksia

Siellä alisekunnin latenssi avaa uusia kokemuksia.

Ääniagentit

Keskustelubotit, jotka reagoivat niin nopeasti kuin ihminen.

Elävää kuuntelua

Käännä ja piirrä virta reaaliajassa ilman puskurointipysähdyksiä.

Pelit

NPC-valintaikkuna, joka reagoi pelaajavalintoihin välittömästi, ei ennalta renderoitua VO:ta.

Esteettömyys

Näytönlukijat ja avustavat työkalut, jotka alkavat puhua, kun käyttäjä napsauttaa.

Reaaliaikaiset TTS-suunnitelmat

Aloita ilmaiseksi, päivitä kun tarvitset lisää

Vapaa

Kokoro-suoratoisto (ilmaismalli)
500 merkkiä sukupolvea kohti
10 ilmaista virtaa/päivä per nimetön käyttäjä
Sub-second First Audio -latenssi
SSE:n suoratoisto HTTPS:n yllä

Suosituin

Vapaa tili

15 000 merkkiä ilmoittautumassa
5 000 chars per virta
Ohjelmallisen pääsyn API-avain
Sukupolven historia
Ei päivittäistä virtauksen suojusta

Rekisteröidy ilmaiseksi

Pro

MOSS-TTS-Tosiaika (eläessä)
100 000 chars per virta
Ensisijainen GPU-jono
Ääniaine + Twilio-integraatio
Korkeammat korkorajat

Päivitys

Usein kysyttyjä kysymyksiä

Reaaliaikaiset teksti-äänestä-äänet virtaavat äänikappaleita, kun niitä syntyy, sen sijaan että odotettaisiin koko lauseen valmistumista. Ensimmäinen ääninäyte saapuu alle sekunnin, mikä tekee siitä sopivan live-ääniagenteille, dubbaamiselle ja vuorovaikutteisille sovelluksille, joissa viiveellä on merkitystä.

Säännöllinen TTS luo koko äänitiedoston ennen kuin palauttaa mitään – odotat ja kuulet koko lauseen kerralla. Realtime TTS käyttää Server-Sent Events (SSE) -ohjelmaa lyhyiden äänikappaleiden streamaamiseen mallin tuottaessa niitä. Käyttäjä kuulee lauseen alkamisen lähes välittömästi, jopa pitkillä tuloksilla.

Kokoro on oletuksena backend – se tuottaa äänen noin 100 kertaa nopeammin kuin reaaliajassa nykyaikaisella GPU:lla. Integroimme MOSS-TTS-realtimea laadukkaammaksi vaihtoehdoksi. Käyttäjät voivat valita pyynnöstä, kun laivat lähetetään.

Kokorolla tyypillinen ensiaudio-latenssi on 300-800 metriä yleisellä yhteydellä. Verkkokierros on sen jälkeen hallitseva. Sivulla näkyy suora mitattu aika ensiaudioon UI:ssa, jotta näet tarkalleen, kuinka kauan kukin pyyntö kesti.

Ääniagentit, jotka vastaavat keskusteluyhteyksiin, suoratoistopuheluihin, vuorovaikutteisiin NPC-peleihin, saavutettavuuslukijoihin, jotka alkavat puhua sillä hetkellä, kun käyttäjä napsauttaa, ja sovelluksiin, joissa odotetaan kahta tai kolmea sekuntia ääntä, tuntuisivat hitailta.

Kyllä. POST to https://api.tts.ai/v1/tts/stream/ with the same body with the Regular/v1/tts/ subjective. Vastaus on SSE-virta, jossa on base64-koodattuja WAV-lohkoja. Vapaa taso tukee 10 sukupolvea päivässä jokaista anonyymiä käyttäjää kohden; oikeaksi todistetut käyttäjät saavat täydet tilikohtaiset tunnusluvut.

Kokoro käyttää valmiiksi koulutettuja ääniä eikä kloonaa. MOSS-TTS-Realtime (kun se on integroitu) tukee kolmen sekunnin referenssillä nollakuormitettua äänen kloonausta. Täyden äänen kloonauksessa käytetään tänään Chatterboxin tai GPT-SoVITS:n kanssa säännöllistä / tekstistä ääneen -sivua, joka ei ole suoratoistokykyinen, vaan tuottaa mukautettuja ääniä.

Kokoro on vapaatasoinen (1x cost). MOSS-TTS-realtime kulkee vakiotasolla (2x cost) kun se otetaan käyttöön. Suoratoistoprotokolla ei lisää hinnoittelun lisämaksua.

Kyllä – yhdistä suoratoiston päätetapahtuma Twilio-äänikoukkuun, joka syöttää live-äänen puheluun. Ääniagenttialustamme tekee tämän jo IVR:lle ja lähtevälle puhelulle. Puhelun loppuhuipennus on tyypillisesti 1-2 sekuntia, mukaan lukien STT:n ja LLM:n vastaus.

Jos verkkosi putoaa läpikulussa, suoratoistosoitin ei pysähdy. Sovelluksissa, jotka eivät kestä aukkoja, peräänny tavalliseen ei-streaming-päätteeseen tai puskuriin 500 ms ääntä ennen toiston aloittamista.

5.0/5 (1)

Virtapuhetta reaaliajassa

Ilmaisena ensimmäiset 10 sukupolvea päivässä. Rekisteröidy avataksesi täyden hahmotuen ja API-yhteyden.

Rekisteröidy ilmaiseksi Näkymän hinnoittelu

Reaaliaikainen TTS

Teksti

Ääniasetukset

Elä latenssia

Tuloste

Miten TTS:n virtaviivaistaminen toimii?

1. Lähetä teksti

2. Malli luo

3. Stream Chunks

4. Kuuntele Live

Käytä tapauksia

Ääniagentit

Elävää kuuntelua

Pelit

Esteettömyys

Reaaliaikaiset TTS-suunnitelmat

Usein kysyttyjä kysymyksiä

Mikä on reaaliaikainen TTS?

Miten reaaliaikainen TTS eroaa tavallisesta TTS:stä?

Mikä malli valtaa reaaliaikaisen sivun?

Kuinka nopea on ensimmäisen äänen latenssi?

Mitä voin rakentaa reaaliaikaisella TTS:llä?

Onko reaaliaikaista TTS-rajapintaa olemassa?

Tukeeko se äänen kloonausta?

Kuinka paljon reaaliaikainen TTS maksaa?

Voinko käyttää sitä puheluissa?

Miksi ääni joskus katkaisee välisanan?

Virtapuhetta reaaliajassa