TTS w czasie rzeczywistym
Streaming text-to-speech z podsekundowy pierwszy-audio latencji. Zbudowany dla sygnałów głosowych i aplikacji na żywo.
Jak działa strumieniowy TTS
1. Wyślij tekst
Tekst POST do /v1/tts/stream / jako wniosek o wydarzenia serwer-Sent.
2. Model generuje
Kokoro odcina tekst i generuje próbkę audio po próbce na GPU.
3. Stream Chunks
Base64-zakodowane kawałki WAV przybywają przez SSE i zaczynają grać natychmiast.
4. Posłuchaj na żywo
Użytkownik słyszy początek zdania w mniej niż sekundie, nawet na długich wejściach.
Przypadki użytkowania
Gdzie podsekundowa latencja odblokuje nowe doświadczenia.
Agenci głosowi
Konwersacyjne roboty, które reagują tak szybko jak człowiek.
Live Dubbing
Przetłumacz strumień w czasie rzeczywistym bez buforowania pauzy.
Gry
Okno dialogowe NPC, które natychmiast reaguje na wybory gracza, nie podano wcześniej VO.
Dostępność
Czytniki ekranu i narzędzia pomocnicze, które zaczynają mówić w momencie kliknięcia użytkownika.
Plany TTS w czasie rzeczywistym
Uruchom bezpłatnie, uaktualnij, gdy potrzebujesz więcej
- Kokoro streaming (wolny model)
- 500 znaków na pokolenie
- 10 darmowych strumieni/dzień na anonimowego użytkownika
- Poddrugi pierwszy-audio latency
- SSE strumienie po HTTPS
- 15 000 znaków przy rejestracji
- 5000 znaków na strumień
- Klucz API dla dostępu programowego
- Historia generacji
- Brak codziennej nasadki strumienia
- MOSS-TTS-Realtime (w czasie żywym)
- 100 000 znaków na strumień
- Priorytet kolejki GPU
- Agent głosowy + integracja Twilio
- Wyższe limity stawek
Często zadawane pytania
Co moglibyśmy ulepszyć? Twoje zwroty zwrotne pomagają nam rozwiązać problemy.
Przemówienie strumieniowe w czasie rzeczywistym
Darmowe dla pierwszych 10 pokoleń dziennie. Zarejestruj się, aby odblokować pełny dodatek do charakteru i API dostęp.