Zgłosić błąd / żądanie funkcji

TTS w czasie rzeczywistym

Streaming text-to-speech z podsekundowy pierwszy-audio latencji. Zbudowany dla sygnałów głosowych i aplikacji na żywo.

Zarejestruj się za darmo

Tekst

Strumienie

0/5,000 znaki ~0.3s pierwszy dźwięk

Ustawienia & głosu

Wzór Tylko strumieniowe modele.

Głos

Prędkość 1.0x

Live Latency

—

Kliknij Stream aby zmierzyć latencję pierwszego audio

Wynik

Piękna dźwiękowe będą grać tutaj, gdy będą strumieniać.

Jak działa strumieniowy TTS

1. Wyślij tekst

Tekst POST do /v1/tts/stream / jako wniosek o wydarzenia serwer-Sent.

2. Model generuje

Kokoro odcina tekst i generuje próbkę audio po próbce na GPU.

3. Stream Chunks

Base64-zakodowane kawałki WAV przybywają przez SSE i zaczynają grać natychmiast.

4. Posłuchaj na żywo

Użytkownik słyszy początek zdania w mniej niż sekundie, nawet na długich wejściach.

Przypadki użytkowania

Gdzie podsekundowa latencja odblokuje nowe doświadczenia.

Agenci głosowi

Konwersacyjne roboty, które reagują tak szybko jak człowiek.

Live Dubbing

Przetłumacz strumień w czasie rzeczywistym bez buforowania pauzy.

Gry

Okno dialogowe NPC, które natychmiast reaguje na wybory gracza, nie podano wcześniej VO.

Dostępność

Czytniki ekranu i narzędzia pomocnicze, które zaczynają mówić w momencie kliknięcia użytkownika.

Plany TTS w czasie rzeczywistym

Uruchom bezpłatnie, uaktualnij, gdy potrzebujesz więcej

Darmowe

Kokoro streaming (wolny model)
500 znaków na pokolenie
10 darmowych strumieni/dzień na anonimowego użytkownika
Poddrugi pierwszy-audio latency
SSE strumienie po HTTPS

Najpopularniejsze

Darmowe konto

15 000 znaków przy rejestracji
5000 znaków na strumień
Klucz API dla dostępu programowego
Historia generacji
Brak codziennej nasadki strumienia

Zarejestruj się za darmo

Prof.

MOSS-TTS-Realtime (w czasie żywym)
100 000 znaków na strumień
Priorytet kolejki GPU
Agent głosowy + integracja Twilio
Wyższe limity stawek

Uaktualnij

Często zadawane pytania

Realtime text-to-speech strumienie strumieni audio jak są generowane, zamiast czekać na zakończenie całego zdania. Pierwsza próbka audio przybywa poniżej jednej sekundy, co sprawia, że nadaje się do żywych sygnałów głosowych, dubbingu i interaktywnych aplikacji, gdzie latencji ma znaczenie.

Regularny TTS generuje pełny plik audio przed powrotem czegokolwiek – czekasz, następnie słyszysz całe zdanie naraz. Realtime TTS wykorzystuje Wydarzenia Server-Sent (SSE) do strumienia krótkich kawałków audio wraz z ich produkcją. Użytkownik słyszy początek zdania niemal natychmiast, nawet na długich wejściach.

Kokoro jest domyślnym backendem – generuje audio około 100x szybciej niż w czasie rzeczywistym na nowoczesnym GPU. Integrujemy MOSS-TTS-Realtime jako wyższą jakość alternatywy; użytkownicy będą mogli wybrać na żądanie po tym, jak statki.

Typowa latencja pierwszego audio na Kokoro wynosi 300-800 m nad połączeniem publicznym. Strefa sieciowa dominuje po tym. Strona powierzchnia na żywo mierzony czas do pierwszego audio w UI tak, że można zobaczyć dokładnie, ile czasu każde żądanie zajęło.

Agenty głosowe, które reagują konwersacyjne, na żywo dubbing dla streaming media, interaktywna gra NPC, czytniki dostępności, które zaczynają mówić w momencie kliknięcia użytkownika, i każde aplikacje, w którym czekanie na dwie lub trzy sekundy na dźwięk będzie czuć się troche.

Tak. POST na https://api.tts.ai/v1/tts/stream/ z tym samym ciałem co regularny /v1/tts/ punkt końcowy. Odpowiedź jest strumieniem SSE base64- encoded WAV. Darmowy poziom obsługuje 10 pokoleń dziennie na anonimowego użytkownika; uwierzytelnieni użytkownicy otrzymują pełny dodatek znaków na rachunek.

Kokoro używa wstępnie wyszkolonych głosów i nie klonuje. MOSS-TTS-Realtime (gdy jest zintegrowany) obsługuje klonowanie głosu z 3 sekundy. Dla klonowania pełnego głosu dzisiaj użyj regularnego /text-to-speech/ strony z Chatterbox lub GPT-SoviTS – nie są one funkcjonalne do streamingu, ale produkują niestandardowe głosy.

Ten sam koszt charakteru co zwykły punkt końcowy TTS. Kokoro jest bezpłatny 1x koszt. MOSS-TTS-Realtime będzie działać według standardowego poziomu (2x koszt) po włączeniu. Protokół streaming nie dodaje żadnych dopłat cenowych.

Tak — poparować punkt końcowy strumieniowy z Twio głosowy webhook do przekazywania na żywo audio do telefonu. Nasza platforma agentów głosowych już robi to dla IVR i wychodzących telefonów. Zazwyczaj 1-2 sekundy, w tym odpowiedź STT i LLM.

Jeśli Twoja sieć opuści kawałek w transporcie, odtwarzacz streaming przeskoczy zamiast zatrzymywać. W przypadku aplikacji, które nie mogą tolerować luk, powrócić do regularnego punktu końcowego bez streamowania lub buforować 500ms dźwięku przed rozpoczęciem odtwarzania.

5.0/5 (1)

Przemówienie strumieniowe w czasie rzeczywistym

Darmowe dla pierwszych 10 pokoleń dziennie. Zarejestruj się, aby odblokować pełny dodatek do charakteru i API dostęp.

Zarejestruj się za darmo Widok Cennik

TTS w czasie rzeczywistym

Tekst

Ustawienia & głosu

Live Latency

Wynik

Jak działa strumieniowy TTS

1. Wyślij tekst

2. Model generuje

3. Stream Chunks

4. Posłuchaj na żywo

Przypadki użytkowania

Agenci głosowi

Live Dubbing

Gry

Dostępność

Plany TTS w czasie rzeczywistym

Często zadawane pytania

Co to jest TTS w czasie rzeczywistym?

W jaki sposób TTS w czasie rzeczywistym różni się od zwykłego TTS?

Który model nadaje stronę w czasie rzeczywistym?

Jak szybko jest pierwsza latencja audio?

Co mogę zbudować z TTS w czasie rzeczywistym?

Czy istnieje API dla TTS w czasie rzeczywistym?

Czy wspiera klonowanie głosu?

Ile kosztuje TTS w czasie rzeczywistym?

Mogę go użyć w telefonach?

Dlaczego dźwięk czasami wyłącza połowę słowa?

Przemówienie strumieniowe w czasie rzeczywistym