TTS w czasie rzeczywistym

Streaming text-to-speech z podsekundowy pierwszy-audio latencji. Zbudowany dla sygnałów głosowych i aplikacji na żywo.

Tekst

Strumienie
0/5,000 znaki ~0.3s pierwszy dźwięk

Ustawienia & głosu

Tylko strumieniowe modele.

Live Latency

Kliknij Stream aby zmierzyć latencję pierwszego audio

Wynik

Piękna dźwiękowe będą grać tutaj, gdy będą strumieniać.

0:00
Pierwszy kawałek:
Szczątki ogółem: 0
Całkowity czas:

Jak działa strumieniowy TTS

1. Wyślij tekst

Tekst POST do /v1/tts/stream / jako wniosek o wydarzenia serwer-Sent.

2. Model generuje

Kokoro odcina tekst i generuje próbkę audio po próbce na GPU.

3. Stream Chunks

Base64-zakodowane kawałki WAV przybywają przez SSE i zaczynają grać natychmiast.

4. Posłuchaj na żywo

Użytkownik słyszy początek zdania w mniej niż sekundie, nawet na długich wejściach.

Przypadki użytkowania

Gdzie podsekundowa latencja odblokuje nowe doświadczenia.

Agenci głosowi

Konwersacyjne roboty, które reagują tak szybko jak człowiek.

Live Dubbing

Przetłumacz strumień w czasie rzeczywistym bez buforowania pauzy.

Gry

Okno dialogowe NPC, które natychmiast reaguje na wybory gracza, nie podano wcześniej VO.

Dostępność

Czytniki ekranu i narzędzia pomocnicze, które zaczynają mówić w momencie kliknięcia użytkownika.

Plany TTS w czasie rzeczywistym

Uruchom bezpłatnie, uaktualnij, gdy potrzebujesz więcej

Darmowe
  • Kokoro streaming (wolny model)
  • 500 znaków na pokolenie
  • 10 darmowych strumieni/dzień na anonimowego użytkownika
  • Poddrugi pierwszy-audio latency
  • SSE strumienie po HTTPS
Najpopularniejsze
Darmowe konto
  • 15 000 znaków przy rejestracji
  • 5000 znaków na strumień
  • Klucz API dla dostępu programowego
  • Historia generacji
  • Brak codziennej nasadki strumienia
Zarejestruj się za darmo
Prof.
  • MOSS-TTS-Realtime (w czasie żywym)
  • 100 000 znaków na strumień
  • Priorytet kolejki GPU
  • Agent głosowy + integracja Twilio
  • Wyższe limity stawek
Uaktualnij

Często zadawane pytania

Realtime text-to-speech strumienie strumieni audio jak są generowane, zamiast czekać na zakończenie całego zdania. Pierwsza próbka audio przybywa poniżej jednej sekundy, co sprawia, że nadaje się do żywych sygnałów głosowych, dubbingu i interaktywnych aplikacji, gdzie latencji ma znaczenie.

Regularny TTS generuje pełny plik audio przed powrotem czegokolwiek – czekasz, następnie słyszysz całe zdanie naraz. Realtime TTS wykorzystuje Wydarzenia Server-Sent (SSE) do strumienia krótkich kawałków audio wraz z ich produkcją. Użytkownik słyszy początek zdania niemal natychmiast, nawet na długich wejściach.

Kokoro jest domyślnym backendem – generuje audio około 100x szybciej niż w czasie rzeczywistym na nowoczesnym GPU. Integrujemy MOSS-TTS-Realtime jako wyższą jakość alternatywy; użytkownicy będą mogli wybrać na żądanie po tym, jak statki.

Typowa latencja pierwszego audio na Kokoro wynosi 300-800 m nad połączeniem publicznym. Strefa sieciowa dominuje po tym. Strona powierzchnia na żywo mierzony czas do pierwszego audio w UI tak, że można zobaczyć dokładnie, ile czasu każde żądanie zajęło.

Agenty głosowe, które reagują konwersacyjne, na żywo dubbing dla streaming media, interaktywna gra NPC, czytniki dostępności, które zaczynają mówić w momencie kliknięcia użytkownika, i każde aplikacje, w którym czekanie na dwie lub trzy sekundy na dźwięk będzie czuć się troche.

Tak. POST na https://api.tts.ai/v1/tts/stream/ z tym samym ciałem co regularny /v1/tts/ punkt końcowy. Odpowiedź jest strumieniem SSE base64- encoded WAV. Darmowy poziom obsługuje 10 pokoleń dziennie na anonimowego użytkownika; uwierzytelnieni użytkownicy otrzymują pełny dodatek znaków na rachunek.

Kokoro używa wstępnie wyszkolonych głosów i nie klonuje. MOSS-TTS-Realtime (gdy jest zintegrowany) obsługuje klonowanie głosu z 3 sekundy. Dla klonowania pełnego głosu dzisiaj użyj regularnego /text-to-speech/ strony z Chatterbox lub GPT-SoviTS – nie są one funkcjonalne do streamingu, ale produkują niestandardowe głosy.

Ten sam koszt charakteru co zwykły punkt końcowy TTS. Kokoro jest bezpłatny 1x koszt. MOSS-TTS-Realtime będzie działać według standardowego poziomu (2x koszt) po włączeniu. Protokół streaming nie dodaje żadnych dopłat cenowych.

Tak — poparować punkt końcowy strumieniowy z Twio głosowy webhook do przekazywania na żywo audio do telefonu. Nasza platforma agentów głosowych już robi to dla IVR i wychodzących telefonów. Zazwyczaj 1-2 sekundy, w tym odpowiedź STT i LLM.

Jeśli Twoja sieć opuści kawałek w transporcie, odtwarzacz streaming przeskoczy zamiast zatrzymywać. W przypadku aplikacji, które nie mogą tolerować luk, powrócić do regularnego punktu końcowego bez streamowania lub buforować 500ms dźwięku przed rozpoczęciem odtwarzania.
5.0/5 (1)

Co moglibyśmy ulepszyć? Twoje zwroty zwrotne pomagają nam rozwiązać problemy.

Przemówienie strumieniowe w czasie rzeczywistym

Darmowe dla pierwszych 10 pokoleń dziennie. Zarejestruj się, aby odblokować pełny dodatek do charakteru i API dostęp.