バグ/機能要求を報告

リアルタイムTTS

テキストから音声へのストリーミングをサブ秒の初期音声遅延で実現します。音声エージェントやライブアプリケーション向けに作成しました。

無料登録

テキスト

ストリーミング

0/5,000 文字 ~0.3s 初の音声

音声設定(S)

モデルストリーミング対応モデルのみ。

声

スピード 1.0x

ライブレテンシー

—

ストリームをクリックして最初のオーディオの遅延を測定します

出力

音声チャンクが入ってきたら、ここで再生します。

ストリーミングTTSの仕組み

1. テキストを送信

サーバから送られたイベントの要求として /v1/tts/stream/ に POST テキストを送信します。

2. モデル生成

テキストをチャンクし，GPU上で音声をサンプルごとに生成する。

ストリーム・チャンクス

Base64エンコーディングのWAVチャンクがSSEを通して到着し、直ちに再生を開始する。

リスティング・ライブ

ユーザは，長い入力でも文の始まりを１秒以内に聞く。

ユースケース

瞬間的な遅延が新しい体験を解き放つ

ボイスエージェント

人間と同じくらい速く応答する会話型ロボット

ライブダビング

バッファー中断なしにリアルタイムでストリームを翻訳し、ダビングします。

ゲーム

プレイヤーの選択に即座に反応するNPCダイアログ、予めレンダリングされたVOなし。

アクセシビリティ

ユーザがクリックすると話し始めるスクリーンリーダと補助ツール。

リアルタイム TTS プラン

無料で始め、必要に応じてアップグレード

自由

こころ流し（フリーモデル）
500文字/世代
匿名ユーザー1人当たり10ストリーム/日
サブセクンド・ファースト・オーディオ・レタイジ
HTTPS上のSSEストリーミング

最も人気のある

無料アカウント

登録時の1万5千文字
ストリーム当たり5,000文字
プログラミングアクセスのAPIキー
世代の歴史
日間ストリーム制限なし

無料登録

プロ

MOSS-TTS-リアルタイム (ライブ時)
1ストリームあたり10万文字
優先度GPUキュー
音声エージェント + Twilio 統合
上限

アップグレード

よくある質問

テキストから音声に変換するリアルタイム技術は、文全体が完成するのを待つのではなく、生成された音声のチャンクをストリーミングする。最初の音声サンプルは1秒以内に到着し、ライブボイスエージェント、ダビング、および遅延が重要な対話型アプリケーションに適しています。

通常の TTS は何も返さないで完全なオーディオファイルを生成します。待ってから一気に全文を聞きます。リアルタイム TTS はサーバ送信イベント (SSE) を使ってモデルが生成する短いオーディオチャンクをストリーミングします。ユーザは長い入力でも文の始まりをほぼ即座に聞くことができます。

これは、現代のGPUでリアルタイムよりも約100倍速く音声を生成するデフォルトバックエンドです。私たちは、より高品質な代替品としてMOSS-TTS-Realtimeを統合しています。これがリリースされると、ユーザは要求ごとに選択できるようになります。

Kokoro の典型的な初音声遅延は公開接続で 300-800ms です。その後はネットワークラウンドトリップが支配的です。このページは UI に実際に測定された初音声までの時間を表示しますので、各要求がどれだけかかるかを正確に見ることができます。

対話的に応答する音声エージェント，ストリーミングメディアのライブダビング，対話型ゲームＮＰＣ，ユーザがクリックすると話し始めるアクセシビリティリーダ，音声を２〜３秒待つようなアプリケーションは遅いと感じる。

はい。通常の /v1/tts/ エンドポイントと同じボディで https://api.tts.ai/v1/tts/stream/ に POST します。応答は base64 エンコードされた WAV チャンクの SSE ストリームです。フリーの階層は匿名ユーザ当たり1日に 10 回の生成をサポートします。認証されたユーザはアカウント当たりの文字数を完全に利用できます。

Kokoroは予め訓練された音声を使用し、クローンしません。MOSS-TTS-Realtime (統合された場合) は3秒の参照からゼロショット音声クローンをサポートします。今日の完全な音声クローンには、通常の /text-to-speech/ ページを Chatterbox または GPT-SoVITS と共に使用してください。これらはストリーミング機能はありませんが、カスタム音声を生成します。

通常の TTS エンドポイントと同じ文字コストです。Kokoro はフリー・ティア (1x コスト) です。MOSS-TTS-Realtime は有効になると標準・ティア (2x コスト) で実行されます。ストリーミングプロトコルは価格上乗せを加えません。

はい - ストリーミングエンドポイントとTwilioのボイスウェブフックをペアリングして、電話通話にライブオーディオを送信します。我々のボイスエージェントプラットフォームは、IVRと出発通話に対して既にこれを行っています。電話通話のエンドツーエンド遅延は、STTとLLM応答を含めて、通常1-2秒です。

ネットワークがトランスポート中にチャンクを失った場合、ストリーミングプレーヤーは停止する代わりに前進します。ギャップを許容できないアプリケーションは、通常の非ストリーミングエンドポイントに戻るか、再生を開始する前にオーディオを 500 ms バッファーします。

5.0/5 (1)

リアルタイムで音声をストリーミング

1日10世代まで無料です。ログインして文字数と API アクセスをロック解除してください。

無料登録価格を表示

リアルタイムTTS

テキスト

音声設定(S)

ライブレテンシー

出力

ストリーミングTTSの仕組み

1. テキストを送信

2. モデル生成

ストリーム・チャンクス

リスティング・ライブ

ユースケース

ボイスエージェント

ライブダビング

ゲーム

アクセシビリティ

リアルタイム TTS プラン

よくある質問

リアルタイムＴＴＳとは何か。

実時間ＴＴＳは通常のＴＴＳとどう異なるのか。

どのモデルがリアルタイムページを動かしているのか？

初回音声の遅延はどれくらい？

リアルタイムのTTSで何を作れる？

リアルタイムＴＴＳのためのＡＰＩはあるのか？

音声クローンはサポートされていますか。

リアルタイムのTTSはどれくらいかかる？

電話で使えますか。

なぜ音声が中間で切れる場合がありますか。

リアルタイムで音声をストリーミング