バグ/機能要求を報告

リアルタイムTTS

テキストから音声へのストリーミングをサブ秒の初期音声遅延で実現します。音声エージェントやライブアプリケーション向けに作成しました。

テキスト

ストリーミング
0/5,000 文字 ~0.3s 初の音声

音声設定(S)

ストリーミング対応モデルのみ。

ライブレテンシー

ストリームをクリックして最初のオーディオの遅延を測定します

出力

音声チャンクが入ってきたら、ここで再生します。

0:00
ファーストチャンク:
チャンク総数: 0
総時間:

ストリーミングTTSの仕組み

1. テキストを送信

サーバから送られたイベントの要求として /v1/tts/stream/ に POST テキストを送信します。

2. モデル生成

テキストをチャンクし,GPU上で音声をサンプルごとに生成する。

ストリーム・チャンクス

Base64エンコーディングのWAVチャンクがSSEを通して到着し、直ちに再生を開始する。

リスティング・ライブ

ユーザは,長い入力でも文の始まりを1秒以内に聞く。

ユースケース

瞬間的な遅延が 新しい体験を解き放つ

ボイスエージェント

人間と同じくらい 速く応答する会話型ロボット

ライブダビング

バッファー中断なしにリアルタイムでストリームを翻訳し、ダビングします。

ゲーム

プレイヤーの選択に即座に反応するNPCダイアログ、予めレンダリングされたVOなし。

アクセシビリティ

ユーザがクリックすると話し始めるスクリーンリーダと補助ツール。

リアルタイム TTS プラン

無料で始め、必要に応じてアップグレード

自由
  • こころ流し(フリーモデル)
  • 500文字/世代
  • 匿名ユーザー1人当たり10ストリーム/日
  • サブセクンド・ファースト・オーディオ・レタイジ
  • HTTPS上のSSEストリーミング
最も人気のある
無料アカウント
  • 登録時の1万5千文字
  • ストリーム当たり5,000文字
  • プログラミングアクセスのAPIキー
  • 世代の歴史
  • 日間ストリーム制限なし
無料登録
プロ
  • MOSS-TTS-リアルタイム (ライブ時)
  • 1ストリームあたり10万文字
  • 優先度GPUキュー
  • 音声エージェント + Twilio 統合
  • 上限
アップグレード

よくある質問

テキストから音声に変換するリアルタイム技術は、文全体が完成するのを待つのではなく、生成された音声のチャンクをストリーミングする。最初の音声サンプルは1秒以内に到着し、ライブボイスエージェント、ダビング、および遅延が重要な対話型アプリケーションに適しています。

通常の TTS は何も返さないで完全なオーディオファイルを生成します。待ってから一気に全文を聞きます。リアルタイム TTS はサーバ送信イベント (SSE) を使ってモデルが生成する短いオーディオチャンクをストリーミングします。ユーザは長い入力でも文の始まりをほぼ即座に聞くことができます。

これは、現代のGPUでリアルタイムよりも約100倍速く音声を生成するデフォルトバックエンドです。私たちは、より高品質な代替品としてMOSS-TTS-Realtimeを統合しています。これがリリースされると、ユーザは要求ごとに選択できるようになります。

Kokoro の典型的な初音声遅延は公開接続で 300-800ms です。その後はネットワークラウンドトリップが支配的です。このページは UI に実際に測定された初音声までの時間を表示しますので、各要求がどれだけかかるかを正確に見ることができます。

対話的に応答する音声エージェント,ストリーミングメディアのライブダビング,対話型ゲームNPC,ユーザがクリックすると話し始めるアクセシビリティリーダ,音声を2〜3秒待つようなアプリケーションは遅いと感じる。

はい。通常の /v1/tts/ エンドポイントと同じボディで https://api.tts.ai/v1/tts/stream/ に POST します。応答は base64 エンコードされた WAV チャンクの SSE ストリームです。フリーの階層は匿名ユーザ当たり1日に 10 回の生成をサポートします。認証されたユーザはアカウント当たりの文字数を完全に利用できます。

Kokoroは予め訓練された音声を使用し、クローンしません。MOSS-TTS-Realtime (統合された場合) は3秒の参照からゼロショット音声クローンをサポートします。今日の完全な音声クローンには、通常の /text-to-speech/ ページを Chatterbox または GPT-SoVITS と共に使用してください。これらはストリーミング機能はありませんが、カスタム音声を生成します。

通常の TTS エンドポイントと同じ文字コストです。Kokoro はフリー・ティア (1x コスト) です。MOSS-TTS-Realtime は有効になると標準・ティア (2x コスト) で実行されます。ストリーミングプロトコルは価格上乗せを加えません。

はい - ストリーミングエンドポイントとTwilioのボイスウェブフックをペアリングして、電話通話にライブオーディオを送信します。我々のボイスエージェントプラットフォームは、IVRと出発通話に対して既にこれを行っています。電話通話のエンドツーエンド遅延は、STTとLLM応答を含めて、通常1-2秒です。

ネットワークがトランスポート中にチャンクを失った場合、ストリーミングプレーヤーは停止する代わりに前進します。ギャップを許容できないアプリケーションは、通常の非ストリーミングエンドポイントに戻るか、再生を開始する前にオーディオを 500 ms バッファーします。
5.0/5 (1)

改善点は何ですか?フィードバックは問題を解決するのに役立ちます。

リアルタイムで音声をストリーミング

1日10世代まで無料です。ログインして文字数と API アクセスをロック解除してください。