リアルタイムTTS
テキストから音声へのストリーミングをサブ秒の初期音声遅延で実現します。音声エージェントやライブアプリケーション向けに作成しました。
ストリーミングTTSの仕組み
1. テキストを送信
サーバから送られたイベントの要求として /v1/tts/stream/ に POST テキストを送信します。
2. モデル生成
テキストをチャンクし,GPU上で音声をサンプルごとに生成する。
ストリーム・チャンクス
Base64エンコーディングのWAVチャンクがSSEを通して到着し、直ちに再生を開始する。
リスティング・ライブ
ユーザは,長い入力でも文の始まりを1秒以内に聞く。
ユースケース
瞬間的な遅延が 新しい体験を解き放つ
ボイスエージェント
人間と同じくらい 速く応答する会話型ロボット
ライブダビング
バッファー中断なしにリアルタイムでストリームを翻訳し、ダビングします。
ゲーム
プレイヤーの選択に即座に反応するNPCダイアログ、予めレンダリングされたVOなし。
アクセシビリティ
ユーザがクリックすると話し始めるスクリーンリーダと補助ツール。
よくある質問
改善点は何ですか?フィードバックは問題を解決するのに役立ちます。