实时 TTTS

为语音代理和实时应用而建造。

文字

串流
0/5,000 字符 ~0.3s 第一个音频

声音设置( S)

仅能串流的模型。

时间间隔

点击流以测量第一奥迪拉延缓度

产出

音频块在流进时会在这里播放 。

0:00
第一个块:
总块数: 0
时间总总时间:

TTTS如何流动工作

1. 发送文本

POST 文本到 /v1/tts/ stream/ 作为服务器- Sent Endition 请求的 POST 文本 。

2. 模型生成

Kokororo在 GPU 上填充文本并生成音频样本。

3. 流流块

以64码为基准的WAV碎片 到达SSE上空 并立即开始玩耍

4. 监听实况

用户在一秒钟内听到句子的开头,即使是在长长的输入中。

使用案例

二分空档释放出新经验的地方。

语音代理器

与人类一样快速反应的对立生物体

Dubbing 活生生的生活

实时翻译和调试流流,不设缓冲暂停。

游戏

NPC 对话框, 即时对玩家选择的反应, 没有预发的 VO 。

无障碍

屏幕阅读器和辅助工具在用户点击时开始朗读。

TTS计划

开始免费, 需要时升级

自由
  • Kokoro 流( 免费模式)
  • 每一代500个字符
  • 每个匿名用户每天10个自由流/每天10个匿名用户
  • 第二等第一级
  • SSE 流经 HTTPS
最受欢迎的
自由帐户
  • 注册时 15,000 个字符
  • 5 000个每溪5 000个字符
  • API 方案获取机会的API 关键
  • 世代历史
  • 无每日溪流上限
签署自由
职业
  • 生活时间(活时)
  • 每溪100 000 查查(每溪10万查查)
  • 优先的 GPU 队列
  • 语音代理+Twilio集成
  • 较高费率限额
升级

常问问题

实时文本到语音流生成时的音频块,而不是等待整个句子完成。 第一个音频样本在一秒之内到达,适合实时语音代理器、调音器和有潜伏问题的交互式应用程序。

常规 TTS 生成完整音频文件, 然后再返回任何文件 —— 您等待, 然后同时听到整个句子 。 实时 TTS 使用服务器- Sent 事件( SSE) 来流出短音频块作为模型的产物 。 用户几乎立即听到句子的开始, 即使输入时间很长 。

Kokoro是默认后端, 它在现代 GPU 上产生大约100x 的音频, 比实时速度快。 我们正在将 MOS- TTS- Realtime 整合为一种质量更高的替代品; 用户一旦收到请求, 就可以选择 。

Kokoro 上典型的一劳永逸时间在公共连接上为300- 800米。 之后网络圆轨将占主导地位。 页面显示UI 中活度测量的时间到第一个时间, 这样您就能看到每个请求需要多久 。

回应语音代理器的语音代理器,为流媒体进行现场调试,互动游戏NPCs,在用户点击时开始说话的无障碍阅读器,以及等待两三秒钟音频会感到迟钝的任何应用程序。

是的, POST 到 https://api.tts.ai/v1/ts/strem/ 与正则/v1/ts/ 端点相同体体的 https:// api. tts.ai/v1/ts/stream/ 。 响应是 SSE 流中的64- encoddd WAV块。 免费阶梯每天支持每个匿名用户10代人; 经认证的用户获得全部的 peraccount 字符允许 。

Kokoro使用预先训练过的声音,而不是克隆。 MOS-TTS-Realtime(当整合时)支持三秒钟的零发声克隆。 对于今天的全部语音克隆,请使用与聊天盒或GPT-SOVITS(GPTbox)或GPT-SOVITS(GPTTS-SVITS)的常规/文本到语音/页面 — — 这些不是流传能力,而是生成自定义声音。

字符成本与普通 TTS 端点相同。 Kokoro 是自由级( 1x 成本) 。 启用时, MOSS- TTS- Realtime 将运行在标准级(2x 成本) 。 流序协议不添加任何定价附加费 。

是的 — — 将流线端点与 Twilio 语音 Webhook 组合在一起, 将现场音频输入到一个电话中。 我们的语音代理平台已经为IVR 和 外向呼叫做了这个操作。 电话中端到端的延迟时间通常为 1-2秒, 包括 STT 和 LLM 响应 。

如果您的网络在中转时掉了一块块块, 流流播放器会跳过而不是拖住。 对于无法容忍缺口的应用程序, 回到正常的非流端点, 或者在开始播放前缓冲500米的音频 。
5.0/5 (1)

我们能改进什么?您的反馈帮助我们解决问题。

实时流流语音

每天免费为前10代人服务。请报名,开放全性格津贴和API服务。