报告错误/功能要求

实时 TTTS

为语音代理和实时应用而建造。

签署自由

文字

串流

0/5,000 字符 ~0.3s 第一个音频

声音设置( S)

型仅能串流的模型。

语音声音

速度 1.0x

时间间隔

—

点击流以测量第一奥迪拉延缓度

产出

音频块在流进时会在这里播放。

TTTS如何流动工作

1. 发送文本

POST 文本到 /v1/tts/ stream/ 作为服务器- Sent Endition 请求的 POST 文本。

2. 模型生成

Kokororo在 GPU 上填充文本并生成音频样本。

3. 流流块

以64码为基准的WAV碎片到达SSE上空并立即开始玩耍

4. 监听实况

用户在一秒钟内听到句子的开头,即使是在长长的输入中。

使用案例

二分空档释放出新经验的地方。

语音代理器

与人类一样快速反应的对立生物体

Dubbing 活生生的生活

实时翻译和调试流流,不设缓冲暂停。

游戏

NPC 对话框, 即时对玩家选择的反应, 没有预发的 VO 。

无障碍

屏幕阅读器和辅助工具在用户点击时开始朗读。

TTS计划

开始免费, 需要时升级

自由

Kokoro 流( 免费模式)
每一代500个字符
每个匿名用户每天10个自由流/每天10个匿名用户
第二等第一级
SSE 流经 HTTPS

最受欢迎的

自由帐户

注册时 15,000 个字符
5 000个每溪5 000个字符
API 方案获取机会的API 关键
世代历史
无每日溪流上限

签署自由

职业

生活时间(活时)
每溪100 000 查查(每溪10万查查)
优先的 GPU 队列
语音代理+Twilio集成
较高费率限额

升级

常问问题

实时文本到语音流生成时的音频块,而不是等待整个句子完成。第一个音频样本在一秒之内到达,适合实时语音代理器、调音器和有潜伏问题的交互式应用程序。

常规 TTS 生成完整音频文件, 然后再返回任何文件 —— 您等待, 然后同时听到整个句子。实时 TTS 使用服务器- Sent 事件( SSE) 来流出短音频块作为模型的产物。用户几乎立即听到句子的开始, 即使输入时间很长。

Kokoro是默认后端, 它在现代 GPU 上产生大约100x 的音频, 比实时速度快。我们正在将 MOS- TTS- Realtime 整合为一种质量更高的替代品; 用户一旦收到请求, 就可以选择。

Kokoro 上典型的一劳永逸时间在公共连接上为300- 800米。之后网络圆轨将占主导地位。页面显示UI 中活度测量的时间到第一个时间, 这样您就能看到每个请求需要多久。

回应语音代理器的语音代理器,为流媒体进行现场调试,互动游戏NPCs,在用户点击时开始说话的无障碍阅读器,以及等待两三秒钟音频会感到迟钝的任何应用程序。

是的, POST 到 https://api.tts.ai/v1/ts/strem/ 与正则/v1/ts/ 端点相同体体的 https:// api. tts.ai/v1/ts/stream/ 。响应是 SSE 流中的64- encoddd WAV块。免费阶梯每天支持每个匿名用户10代人; 经认证的用户获得全部的 peraccount 字符允许。

Kokoro使用预先训练过的声音,而不是克隆。 MOS-TTS-Realtime(当整合时)支持三秒钟的零发声克隆。对于今天的全部语音克隆,请使用与聊天盒或GPT-SOVITS(GPTbox)或GPT-SOVITS(GPTTS-SVITS)的常规/文本到语音/页面 — — 这些不是流传能力,而是生成自定义声音。

字符成本与普通 TTS 端点相同。 Kokoro 是自由级( 1x 成本) 。启用时, MOSS- TTS- Realtime 将运行在标准级(2x 成本) 。流序协议不添加任何定价附加费。

是的 — — 将流线端点与 Twilio 语音 Webhook 组合在一起, 将现场音频输入到一个电话中。我们的语音代理平台已经为IVR 和外向呼叫做了这个操作。电话中端到端的延迟时间通常为 1-2秒, 包括 STT 和 LLM 响应。

如果您的网络在中转时掉了一块块块, 流流播放器会跳过而不是拖住。对于无法容忍缺口的应用程序, 回到正常的非流端点, 或者在开始播放前缓冲500米的音频。

5.0/5 (1)

实时流流语音

每天免费为前10代人服务。请报名,开放全性格津贴和API服务。

签署自由视图定价

实时 TTTS

文字

声音设置( S)

时间间隔

产出

TTTS如何流动工作

1. 发送文本

2. 模型生成

3. 流流块

4. 监听实况

使用案例

语音代理器

Dubbing 活生生的生活

游戏

无障碍

TTS计划

常问问题

什么是实时TTS?

实时TTS和普通TTS有什么不同?

哪个模型能为实时页面提供动力?

第一次穿长裤有多快?

我能用实时 TTS 构建什么?

是否有实时 TTS 的API?

它是否支持语音克隆?

实时TTS要花多少钱?

我能用在电话上吗?

为什么声音有时会切断中字?

实时流流语音