开源文本到语音模式
我们平台上的每一个TTS模型都是开放的,拥有商业友好许可证。 麻省理工学院, Apache 2. 0 — — 没有专有的锁定,没有使用限制,没有意外的许可费。 通过我们托管的API使用它们,或者在完全控制下将它们自己托管在自己的基础设施上。
开放源代码 TTTS 福利
为什么开源模式对您的项目很重要
所有开放源码
每套TTS.ai模型都使用许可的开放源码许可证,没有专有黑盒,没有供应商锁定,没有意外许可证费。
麻省理工学院/Apache 2.0
模型根据MIT或Apache 2.0(最宽松的开放源码许可证)获得许可证,在商业上使用、修改、再分配——没有限制。
自住自住自住自住
下载任何模型并运行在您自己的硬件上。 完全控制您的数据、 静态和基础设施。 不需要对云的依赖 。
GPU 优化
在 CUDA 支持下,为 NVIDIA GPUs 优化了模型。 Piper 只运行在 CPU 上。 大多数模型需要 2-8GB VRAM 来有效推断 。
维持社区
活跃的开放源码社区维护和改进这些模式,欢迎捐款——提交错误、改进和关于GitHub的新声音。
商业使用OK
所有模型都允许在其许可证下进行商业使用,建造产品,销售服务,创造商业内容,不收取使用费或使用费。
我们的开放源码模型目录
每一个模型,它的执照,它能做的最好
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
最佳用于: Apache 2. 0 - 质量最佳的免费模式,82M Prams, 容易自我主机
尝试 Kokoro
Piper
Free
A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.
最佳用于: MIT - 仅使用CPU,为边缘装置和嵌入的自我托管装置提供完美条件
尝试 Piper
VITS
Free
Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.
最佳用于: MIT-许多下游模式使用的基本结构
尝试 VITS
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
最佳用于: MIT——标准TTS以外的独特的音频生成能力
尝试 Bark
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
最佳用于: Apache 2.0 - 最高质量,广泛研究的参考实施
尝试 Tortoise TTS
OpenVoice
Premium
Instant voice cloning with granular control over style, emotion, and accent.
最佳用于: MIT - 具有颗粒风格控制的开放源语音克隆
尝试 OpenVoice如何使用开源 TTTS
使用主机 API 或自己运行模型
探索开放源码模型
浏览我们的20+开放源代码 TTS 模型目录。 每个模型页面显示许可证、 架构、 能力和自我托管要求 。
在您的浏览器中尝试
直接在 TTS.ai 上测试任何模型而不安装任何设备。 我们的 GPU 服务器处理处理, 这样您就可以在承诺自行托管之前评估质量 。
自 己 或 使用我们的 API
克隆模型来自 GitHub, 并在当地运行, 或者使用我们主机的 API 生产。 自我托管可以完全控制; 我们的 API 提供了管理的基础设施 。
构建您的应用程序
使用自办模型或我们的REST API将TTS纳入产品。 所有模型都可以在商业上使用,无需许可证费或使用费。
许可证比较比较
使用商业友好型开放源许可证的所有TTS.ai模式
| 型 型 | 许可证许可证许可证许可证 | 商业使用 | 修改修改 | 自我自住 | 归属 |
|---|---|---|---|---|---|
| Kokoro | Apache 2.0 | 所需 | |||
| Piper | MIT | 任择 | |||
| VITS | MIT | 任择 | |||
| MeloTTS | MIT | 任择 | |||
| Chatterbox | MIT | 任择 | |||
| Tortoise TTS | Apache 2.0 | 所需 | |||
| StyleTTS 2 | MIT | 任择 | |||
| OpenVoice | MIT | 任择 | |||
| Sesame CSM | Apache 2.0 | 所需 | |||
| Orpheus | Llama 3.2 | "Built with Llama" |
自我住房与东道主API
自己做模特 或者让我们处理基础设施
以自 己的硬件为主
在 TTS.ai 上的每个模型都可以在 GitHub 或 Hugging Face 上作为开放源码项目。 下载重量, 安装依赖关系, 并在您自己的 GPU 上进行推断 。 您完全控制着长期性、 隐私和缩放 。
- 完整数据隐私 - 音频从不离开您的服务器
- 初始启动后没有每项请求费用
- 自定义对数据进行自定义微调
- 需要 GPU 硬件(建议 NVIDIA)
- 您管理更新、 缩放和依赖关系
使用 TTS.ai 托管 API
立即通过一个 REST API 来访问所有 20 + 模型。 我们处理 GPU 提供、 模式更新、 队列管理 和 缩放 。 一个 API 键可以让您访问每个模型, 不需要管理单独的部署 。
- 不需要 GPU 硬件
- 所有20+模型通过单一API
- 自动模式更新和改进
- 99.9%的剩余基础设施闲置时间
- 只为使用而付费
快速启动: API 或 自住
使用主机 API, 或在当地安装 Kokoro 几分钟后
import requests
response = requests.post("https://api.tts.ai/v1/tts", json={
"text": "Open source TTS with a simple API.",
"model": "kokoro",
"voice": "af_heart",
"format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})
with open("output.wav", "wb") as f:
f.write(response.content)
# Install Kokoro locally
pip install kokoro
# Generate speech on your own GPU
import kokoro
pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
kokoro.save(audio, f"output_{i}.wav")
开放源码, 价格低廉的定价
我们主办的API使开放源代码的TTS在不管理GPU的情况下可以进入。
自由级
$0
注册时15个贷项
- 4种免费开放源模式
- 基本使用无注册
- 允许商业使用
启动启动器
$9
500 000个字符/月/月
- 所有20+开放源模式
- 语音克隆
- API 访问
职业
$29
2 000 000个字符/月/月
- 优先的 GPU 处理
- 所有溢价模型
- 企业支助
常问问题
关于公开源码文本供演讲的共同问题
我们能改进什么?您的反馈帮助我们解决问题。