开源文本到语音模式

我们平台上的每一个TTS模型都是开放的,拥有商业友好许可证。 麻省理工学院, Apache 2. 0 — — 没有专有的锁定,没有使用限制,没有意外的许可费。 通过我们托管的API使用它们,或者在完全控制下将它们自己托管在自己的基础设施上。

开放源码 MIT 许可证 阿帕契 2. 0 自住自住自住自住 吉特胡布

现在试试

与Kokoro、Piper、VITS、Melotts免费
您生成的音频将在此显示
已生成
喜欢TTS.ai吗?告诉你的朋友吧!

开放源代码 TTTS 福利

为什么开源模式对您的项目很重要

所有开放源码

每套TTS.ai模型都使用许可的开放源码许可证,没有专有黑盒,没有供应商锁定,没有意外许可证费。

麻省理工学院/Apache 2.0

模型根据MIT或Apache 2.0(最宽松的开放源码许可证)获得许可证,在商业上使用、修改、再分配——没有限制。

自住自住自住自住

下载任何模型并运行在您自己的硬件上。 完全控制您的数据、 静态和基础设施。 不需要对云的依赖 。

GPU 优化

在 CUDA 支持下,为 NVIDIA GPUs 优化了模型。 Piper 只运行在 CPU 上。 大多数模型需要 2-8GB VRAM 来有效推断 。

维持社区

活跃的开放源码社区维护和改进这些模式,欢迎捐款——提交错误、改进和关于GitHub的新声音。

商业使用OK

所有模型都允许在其许可证下进行商业使用,建造产品,销售服务,创造商业内容,不收取使用费或使用费。

我们的开放源码模型目录

每一个模型,它的执照,它能做的最好

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

最佳用于: Apache 2. 0 - 质量最佳的免费模式,82M Prams, 容易自我主机

尝试 Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

最佳用于: MIT - 仅使用CPU,为边缘装置和嵌入的自我托管装置提供完美条件

尝试 Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

最佳用于: MIT-许多下游模式使用的基本结构

尝试 VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

最佳用于: MIT——标准TTS以外的独特的音频生成能力

尝试 Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 语音克隆

最佳用于: Apache 2.0 - 最高质量,广泛研究的参考实施

尝试 Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 语音克隆

最佳用于: MIT - 具有颗粒风格控制的开放源语音克隆

尝试 OpenVoice

如何使用开源 TTTS

使用主机 API 或自己运行模型

1

探索开放源码模型

浏览我们的20+开放源代码 TTS 模型目录。 每个模型页面显示许可证、 架构、 能力和自我托管要求 。

2

在您的浏览器中尝试

直接在 TTS.ai 上测试任何模型而不安装任何设备。 我们的 GPU 服务器处理处理, 这样您就可以在承诺自行托管之前评估质量 。

3

自 己 或 使用我们的 API

克隆模型来自 GitHub, 并在当地运行, 或者使用我们主机的 API 生产。 自我托管可以完全控制; 我们的 API 提供了管理的基础设施 。

4

构建您的应用程序

使用自办模型或我们的REST API将TTS纳入产品。 所有模型都可以在商业上使用,无需许可证费或使用费。

许可证比较比较

使用商业友好型开放源许可证的所有TTS.ai模式

型 型 许可证许可证许可证许可证 商业使用 修改修改 自我自住 归属
Kokoro Apache 2.0 所需
Piper MIT 任择
VITS MIT 任择
MeloTTS MIT 任择
Chatterbox MIT 任择
Tortoise TTS Apache 2.0 所需
StyleTTS 2 MIT 任择
OpenVoice MIT 任择
Sesame CSM Apache 2.0 所需
Orpheus Llama 3.2 "Built with Llama"

自我住房与东道主API

自己做模特 或者让我们处理基础设施

以自 己的硬件为主

在 TTS.ai 上的每个模型都可以在 GitHub 或 Hugging Face 上作为开放源码项目。 下载重量, 安装依赖关系, 并在您自己的 GPU 上进行推断 。 您完全控制着长期性、 隐私和缩放 。

  • 完整数据隐私 - 音频从不离开您的服务器
  • 初始启动后没有每项请求费用
  • 自定义对数据进行自定义微调
  • 需要 GPU 硬件(建议 NVIDIA)
  • 您管理更新、 缩放和依赖关系

使用 TTS.ai 托管 API

立即通过一个 REST API 来访问所有 20 + 模型。 我们处理 GPU 提供、 模式更新、 队列管理 和 缩放 。 一个 API 键可以让您访问每个模型, 不需要管理单独的部署 。

  • 不需要 GPU 硬件
  • 所有20+模型通过单一API
  • 自动模式更新和改进
  • 99.9%的剩余基础设施闲置时间
  • 只为使用而付费

快速启动: API 或 自住

使用主机 API, 或在当地安装 Kokoro 几分钟后

Option 1: TTS.ai Hosted API 最轻松
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
备选方案2:拥有管道的自住式 全面控制
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

开放源码, 价格低廉的定价

我们主办的API使开放源代码的TTS在不管理GPU的情况下可以进入。

自由级

$0

注册时15个贷项

  • 4种免费开放源模式
  • 基本使用无注册
  • 允许商业使用

启动启动器

$9

500 000个字符/月/月

  • 所有20+开放源模式
  • 语音克隆
  • API 访问

职业

$29

2 000 000个字符/月/月

  • 优先的 GPU 处理
  • 所有溢价模型
  • 企业支助
查看完整定价

常问问题

关于公开源码文本供演讲的共同问题

是的,关于TTS.ai的每一种模式都使用许可的开放源码许可证——MIT或Apache2.0。我们明确排除具有限制性许可证的模型(如Coqui的CPML或非商业CC-BY-NC)。你可以在GitHub的库中核查每个模型的许可证。

两者都是允许商业使用、修改和再分配的开放源码许可。 Apache 2.0增加了明确的专利赠款,如果您修改代码,则要求做出修改。 MIT更简单,要求更少。 两者都对企业友好。

是的, 每一个模型都可以自我托管。 克隆来自 GitHub 的模型存储库, 安装依赖关系, 下载模型重量, 并运行推论 。 我们为每个模型的自我托管要求提供文件, 包括 GPU、 RAM 和 Python 版本 。

管道不需要GPU(只有CPU),而Kokoro和MelotTS需要1-2GB VRAM。大多数标准模型需要4GB VRAM。乌龟和Sesame CSM需要8GB。 NVIDIA RTX 3060 (12GB) 最舒适的模型可以运行。

是的,开放源码许可证允许修改,包括微调。GPT-SoVITS和巴克等模型提供微调脚本。您可以用自己的语音数据培训模型,以创建自定义声音或改进特定语言的性能。

顶级开放源码模型(Kokoro, StysteleTTS 2,Chatterbox)现在在质量基准方面匹配或超过11Labs和Google TTS等商业服务。 商业服务的主要优势是管理基础设施和支持,而不是音频质量。

我们已经排除了它们。 XTTS/XTTS-v2(科基的CPML-非商业性)、F5-TTS(CC-BY-NC-非商业性)和Higgs-v2(Boson许可证-限制性)均被删除,关于TTS.ai的每一个模型都经过核实为商业使用安全。

是的, 大多数模型都接受通过 GitHub 提供的社区捐款。 您可以提交错误报告、 新语言的语音录音、 代码改进和文件。 请查看每个模型的 GitHub 数据库, 了解贡献指南和活跃问题 。

空闲时按需装入模型并卸载以共享 GPU 内存 。 我们的 GPU 服务器使用动态装入方式运行 4x Tesla P40 (96GB 总计 VRAM) 的 20+ 模型。 对于自托管, 单 24GB GPU 可以同时为 3-5 模型服务 。

许多模型提供官方的 Docker 图像或 Docker 文件。 对于运行多个模型, 您可以在 GPU 访问时使用 NVIDIA 容器工具包建立一个定制的 Docker 设置。 我们的 API 服务器结构可以作为参考执行 。

多数模型需要 Python 3.10-3.12。 Coqui TTS (VITS) 具体需要 Python 3.11 。 我们推荐大多数模型使用 Python 3.12 。 请检查每个模型的要求是否准确兼容 。 txt

是。 MIT 和 Apache 2. 0 许可证明确允许商业使用。 您可以使用这些模型来建造SaaS 产品、移动应用程序、游戏和服务, 无需许可证费、使用费或归属要求( 尽管感谢归属)。
5.0/5 (1)

我们能改进什么?您的反馈帮助我们解决问题。

今天尝试打开源代码 TTTT 今天

20+开放源码模型,所有都是商业许可的,使用我们的API或自我主机——选择权在你。