为开发者编写的语音 API 文本

与 REST API 建立语音应用程序。 在您的应用程序、聊天器、语音助理和SaaS 产品中添加自然文字到语音、语音克隆、语音到文字、语音处理和音频处理。 与 OpenAI 兼容的格式、 20+ 模型、 简单集成。

STEST APP 减税 查塔波特 语音应用程序 SaaS 产品 自动自动

现在试试

与Kokoro、Piper、VITS、Melotts免费
您生成的音频将在此显示
已生成
喜欢TTS.ai吗?告诉你的朋友吧!

用于开发者的 APP 特征

建立语音应用程序所需的一切

简单 REST API

一个POST 请求生成演讲。 JSON 请求, 音频响应。 使用任何支持 HTTP 的编程语言 。

OpenAI-兼容性

OpenAI TTS API 的空置替换。 切换您的基础 url 键和 API 键—— 现有的代码立即有效 。

24+ 可用模型

通过单一的 API 访问每个模型。 通过改变一个参数来切换模型。 比较质量、 速度和成本 。

第二二级延迟期

Kokoro在1秒内生成音频。 适合实时聊天机、 语音助理和互动应用程序 。

语音克隆API

通过 API 从短音频样本中打开任何声音。 为后代使用克隆声音 。

多重格式

输出为 WAV、 MP3、 OGG 或 FLAC 。 选择样本率和位深。 流传实时应用程序的音频支持 。

开发者融合最佳模式

选择适合您应用程序速度、质量和成本要求的正确模式

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

最佳用于: 最快速的模型——次秒延缓期,实时应用程序和聊天器的理想

尝试 Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 语音克隆

最佳用于: 为语音助理应用程序提供语音克隆的流流 TTS

尝试 CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

最佳用于: 具有聊天机和助理声音自然时间的交流性AI

尝试 Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

最佳用于: 免费、仅使用CPU的免费高容量应用模式,零费用

尝试 Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

最佳用于: 具有创作和娱乐应用程序声音效果的音频生成

尝试 Bark

如何整合 TTS API

从注册到第一次API呼叫 不到5分钟

1

获得您的 API 密钥

免费签名并从您的账户仪表板上生成 API 密钥。 包括 15,000 个字符 。

2

第一次拨打

POST 到 / v1/ tts, 带有文本、 模型和声音。 获取音频字节。 低于 5 条代码 。

3

选择您的模型

为您测试不同的使用模式。 比较速度、 质量和每代成本 。

4

船舶生产至船舶生产

以现收现付字符缩放。 付款计划没有利率限制。 监视仪表板的使用 。

快速启动代码示例

以任何语言将TTS.ai语融入我们的REST API

Python 民众
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL 普遍 普遍 普遍
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI-兼容格式 下 下 下 下 进
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

开发者用 TTS.ai 构建什么

共同一体化模式和应用

AI 聊天和助理

添加语音输出到您的聊天室或 AI 助手 。 Pipe LLM 响应通过 TTS 进行语音连接。 Kokoro 为实时对话提供第二秒的中继时间 。 Sesame CSM 生成有自然时间的谈话演讲 。

  • LLM对语音管道的反应
  • 与Kokoro的二次延时
  • 与Sesame CSM的谈话演讲
  • 流动音频输出

移动语音应用程序

建立语音驱动的移动应用程序、无障碍工具、阅读应用程序和语言学习平台。 我们的REST API与任何移动框架一起工作。 下载音频文件或直接流到客户手中 。

  • 原生、小蝶、斯威夫特、科特林
  • 无障碍和阅读应用程序
  • 语言学习平台
  • 音频内容制作

SaaS 产品

在您的 SaaS 产品中添加白标签语音能力。 在您的平台中添加 TTS、STT、语音克隆和音频处理功能。 使用我们的 API 作为您的语音后端, 而不管理 GPU 基础设施 。

  • 白标签语音功能
  • 不需要 GPU 基础设施
  • 付费-每用使用定价
  • 向用户提供20+模型

自动化管道

将语音生成纳入 CI/CD 管道、内容自动化和批量处理工作流程。 从电子表格数据生成数千个音频文件,自动制作播客,或建立内容本地化管道。

  • 通过 API 批量处理
  • 内容本地化管道
  • CI/CD一体化
  • 音频自动化电子表格

APPE 规格

用于生产用途的建筑

20+

TTTS 模型

100+

声音声音声音

30+

语言语言语言语言语言

<1s

长期(Kokoro)

常问问题

关于TTS.ai开发者API的共同问题

是的, 我们的 API 遵循 OpenAI 音频语音格式。 如果您正在使用 OpenAI Python 或 JavaScript 客户端库, 您可以通过修改 base_ url 参数和 api_ key 参数, 切换到 TTS.ai 。 您现有的代码可以不加修改地工作 。

Kokoro 以不到1秒的音频生成典型句子 。 CosyVoice 2 支持流出输出, 以更低的感知延迟。 对于聊天器和语音助理来说, 往返总时间一般为1-3秒, 取决于文本长度和模式选择 。

自由型号( Kokoro, Piper, VITS, MelotTS) 完全免费。 标准型号使用每1K文本 2x 字符。 Premium 型号使用每1K文本 4x 字符。 使用 15,000 个字符免费签名。 计划以每月9美元开始, 500,000 个字符 。

是的。 上传一个引用音频样本( 5- 30 秒) 到声音克隆端点, 然后在随后的 TTS 请求中使用克隆声音识别符。 支持克隆的模式包括 CosyVoice 2, 聊天盒, 鱼语和 GPT- SoVITS 。

支付计划有适用于生产申请的优惠费率限额。 与我们联系,了解企业一级的生产量需求。

WAV( 未压缩, 最高质量)、 MP3( 压缩, 较小文件)、 OGG( 开放格式) 和 FLAC( 无损失压缩格式) 。 请指定您请求的格式 。 默认为 WAV, 以模型的本地样本速率 。

是的 。 将我们的 TTS API 与 语音到文字模式和 LLM 相结合, 以建立一个完整的语音助理管道。 Kokoro 提供了用于实时对话的二分之一的延迟理想。 CosyVoice 2 支持流输出, 以更低的感知响应时间 。

CosyVoice 2 和 Kokoro 支持在音频块生成时提供音频块时流出音频输出。 这样可以减少音频助理和互动体验等实时应用程序的时间到第一字节。

API 返回标准 HTTP 状态代码 。 对 5xx 错误和费率限制的响应实施指数反转 。 对于任务关键应用程序, 添加一个带有重试逻辑的队列 。 我们的 API 具有高时速但有弹性的错误处理总是被推荐的 。

是。 / v1/ 语音和/ v1/ 模型端点返回 JSON 列表中所有可用的语音和模型及其元数据( 语言支持、 质量评级、 速度评级和定价层级) 。 使用这些列表来构建您应用程序中的动态模型选择器 。

免费模型(Kokoro、Piper、VITS、MeloTTS)是有效的沙箱,因为它们的成本为零。 测试您与自由模型的整合,然后通过改变模型参数转换到生产中的溢价模型。 不需要单独的测试环境 。

我们的大多数模型都是开放源码,可以自行托管,然而,自我托管需要大量GPU资源(我们使用4x NVIDIA Tesla P40, 总计96GB VRAM)。 API提供了没有基础设施管理的成本效益高的替代方案。
5.0/5 (1)

我们能改进什么?您的反馈帮助我们解决问题。

准备用声音AI构建吗?

免费获得您的 API 键并开始建设。 15 分 注册, 免费模式, 全面文件。