免费AI 免费AI 文本到语音

33+ 开放源模式, 273+ 声音, 33+ 不需要账户。

17K+
创建者
70K+
几代人
33+
AIAI 模式
273+
声音声音
0/500 字符字符字符字符 · 每一代5,000人签名 → 自由
每一代5 000 查查 5 000 查查 15 000 个自由字符 无信用卡 商业用途OK
免费签名
下载音频 24小时后链接过期
喜欢TTS.ai吗?告诉你的朋友吧!

33+ AI 声音模型

在一个平台最全面地收集开放源代码 TTS 模型

KokoroKokoro 自由

Kokoro是一个8200万个参数文本到语音模型,大大高于其重量级。 尽管其体积小,但它能产生非常自然和直言不讳的演讲。 Kokoro支持多种语言,包括英语、日语、中文和韩语,并有各种表达声音。 它的运行速度非常快 — — 在GPU上生成的音频速度比实时速度快近100倍。

最佳用于: 高质量的TTTS,最短的延迟、流流应用

尝试自由

PiperPiper 自由

Piper是由Rhasspy开发的轻量级文本到语音引擎,它使用VITS和Lalynx结构。它完全在CPU上运行,对边缘设备、家庭自动化和需要离线 TTS 的应用程序来说是理想的。 Piper有超过100个超过30种语言的语音,即使以Raspberry Pi 4 的实时速度,它也以实时速度提供自然声音。

最佳用于: 快速预览、可访问性和嵌入应用程序

尝试自由

VITSVITS 自由

VITS(对终端至终端文字到语音的对抗性学习的变化性推断)是一种平行的终端至终端TTS方法,比目前的两阶段模型产生更自然的音频,采用变式推论,辅之以正常流动和对抗性培训过程,使自然性得到显著改善。

最佳用于: 具有自然流动作用的普通用途文字对文字的语音

尝试自由

MeloTTSMeloTTS 自由

MyShell.ai的MelotTS是一个多语言的TTS图书馆,支持英语(美国、英国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。它非常快,仅以近实时速度处理CPU的文本。MelotTS是为生产用途设计的,支持CPU和GPU的推理。

最佳用于: 需要快速、多语言TTS的生产应用

尝试自由

Kani TTS 2Kani TTS 2 自由

NineNineSix的Kani-TTS-2是一个超轻重量400M参数模型,它以液态AI LFM2主干线和NVIDIA NanoCoDece为基础,仅运行于3GB VRAM,在A100(RTF 0.2)2秒后产生~10秒的语音,目前公共放行船只只使用英语的`kani-ts-2-en'检查站,并不暴露语音克隆所需的语音组合钩——使用聊天盒/索引TTS2/F5-TTS进行克隆,或用Kokororo/MelotTS进行非英语克隆。

最佳用于: 低 VRAM 硬件快速英文一代,快速预览

尝试自由

OuteTTSOuteTTS 自由

外部TTS 扩展了具有文本到语音能力的大型语言模型, 同时保存原始结构 。 它支持多个后端, 包括 lama. cpp (CPU/GPU) 、 Huggging Face 变换器、 ExLlamaV2、 VLLM, 甚至浏览器通过变换器推导。 js. 通过以 JSON 保存的语句描述, 功能为零光语音克隆 。

最佳用于: 边缘部署、基于浏览器的TTTS、低资源环境

尝试自由

Pocket TTSPocket TTS 自由

由Kyutai(Moshi的孵化器)制作的口袋 TTS(Pocket TTS)是一个100M参数文本到语音的紧凑模型,其重量远远超过其重量。 它在CPU上有效运行,支持单一音频样本的零光语音克隆,并制作自然声音演讲。 小型模型大小使得它适合边缘部署和低资源环境。

最佳用于: 轻量度部署、仅使用CPU的环境、快速语音克隆

尝试自由

Kitten TTSKitten TTS 自由

KittenML的Kitten TTS是建立在ONNX上的一种超轻量量级文本到语音模型。根据15M至80M参数的变体(盘上为25-80MB),它可以在不需要GPU的情况下在CPU上提供高质量的语音合成。特点包括8个内置声音、可调整的语音速度以及数字、货币和单位的内置文本预处理。边端部署和低长应用的理念。

最佳用于: 快速轻型TTTS、边缘部署、低延迟应用

尝试自由

Ming-Omni TTSMing-Omni TTS 自由

包含Ming-omni-tts-0.5BAAI是一种紧凑的全式调音模型,它以保修MM密度的骨干为基础,配上一个接接接接接接接字流匹配音频解码器,输出44.1kHz输出(近CD质量),支持3+2参考的零发语音克隆,并通过JSON指示包括内置情感/方言/BGM控制。极稳定——中国基准为0.83%。

最佳用于: 高忠诚双语解说、情绪控制的声音演唱、中文音频书内容

尝试自由

MOSS-TTS NanoMOSS-TTS Nano 自由

MOSS-TTS-Nano-100M是OSS-TTS家族最紧凑的100M参数变体,分享延迟转换结构。将8B模型的峰值质量转换为~80x较小的重量和大大降低的每个要求VRAM,使之适合自由水平和高吞吐量部署。相同的20种语言范围。

最佳用于: 自由级TTTS、高容量生产、低长度交互式使用

尝试自由

BarkBark 标准标准标准标准

以变换器为基础的文本到音频模型,产生现实的言论、音乐和声音效果。

开发者 : Suno · 驾照 : MIT

试试

Bark SmallBark Small 标准标准标准标准

更亮的巴克版本,其推论更快,内存用量较低。

开发者 : Suno · 驾照 : MIT

试试

CosyVoice 2CosyVoice 2 标准标准标准标准

Alibaba可伸缩的TTS流 与人类的平衡性自然和接近零的悬浮。

开发者 : Alibaba (Tongyi Lab) · 驾照 : Apache 2.0

试试

Dia TTSDia TTS 标准标准标准标准

多发言者对话生成模式,

开发者 : Nari Labs · 驾照 : Apache 2.0

试试

Parler TTSParler TTS 标准标准标准标准

用自然语言描述您想要的声音, Parler 生成匹配的语音 。

开发者 : Hugging Face · 驾照 : Apache 2.0

试试

IndexTTS-2IndexTTS-2 标准标准标准标准

零弹TTS 精细的情感控制 和高超的表情

开发者 : Index Team · 驾照 : Bilibili Model License

试试

Spark TTSSpark TTS 标准标准标准标准

声音克隆 TTS 以可控的情绪 和通过提示说话的风格。

开发者 : SparkAudio · 驾照 : CC BY-NC-SA 4.0

试试

GPT-SoVITSGPT-SoVITS 标准标准标准标准

几发声音克隆TTS 复制任何声音 仅5秒钟的音频。

开发者 : RVC-Boss · 驾照 : MIT

试试

OrpheusOrpheus 标准标准标准标准

人际情感TTS模型 接受100K小时语言数据培训

开发者 : Canopy Labs · 驾照 : Llama 3.2 Community

试试

Qwen3 TTSQwen3 TTS 标准标准标准标准

Alibaba的多语言TTS, 预设语音和语音设计来自文字。

开发者 : Alibaba (Qwen) · 驾照 : Apache 2.0

试试

VieNeu-TTS-v2VieNeu-TTS-v2 标准标准标准标准

越南语+英语代码转换 TTS, 有 7 个预设声音和零发声音克隆。 仅使用CPU, 不需要 GPU 。

开发者 : Phạm Nguyễn Ngọc Bảo · 驾照 : Apache 2.0

试试

Chatterbox TurboChatterbox Turbo 标准标准标准标准

更快捷的聊天盒, 配有二百米潜伏器和语言标签, 供笑、咳嗽等使用。

开发者 : Resemble AI · 驾照 : MIT

试试

VoxCPMVoxCPM 标准标准标准标准

无调制 TTS, 产生44.1kHz 音频, 具有上下文感知段落一致性。

开发者 : OpenBMB · 驾照 : Apache 2.0

试试

VibeVoiceVibeVoice 标准标准标准标准

微软模型,用于长式多声音内容,如播客和音频书。

开发者 : Microsoft · 驾照 : MIT

试试

CosyVoice3CosyVoice3 标准标准标准标准

下一代多语言TTS,双流、情感控制、零声克隆。

开发者 : Alibaba (FunAudioLLM) · 驾照 : Apache 2.0

试试

NAMAA Saudi TTSNAMAA Saudi TTS 标准标准标准标准

第一个开放的沙特-阿拉伯语TTS。 土生土长的沙特方言,带有查特文箱质量的语音克隆。

开发者 : NAMAA Space · 驾照 : MIT

试试

Darwin TTSDarwin TTS 标准标准标准标准

跨模式的Quen3-TTS变式,加上从Quen3-1.7B语言模型中混合的FFN重量,用于更敏锐的多语种克隆。

开发者 : FINAL-Bench · 驾照 : Apache 2.0

试试

MOSS-TTSDMOSS-TTSD 标准标准标准标准

多发言者对话延续模式——产生播客式对话,最多有5位发言者和60分钟连贯的音频。

开发者 : OpenMOSS · 驾照 : Apache 2.0

试试

ChatterboxChatterbox Premium

最新技术的零声克隆 由重塑性人工智能的情绪控制

质量 :

试试

Tortoise TTSTortoise TTS Premium

多声音的文字对语音侧重于自动递减结构的质量。

质量 :

试试

StyleTTS 2StyleTTS 2 Premium

通过风格传播和对抗性培训,人文层次的文本对语音。

质量 :

试试

OpenVoiceOpenVoice Premium

即时声音克隆 以颗粒控制 风格、情感和口音

质量 :

试试

Sesame CSMSesame CSM Premium

交流的演讲模式 产生自然的对话 与适当的时间和情感。

质量 :

试试

CosyVoice 2CosyVoice 2

Alibaba可伸缩的TTS流 与人类的平衡性自然和接近零的悬浮。

语言: en, zh, ja, ko, fr, de, it, es

克隆声音

IndexTTS-2IndexTTS-2

零弹TTS 精细的情感控制 和高超的表情

语言: en, zh

克隆声音

Spark TTSSpark TTS

声音克隆 TTS 以可控的情绪 和通过提示说话的风格。

语言: en, zh

克隆声音

GPT-SoVITSGPT-SoVITS

几发声音克隆TTS 复制任何声音 仅5秒钟的音频。

语言: en, zh, ja, ko

克隆声音

ChatterboxChatterbox

最新技术的零声克隆 由重塑性人工智能的情绪控制

语言: en

克隆声音

Tortoise TTSTortoise TTS

多声音的文字对语音侧重于自动递减结构的质量。

语言: en

克隆声音

OpenVoiceOpenVoice

即时声音克隆 以颗粒控制 风格、情感和口音

语言: en, zh, ja, ko, fr, es

克隆声音

VieNeu-TTS-v2VieNeu-TTS-v2

越南语+英语代码转换 TTS, 有 7 个预设声音和零发声音克隆。 仅使用CPU, 不需要 GPU 。

语言: vi, en

克隆声音

Chatterbox TurboChatterbox Turbo

更快捷的聊天盒, 配有二百米潜伏器和语言标签, 供笑、咳嗽等使用。

语言: en

克隆声音

VoxCPMVoxCPM

无调制 TTS, 产生44.1kHz 音频, 具有上下文感知段落一致性。

语言: en, zh

克隆声音

OuteTTSOuteTTS

以LLM为基础的TTS,在CPU、GPU上运行,或浏览器上通过llama.cpp和变压器js运行。

语言: en

克隆声音

Pocket TTSPocket TTS

轻量级100米参数模型由九井制作,其语音克隆来自单一样本。

语言: en, fr

克隆声音

CosyVoice3CosyVoice3

下一代多语言TTS,双流、情感控制、零声克隆。

语言: en, zh, ja, ko, de, es, fr, it, ru

克隆声音

NAMAA Saudi TTSNAMAA Saudi TTS

第一个开放的沙特-阿拉伯语TTS。 土生土长的沙特方言,带有查特文箱质量的语音克隆。

语言: ar

克隆声音

Darwin TTSDarwin TTS

跨模式的Quen3-TTS变式,加上从Quen3-1.7B语言模型中混合的FFN重量,用于更敏锐的多语种克隆。

语言: en, ko, ja, zh

克隆声音

MOSS-TTSDMOSS-TTSD

多发言者对话延续模式——产生播客式对话,最多有5位发言者和60分钟连贯的音频。

语言: en, zh

克隆声音

Ming-Omni TTSMing-Omni TTS

5B 包含性44.1kHz高贞操输出和零弹声克隆的全调演讲模式。

语言: en, zh

克隆声音

MOSS-TTS NanoMOSS-TTS Nano

微小100M MOS-TTS变式——相同的结构,80x较小,自由的延缓。

语言: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

克隆声音

开发者- 第一 API

OpenAI-兼容的REST API. 一个端点, 22+模型, 流传实时应用支持 。

  • OpenAI-兼容格式
  • 实时应用程序流流 TTS
  • 大型工作的批次处理
  • WebHook 通知
查看 API 文件
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

简单、透明定价

开始自由。 随你成长, 缩放 。

自由

$0

15 000个字符+每天5 000个字符+每天5 000个字符

  • 包括Kokororo的7个免费模型
  • 每一代5 000 查查 5 000 查查
  • 包括访问API
签署自由

启动启动器

$9/以 单位

500个贷项/月/月

  • 所有22+模型
  • 每一代10万查查 10万查查(每一代10万查查)
  • 语音克隆
开始
最受欢迎的

职业

$29/以 单位

2 000个贷项/月

  • 启动器中的一切
  • API 访问
  • 优先处理事项处理
获得 Pro

商业商业商商商商

$99/以 单位

10 000 000个贷项/月/月

  • 全部在 Pro 中
  • 散散散API
  • 优先排队
做生意

查看包含字符包的所有计划 →

常问问题

TTS.ai是最全面的AI语音平台,提供22+文本到语音模型、语音克隆、语音到文字和音频工具。 所有模型都是开放源码,没有供应商锁定。

是! TTS.ai 提供与 Kokoro、 Piper、 VTS 和 MelotTS 模型的免费文本到语音。 不需要账户 。 签名获得 15,000 个免费字符并访问所有模型 。 支付计划每月9 美元开始 。

用于速度, 使用 Kokoro 或 Piper 。 对于质量, 请尝试 CosyVoice 2 或 StysteleTTS 2 。 对于语音克隆, 使用 Chatterbox 或 GPT- SoVITS 。 对于对话框, 使用 Dia TTS 。 尝试同一文本上的多个模型来比较 。

是。开放AI-适用于TTS、STT、语音克隆和音频工具的与REST API兼容的RET API, 包括免费, 利率限额按级划分(自由: 10 req/min, 利特: 20, 启动器: 30, Pro: 60, 商务: 300) 。查看 tts.ai/ api/ 的文件 。

声音质量因型号而异。 诸如CosyVoice 2, StyleTTS 2和Chatterbox等优先模型以自然通俗和情感来制作近乎人性的高质量演讲。 Kokoro等自由模型为大多数使用的案例提供了优异的质量。

TTS.ai支持30+语言的示范图书馆。英语拥有最广泛的模型支持,但CosyVoice 2等模型覆盖中文、日文和韩文;GPT-SOVITS负责中文、日文、韩文和英文;MelotTS支持英文、西班牙文、法文、中文、日文和韩文。

是的。 所有处理都发生在我们专用的 GPU 服务器上。 我们不存储您的文本输入或发送后生成音频。 上传的克隆声音样本只用于本届会议, 而不保留。 我们从不与第三方共享您的数据, 也不使用它来训练模型 。

是的,TTS.ai号上生成的所有音频,包括YouTube视频、播客、音频书籍、应用程序、广告和产品,都供你商业使用。 我们的模型根据许可许可(MIT, Apache 2.0)是开放源码(MIT, Apache 2.0 ), 不需要使用特许使用费或归属。

TTS.ai 默认以 WAV 格式生成最大质量的音频。 您可以使用我们的免费音频转换工具转换为 MP3、 FLAC、 OGG 或 M4A 。 API 支持在请求中直接指定首选输出格式 。

上传您想要克隆的声音的简短音频样本( 仅5秒), 然后输入任何文本来生成该声音中的语音。 象 Chatterbox、 GPT- SoVITS 和 CosyVoice 2 这样的模型支持语音克隆。 克隆的声音捕捉音调、 口音 和 语音风格 。

免费模型(Kokoro、Piper、VITS、MeloTTS)不需要记账和零成本字符。标准模型(2 000个字符/1K输入)包括巴克、科西维克2、F5-TTS和Dia。优先模型(4,000个字符/1K输入)包括OpenVoice、Chatterbox、StyleTTS 2和Tortoise。 付费模型通常提供质量更高、声音更多和语音克隆等其他功能。

是 API 支持批量处理将大量文本转换为语音。 提交多个请求, 使用工作 UUID 自动检索结果 。 业务计划( 99 mo) 和 更高 的业务计划包括优先排队进入更快的批量处理 。 用于音频书籍制作、 课程内容和大型语音项目的理想 。
4.1/5 (42)

我们能改进什么?您的反馈帮助我们解决问题。

开始使用 AI 语音今日

Join creators, developers, and businesses using TTS.ai