免费AI 免费AI 文本到语音

31+ 开放源模式, 231+ 声音, 34+ 不需要账户。

8K+
创建者
30K+
几代人
31+
AIAI 模式
231+
声音声音
0/500 字符字符字符字符 · Sign up for 5,000 per generation → 自由
每一代5 000 查查 5 000 查查 15 000 个自由字符 无信用卡 商业用途OK
免费签名
下载音频 24小时后链接过期
喜欢TTS.ai吗?告诉你的朋友吧!

31+ AI 声音模型

在一个平台最全面地收集开放源代码 TTS 模型

KokoroKokoro Free

Kokoro是一个8200万个参数文本到语音模型,大大高于其重量级。 尽管其体积小,但它能产生非常自然和直言不讳的演讲。 Kokoro支持多种语言,包括英语、日语、中文和韩语,并有各种表达声音。 它的运行速度非常快 — — 在GPU上生成的音频速度比实时速度快近100倍。

最佳用于: 高质量的TTTS,最短的延迟、流流应用

尝试自由

PiperPiper Free

Piper是由Rhasspy开发的轻量级文本到语音引擎,它使用VITS和Lalynx结构。它完全在CPU上运行,对边缘设备、家庭自动化和需要离线 TTS 的应用程序来说是理想的。 Piper有超过100个超过30种语言的语音,即使以Raspberry Pi 4 的实时速度,它也以实时速度提供自然声音。

最佳用于: 快速预览、可访问性和嵌入应用程序

尝试自由

VITSVITS Free

VITS(对终端至终端文字到语音的对抗性学习的变化性推断)是一种平行的终端至终端TTS方法,比目前的两阶段模型产生更自然的音频,采用变式推论,辅之以正常流动和对抗性培训过程,使自然性得到显著改善。

最佳用于: 具有自然流动作用的普通用途文字对文字的语音

尝试自由

MeloTTSMeloTTS Free

MyShell.ai的MelotTS是一个多语言的TTS图书馆,支持英语(美国、英国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。它非常快,仅以近实时速度处理CPU的文本。MelotTS是为生产用途设计的,支持CPU和GPU的推理。

最佳用于: 需要快速、多语言TTS的生产应用

尝试自由

OuteTTSOuteTTS Free

外部TTS 扩展了具有文本到语音能力的大型语言模型, 同时保存原始结构 。 它支持多个后端, 包括 lama. cpp (CPU/GPU) 、 Huggging Face 变换器、 ExLlamaV2、 VLLM, 甚至浏览器通过变换器推导。 js. 通过以 JSON 保存的语句描述, 功能为零光语音克隆 。

最佳用于: 边缘部署、基于浏览器的TTTS、低资源环境

尝试自由

Pocket TTSPocket TTS Free

由Kyutai(Moshi的孵化器)制作的口袋 TTS(Pocket TTS)是一个100M参数文本到语音的紧凑模型,其重量远远超过其重量。 它在CPU上有效运行,支持单一音频样本的零光语音克隆,并制作自然声音演讲。 小型模型大小使得它适合边缘部署和低资源环境。

最佳用于: 轻量度部署、仅使用CPU的环境、快速语音克隆

尝试自由

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

最佳用于: Fast lightweight TTS, edge deployment, low-latency applications

尝试自由

BarkBark Standard

以变换器为基础的文本到音频模型,产生现实的言论、音乐和声音效果。

开发者 : Suno · 驾照 : MIT

试试

Bark SmallBark Small Standard

更亮的巴克版本,其推论更快,内存用量较低。

开发者 : Suno · 驾照 : MIT

试试

CosyVoice 2CosyVoice 2 Standard

Alibaba可伸缩的TTS流 与人类的平衡性自然和接近零的悬浮。

开发者 : Alibaba (Tongyi Lab) · 驾照 : Apache 2.0

试试

Dia TTSDia TTS Standard

多发言者对话生成模式,

开发者 : Nari Labs · 驾照 : Apache 2.0

试试

Parler TTSParler TTS Standard

用自然语言描述您想要的声音, Parler 生成匹配的语音 。

开发者 : Hugging Face · 驾照 : Apache 2.0

试试

GLM-TTSGLM-TTS Standard

在开放源代码 TTS 模型中达到最小字符错误率。

开发者 : Zhipu AI · 驾照 : GLM-4 License

试试

IndexTTS-2IndexTTS-2 Standard

零弹TTS 精细的情感控制 和高超的表情

开发者 : Index Team · 驾照 : Bilibili Model License

试试

Spark TTSSpark TTS Standard

声音克隆 TTS 以可控的情绪 和通过提示说话的风格。

开发者 : SparkAudio · 驾照 : CC BY-NC-SA 4.0

试试

GPT-SoVITSGPT-SoVITS Standard

几发声音克隆TTS 复制任何声音 仅5秒钟的音频。

开发者 : RVC-Boss · 驾照 : MIT

试试

OrpheusOrpheus Standard

人际情感TTS模型 接受100K小时语言数据培训

开发者 : Canopy Labs · 驾照 : Llama 3.2 Community

试试

Qwen3 TTSQwen3 TTS Standard

Alibaba的多语言TTS,有语音克隆、预设声音和文本的语音设计。

开发者 : Alibaba (Qwen) · 驾照 : Apache 2.0

试试

Chatterbox TurboChatterbox Turbo Standard

更快捷的聊天盒, 配有二百米潜伏器和语言标签, 供笑、咳嗽等使用。

开发者 : Resemble AI · 驾照 : MIT

试试

Dia 2Dia 2 Standard

以多发言人对话和多语言提示方式进行第一场对话TTS。

开发者 : Nari Labs · 驾照 : Apache 2.0

试试

VoxCPMVoxCPM Standard

无调制 TTS, 产生44.1kHz 音频, 具有上下文感知段落一致性。

开发者 : OpenBMB · 驾照 : Apache 2.0

试试

TADATADA Standard

带有文字声波双对齐的零散 TTS,比类似的LLM TTS快5x。

开发者 : Hume AI · 驾照 : MIT

试试

VibeVoiceVibeVoice Standard

微软模型,用于长式多声音内容,如播客和音频书。

开发者 : Microsoft · 驾照 : MIT

试试

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

开发者 : Alibaba (FunAudioLLM) · 驾照 : Apache 2.0

试试

ChatterboxChatterbox Premium

最新技术的零声克隆 由重塑性人工智能的情绪控制

质量 :

试试

Tortoise TTSTortoise TTS Premium

多声音的文字对语音侧重于自动递减结构的质量。

质量 :

试试

StyleTTS 2StyleTTS 2 Premium

通过风格传播和对抗性培训,人文层次的文本对语音。

质量 :

试试

OpenVoiceOpenVoice Premium

即时声音克隆 以颗粒控制 风格、情感和口音

质量 :

试试

Sesame CSMSesame CSM Premium

交流的演讲模式 产生自然的对话 与适当的时间和情感。

质量 :

试试

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

质量 :

试试

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

质量 :

试试

CosyVoice 2CosyVoice 2

Alibaba可伸缩的TTS流 与人类的平衡性自然和接近零的悬浮。

语言: en, zh, ja, ko, fr, de, it, es

克隆声音

GLM-TTSGLM-TTS

在开放源代码 TTS 模型中达到最小字符错误率。

语言: en, zh

克隆声音

IndexTTS-2IndexTTS-2

零弹TTS 精细的情感控制 和高超的表情

语言: en, zh

克隆声音

Spark TTSSpark TTS

声音克隆 TTS 以可控的情绪 和通过提示说话的风格。

语言: en, zh

克隆声音

GPT-SoVITSGPT-SoVITS

几发声音克隆TTS 复制任何声音 仅5秒钟的音频。

语言: en, zh, ja, ko

克隆声音

ChatterboxChatterbox

最新技术的零声克隆 由重塑性人工智能的情绪控制

语言: en

克隆声音

Tortoise TTSTortoise TTS

多声音的文字对语音侧重于自动递减结构的质量。

语言: en

克隆声音

OpenVoiceOpenVoice

即时声音克隆 以颗粒控制 风格、情感和口音

语言: en, zh, ja, ko, fr, de, es, it

克隆声音

Qwen3 TTSQwen3 TTS

Alibaba的多语言TTS,有语音克隆、预设声音和文本的语音设计。

语言: en, zh, ja, ko, de, fr, ru, pt, es, it

克隆声音

Chatterbox TurboChatterbox Turbo

更快捷的聊天盒, 配有二百米潜伏器和语言标签, 供笑、咳嗽等使用。

语言: en

克隆声音

VoxCPMVoxCPM

无调制 TTS, 产生44.1kHz 音频, 具有上下文感知段落一致性。

语言: en, zh

克隆声音

OuteTTSOuteTTS

以LLM为基础的TTS,在CPU、GPU上运行,或浏览器上通过llama.cpp和变压器js运行。

语言: en

克隆声音

Pocket TTSPocket TTS

轻量级100米参数模型由九井制作,其语音克隆来自单一样本。

语言: en, fr

克隆声音

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

语言: en, zh, ja, ko, de, es, fr, it, ru

克隆声音

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

语言: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

克隆声音

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

语言: en, zh

克隆声音

开发者- 第一 API

OpenAI-兼容的REST API. 一个端点, 22+模型, 流传实时应用支持 。

  • OpenAI-兼容格式
  • 实时应用程序流流 TTS
  • 大型工作的批次处理
  • WebHook 通知
查看 API 文件
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

简单、透明定价

开始自由。 随你成长, 缩放 。

自由

$0

15个贷项

  • Kokoro, Piper, VITS, MeloTTS
  • 500个字符限制
  • 3 gen/ 小时( 无账户)
签署自由

启动启动器

$9/以 单位

500个贷项/月/月

  • 所有22+模型
  • 每一代10万查查 10万查查(每一代10万查查)
  • 语音克隆
开始
最受欢迎的

职业

$29/以 单位

2 000个贷项/月

  • 启动器中的一切
  • API 访问
  • 优先处理事项处理
获得 Pro

商业商业商商商商

$99/以 单位

10 000 000个贷项/月/月

  • 全部在 Pro 中
  • 散散散API
  • 优先排队
做生意

查看包含字符包的所有计划 →

常问问题

TTS.ai是最全面的AI语音平台,提供22+文本到语音模型、语音克隆、语音到文字和音频工具。 所有模型都是开放源码,没有供应商锁定。

是! TTS.ai 提供与 Kokoro、 Piper、 VTS 和 MelotTS 模型的免费文本到语音。 不需要账户 。 签名获得 15,000 个免费字符并访问所有模型 。 支付计划每月9 美元开始 。

用于速度, 使用 Kokoro 或 Piper 。 对于质量, 请尝试 CosyVoice 2 或 StysteleTTS 2 。 对于语音克隆, 使用 Chatterbox 或 GPT- SoVITS 。 对于对话框, 使用 Dia TTS 。 尝试同一文本上的多个模型来比较 。

是,用于TTS、STT、语音克隆和音频工具的OpenAI-兼容的REST API,载于Pro(29/mo)和Enterprises(99/mo)计划。查看 tts.ai/api/的文件。

声音质量因型号而异。 诸如CosyVoice 2, StyleTTS 2和Chatterbox等优先模型以自然通俗和情感来制作近乎人性的高质量演讲。 Kokoro等自由模型为大多数使用的案例提供了优异的质量。

TTS.ai支持30+语言的示范图书馆。英语拥有最广泛的模型支持,但CosyVoice 2等模型覆盖中文、日文和韩文;GPT-SOVITS负责中文、日文、韩文和英文;MelotTS支持英文、西班牙文、法文、中文、日文和韩文。

是的。 所有处理都发生在我们专用的 GPU 服务器上。 我们不存储您的文本输入或发送后生成音频。 上传的克隆声音样本只用于本届会议, 而不保留。 我们从不与第三方共享您的数据, 也不使用它来训练模型 。

是的,TTS.ai号上生成的所有音频,包括YouTube视频、播客、音频书籍、应用程序、广告和产品,都供你商业使用。 我们的模型根据许可许可(MIT, Apache 2.0)是开放源码(MIT, Apache 2.0 ), 不需要使用特许使用费或归属。

TTS.ai 默认以 WAV 格式生成最大质量的音频。 您可以使用我们的免费音频转换工具转换为 MP3、 FLAC、 OGG 或 M4A 。 API 支持在请求中直接指定首选输出格式 。

上传您想要克隆的声音的简短音频样本( 仅5秒), 然后输入任何文本来生成该声音中的语音。 象 Chatterbox、 GPT- SoVITS 和 CosyVoice 2 这样的模型支持语音克隆。 克隆的声音捕捉音调、 口音 和 语音风格 。

免费模型(Kokoro、Piper、VITS、MeloTTS)不需要记账和零成本字符。标准模型(2 000个字符/1K输入)包括巴克、科西维克2、F5-TTS和Dia。优先模型(4,000个字符/1K输入)包括OpenVoice、Chatterbox、StyleTTS 2和Tortoise。 付费模型通常提供质量更高、声音更多和语音克隆等其他功能。

是。 API 支持批量处理将大量文本转换为语音。 提交多个请求, 使用工作 UUID 自动检索结果。 企业计划( 99 mo) 包括优先排队进入更快的批量处理。 用于音频书籍制作、 课程内容和大型语音翻转项目的理念 。
4.1/5 (21)

我们能改进什么?您的反馈帮助我们解决问题。

开始使用 AI 语音今日

Join creators, developers, and businesses using TTS.ai