AI 文本文本至发言稿

将文字转换为自然声音, 使用开放源的 AI 模型。 自由使用, 不需要账户 。

签名签名 对 5,000 字符限制的 5 000 个字符

在 SSML 标记中折行文本以精确控制 :

<speak><prosody rate="slow">Slow speech</prosody></speak>

添加情感标记以影响交付(模型支持不同):

定义自定义发音( Word = 发音) :

-12 +12
0.5x 2.0x
免费的管道、VITS、MelotTS
您生成的音频将在此显示。 选择一个模型, 输入文本, 并单击生成 。
音频生成成功
下载音频 24小时后链接过期
喜欢TTS.ai吗?告诉你的朋友吧!

模型详细细节

VITS

VITS

Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

开发者 : Jaehyeon Kim et al.
驾照 : MIT
速度速度 Fast
质量 :
语言语言语言 4 语言语言语言
卷内 1GB
语音克隆 不支持支持
特征特征:
End-to-end synthesis Natural prosody Fast inference Multiple speakers
最佳用于:: General-purpose text-to-speech with natural prosody

更好的成果提示

  • 使用适当的标点来显示自然暂停和切换
  • 拼出数字和缩写,以更清晰的发音
  • 添加逗号以创建词组间短暂停
  • 使用省略号(...)来更长时间的戏剧性暂停(...)
  • 尝试 Kokororo 或 CosyVoice 2 或 CosyVoice 2 最自然的结果
  • 多发言者对话框和播客内容使用 Dia 的 Dia

字符用法

级别 成本每1千焦数
自由 0(无限制)
标准标准标准标准 2个积分/ 1K 字符
Premium 4个贷项/ 1K 字符

AI 如何将文字用到语音

以三个简单步骤生成专业质量的语音传声器,不需要技术知识。

步骤1

输入您的文本

类型、 粘贴或上传您想要转换为语音的文本。 为登录用户支持最多每代5,000个字符。 使用普通文本或添加 SSML 标记来高级控制发音、 暂停和强调 。

步骤2

选择模型和声音

从三层的 20+ AI 模型中选择 。 选择符合您内容的声音, 选择您的目标语言, 将播放速度从 0. 5x 调整到 2. 0x, 并选择您首选的输出格式( MP3、 WAV、 OGG 或 FLAC ) 。

步骤3

生成和下载

点击生成, 您的音频在秒内就绪 。 使用内建播放器预览, 以您选择的格式下载, 或复制共享链接 。 使用 API 进行批量处理并融入您的工作流程 。

全部文本到语音模式

TTS.ai上提供的每个AI模型的详细规格,比较质量、速度、语言支持和功能,为您的项目找到完美的模型。

KokoroKokoro

Free

Kokoro是一个8200万个参数文本到语音模型,大大高于其重量级。 尽管其体积小,但它能产生非常自然和直言不讳的演讲。 Kokoro支持多种语言,包括英语、日语、中文和韩语,并有各种表达声音。 它的运行速度非常快 — — 在GPU上生成的音频速度比实时速度快近100倍。

开发者 ::
Hexgrad
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
卷内:
1.5GB
语音克隆:
否 无
成本每1千焦数:
自由
82M参数 超快 表达声音 多种语文 串流支持
最佳用于:: 高质量的TTTS,最短的延迟、流流应用

PiperPiper

Free

Piper是由Rhasspy开发的轻量级文本到语音引擎,它使用VITS和Lalynx结构。它完全在CPU上运行,对边缘设备、家庭自动化和需要离线 TTS 的应用程序来说是理想的。 Piper有超过100个超过30种语言的语音,即使以Raspberry Pi 4 的实时速度,它也以实时速度提供自然声音。

开发者 ::
Rhasspy
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
卷内:
0 (CPU only)
语音克隆:
否 无
成本每1千焦数:
自由
CPU 方便CPU 离线能力 100+声音 30+语言 SSMML 支持
最佳用于:: 快速预览、可访问性和嵌入应用程序

VITSVITS

Free

VITS(对终端至终端文字到语音的对抗性学习的变化性推断)是一种平行的终端至终端TTS方法,比目前的两阶段模型产生更自然的音频,采用变式推论,辅之以正常流动和对抗性培训过程,使自然性得到显著改善。

开发者 ::
Jaehyeon Kim et al.
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en, zh, ja, ko
卷内:
1GB
语音克隆:
否 无
成本每1千焦数:
自由
端对端合成合成 自然抛物体 快速推断 多个发言者
最佳用于:: 具有自然流动作用的普通用途文字对文字的语音

MeloTTSMeloTTS

Free

MyShell.ai的MelotTS是一个多语言的TTS图书馆,支持英语(美国、英国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。它非常快,仅以近实时速度处理CPU的文本。MelotTS是为生产用途设计的,支持CPU和GPU的推理。

开发者 ::
MyShell.ai
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en, es, fr, zh, ja, ko
卷内:
0.5GB (GPU optional)
语音克隆:
否 无
成本每1千焦数:
自由
CPU 优化 CPU 多种语文 多个口音 生产准备就绪 低延迟度
最佳用于:: 需要快速、多语言TTS的生产应用

BarkBark

Standard

素诺的《苏诺之旅》是一个基于变压器的文本到音频模型,它能产生高度现实、多语言的言语以及其他音频,比如音乐、背景噪音和声音效果。 它能产生笑、叹和哭等非语言交流。 巴克支持100多个语音预设和13+语言。

开发者 ::
Suno
驾照 ::
MIT
速度速度:
Slow
质量 ::
语言语言语言:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
卷内:
5GB
语音克隆:
否 无
成本每1千焦数:
2x
声效效应 笑笑/叹着 音乐创作 100岁以上发言者 多种语文
最佳用于:: 创意音频内容、有情感、音效的音频书籍

Bark SmallBark Small

Standard

巴克·斯莫(Bark Small)是《巴克模式》的蒸馏版本,它用某种音质交换一些音质,以大大加快推论速度和降低内存要求。 它保留了巴克用情感、笑声和多种语言发声的能力。

开发者 ::
Suno
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
卷内:
2GB
语音克隆:
否 无
成本每1千焦数:
2x
轻重量 速快于全盘 情感言论 多种语文
最佳用于:: 当全巴太慢时快速创意音频

CosyVoice 2CosyVoice 2

Standard

Alibaba's Tongyi Lab 的CosyVoice 2 由 Alibaba 的 Tongyi Lab 提供,它能以极低的延缓度实现人与人相比的语音质量,使其适合实时应用。 它在合成合成流中采用了有限的天平量化方法,支持零弹射的语音克隆、跨语言合成和细微的情感控制。 它在主观评价中优于许多商业TTS系统。

开发者 ::
Alibaba (Tongyi Lab)
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, fr, de, it, es
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
2x
串流 零光克隆 跨语文 情感控制 人的平等
最佳用于:: 实时应用程序、流流TTTS、语音助理

Dia TTSDia TTS

Standard

Nari Labs的Dia是一个1.6B参数文本到语音模型,专门用于生成多声音对话。它可以产生两个发言者之间的自然声音对话,并有适当的转接、手动和情感表达。 Dia是创建播客式内容、音频书对话以及互动式对话AI的完美选择。

开发者 ::
Nari Labs
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en
卷内:
4GB
语音克隆:
否 无
成本每1千焦数:
2x
多发言者 对话框生成 自然转向 情感表达 1.6B参数
最佳用于:: 播客、音频书对话、谈话内容

Parler TTSParler TTS

Standard

Parler TTS 是一种文本到语音的模式, 使用自然语言语音描述来控制生成的语音。 您不是从预设的语音中选择, 而是描述您想要的( 比如“ 一种温和的女性声音, 具有轻微英国口音, 缓慢而清晰地说 ” ), 而 Parler 生成的语音描述与该描述相匹配。 这使得它具有独特的灵活性, 适用于创造性应用 。

开发者 ::
Hugging Face
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en
卷内:
4GB
语音克隆:
否 无
成本每1千焦数:
2x
语音描述 自然语言控制 灵活的声音创作 不需要预设声音
最佳用于:: 需要自定义语音特征的创意应用

GLM-TTSGLM-TTS

Standard

Zhipu AI的GLM-TTS是建立在Llama结构上的文本到语音系统,与流量匹配。 它在开放源代码 TTS 模型中达到最低的字符错误率, 这意味着它产生最准确的发音。 GLM-TTS 支持英语和中文使用3-10秒音频样本的语音克隆。

开发者 ::
Zhipu AI
驾照 ::
GLM-4 License
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
2x
最低误差率 语音克隆 流程匹配匹配 自然抛物体
最佳用于:: 需要最高读音精确度的应用

IndexTTS-2IndexTTS-2

Standard

IndexTTS-2是一个先进的文本到语音系统,在零光语音合成和精细感官控制方面优异。 它可以产生特定情感调子的演讲,比如快乐、悲伤、愤怒或恐惧,而不需要特定情感的培训数据。 该模型使用情感矢量来精确控制生成的语音的情感表达。

开发者 ::
Index Team
驾照 ::
Bilibili Model License
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
2x
情感控制 零弹 情感矢量 表达式讲话 精细谷物控制
最佳用于:: 情感表达内容、音频书、虚拟助理

Spark TTSSpark TTS

Standard

SparkAudio的Spark TTS是一种将语音克隆与可控情绪和语音风格相结合的文本到语音模型。 只要使用5秒钟的参考音频,它就可以克隆一个声音,然后以不同的情感、速度和风格生成语音,同时保持克隆语音身份。 SPark TTS使用快速控制系统。

开发者 ::
SparkAudio
驾照 ::
CC BY-NC-SA 4.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
2x
语音克隆 情感控制 样式控控控 以迅速为基础的 5秒克隆
最佳用于:: 以克隆声音和情感控制创建内容

GPT-SoVITSGPT-SoVITS

Standard

GPT-SOVITS将GPT式语言模型与SOVITS(通过翻译和合成发声推论)相结合,用于强力的微声克隆。 只要只有5秒钟的音频参考,它就能准确克隆声音并产生新的演讲,同时保留发言者的独特性。 它在语音合成和唱歌合成方面都很出色。

开发者 ::
RVC-Boss
驾照 ::
MIT
速度速度:
Slow
质量 ::
语言语言语言:
en, zh, ja, ko
卷内:
6GB
语音克隆:
是 是
成本每1千焦数:
2x
5秒克隆 歌唱声 几近学习 高忠诚度 跨语文
最佳用于:: 语音克隆、歌唱合成、内容创作者语音复制

OrpheusOrpheus

Standard

Orpheus 是一种大规模文本到语音模式,可以实现人际情感表达。 在10万多小时的多种语言数据培训中,Orpheus擅长以自然情感、重点和语言风格生成语言。 Orpheus 能够产生与人类记录几乎无法区分的言论。

开发者 ::
Canopy Labs
驾照 ::
Llama 3.2 Community
速度速度:
Medium
质量 ::
语言语言语言:
en
卷内:
4GB
语音克隆:
否 无
成本每1千焦数:
2x
人文情感 100小时培训 自然强调自然 表达式讲话
最佳用于:: 高质量的情感演讲、音频书、语音演唱

ChatterboxChatterbox

Premium

由 Resemble AI 制作的聊天盒是一个最尖端的零弹声音克隆模型。 它能够以惊人的精确度复制来自单一音频样本的任何声音,不仅捕捉音调,而且捕捉语音风格和情感上的细微差别。 聊天盒还具有精细的情感控制功能,允许您调整生成的音调的情绪,而独立于声音身份。

开发者 ::
Resemble AI
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
4x
零光克隆 情感控制 高忠诚度 样式传输 单一样本克隆
最佳用于:: 具有情感控制、内容创建的专业语音克隆

Tortoise TTSTortoise TTS

Premium

乌龟 TTS 是一个自动递减的多声音文本到语音系统,它将音质排在速度之上。 它使用DALL-E-受DALL-E启发的建筑来生成高度自然的言辞,其手势和语音相似性极佳。 乌龟比许多替代品慢,但它生成了一些开放源生态系统中最现实的合成言词。

开发者 ::
James Betker
驾照 ::
Apache 2.0
速度速度:
Slow
质量 ::
语言语言语言:
en
卷内:
8GB
语音克隆:
是 是
成本每1千焦数:
4x
最高质量 多声音 DALL-E建筑 语音克隆 自动递退
最佳用于:: 音频书籍、精品内容、质量第一应用程序

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 将风格传播与使用大型语言模型的对抗性培训相结合,从而实现人文层面的TTS合成,在单声频模型中产生最自然的感知演讲,与人类录音相匹配。 StyleTTS 2 使用基于传播的风格模型来捕捉各种人类言语变异。

开发者 ::
Columbia University
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en
卷内:
4GB
语音克隆:
否 无
成本每1千焦数:
4x
人 职 人 职 人 职 样式扩散 对抗训练 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 高忠诚度
最佳用于:: 工作室质量好的单讲者合成、专业叙事

OpenVoiceOpenVoice

Premium

由Myshell.ai OpenVoice 的 OpenVoice 使得即时语音克隆能够对语音风格、情感、口音、节奏、暂停和调子进行颗粒控制。 它可以从一个简短的音频剪辑中克隆一个声音,并在保持发言者身份的同时生成多种语言的语音。 OpenVoice 也可以发挥语音转换功能,允许实时语音转换。

开发者 ::
MyShell.ai / MIT
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, fr, de, es, it
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
4x
即时克隆 语音转换 情感控制 加速控制控制 多种语文
最佳用于:: 音频克隆,精细磨制风格控制,语音转换

Qwen3 TTSQwen3 TTS

Standard

Quen3-TTS 是一个来自 Alibaba 的 Quen 团队的17亿个参数文本到语音模型。 它支持三种模式: 预设情感控制声音( 9个发言者 ) 、 仅3秒钟的音频克隆, 以及一种独特的声音设计模式, 用来描述自然语言中您想要的声音。 它包含10种语言, 具有高度的表达性和自然的流传性 。

开发者 ::
Alibaba (Qwen)
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, de, fr, ru, pt, es, it
卷内:
7GB
语音克隆:
是 是
成本每1千焦数:
2x
语音克隆 9 个预设声音 文本的语音设计 情感控制 10种10语言
最佳用于:: 多语种内容,配有语音克隆或定制语音设计

Sesame CSMSesame CSM

Premium

Sesame CSM(Censame CSM ) ( conserenceal Speaction model ), 是一个专门设计用于生成谈话演讲的10亿个参数模型。 它模拟了人类对话的自然模式,包括回转计时、回声响应、情感反应和谈话流。 CSM 生成的音频听起来像自然的人类对话而不是合成语言。

开发者 ::
Sesame
驾照 ::
Apache 2.0
速度速度:
Slow
质量 ::
语言语言语言:
en
卷内:
8GB
语音克隆:
否 无
成本每1千焦数:
4x
对话 自然自然时间 十五. 转 转 转 地下通道 1B参数
最佳用于:: AI 助理、聊天爱好者、对话性AI应用程序

Chatterbox TurboChatterbox Turbo

Standard

使用 Resemble AI 的聊天器盒涡轮是 350M 参数升级到 Chatterbox 的 350M 参数, 以 sub- 200ms latency 传送到 6x 实时速度 。 它支持文本中的多语言标记, 如 [ laugh] 、 [ cough] 和 [ chuckle] 。 包括所有生成的音频的 Perth 水印, 用于源跟踪 。

开发者 ::
Resemble AI
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en
卷内:
2GB
语音克隆:
是 是
成本每1千焦数:
2x
分200ms 延时 语言语言标记 6x实时 语音克隆 划水
最佳用于:: 实时语音代理器、以自然声音表达的演讲

ZonosZonos

Standard

Zyphra的Zonos v0.1是一个1.6B参数模型,以细微的情感控制为特征,对幸福、愤怒、悲哀、恐惧和惊喜进行细微的情感控制。 它既提供变形器,也提供小说 SSM(状态空间模型)变体。 在200K+小时的多语种演讲中接受了培训,从10-30秒的音频参考中进行零光语音克隆。

开发者 ::
Zyphra
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, ja, zh, fr, de
卷内:
6GB
语音克隆:
是 是
成本每1千焦数:
2x
情感控制 语音克隆 SSMS建筑 多种语文 方案/价格控制
最佳用于:: 语音设计演播室

Dia 2Dia 2

Standard

Nari Labs 的 Dia2 是 Dia2 的第一个版本, 以 1B 参数变量和 2B 参数变量提供。 它开始将最初几个符号的音频合成, 使它成为实时语音介质和语音对语音管道的理想。 支持与 [S1]/ [S2] 标签和双语言提示( 笑 ) ( 咳 ) 的多语种对话 。

开发者 ::
Nari Labs
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言:
en
卷内:
4GB
语音克隆:
否 无
成本每1千焦数:
2x
串流输出 多发言者 低延迟度 单一语言提示 输出至多2分钟
最佳用于:: 实时语音代理器、对话生成、流流应用

VoxCPMVoxCPM

Standard

OpenBMB的VoxCPM 1. 5是一种新型的无象征性TTS模型,在连续空间运行,而不是离散的象征物。它产生高美度44.1kHz音频,支持3-10秒零光声音克隆,并保持各段落的一致性。跨语言克隆可以让您在中文演讲中使用英语声音,反之亦然。

开发者 ::
OpenBMB
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言:
en, zh
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
2x
44.1kHz 音频 无调制器 跨语言克隆 环境意识 LoRA 微调
最佳用于:: 高忠实音频、音频书籍、长式音频内容和声声一致

OuteTTSOuteTTS

Free

外部TTS 扩展了具有文本到语音能力的大型语言模型, 同时保存原始结构 。 它支持多个后端, 包括 lama. cpp (CPU/GPU) 、 Huggging Face 变换器、 ExLlamaV2、 VLLM, 甚至浏览器通过变换器推导。 js. 通过以 JSON 保存的语句描述, 功能为零光语音克隆 。

开发者 ::
OuteAI
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言:
en
卷内:
2GB
语音克隆:
是 是
成本每1千焦数:
自由
CPU 推断 浏览器推断 语音克隆 多个后端 发言人简介
最佳用于:: 边缘部署、基于浏览器的TTTS、低资源环境

TADATADA

Standard

Hume AI(Text-Acouctic 双重对齐)由Hume AI(TADA)制作,这是一个突破性TTS模型,它通过建立在Llama 3.2上的新颖的双重对齐结构消除了幻觉。 1B(英文)和3B(多种语言)变体中,TADA实现了0.09RTF,比以LLM TTS为基础的可比较的TTTS模型更快5x0.9RTF,它支持了多达700秒的音频环境,并制作了情感表达式演讲,在标准基准上没有幻觉。

开发者 ::
Hume AI
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en
卷内:
5GB
语音克隆:
否 无
成本每1千焦数:
2x
零幻觉 5x比LLM TTS更快 情感表达 700s 音频上下文 双对齐
最佳用于:: 高质量的无幻觉、无幻觉的言论、情感表达、快速推论

VibeVoiceVibeVoice

Standard

微软VibeVoice的VibeVoice有两个变体:一个1.5B长形内容模型(最多90分钟,4个喇叭),一个实时0.5B模型,以~200ms为第一个音频悬念流流。1.5B变量优于播客和音频书籍,在长通道上与语音一致。注意:微软从存储处移除了TTS代码,生成的音频包括可听的AI免责声明。

开发者 ::
Microsoft
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en, zh
卷内:
4GB
语音克隆:
否 无
成本每1千焦数:
2x
多发言者 90分钟以下 播客一代 议长一致性 200米流
最佳用于:: 播客、音频书籍、长式多语种广播内容

Pocket TTSPocket TTS

Free

由Kyutai(Moshi的孵化器)制作的口袋 TTS(Pocket TTS)是一个100M参数文本到语音的紧凑模型,其重量远远超过其重量。 它在CPU上有效运行,支持单一音频样本的零光语音克隆,并制作自然声音演讲。 小型模型大小使得它适合边缘部署和低资源环境。

开发者 ::
Kyutai
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en, fr
卷内:
1GB
语音克隆:
是 是
成本每1千焦数:
自由
100米参数 CPU 推断 语音克隆 单类克隆 边缘准备就绪
最佳用于:: 轻量度部署、仅使用CPU的环境、快速语音克隆

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

开发者 ::
KittenML
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言:
en
卷内:
0GB
语音克隆:
否 无
成本每1千焦数:
自由
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
最佳用于:: Fast lightweight TTS, edge deployment, low-latency applications

CosyVoice3CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

开发者 ::
Alibaba (FunAudioLLM)
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言:
en, zh, ja, ko, de, es, fr, it, ru
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
2x
Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following
最佳用于:: Multilingual production TTS, real-time applications, voice cloning

MOSS-TTSMOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

开发者 ::
OpenMOSS
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
卷内:
16GB
语音克隆:
是 是
成本每1千焦数:
4x
Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching
最佳用于:: Audiobooks, long-form content, multilingual production

MegaTTS3MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

开发者 ::
ByteDance
驾照 ::
Apache 2.0
速度速度:
Slow
质量 ::
语言语言语言:
en, zh
卷内:
8GB
语音克隆:
是 是
成本每1千焦数:
4x
Voice cloning Adjustable similarity Cross-lingual
最佳用于:: High-fidelity voice cloning

KokoroKokoro

自由

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

开发者 ::
Hexgrad
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
最佳用于:: High-quality TTS with minimal latency, streaming applications

PiperPiper

自由

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

开发者 ::
Rhasspy
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
最佳用于:: Quick previews, accessibility, and embedded applications

VITSVITS

自由

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

开发者 ::
Jaehyeon Kim et al.
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言: en, zh, ja, ko
最佳用于:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

自由

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

开发者 ::
MyShell.ai
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言: en, es, fr, zh, ja, ko
最佳用于:: Production applications needing fast, multilingual TTS

OuteTTSOuteTTS

自由

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

开发者 ::
OuteAI
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言: en
最佳用于:: Edge deployment, browser-based TTS, low-resource environments

Pocket TTSPocket TTS

自由

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

开发者 ::
Kyutai
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言: en, fr
最佳用于:: Lightweight deployment, CPU-only environments, quick voice cloning

Kitten TTSKitten TTS

自由

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

开发者 ::
KittenML
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言: en
最佳用于:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

标准标准标准标准

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

开发者 ::
Suno
驾照 ::
MIT
速度速度:
Slow
质量 ::
语言语言语言:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
语音克隆:
否 无
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
最佳用于:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

标准标准标准标准

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

开发者 ::
Suno
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
语音克隆:
否 无
LightweightFaster than full BarkEmotional speechMultilingual
最佳用于:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

标准标准标准标准

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

开发者 ::
Alibaba (Tongyi Lab)
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, fr, de, it, es
语音克隆:
是 是
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
最佳用于:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

标准标准标准标准

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

开发者 ::
Nari Labs
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en
语音克隆:
否 无
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
最佳用于:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

标准标准标准标准

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

开发者 ::
Hugging Face
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en
语音克隆:
否 无
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
最佳用于:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

标准标准标准标准

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

开发者 ::
Zhipu AI
驾照 ::
GLM-4 License
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
语音克隆:
是 是
Lowest error rateVoice cloningFlow matchingNatural prosody
最佳用于:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

标准标准标准标准

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

开发者 ::
Index Team
驾照 ::
Bilibili Model License
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
语音克隆:
是 是
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
最佳用于:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

标准标准标准标准

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

开发者 ::
SparkAudio
驾照 ::
CC BY-NC-SA 4.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
语音克隆:
是 是
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
最佳用于:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

标准标准标准标准

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

开发者 ::
RVC-Boss
驾照 ::
MIT
速度速度:
Slow
质量 ::
语言语言语言:
en, zh, ja, ko
语音克隆:
是 是
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
最佳用于:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

标准标准标准标准

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

开发者 ::
Canopy Labs
驾照 ::
Llama 3.2 Community
速度速度:
Medium
质量 ::
语言语言语言:
en
语音克隆:
否 无
Human-level emotion100K hours trainingNatural emphasisExpressive speech
最佳用于:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

标准标准标准标准

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

开发者 ::
Alibaba (Qwen)
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, de, fr, ru, pt, es, it
语音克隆:
是 是
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
最佳用于:: Multilingual content with voice cloning or custom voice design

Chatterbox TurboChatterbox Turbo

标准标准标准标准

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

开发者 ::
Resemble AI
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en
语音克隆:
是 是
Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
最佳用于:: Real-time voice agents, expressive speech with natural sounds

ZonosZonos

标准标准标准标准

Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.

开发者 ::
Zyphra
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, ja, zh, fr, de
语音克隆:
是 是
Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control
最佳用于:: Expressive speech with emotion control, voice design studio

Dia 2Dia 2

标准标准标准标准

Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).

开发者 ::
Nari Labs
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言:
en
语音克隆:
否 无
Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output
最佳用于:: Real-time voice agents, dialogue generation, streaming applications

VoxCPMVoxCPM

标准标准标准标准

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

开发者 ::
OpenBMB
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言:
en, zh
语音克隆:
是 是
44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
最佳用于:: High-fidelity audio, audiobooks, long-form content with voice consistency

TADATADA

标准标准标准标准

TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.

开发者 ::
Hume AI
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en
语音克隆:
否 无
Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment
最佳用于:: High-quality hallucination-free speech, emotional expression, fast inference

VibeVoiceVibeVoice

标准标准标准标准

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

开发者 ::
Microsoft
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en, zh
语音克隆:
否 无
Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
最佳用于:: Podcasts, dialogues, long-form narration, multi-speaker content

CosyVoice3CosyVoice3

标准标准标准标准

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

开发者 ::
Alibaba (FunAudioLLM)
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言:
en, zh, ja, ko, de, es, fr, it, ru
语音克隆:
是 是
Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
最佳用于:: Multilingual production TTS, real-time applications, voice cloning

ChatterboxChatterbox

Premium

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

开发者 ::
Resemble AI
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en
语音克隆:
是 是
卷内:
4GB
成本每1千焦数:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
最佳用于:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

Premium

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

开发者 ::
James Betker
驾照 ::
Apache 2.0
速度速度:
Slow
质量 ::
语言语言语言:
en
语音克隆:
是 是
卷内:
8GB
成本每1千焦数:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
最佳用于:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

开发者 ::
Columbia University
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en
语音克隆:
否 无
卷内:
4GB
成本每1千焦数:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
最佳用于:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

Premium

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

开发者 ::
MyShell.ai / MIT
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, fr, de, es, it
语音克隆:
是 是
卷内:
4GB
成本每1千焦数:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
最佳用于:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

开发者 ::
Sesame
驾照 ::
Apache 2.0
速度速度:
Slow
质量 ::
语言语言语言:
en
语音克隆:
否 无
卷内:
8GB
成本每1千焦数:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
最佳用于:: AI assistants, chatbots, conversational AI applications

MOSS-TTSMOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

开发者 ::
OpenMOSS
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
语音克隆:
是 是
卷内:
16GB
成本每1千焦数:
4x
Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching
最佳用于:: Audiobooks, long-form content, multilingual production

MegaTTS3MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

开发者 ::
ByteDance
驾照 ::
Apache 2.0
速度速度:
Slow
质量 ::
语言语言语言:
en, zh
语音克隆:
是 是
卷内:
8GB
成本每1千焦数:
4x
Voice cloningAdjustable similarityCross-lingual
最佳用于:: High-fidelity voice cloning

示范比较示范比较表

型 型 开发者 : 级别 质量 : 速度速度 语言语言语言 语音克隆 卷内 驾照 : 贷项
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 自由 使用使用
Piper Rhasspy Free Fast 31 0 (CPU only) MIT 自由 使用使用
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT 自由 使用使用
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT 自由 使用使用
Bark Suno Standard Slow 13 5GB MIT 2 使用使用
Bark Small Suno Standard Medium 13 2GB MIT 2 使用使用
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 使用使用
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 使用使用
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 使用使用
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 使用使用
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 使用使用
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 使用使用
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 使用使用
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 使用使用
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 使用使用
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 使用使用
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 使用使用
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 使用使用
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 使用使用
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 使用使用
Chatterbox Turbo Resemble AI Standard Fast 1 2GB MIT 2 使用使用
Zonos Zyphra Standard Medium 5 6GB Apache 2.0 2 使用使用
Dia 2 Nari Labs Standard Fast 1 4GB Apache 2.0 2 使用使用
VoxCPM OpenBMB Standard Fast 2 4GB Apache 2.0 2 使用使用
OuteTTS OuteAI Free Fast 1 2GB Apache 2.0 自由 使用使用
TADA Hume AI Standard Fast 1 5GB MIT 2 使用使用
VibeVoice Microsoft Standard Fast 2 4GB MIT 2 使用使用
Pocket TTS Kyutai Free Fast 2 1GB MIT 自由 使用使用
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 自由 使用使用
CosyVoice3 Alibaba (FunAudioLLM) Standard Fast 9 4GB Apache 2.0 2 使用使用
MOSS-TTS OpenMOSS Premium Medium 19 16GB Apache 2.0 4 使用使用
MegaTTS3 ByteDance Premium Slow 2 8GB Apache 2.0 4 使用使用

最全面的AI 文本到演讲平台

为什么选择 TTS.ai 文本到演讲?

TTS.ai将世界上最好的开放源码文本到语音模型汇集在一个简单易用的单一平台上。 与将您锁定在单一语音引擎中的专利服务不同,TTS.ai给了您从主要研究实验室(包括科基、迈希尔、安菲翁、荷兰荷兰、苏诺、哈金法西、清华大学等)获得20+模型的机会。

根据麻省理工学院、Apache 2.0或类似许可许可,每种模型都是开放源码,确保您拥有在您的项目中使用所生成的音频的全部商业权利。 无论您需要快速、轻量级合成来实时应用,或是音频和播客的高级演播室质量产出, TTS.ai有适合每个使用案例的模型。

免费型号, 不需要账户

立即以三种免费TTS模式启动:Piper(超快、轻量级)、VITS(高质量神经合成)和MelotTS(多语言支持 ) 。 没有注册、没有信用卡、没有世代限制。 免费模式支持英语和其他多种语言,其自然声音输出适合大多数应用。

GPU- 加速处理

所有的 TTS 模型都在专用 NVIDIA GPUs 上运行, 运行时间快速、 一致。 免费模型通常在两秒内生成音频 。 标准模型如Kokoro, CosyVoice 2 和 Bark 平均 3-5 秒。 质量最高的 Prium 模型如 Tortoise 和 Chatterbox, 视文本长度在5-15秒内处理 。

30+语文支助

以30多种语言生成演讲,包括英文、西班牙文、法文、德文、意大利文、葡萄牙文、中文、日文、韩文、阿拉伯文、印地文、俄文和许多其他语言。 几个模型支持跨语言合成,意思是你可以以原始声音从未受过过培训的语言生成演讲。 CosyVoice 2 和 GPT-SOVITS 擅长跨语言语音克隆。

开发者- 准备 API

将 TTS.ai 整合到您的应用程序中, 与我们的 OpenAI 兼容的 REST API 。 所有 20+ 模型的一个端点 。 Python, JavaScript, cURL 和 GO SDKs 。 实时应用程序的流动支持 。 大型内容生成的批量处理 。 用于 Async 通知的 Webhoks 。 在 Pro 和 Enterprist 计划中可用 。

常问问题

文字到语言(TTS)是一种AI技术,它将书面文字转换成自然声音的语音。 现代神经TS模型,如Kokoro、Chatterbox和CosyVoice 2, 利用深层次的学习产生出非常人性化的、自然流传、情感和节奏的演讲。

它取决于您的需要。 对于快速预览, 请使用 Piper 或 MelotTS( 免费, 快速 ) 。 对于高质量, 请尝试 Kokoro 或 CosyVoice 2 ( 标准级) 。 对于语音克隆, 请使用 Chatterbox 或 GPT- SoVITS ( 优先级) 。 对于对话框/ 播客内容, 请尝试 Dia TTS 。 每个模型都有不同的长处 — 尝试找到最合适的方法 。

是! TTS.ai 提供Kokoro、 Piper、 VITS 和 MelotTS 模型的免费文字语音。 不需要500个字符和每小时3代的账户。 注册一个免费账户以获得 15 个学分并访问所有模型 。

我们的TTS模式共同支持30+种语言,包括英文、西班牙文、法文、德文、意大利文、葡萄牙文、中文、日文、韩文、阿拉伯文、俄文、印地文等。

是的,通过TTS.ai生成的音频可以在商业上使用。 我们所有的模型都使用开放源码许可证(MIT, Apache 2. 0)。 检查单个模型许可证的具体条款。 我们建议审查您在项目中使用的具体模型的许可证。

TTS.ai 支持 MP3, WAV, OGG, 和 FLAC 输出格式。 MP3 是网络播放的默认值。 推荐 WAV 进一步进行音频处理。 您可以使用我们的音频转换工具在格式之间转换 。

语音克隆使用人工智能复制一个来自短音样样本的具体声音(通常为5-30秒) 。 上传一个清晰的目标声音和模型(如查特贝克、GPT-SOVITS或OpenVoice)将生成该声音中的新语言。 更清洁、更长参考音频的质量将得到改善。

自由用户可按请求生成最多500个字符。 注册用户可按请求获取最多5 000个字符。 对于较长的文本, 音频以块生成, 并自动缝合。 API 用户可按请求处理最多10 000个字符 。

SSML (语音合成标记语言) 支持的模型各不相同。 管道和其他一些模型支持用于暂停、 强调和读音控制的基本 SSML 标记。 对于没有本地 SSML 支持的模型, 您可以使用自然的标点和换行来影响 prosody 。

是的, 大多数模型支持速度调整, 从 0. 5x 到 2. 0x 。 有些模型, 如 巴克和 Parler 也允许 投盘和样式控制 。 您可以在高级设置面板中或通过 API 速度参数设定速度参数 。

是的,批量处理可以通过我们的 API 进行。 您可以在一个 API 调用或脚本中提交多个文本段, 每个文本段都将作为单独的音频文件进行处理和返回。 对于音频书章、电子学习模块或游戏对话框脚本来说,这是理想的。

从您的账户仪表板生成 API 密钥, 然后用您的文本、 模式和语音参数向 REST API 端点发送 POST 请求 。 我们在 Python、 JavaScript 和 cURL 中提供代码示例。 API 与 OpenAI 兼容, 因此现有的整合工作效果极小 。
5.0/5 (2)

我们能改进什么?您的反馈帮助我们解决问题。

立即开始将文本转换为语音

使用 TTS.ai 的 千名 创作者 加入 。 在新账户中获取 15,000 个免费字符 。 免费 模型无需注册即可使用 。