AI 文本文本至发言稿

将文字转换为自然声音, 使用开放源的 AI 模型。自由使用, 不需要账户。

签署自由

0/500 字符字符字符字符 · Sign up for 5,000 per generation →

签名签名对 5,000 字符限制的 5 000 个字符

SSML 模式 (用于精密控制的语音合成标记语言)

在 SSML 标记中折行文本以精确控制 :

<speak><prosody rate="slow">Slow speech</prosody></speak>

情感/样式标记

添加情感标记以影响交付(模型支持不同):

发音字典

定义自定义发音( Word = 发音) :

切进 0

-12 +12

AIT 型 AI 型 AI 型 AI 型

语音声音

语言语言语言

输出格式

速度速度 1.0x

0.5x 2.0x

免费的管道、VITS、MelotTS

您生成的音频将在此显示。选择一个模型, 输入文本, 并单击生成。

模型详细细节

CosyVoice 2

Standard

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

开发者 :	Alibaba (Tongyi Lab)
驾照 :	Apache 2.0
速度速度	Medium
质量 :
语言语言语言	8 语言语言语言
卷内	4GB
语音克隆	支助支助

特征特征:

Streaming Zero-shot cloning Cross-lingual Emotion control Human-parity

最佳用于:: Real-time applications, streaming TTS, voice assistants

更好的成果提示

使用适当的标点来显示自然暂停和切换
拼出数字和缩写,以更清晰的发音
添加逗号以创建词组间短暂停
使用省略号(...)来更长时间的戏剧性暂停(...)
尝试 Kokororo 或 CosyVoice 2 或 CosyVoice 2 最自然的结果
多发言者对话框和播客内容使用 Dia 的 Dia

字符用法

级别	成本每1千焦数
自由	0(无限制)
标准标准标准标准	2个积分/ 1K 字符
Premium	4个贷项/ 1K 字符

获取更多字符

AI 如何将文字用到语音

以三个简单步骤生成专业质量的语音传声器,不需要技术知识。

步骤1

输入您的文本

类型、粘贴或上传您想要转换为语音的文本。为登录用户支持最多每代5,000个字符。使用普通文本或添加 SSML 标记来高级控制发音、暂停和强调。

步骤2

选择模型和声音

从三层的 20+ AI 模型中选择。选择符合您内容的声音, 选择您的目标语言, 将播放速度从 0. 5x 调整到 2. 0x, 并选择您首选的输出格式( MP3、 WAV、 OGG 或 FLAC ) 。

步骤3

生成和下载

点击生成, 您的音频在秒内就绪。使用内建播放器预览, 以您选择的格式下载, 或复制共享链接。使用 API 进行批量处理并融入您的工作流程。

文本到语音使用案例

人工智能的文字对语音正在改变人们如何创造、消费和与数十个行业的音频内容互动。

听音书

将整本书转换成有演播室质量解说功能的自然声频书。与 Dia 一起支持多声器功能对话框。

视频语音语音

为YouTube、TikTok、Instagram Reels和Shorts 创建专业语音翻转器。 100+ 声音或克隆您自己的。

播客

以多个 AI 声音生成脚本的播客片段。使用 Dia 进行自然的双声对话。

游戏游戏

为独立游戏、视觉小说、互动小说和互动小说而演唱的大赦国际的声音。 NPC 对话、切口声音、30+语言。

电子学习

将课程材料、讲座和培训内容转换成音频,为全球平台提供多语种支持。

无障碍

使网站、文件和应用程序无障碍; 屏幕阅读器 API 整合和文章转换。

IVR & 电话系统

电源IVR系统、电话菜单和具有自然人工智能声音的客户服务。

社交媒体

TikTok叙事、Instagram Reels、Twitter/X评论、YouTube短裤。

串流

电动 TTS 警报, 聊天对声音, AI 联合主办, 和 Discord bots。低延迟, 100+ 声音, 流元素兼容。

营销

Addoovers、解释视频、产品演示和销售演示。

Dubbb 和本地化

将视频翻译成30+种语言,并配有语音匹配的AI。自动调用和语音探测。

冥想和安康

指引冥想、睡眠故事、呼吸练习、平静的确认、安抚大赦国际的声音。

查看全部使用案例和工具

全部文本到语音模式

TTS.ai上提供的每个AI模型的详细规格,比较质量、速度、语言支持和功能,为您的项目找到完美的模型。

Kokoro

Free

Kokoro是一个8200万个参数文本到语音模型,大大高于其重量级。尽管其体积小,但它能产生非常自然和直言不讳的演讲。 Kokoro支持多种语言,包括英语、日语、中文和韩语,并有各种表达声音。它的运行速度非常快 — — 在GPU上生成的音频速度比实时速度快近100倍。

开发者 ::
Hexgrad

驾照 ::
Apache 2.0

速度速度:
Fast

质量 ::

语言语言语言:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

卷内:
1.5GB

语音克隆:
否无

成本每1千焦数:
自由

82M参数超快表达声音多种语文串流支持

最佳用于:: 高质量的TTTS,最短的延迟、流流应用

尝试 Kokoro

Piper

Free

Piper是由Rhasspy开发的轻量级文本到语音引擎,它使用VITS和Lalynx结构。它完全在CPU上运行,对边缘设备、家庭自动化和需要离线 TTS 的应用程序来说是理想的。 Piper有超过100个超过30种语言的语音,即使以Raspberry Pi 4 的实时速度,它也以实时速度提供自然声音。

开发者 ::
Rhasspy

驾照 ::
MIT

速度速度:
Fast

质量 ::

语言语言语言:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

卷内:
0 (CPU only)

语音克隆:
否无

成本每1千焦数:
自由

CPU 方便CPU 离线能力 100+声音 30+语言 SSMML 支持

最佳用于:: 快速预览、可访问性和嵌入应用程序

尝试 Piper

VITS

Free

VITS(对终端至终端文字到语音的对抗性学习的变化性推断)是一种平行的终端至终端TTS方法,比目前的两阶段模型产生更自然的音频,采用变式推论,辅之以正常流动和对抗性培训过程,使自然性得到显著改善。

开发者 ::
Jaehyeon Kim et al.

驾照 ::
MIT

速度速度:
Fast

质量 ::

语言语言语言:
en, zh, ja, ko

卷内:
1GB

语音克隆:
否无

成本每1千焦数:
自由

端对端合成合成自然抛物体快速推断多个发言者

最佳用于:: 具有自然流动作用的普通用途文字对文字的语音

尝试 VITS

MeloTTS

Free

MyShell.ai的MelotTS是一个多语言的TTS图书馆,支持英语(美国、英国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。它非常快,仅以近实时速度处理CPU的文本。MelotTS是为生产用途设计的,支持CPU和GPU的推理。

开发者 ::
MyShell.ai

驾照 ::
MIT

速度速度:
Fast

质量 ::

语言语言语言:
en, es, fr, zh, ja, ko

卷内:
0.5GB (GPU optional)

语音克隆:
否无

成本每1千焦数:
自由

CPU 优化 CPU 多种语文多个口音生产准备就绪低延迟度

最佳用于:: 需要快速、多语言TTS的生产应用

尝试 MeloTTS

Bark

Standard

素诺的《苏诺之旅》是一个基于变压器的文本到音频模型,它能产生高度现实、多语言的言语以及其他音频,比如音乐、背景噪音和声音效果。它能产生笑、叹和哭等非语言交流。巴克支持100多个语音预设和13+语言。

开发者 ::
Suno

驾照 ::
MIT

速度速度:
Slow

质量 ::

语言语言语言:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

卷内:
5GB

语音克隆:
否无

成本每1千焦数:
2x

声效效应笑笑/叹着音乐创作 100岁以上发言者多种语文

最佳用于:: 创意音频内容、有情感、音效的音频书籍

尝试 Bark

Bark Small

Standard

巴克·斯莫(Bark Small)是《巴克模式》的蒸馏版本,它用某种音质交换一些音质,以大大加快推论速度和降低内存要求。它保留了巴克用情感、笑声和多种语言发声的能力。

开发者 ::
Suno

驾照 ::
MIT

速度速度:
Medium

质量 ::

语言语言语言:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

卷内:
2GB

语音克隆:
否无

成本每1千焦数:
2x

轻重量速快于全盘情感言论多种语文

最佳用于:: 当全巴太慢时快速创意音频

尝试 Bark Small

CosyVoice 2

Standard

Alibaba's Tongyi Lab 的CosyVoice 2 由 Alibaba 的 Tongyi Lab 提供,它能以极低的延缓度实现人与人相比的语音质量,使其适合实时应用。它在合成合成流中采用了有限的天平量化方法,支持零弹射的语音克隆、跨语言合成和细微的情感控制。它在主观评价中优于许多商业TTS系统。

开发者 ::
Alibaba (Tongyi Lab)

驾照 ::
Apache 2.0

速度速度:
Medium

质量 ::

语言语言语言:
en, zh, ja, ko, fr, de, it, es

卷内:
4GB

语音克隆:
是是

成本每1千焦数:
2x

串流零光克隆跨语文情感控制人的平等

最佳用于:: 实时应用程序、流流TTTS、语音助理

尝试 CosyVoice 2

Dia TTS

Standard

Nari Labs的Dia是一个1.6B参数文本到语音模型,专门用于生成多声音对话。它可以产生两个发言者之间的自然声音对话,并有适当的转接、手动和情感表达。 Dia是创建播客式内容、音频书对话以及互动式对话AI的完美选择。

开发者 ::
Nari Labs

驾照 ::
Apache 2.0

速度速度:
Medium

质量 ::

语言语言语言:
en

卷内:
4GB

语音克隆:
否无

成本每1千焦数:
2x

多发言者对话框生成自然转向情感表达 1.6B参数

最佳用于:: 播客、音频书对话、谈话内容

尝试 Dia TTS

Parler TTS

Standard

Parler TTS 是一种文本到语音的模式, 使用自然语言语音描述来控制生成的语音。您不是从预设的语音中选择, 而是描述您想要的( 比如“ 一种温和的女性声音, 具有轻微英国口音, 缓慢而清晰地说 ” ), 而 Parler 生成的语音描述与该描述相匹配。这使得它具有独特的灵活性, 适用于创造性应用。

开发者 ::
Hugging Face

驾照 ::
Apache 2.0

速度速度:
Medium

质量 ::

语言语言语言:
en

卷内:
4GB

语音克隆:
否无

成本每1千焦数:
2x

语音描述自然语言控制灵活的声音创作不需要预设声音

最佳用于:: 需要自定义语音特征的创意应用

尝试 Parler TTS

GLM-TTS

Standard

Zhipu AI的GLM-TTS是建立在Llama结构上的文本到语音系统,与流量匹配。它在开放源代码 TTS 模型中达到最低的字符错误率, 这意味着它产生最准确的发音。 GLM-TTS 支持英语和中文使用3-10秒音频样本的语音克隆。

开发者 ::
Zhipu AI

驾照 ::
GLM-4 License

速度速度:
Medium

质量 ::

语言语言语言:
en, zh

卷内:
4GB

语音克隆:
是是

成本每1千焦数:
2x

最低误差率语音克隆流程匹配匹配自然抛物体

最佳用于:: 需要最高读音精确度的应用

尝试 GLM-TTS

IndexTTS-2

Standard

IndexTTS-2是一个先进的文本到语音系统,在零光语音合成和精细感官控制方面优异。它可以产生特定情感调子的演讲,比如快乐、悲伤、愤怒或恐惧,而不需要特定情感的培训数据。该模型使用情感矢量来精确控制生成的语音的情感表达。

开发者 ::
Index Team

驾照 ::
Bilibili Model License

速度速度:
Medium

质量 ::

语言语言语言:
en, zh

卷内:
4GB

语音克隆:
是是

成本每1千焦数:
2x

情感控制零弹情感矢量表达式讲话精细谷物控制

最佳用于:: 情感表达内容、音频书、虚拟助理

尝试 IndexTTS-2

Spark TTS

Standard

SparkAudio的Spark TTS是一种将语音克隆与可控情绪和语音风格相结合的文本到语音模型。只要使用5秒钟的参考音频,它就可以克隆一个声音,然后以不同的情感、速度和风格生成语音,同时保持克隆语音身份。 SPark TTS使用快速控制系统。

开发者 ::
SparkAudio

驾照 ::
CC BY-NC-SA 4.0

速度速度:
Medium

质量 ::

语言语言语言:
en, zh

卷内:
4GB

语音克隆:
是是

成本每1千焦数:
2x

语音克隆情感控制样式控控控以迅速为基础的 5秒克隆

最佳用于:: 以克隆声音和情感控制创建内容

尝试 Spark TTS

GPT-SoVITS

Standard

GPT-SOVITS将GPT式语言模型与SOVITS(通过翻译和合成发声推论)相结合,用于强力的微声克隆。只要只有5秒钟的音频参考,它就能准确克隆声音并产生新的演讲,同时保留发言者的独特性。它在语音合成和唱歌合成方面都很出色。

开发者 ::
RVC-Boss

驾照 ::
MIT

速度速度:
Slow

质量 ::

语言语言语言:
en, zh, ja, ko

卷内:
6GB

语音克隆:
是是

成本每1千焦数:
2x

5秒克隆歌唱声几近学习高忠诚度跨语文

最佳用于:: 语音克隆、歌唱合成、内容创作者语音复制

尝试 GPT-SoVITS

Orpheus

Standard

Orpheus 是一种大规模文本到语音模式,可以实现人际情感表达。在10万多小时的多种语言数据培训中,Orpheus擅长以自然情感、重点和语言风格生成语言。 Orpheus 能够产生与人类记录几乎无法区分的言论。

开发者 ::
Canopy Labs

驾照 ::
Llama 3.2 Community

速度速度:
Medium

质量 ::

语言语言语言:
en

卷内:
4GB

语音克隆:
否无

成本每1千焦数:
2x

人文情感 100小时培训自然强调自然表达式讲话

最佳用于:: 高质量的情感演讲、音频书、语音演唱

尝试 Orpheus

Chatterbox

Premium

由 Resemble AI 制作的聊天盒是一个最尖端的零弹声音克隆模型。它能够以惊人的精确度复制来自单一音频样本的任何声音,不仅捕捉音调,而且捕捉语音风格和情感上的细微差别。聊天盒还具有精细的情感控制功能,允许您调整生成的音调的情绪,而独立于声音身份。

开发者 ::
Resemble AI

驾照 ::
MIT

速度速度:
Medium

质量 ::

语言语言语言:
en

卷内:
4GB

语音克隆:
是是

成本每1千焦数:
4x

零光克隆情感控制高忠诚度样式传输单一样本克隆

最佳用于:: 具有情感控制、内容创建的专业语音克隆

尝试 Chatterbox

Tortoise TTS

Premium

乌龟 TTS 是一个自动递减的多声音文本到语音系统,它将音质排在速度之上。它使用DALL-E-受DALL-E启发的建筑来生成高度自然的言辞,其手势和语音相似性极佳。乌龟比许多替代品慢,但它生成了一些开放源生态系统中最现实的合成言词。

开发者 ::
James Betker

驾照 ::
Apache 2.0

速度速度:
Slow

质量 ::

语言语言语言:
en

卷内:
8GB

语音克隆:
是是

成本每1千焦数:
4x

最高质量多声音 DALL-E建筑语音克隆自动递退

最佳用于:: 音频书籍、精品内容、质量第一应用程序

尝试 Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 将风格传播与使用大型语言模型的对抗性培训相结合,从而实现人文层面的TTS合成,在单声频模型中产生最自然的感知演讲,与人类录音相匹配。 StyleTTS 2 使用基于传播的风格模型来捕捉各种人类言语变异。

开发者 ::
Columbia University

驾照 ::
MIT

速度速度:
Medium

质量 ::

语言语言语言:
en

卷内:
4GB

语音克隆:
否无

成本每1千焦数:
4x

人职人职人职样式扩散对抗训练自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化自然变化高忠诚度

最佳用于:: 工作室质量好的单讲者合成、专业叙事

尝试 StyleTTS 2

OpenVoice

Premium

由Myshell.ai OpenVoice 的 OpenVoice 使得即时语音克隆能够对语音风格、情感、口音、节奏、暂停和调子进行颗粒控制。它可以从一个简短的音频剪辑中克隆一个声音,并在保持发言者身份的同时生成多种语言的语音。 OpenVoice 也可以发挥语音转换功能,允许实时语音转换。

开发者 ::
MyShell.ai / MIT

驾照 ::
MIT

速度速度:
Medium

质量 ::

语言语言语言:
en, zh, ja, ko, fr, de, es, it

卷内:
4GB

语音克隆:
是是

成本每1千焦数:
4x

即时克隆语音转换情感控制加速控制控制多种语文

最佳用于:: 音频克隆,精细磨制风格控制,语音转换

尝试 OpenVoice

Qwen3 TTS

Standard

Quen3-TTS 是一个来自 Alibaba 的 Quen 团队的17亿个参数文本到语音模型。它支持三种模式: 预设情感控制声音( 9个发言者 ) 、仅3秒钟的音频克隆, 以及一种独特的声音设计模式, 用来描述自然语言中您想要的声音。它包含10种语言, 具有高度的表达性和自然的流传性。

开发者 ::
Alibaba (Qwen)

驾照 ::
Apache 2.0

速度速度:
Medium

质量 ::

语言语言语言:
en, zh, ja, ko, de, fr, ru, pt, es, it

卷内:
7GB

语音克隆:
是是

成本每1千焦数:
2x

语音克隆 9 个预设声音文本的语音设计情感控制 10种10语言

最佳用于:: 多语种内容,配有语音克隆或定制语音设计

尝试 Qwen3 TTS

Sesame CSM

Premium

Sesame CSM(Censame CSM ) ( conserenceal Speaction model ), 是一个专门设计用于生成谈话演讲的10亿个参数模型。它模拟了人类对话的自然模式,包括回转计时、回声响应、情感反应和谈话流。 CSM 生成的音频听起来像自然的人类对话而不是合成语言。

开发者 ::
Sesame

驾照 ::
Apache 2.0

速度速度:
Slow

质量 ::

语言语言语言:
en

卷内:
8GB

语音克隆:
否无

成本每1千焦数:
4x

对话自然自然时间十五. 转转转地下通道 1B参数

最佳用于:: AI 助理、聊天爱好者、对话性AI应用程序

尝试 Sesame CSM

Chatterbox Turbo

Standard

使用 Resemble AI 的聊天器盒涡轮是 350M 参数升级到 Chatterbox 的 350M 参数, 以 sub- 200ms latency 传送到 6x 实时速度。它支持文本中的多语言标记, 如 [ laugh] 、 [ cough] 和 [ chuckle] 。包括所有生成的音频的 Perth 水印, 用于源跟踪。

开发者 ::
Resemble AI

驾照 ::
MIT

速度速度:
Fast

质量 ::

语言语言语言:
en

卷内:
2GB

语音克隆:
是是

成本每1千焦数:
2x

分200ms 延时语言语言标记 6x实时语音克隆划水

最佳用于:: 实时语音代理器、以自然声音表达的演讲

尝试 Chatterbox Turbo

Zonos

Standard

Zyphra的Zonos v0.1是一个1.6B参数模型,以细微的情感控制为特征,对幸福、愤怒、悲哀、恐惧和惊喜进行细微的情感控制。它既提供变形器,也提供小说 SSM(状态空间模型)变体。在200K+小时的多语种演讲中接受了培训,从10-30秒的音频参考中进行零光语音克隆。

开发者 ::
Zyphra

驾照 ::
Apache 2.0

速度速度:
Medium

质量 ::

语言语言语言:
en, ja, zh, fr, de

卷内:
6GB

语音克隆:
是是

成本每1千焦数:
2x

情感控制语音克隆 SSMS建筑多种语文方案/价格控制

最佳用于:: 语音设计演播室

尝试 Zonos

Dia 2

Standard

Nari Labs 的 Dia2 是 Dia2 的第一个版本, 以 1B 参数变量和 2B 参数变量提供。它开始将最初几个符号的音频合成, 使它成为实时语音介质和语音对语音管道的理想。支持与 [S1]/ [S2] 标签和双语言提示( 笑 ) ( 咳 ) 的多语种对话。

开发者 ::
Nari Labs

驾照 ::
Apache 2.0

速度速度:
Fast

质量 ::

语言语言语言:
en

卷内:
4GB

语音克隆:
否无

成本每1千焦数:
2x

串流输出多发言者低延迟度单一语言提示输出至多2分钟

最佳用于:: 实时语音代理器、对话生成、流流应用

尝试 Dia 2

VoxCPM

Standard

OpenBMB的VoxCPM 1. 5是一种新型的无象征性TTS模型,在连续空间运行,而不是离散的象征物。它产生高美度44.1kHz音频,支持3-10秒零光声音克隆,并保持各段落的一致性。跨语言克隆可以让您在中文演讲中使用英语声音,反之亦然。

开发者 ::
OpenBMB

驾照 ::
Apache 2.0

速度速度:
Fast

质量 ::

语言语言语言:
en, zh

卷内:
4GB

语音克隆:
是是

成本每1千焦数:
2x

44.1kHz 音频无调制器跨语言克隆环境意识 LoRA 微调

最佳用于:: 高忠实音频、音频书籍、长式音频内容和声声一致

尝试 VoxCPM

OuteTTS

Free

外部TTS 扩展了具有文本到语音能力的大型语言模型, 同时保存原始结构。它支持多个后端, 包括 lama. cpp (CPU/GPU) 、 Huggging Face 变换器、 ExLlamaV2、 VLLM, 甚至浏览器通过变换器推导。 js. 通过以 JSON 保存的语句描述, 功能为零光语音克隆。

开发者 ::
OuteAI

驾照 ::
Apache 2.0

速度速度:
Fast

质量 ::

语言语言语言:
en

卷内:
2GB

语音克隆:
是是

成本每1千焦数:
自由

CPU 推断浏览器推断语音克隆多个后端发言人简介

最佳用于:: 边缘部署、基于浏览器的TTTS、低资源环境

尝试 OuteTTS

TADA

Standard

Hume AI(Text-Acouctic 双重对齐)由Hume AI(TADA)制作,这是一个突破性TTS模型,它通过建立在Llama 3.2上的新颖的双重对齐结构消除了幻觉。 1B(英文)和3B(多种语言)变体中,TADA实现了0.09RTF,比以LLM TTS为基础的可比较的TTTS模型更快5x0.9RTF,它支持了多达700秒的音频环境,并制作了情感表达式演讲,在标准基准上没有幻觉。

开发者 ::
Hume AI

驾照 ::
MIT

速度速度:
Fast

质量 ::

语言语言语言:
en

卷内:
5GB

语音克隆:
否无

成本每1千焦数:
2x

零幻觉 5x比LLM TTS更快情感表达 700s 音频上下文双对齐

最佳用于:: 高质量的无幻觉、无幻觉的言论、情感表达、快速推论

尝试 TADA

VibeVoice

Standard

微软VibeVoice的VibeVoice有两个变体:一个1.5B长形内容模型(最多90分钟,4个喇叭),一个实时0.5B模型,以~200ms为第一个音频悬念流流。1.5B变量优于播客和音频书籍,在长通道上与语音一致。注意:微软从存储处移除了TTS代码,生成的音频包括可听的AI免责声明。

开发者 ::
Microsoft

驾照 ::
MIT

速度速度:
Fast

质量 ::

语言语言语言:
en, zh

卷内:
4GB

语音克隆:
否无

成本每1千焦数:
2x

多发言者 90分钟以下播客一代议长一致性 200米流

最佳用于:: 播客、音频书籍、长式多语种广播内容

尝试 VibeVoice

Pocket TTS

Free

由Kyutai(Moshi的孵化器)制作的口袋 TTS(Pocket TTS)是一个100M参数文本到语音的紧凑模型,其重量远远超过其重量。它在CPU上有效运行,支持单一音频样本的零光语音克隆,并制作自然声音演讲。小型模型大小使得它适合边缘部署和低资源环境。

开发者 ::
Kyutai

驾照 ::
MIT

速度速度:
Fast

质量 ::

语言语言语言:
en, fr

卷内:
1GB

语音克隆:
是是

成本每1千焦数:
自由

100米参数 CPU 推断语音克隆单类克隆边缘准备就绪

最佳用于:: 轻量度部署、仅使用CPU的环境、快速语音克隆

尝试 Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

开发者 ::
KittenML

驾照 ::
Apache 2.0

速度速度:
Fast

质量 ::

语言语言语言:
en

卷内:
0GB

语音克隆:
否无

成本每1千焦数:
自由

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

最佳用于:: Fast lightweight TTS, edge deployment, low-latency applications

尝试 Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

开发者 ::
Alibaba (FunAudioLLM)

驾照 ::
Apache 2.0

速度速度:
Fast

质量 ::

语言语言语言:
en, zh, ja, ko, de, es, fr, it, ru

卷内:
4GB

语音克隆:
是是

成本每1千焦数:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

最佳用于:: Multilingual production TTS, real-time applications, voice cloning

尝试 CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

开发者 ::
OpenMOSS

驾照 ::
Apache 2.0

速度速度:
Medium

质量 ::

语言语言语言:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

卷内:
16GB

语音克隆:
是是

成本每1千焦数:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

最佳用于:: Audiobooks, long-form content, multilingual production

尝试 MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

开发者 ::
ByteDance

驾照 ::
Apache 2.0

速度速度:
Slow

质量 ::

语言语言语言:
en, zh

卷内:
8GB

语音克隆:
是是

成本每1千焦数:
4x

Voice cloning Adjustable similarity Cross-lingual

最佳用于:: High-fidelity voice cloning

尝试 MegaTTS3

Kokoro

自由

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

开发者 ::
Hexgrad

驾照 ::
Apache 2.0

速度速度:
Fast

质量 ::

语言语言语言: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

最佳用于:: High-quality TTS with minimal latency, streaming applications

尝试自由

Piper

自由

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

开发者 ::
Rhasspy

驾照 ::
MIT

速度速度:
Fast

质量 ::

语言语言语言: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

最佳用于:: Quick previews, accessibility, and embedded applications

尝试自由

VITS

自由

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

开发者 ::
Jaehyeon Kim et al.

驾照 ::
MIT

速度速度:
Fast

质量 ::

语言语言语言: en, zh, ja, ko

最佳用于:: General-purpose text-to-speech with natural prosody

尝试自由

MeloTTS

自由

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

开发者 ::
MyShell.ai

驾照 ::
MIT

速度速度:
Fast

质量 ::

语言语言语言: en, es, fr, zh, ja, ko

最佳用于:: Production applications needing fast, multilingual TTS

尝试自由

OuteTTS

自由

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

开发者 ::
OuteAI

驾照 ::
Apache 2.0

速度速度:
Fast

质量 ::

语言语言语言: en

最佳用于:: Edge deployment, browser-based TTS, low-resource environments

尝试自由

Pocket TTS

自由

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

开发者 ::
Kyutai

驾照 ::
MIT

速度速度:
Fast

质量 ::

语言语言语言: en, fr

Premium

开发者 ::
OpenMOSS

驾照 ::
Apache 2.0

速度速度:
Medium

质量 ::

语言语言语言:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

语音克隆:
是是

卷内:
16GB

成本每1千焦数:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

最佳用于:: Audiobooks, long-form content, multilingual production

尝试 MOSS-TTS

MegaTTS3

Premium

开发者 ::
ByteDance

驾照 ::
Apache 2.0

速度速度:
Slow

质量 ::

语言语言语言:
en, zh

语音克隆:
是是

卷内:
8GB

成本每1千焦数:
4x

Voice cloningAdjustable similarityCross-lingual

最佳用于:: High-fidelity voice cloning

尝试 MegaTTS3

示范比较示范比较表

型型	开发者 :	级别	速度速度	语言语言语言	卷内	驾照 :	贷项
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	自由	使用使用
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	自由	使用使用
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	自由	使用使用
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	自由	使用使用
Bark	Suno	Standard	Slow	13	5GB	MIT	2	使用使用
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	使用使用
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	使用使用
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	使用使用
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	使用使用
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	使用使用
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	使用使用
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	使用使用
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	使用使用
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	使用使用
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	使用使用
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	使用使用
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	使用使用
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	使用使用
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	使用使用
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	使用使用
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	使用使用
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	使用使用
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	使用使用
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	使用使用
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	自由	使用使用
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	使用使用
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	使用使用
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	自由	使用使用
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	自由	使用使用
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	使用使用
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	使用使用
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	使用使用

最全面的AI 文本到演讲平台

为什么选择 TTS.ai 文本到演讲?

TTS.ai将世界上最好的开放源码文本到语音模型汇集在一个简单易用的单一平台上。与将您锁定在单一语音引擎中的专利服务不同,TTS.ai给了您从主要研究实验室(包括科基、迈希尔、安菲翁、荷兰荷兰、苏诺、哈金法西、清华大学等)获得20+模型的机会。

根据麻省理工学院、Apache 2.0或类似许可许可,每种模型都是开放源码,确保您拥有在您的项目中使用所生成的音频的全部商业权利。无论您需要快速、轻量级合成来实时应用,或是音频和播客的高级演播室质量产出, TTS.ai有适合每个使用案例的模型。

免费型号, 不需要账户

立即以三种免费TTS模式启动:Piper(超快、轻量级)、VITS(高质量神经合成)和MelotTS(多语言支持 ) 。没有注册、没有信用卡、没有世代限制。免费模式支持英语和其他多种语言,其自然声音输出适合大多数应用。

GPU- 加速处理

所有的 TTS 模型都在专用 NVIDIA GPUs 上运行, 运行时间快速、一致。免费模型通常在两秒内生成音频。标准模型如Kokoro, CosyVoice 2 和 Bark 平均 3-5 秒。质量最高的 Prium 模型如 Tortoise 和 Chatterbox, 视文本长度在5-15秒内处理。

30+语文支助

以30多种语言生成演讲,包括英文、西班牙文、法文、德文、意大利文、葡萄牙文、中文、日文、韩文、阿拉伯文、印地文、俄文和许多其他语言。几个模型支持跨语言合成,意思是你可以以原始声音从未受过过培训的语言生成演讲。 CosyVoice 2 和 GPT-SOVITS 擅长跨语言语音克隆。

开发者- 准备 API

将 TTS.ai 整合到您的应用程序中, 与我们的 OpenAI 兼容的 REST API 。所有 20+ 模型的一个端点。 Python, JavaScript, cURL 和 GO SDKs 。实时应用程序的流动支持。大型内容生成的批量处理。用于 Async 通知的 Webhoks 。在 Pro 和 Enterprist 计划中可用。

常问问题

文字到语言(TTS)是一种AI技术,它将书面文字转换成自然声音的语音。现代神经TS模型,如Kokoro、Chatterbox和CosyVoice 2, 利用深层次的学习产生出非常人性化的、自然流传、情感和节奏的演讲。

它取决于您的需要。对于快速预览, 请使用 Piper 或 MelotTS( 免费, 快速 ) 。对于高质量, 请尝试 Kokoro 或 CosyVoice 2 ( 标准级) 。对于语音克隆, 请使用 Chatterbox 或 GPT- SoVITS ( 优先级) 。对于对话框/ 播客内容, 请尝试 Dia TTS 。每个模型都有不同的长处 — 尝试找到最合适的方法。

是! TTS.ai 提供Kokoro、 Piper、 VITS 和 MelotTS 模型的免费文字语音。不需要500个字符和每小时3代的账户。注册一个免费账户以获得 15 个学分并访问所有模型。

我们的TTS模式共同支持30+种语言,包括英文、西班牙文、法文、德文、意大利文、葡萄牙文、中文、日文、韩文、阿拉伯文、俄文、印地文等。

是的,通过TTS.ai生成的音频可以在商业上使用。我们所有的模型都使用开放源码许可证(MIT, Apache 2. 0)。检查单个模型许可证的具体条款。我们建议审查您在项目中使用的具体模型的许可证。

TTS.ai 支持 MP3, WAV, OGG, 和 FLAC 输出格式。 MP3 是网络播放的默认值。推荐 WAV 进一步进行音频处理。您可以使用我们的音频转换工具在格式之间转换。

语音克隆使用人工智能复制一个来自短音样样本的具体声音(通常为5-30秒) 。上传一个清晰的目标声音和模型(如查特贝克、GPT-SOVITS或OpenVoice)将生成该声音中的新语言。更清洁、更长参考音频的质量将得到改善。

自由用户可按请求生成最多500个字符。注册用户可按请求获取最多5 000个字符。对于较长的文本, 音频以块生成, 并自动缝合。 API 用户可按请求处理最多10 000个字符。

SSML (语音合成标记语言) 支持的模型各不相同。管道和其他一些模型支持用于暂停、强调和读音控制的基本 SSML 标记。对于没有本地 SSML 支持的模型, 您可以使用自然的标点和换行来影响 prosody 。

是的, 大多数模型支持速度调整, 从 0. 5x 到 2. 0x 。有些模型, 如巴克和 Parler 也允许投盘和样式控制。您可以在高级设置面板中或通过 API 速度参数设定速度参数。

是的,批量处理可以通过我们的 API 进行。您可以在一个 API 调用或脚本中提交多个文本段, 每个文本段都将作为单独的音频文件进行处理和返回。对于音频书章、电子学习模块或游戏对话框脚本来说,这是理想的。

从您的账户仪表板生成 API 密钥, 然后用您的文本、模式和语音参数向 REST API 端点发送 POST 请求。我们在 Python、 JavaScript 和 cURL 中提供代码示例。 API 与 OpenAI 兼容, 因此现有的整合工作效果极小。

5.0/5 (3)

立即开始将文本转换为语音

使用 TTS.ai 的千名创作者加入。在新账户中获取 15,000 个免费字符。免费模型无需注册即可使用。

签署自由视图定价

AI 文本文本至发言稿

喜欢TTS.ai吗？告诉你的朋友吧！

模型详细细节

CosyVoice 2

更好的成果提示

字符用法

AI 如何将文字用到语音

输入您的文本

选择模型和声音

生成和下载

文本到语音使用案例

听音书

视频语音语音

播客

游戏游戏

电子学习

无障碍

IVR & 电话系统

社交媒体

串流

营销

Dubbb 和本地化

冥想和安康

全部文本到语音模式

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

TADA

VibeVoice