AI 文本文本至发言稿

将文字转换为自然声音, 使用开放源的 AI 模型。 自由使用, 不需要账户 。

签名签名 对 5,000 字符限制的 5 000 个字符

在 SSML 标记中折行文本以精确控制 :

<speak><prosody rate="slow">Slow speech</prosody></speak>

添加情感标记以影响交付(模型支持不同):

定义自定义发音( Word = 发音) :

-12 +12
0.5x 2.0x
免费的管道、VITS、MelotTS
您生成的音频将在此显示。 选择一个模型, 输入文本, 并单击生成 。
音频生成成功
0:00 0:00
下载音频 24小时后链接过期
像TTS.ai一样 告诉你的朋友

模型详细细节

Kitten TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

开发者 : KittenML
驾照 : Apache 2.0
速度速度 Fast
质量 :
语言语言语言 1 语言 语言 语言
卷内 0GB
语音克隆 不支持支持
特征特征:
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
最佳用于:: Fast lightweight TTS, edge deployment, low-latency applications

更好的成果提示

  • 使用适当的标点来显示自然暂停和切换
  • 拼出数字和缩写,以更清晰的发音
  • 添加逗号以创建词组间短暂停
  • 使用省略号(...)来更长时间的戏剧性暂停(...)
  • 尝试 Kokororo 或 CosyVoice 2 或 CosyVoice 2 最自然的结果
  • 多发言者对话框和播客内容使用 Dia 的 Dia

字符用法

级别 成本每1千焦数
自由 0(无限制)
标准标准标准标准 2个积分/ 1K 字符
Premium 4个贷项/ 1K 字符

AI 如何将文字用到语音

以三个简单步骤生成专业质量的语音传声器,不需要技术知识。

步骤1

输入您的文本

类型、 粘贴或上传您想要转换为语音的文本。 为登录用户支持最多每代5,000个字符。 使用普通文本或添加 SSML 标记来高级控制发音、 暂停和强调 。

步骤2

选择模型和声音

从三层的 20+ AI 模型中选择 。 选择符合您内容的声音, 选择您的目标语言, 将播放速度从 0. 5x 调整到 2. 0x, 并选择您首选的输出格式( MP3、 WAV、 OGG 或 FLAC ) 。

步骤3

生成和下载

点击生成, 您的音频在秒内就绪 。 使用内建播放器预览, 以您选择的格式下载, 或复制共享链接 。 使用 API 进行批量处理并融入您的工作流程 。

全部文本到语音模式

TTS.ai上提供的每个AI模型的详细规格,比较质量、速度、语言支持和功能,为您的项目找到完美的模型。

KokoroKokoro

Free

Kokoro是一个8200万个参数文本到语音模型,大大高于其重量级。 尽管其体积小,但它能产生非常自然和直言不讳的演讲。 Kokoro支持多种语言,包括英语、日语、中文和韩语,并有各种表达声音。 它的运行速度非常快 — — 在GPU上生成的音频速度比实时速度快近100倍。

开发者 ::
Hexgrad
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
卷内:
1.5GB
语音克隆:
否 无
成本每1千焦数:
自由
82M参数 超快 表达声音 多种语文 串流支持
最佳用于:: 高质量的TTTS,最短的延迟、流流应用

PiperPiper

Free

Piper是由Rhasspy开发的轻量级文本到语音引擎,它使用VITS和Lalynx结构。它完全在CPU上运行,对边缘设备、家庭自动化和需要离线 TTS 的应用程序来说是理想的。 Piper有超过100个超过30种语言的语音,即使以Raspberry Pi 4 的实时速度,它也以实时速度提供自然声音。

开发者 ::
Rhasspy
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
卷内:
0 (CPU only)
语音克隆:
否 无
成本每1千焦数:
自由
CPU 方便CPU 离线能力 100+声音 30+语言 SSMML 支持
最佳用于:: 快速预览、可访问性和嵌入应用程序

VITSVITS

Free

VITS(对终端至终端文字到语音的对抗性学习的变化性推断)是一种平行的终端至终端TTS方法,比目前的两阶段模型产生更自然的音频,采用变式推论,辅之以正常流动和对抗性培训过程,使自然性得到显著改善。

开发者 ::
Jaehyeon Kim et al.
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en, zh, ja, ko
卷内:
1GB
语音克隆:
否 无
成本每1千焦数:
自由
端对端合成合成 自然抛物体 快速推断 多个发言者
最佳用于:: 具有自然流动作用的普通用途文字对文字的语音

MeloTTSMeloTTS

Free

MyShell.ai的MelotTS是一个多语言的TTS图书馆,支持英语(美国、英国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。它非常快,仅以近实时速度处理CPU的文本。MelotTS是为生产用途设计的,支持CPU和GPU的推理。

开发者 ::
MyShell.ai
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言:
en, es, fr, zh, ja, ko
卷内:
0.5GB (GPU optional)
语音克隆:
否 无
成本每1千焦数:
自由
CPU 优化 CPU 多种语文 多个口音 生产准备就绪 低延迟度
最佳用于:: 需要快速、多语言TTS的生产应用

BarkBark

Standard

素诺的《苏诺之旅》是一个基于变压器的文本到音频模型,它能产生高度现实、多语言的言语以及其他音频,比如音乐、背景噪音和声音效果。 它能产生笑、叹和哭等非语言交流。 巴克支持100多个语音预设和13+语言。

开发者 ::
Suno
驾照 ::
MIT
速度速度:
Slow
质量 ::
语言语言语言:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
卷内:
5GB
语音克隆:
否 无
成本每1千焦数:
2x
声效效应 笑笑/叹着 音乐创作 100岁以上发言者 多种语文
最佳用于:: 创意音频内容、有情感、音效的音频书籍

Bark SmallBark Small

Standard

巴克·斯莫(Bark Small)是《巴克模式》的蒸馏版本,它用某种音质交换一些音质,以大大加快推论速度和降低内存要求。 它保留了巴克用情感、笑声和多种语言发声的能力。

开发者 ::
Suno
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
卷内:
2GB
语音克隆:
否 无
成本每1千焦数:
2x
轻重量 速快于全盘 情感言论 多种语文
最佳用于:: 当全巴太慢时快速创意音频

CosyVoice 2CosyVoice 2

Standard

Alibaba's Tongyi Lab 的CosyVoice 2 由 Alibaba 的 Tongyi Lab 提供,它能以极低的延缓度实现人与人相比的语音质量,使其适合实时应用。 它在合成合成流中采用了有限的天平量化方法,支持零弹射的语音克隆、跨语言合成和细微的情感控制。 它在主观评价中优于许多商业TTS系统。

开发者 ::
Alibaba (Tongyi Lab)
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, fr, de, it, es
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
2x
串流 零光克隆 跨语文 情感控制 人的平等
最佳用于:: 实时应用程序、流流TTTS、语音助理

Dia TTSDia TTS

Standard

Nari Labs的Dia是一个1.6B参数文本到语音模型,专门用于生成多声音对话。它可以产生两个发言者之间的自然声音对话,并有适当的转接、手动和情感表达。 Dia是创建播客式内容、音频书对话以及互动式对话AI的完美选择。

开发者 ::
Nari Labs
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en
卷内:
4GB
语音克隆:
否 无
成本每1千焦数:
2x
多发言者 对话框生成 自然转向 情感表达 1.6B参数
最佳用于:: 播客、音频书对话、谈话内容

Parler TTSParler TTS

Standard

Parler TTS 是一种文本到语音的模式, 使用自然语言语音描述来控制生成的语音。 您不是从预设的语音中选择, 而是描述您想要的( 比如“ 一种温和的女性声音, 具有轻微英国口音, 缓慢而清晰地说 ” ), 而 Parler 生成的语音描述与该描述相匹配。 这使得它具有独特的灵活性, 适用于创造性应用 。

开发者 ::
Hugging Face
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en
卷内:
4GB
语音克隆:
否 无
成本每1千焦数:
2x
语音描述 自然语言控制 灵活的声音创作 不需要预设声音
最佳用于:: 需要自定义语音特征的创意应用

GLM-TTSGLM-TTS

Standard

Zhipu AI的GLM-TTS是建立在Llama结构上的文本到语音系统,与流量匹配。 它在开放源代码 TTS 模型中达到最低的字符错误率, 这意味着它产生最准确的发音。 GLM-TTS 支持英语和中文使用3-10秒音频样本的语音克隆。

开发者 ::
Zhipu AI
驾照 ::
GLM-4 License
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
2x
最低误差率 语音克隆 流程匹配匹配 自然抛物体
最佳用于:: 需要最高读音精确度的应用

IndexTTS-2IndexTTS-2

Standard

IndexTTS-2是一个先进的文本到语音系统,在零光语音合成和精细感官控制方面优异。 它可以产生特定情感调子的演讲,比如快乐、悲伤、愤怒或恐惧,而不需要特定情感的培训数据。 该模型使用情感矢量来精确控制生成的语音的情感表达。

开发者 ::
Index Team
驾照 ::
Bilibili Model License
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
2x
情感控制 零弹 情感矢量 表达式讲话 精细谷物控制
最佳用于:: 情感表达内容、音频书、虚拟助理

Spark TTSSpark TTS

Standard

SparkAudio的Spark TTS是一种将语音克隆与可控情绪和语音风格相结合的文本到语音模型。 只要使用5秒钟的参考音频,它就可以克隆一个声音,然后以不同的情感、速度和风格生成语音,同时保持克隆语音身份。 SPark TTS使用快速控制系统。

开发者 ::
SparkAudio
驾照 ::
CC BY-NC-SA 4.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
2x
语音克隆 情感控制 样式控控控 以迅速为基础的 5秒克隆
最佳用于:: 以克隆声音和情感控制创建内容

GPT-SoVITSGPT-SoVITS

Standard

GPT-SOVITS将GPT式语言模型与SOVITS(通过翻译和合成发声推论)相结合,用于强力的微声克隆。 只要只有5秒钟的音频参考,它就能准确克隆声音并产生新的演讲,同时保留发言者的独特性。 它在语音合成和唱歌合成方面都很出色。

开发者 ::
RVC-Boss
驾照 ::
MIT
速度速度:
Slow
质量 ::
语言语言语言:
en, zh, ja, ko
卷内:
6GB
语音克隆:
是 是
成本每1千焦数:
2x
5秒克隆 歌唱声 几近学习 高忠诚度 跨语文
最佳用于:: 语音克隆、歌唱合成、内容创作者语音复制

OrpheusOrpheus

Standard

Orpheus 是一种大规模文本到语音模式,可以实现人际情感表达。 在10万多小时的多种语言数据培训中,Orpheus擅长以自然情感、重点和语言风格生成语言。 Orpheus 能够产生与人类记录几乎无法区分的言论。

开发者 ::
Canopy Labs
驾照 ::
Llama 3.2 Community
速度速度:
Medium
质量 ::
语言语言语言:
en
卷内:
4GB
语音克隆:
否 无
成本每1千焦数:
2x
人文情感 100小时培训 自然强调自然 表达式讲话
最佳用于:: 高质量的情感演讲、音频书、语音演唱

ChatterboxChatterbox

Premium

由 Resemble AI 制作的聊天盒是一个最尖端的零弹声音克隆模型。 它能够以惊人的精确度复制来自单一音频样本的任何声音,不仅捕捉音调,而且捕捉语音风格和情感上的细微差别。 聊天盒还具有精细的情感控制功能,允许您调整生成的音调的情绪,而独立于声音身份。

开发者 ::
Resemble AI
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
4x
零光克隆 情感控制 高忠诚度 样式传输 单一样本克隆
最佳用于:: 具有情感控制、内容创建的专业语音克隆

Tortoise TTSTortoise TTS

Premium

乌龟 TTS 是一个自动递减的多声音文本到语音系统,它将音质排在速度之上。 它使用DALL-E-受DALL-E启发的建筑来生成高度自然的言辞,其手势和语音相似性极佳。 乌龟比许多替代品慢,但它生成了一些开放源生态系统中最现实的合成言词。

开发者 ::
James Betker
驾照 ::
Apache 2.0
速度速度:
Slow
质量 ::
语言语言语言:
en
卷内:
8GB
语音克隆:
是 是
成本每1千焦数:
4x
最高质量 多声音 DALL-E建筑 语音克隆 自动递退
最佳用于:: 音频书籍、精品内容、质量第一应用程序

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 将风格传播与使用大型语言模型的对抗性培训相结合,从而实现人文层面的TTS合成,在单声频模型中产生最自然的感知演讲,与人类录音相匹配。 StyleTTS 2 使用基于传播的风格模型来捕捉各种人类言语变异。

开发者 ::
Columbia University
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en
卷内:
4GB
语音克隆:
否 无
成本每1千焦数:
4x
人 职 人 职 人 职 样式扩散 对抗训练 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 自然变化 高忠诚度
最佳用于:: 工作室质量好的单讲者合成、专业叙事

OpenVoiceOpenVoice

Premium

由Myshell.ai OpenVoice 的 OpenVoice 使得即时语音克隆能够对语音风格、情感、口音、节奏、暂停和调子进行颗粒控制。 它可以从一个简短的音频剪辑中克隆一个声音,并在保持发言者身份的同时生成多种语言的语音。 OpenVoice 也可以发挥语音转换功能,允许实时语音转换。

开发者 ::
MyShell.ai / MIT
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, fr, de, es, it
卷内:
4GB
语音克隆:
是 是
成本每1千焦数:
4x
即时克隆 语音转换 情感控制 加速控制控制 多种语文
最佳用于:: 音频克隆,精细磨制风格控制,语音转换

Qwen3 TTSQwen3 TTS

Standard

Quen3-TTS 是一个来自 Alibaba 的 Quen 团队的17亿个参数文本到语音模型。 它支持三种模式: 预设情感控制声音( 9个发言者 ) 、 仅3秒钟的音频克隆, 以及一种独特的声音设计模式, 用来描述自然语言中您想要的声音。 它包含10种语言, 具有高度的表达性和自然的流传性 。

开发者 ::
Alibaba (Qwen)
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, de, fr, ru, pt, es, it
卷内:
7GB
语音克隆:
是 是
成本每1千焦数:
2x
语音克隆 9 个预设声音 文本的语音设计 情感控制 10种10语言
最佳用于:: 多语种内容,配有语音克隆或定制语音设计

Sesame CSMSesame CSM

Premium

Sesame CSM(Censame CSM ) ( conserenceal Speaction model ), 是一个专门设计用于生成谈话演讲的10亿个参数模型。 它模拟了人类对话的自然模式,包括回转计时、回声响应、情感反应和谈话流。 CSM 生成的音频听起来像自然的人类对话而不是合成语言。

开发者 ::
Sesame
驾照 ::
Apache 2.0
速度速度:
Slow
质量 ::
语言语言语言:
en
卷内:
8GB
语音克隆:
否 无
成本每1千焦数:
4x
对话 自然自然时间 十五. 转 转 转 地下通道 1B参数
最佳用于:: AI 助理、聊天爱好者、对话性AI应用程序

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

开发者 ::
KittenML
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言:
en
卷内:
0GB
语音克隆:
否 无
成本每1千焦数:
自由
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
最佳用于:: Fast lightweight TTS, edge deployment, low-latency applications

KokoroKokoro

自由

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

开发者 ::
Hexgrad
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
最佳用于:: High-quality TTS with minimal latency, streaming applications

PiperPiper

自由

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

开发者 ::
Rhasspy
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
最佳用于:: Quick previews, accessibility, and embedded applications

VITSVITS

自由

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

开发者 ::
Jaehyeon Kim et al.
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言: en, zh, ja, ko
最佳用于:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

自由

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

开发者 ::
MyShell.ai
驾照 ::
MIT
速度速度:
Fast
质量 ::
语言语言语言: en, es, fr, zh, ja, ko
最佳用于:: Production applications needing fast, multilingual TTS

Kitten TTSKitten TTS

自由

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

开发者 ::
KittenML
驾照 ::
Apache 2.0
速度速度:
Fast
质量 ::
语言语言语言: en
最佳用于:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

标准标准标准标准

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

开发者 ::
Suno
驾照 ::
MIT
速度速度:
Slow
质量 ::
语言语言语言:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
语音克隆:
否 无
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
最佳用于:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

标准标准标准标准

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

开发者 ::
Suno
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
语音克隆:
否 无
LightweightFaster than full BarkEmotional speechMultilingual
最佳用于:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

标准标准标准标准

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

开发者 ::
Alibaba (Tongyi Lab)
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, fr, de, it, es
语音克隆:
是 是
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
最佳用于:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

标准标准标准标准

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

开发者 ::
Nari Labs
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en
语音克隆:
否 无
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
最佳用于:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

标准标准标准标准

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

开发者 ::
Hugging Face
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en
语音克隆:
否 无
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
最佳用于:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

标准标准标准标准

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

开发者 ::
Zhipu AI
驾照 ::
GLM-4 License
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
语音克隆:
是 是
Lowest error rateVoice cloningFlow matchingNatural prosody
最佳用于:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

标准标准标准标准

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

开发者 ::
Index Team
驾照 ::
Bilibili Model License
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
语音克隆:
是 是
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
最佳用于:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

标准标准标准标准

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

开发者 ::
SparkAudio
驾照 ::
CC BY-NC-SA 4.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh
语音克隆:
是 是
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
最佳用于:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

标准标准标准标准

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

开发者 ::
RVC-Boss
驾照 ::
MIT
速度速度:
Slow
质量 ::
语言语言语言:
en, zh, ja, ko
语音克隆:
是 是
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
最佳用于:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

标准标准标准标准

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

开发者 ::
Canopy Labs
驾照 ::
Llama 3.2 Community
速度速度:
Medium
质量 ::
语言语言语言:
en
语音克隆:
否 无
Human-level emotion100K hours trainingNatural emphasisExpressive speech
最佳用于:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

标准标准标准标准

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

开发者 ::
Alibaba (Qwen)
驾照 ::
Apache 2.0
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, de, fr, ru, pt, es, it
语音克隆:
是 是
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
最佳用于:: Multilingual content with voice cloning or custom voice design

ChatterboxChatterbox

Premium

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

开发者 ::
Resemble AI
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en
语音克隆:
是 是
卷内:
4GB
成本每1千焦数:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
最佳用于:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

Premium

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

开发者 ::
James Betker
驾照 ::
Apache 2.0
速度速度:
Slow
质量 ::
语言语言语言:
en
语音克隆:
是 是
卷内:
8GB
成本每1千焦数:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
最佳用于:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

开发者 ::
Columbia University
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en
语音克隆:
否 无
卷内:
4GB
成本每1千焦数:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
最佳用于:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

Premium

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

开发者 ::
MyShell.ai / MIT
驾照 ::
MIT
速度速度:
Medium
质量 ::
语言语言语言:
en, zh, ja, ko, fr, de, es, it
语音克隆:
是 是
卷内:
4GB
成本每1千焦数:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
最佳用于:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

开发者 ::
Sesame
驾照 ::
Apache 2.0
速度速度:
Slow
质量 ::
语言语言语言:
en
语音克隆:
否 无
卷内:
8GB
成本每1千焦数:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
最佳用于:: AI assistants, chatbots, conversational AI applications

示范比较示范比较表

型 型 开发者 : 级别 质量 : 速度速度 语言语言语言 语音克隆 卷内 驾照 : 贷项
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 自由 使用使用
Piper Rhasspy Free Fast 31 0 (CPU only) MIT 自由 使用使用
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT 自由 使用使用
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT 自由 使用使用
Bark Suno Standard Slow 13 5GB MIT 2 使用使用
Bark Small Suno Standard Medium 13 2GB MIT 2 使用使用
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 使用使用
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 使用使用
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 使用使用
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 使用使用
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 使用使用
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 使用使用
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 使用使用
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 使用使用
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 使用使用
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 使用使用
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 使用使用
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 使用使用
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 使用使用
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 使用使用
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 自由 使用使用

最全面的AI 文本到演讲平台

为什么选择 TTS.ai 文本到演讲?

TTS.ai将世界上最好的开放源码文本到语音模型汇集在一个简单易用的单一平台上。 与将您锁定在单一语音引擎中的专利服务不同,TTS.ai给了您从主要研究实验室(包括科基、迈希尔、安菲翁、荷兰荷兰、苏诺、哈金法西、清华大学等)获得20+模型的机会。

根据麻省理工学院、Apache 2.0或类似许可许可,每种模型都是开放源码,确保您拥有在您的项目中使用所生成的音频的全部商业权利。 无论您需要快速、轻量级合成来实时应用,或是音频和播客的高级演播室质量产出, TTS.ai有适合每个使用案例的模型。

免费型号, 不需要账户

立即以三种免费TTS模式启动:Piper(超快、轻量级)、VITS(高质量神经合成)和MelotTS(多语言支持 ) 。 没有注册、没有信用卡、没有世代限制。 免费模式支持英语和其他多种语言,其自然声音输出适合大多数应用。

GPU- 加速处理

所有的 TTS 模型都在专用 NVIDIA GPUs 上运行, 运行时间快速、 一致。 免费模型通常在两秒内生成音频 。 标准模型如Kokoro, CosyVoice 2 和 Bark 平均 3-5 秒。 质量最高的 Prium 模型如 Tortoise 和 Chatterbox, 视文本长度在5-15秒内处理 。

30+语文支助

以30多种语言生成演讲,包括英文、西班牙文、法文、德文、意大利文、葡萄牙文、中文、日文、韩文、阿拉伯文、印地文、俄文和许多其他语言。 几个模型支持跨语言合成,意思是你可以以原始声音从未受过过培训的语言生成演讲。 CosyVoice 2 和 GPT-SOVITS 擅长跨语言语音克隆。

开发者- 准备 API

将 TTS.ai 整合到您的应用程序中, 与我们的 OpenAI 兼容的 REST API 。 所有 20+ 模型的一个端点 。 Python, JavaScript, cURL 和 GO SDKs 。 实时应用程序的流动支持 。 大型内容生成的批量处理 。 用于 Async 通知的 Webhoks 。 在 Pro 和 Enterprist 计划中可用 。

常问问题

文字到语言(TTS)是一种AI技术,它将书面文字转换成自然声音的语音。 现代神经TS模型,如Kokoro、Chatterbox和CosyVoice 2, 利用深层次的学习产生出非常人性化的、自然流传、情感和节奏的演讲。

它取决于您的需要。 对于快速预览, 请使用 Piper 或 MelotTS( 免费, 快速 ) 。 对于高质量, 请尝试 Kokoro 或 CosyVoice 2 ( 标准级) 。 对于语音克隆, 请使用 Chatterbox 或 GPT- SoVITS ( 优先级) 。 对于对话框/ 播客内容, 请尝试 Dia TTS 。 每个模型都有不同的长处 — 尝试找到最合适的方法 。

是! TTS.ai 提供Kokoro、 Piper、 VITS 和 MelotTS 模型的免费文字语音。 不需要500个字符和每小时3代的账户。 注册一个免费账户以获得 15 个学分并访问所有模型 。

我们的TTS模式共同支持30+种语言,包括英文、西班牙文、法文、德文、意大利文、葡萄牙文、中文、日文、韩文、阿拉伯文、俄文、印地文等。

是的,通过TTS.ai生成的音频可以在商业上使用。 我们所有的模型都使用开放源码许可证(MIT, Apache 2. 0)。 检查单个模型许可证的具体条款。 我们建议审查您在项目中使用的具体模型的许可证。

TTS.ai 支持 MP3, WAV, OGG, 和 FLAC 输出格式。 MP3 是网络播放的默认值。 推荐 WAV 进一步进行音频处理。 您可以使用我们的音频转换工具在格式之间转换 。

语音克隆使用人工智能复制一个来自短音样样本的具体声音(通常为5-30秒) 。 上传一个清晰的目标声音和模型(如查特贝克、GPT-SOVITS或OpenVoice)将生成该声音中的新语言。 更清洁、更长参考音频的质量将得到改善。

自由用户可按请求生成最多500个字符。 注册用户可按请求获取最多5 000个字符。 对于较长的文本, 音频以块生成, 并自动缝合。 API 用户可按请求处理最多10 000个字符 。

SSML (语音合成标记语言) 支持的模型各不相同。 管道和其他一些模型支持用于暂停、 强调和读音控制的基本 SSML 标记。 对于没有本地 SSML 支持的模型, 您可以使用自然的标点和换行来影响 prosody 。

是的, 大多数模型支持速度调整, 从 0. 5x 到 2. 0x 。 有些模型, 如 巴克和 Parler 也允许 投盘和样式控制 。 您可以在高级设置面板中或通过 API 速度参数设定速度参数 。

是的,批量处理可以通过我们的 API 进行。 您可以在一个 API 调用或脚本中提交多个文本段, 每个文本段都将作为单独的音频文件进行处理和返回。 对于音频书章、电子学习模块或游戏对话框脚本来说,这是理想的。

从您的账户仪表板生成 API 密钥, 然后用您的文本、 模式和语音参数向 REST API 端点发送 POST 请求 。 我们在 Python、 JavaScript 和 cURL 中提供代码示例。 API 与 OpenAI 兼容, 因此现有的整合工作效果极小 。
5.0/5 (2)

我们能改进什么?您的反馈帮助我们解决问题。

立即开始将文本转换为语音

使用 TTS.ai 的 千名 创作者 加入 。 在新账户中获取 15,000 个免费字符 。 免费 模型无需注册即可使用 。