AI 文本文本至发言稿
将文字转换为自然声音, 使用开放源的 AI 模型。 自由使用, 不需要账户 。
在 SSML 标记中折行文本以精确控制 :
<speak><prosody rate="slow">Slow speech</prosody></speak>
添加情感标记以影响交付(模型支持不同):
定义自定义发音( Word = 发音) :
模型详细细节
Kitten TTS
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
| 开发者 : | KittenML |
| 驾照 : | Apache 2.0 |
| 速度速度 | Fast |
| 质量 : | |
| 语言语言语言 | 1 语言 语言 语言 |
| 卷内 | 0GB |
| 语音克隆 | 不支持支持 |
更好的成果提示
- 使用适当的标点来显示自然暂停和切换
- 拼出数字和缩写,以更清晰的发音
- 添加逗号以创建词组间短暂停
- 使用省略号(...)来更长时间的戏剧性暂停(...)
- 尝试 Kokororo 或 CosyVoice 2 或 CosyVoice 2 最自然的结果
- 多发言者对话框和播客内容使用 Dia 的 Dia
字符用法
| 级别 | 成本每1千焦数 |
|---|---|
| 自由 | 0(无限制) |
| 标准标准标准标准 | 2个积分/ 1K 字符 |
| Premium | 4个贷项/ 1K 字符 |
AI 如何将文字用到语音
以三个简单步骤生成专业质量的语音传声器,不需要技术知识。
输入您的文本
类型、 粘贴或上传您想要转换为语音的文本。 为登录用户支持最多每代5,000个字符。 使用普通文本或添加 SSML 标记来高级控制发音、 暂停和强调 。
选择模型和声音
从三层的 20+ AI 模型中选择 。 选择符合您内容的声音, 选择您的目标语言, 将播放速度从 0. 5x 调整到 2. 0x, 并选择您首选的输出格式( MP3、 WAV、 OGG 或 FLAC ) 。
生成和下载
点击生成, 您的音频在秒内就绪 。 使用内建播放器预览, 以您选择的格式下载, 或复制共享链接 。 使用 API 进行批量处理并融入您的工作流程 。
文本到语音使用案例
人工智能的文字对语音正在改变人们如何创造、消费和与数十个行业的音频内容互动。
全部文本到语音模式
TTS.ai上提供的每个AI模型的详细规格,比较质量、速度、语言支持和功能,为您的项目找到完美的模型。
Kokoro
Free
Kokoro是一个8200万个参数文本到语音模型,大大高于其重量级。 尽管其体积小,但它能产生非常自然和直言不讳的演讲。 Kokoro支持多种语言,包括英语、日语、中文和韩语,并有各种表达声音。 它的运行速度非常快 — — 在GPU上生成的音频速度比实时速度快近100倍。
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
否 无
自由
Piper
Free
Piper是由Rhasspy开发的轻量级文本到语音引擎,它使用VITS和Lalynx结构。它完全在CPU上运行,对边缘设备、家庭自动化和需要离线 TTS 的应用程序来说是理想的。 Piper有超过100个超过30种语言的语音,即使以Raspberry Pi 4 的实时速度,它也以实时速度提供自然声音。
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
否 无
自由
VITS
Free
VITS(对终端至终端文字到语音的对抗性学习的变化性推断)是一种平行的终端至终端TTS方法,比目前的两阶段模型产生更自然的音频,采用变式推论,辅之以正常流动和对抗性培训过程,使自然性得到显著改善。
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
否 无
自由
MeloTTS
Free
MyShell.ai的MelotTS是一个多语言的TTS图书馆,支持英语(美国、英国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。它非常快,仅以近实时速度处理CPU的文本。MelotTS是为生产用途设计的,支持CPU和GPU的推理。
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
否 无
自由
Bark
Standard
素诺的《苏诺之旅》是一个基于变压器的文本到音频模型,它能产生高度现实、多语言的言语以及其他音频,比如音乐、背景噪音和声音效果。 它能产生笑、叹和哭等非语言交流。 巴克支持100多个语音预设和13+语言。
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
否 无
2x
Bark Small
Standard
巴克·斯莫(Bark Small)是《巴克模式》的蒸馏版本,它用某种音质交换一些音质,以大大加快推论速度和降低内存要求。 它保留了巴克用情感、笑声和多种语言发声的能力。
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
否 无
2x
CosyVoice 2
Standard
Alibaba's Tongyi Lab 的CosyVoice 2 由 Alibaba 的 Tongyi Lab 提供,它能以极低的延缓度实现人与人相比的语音质量,使其适合实时应用。 它在合成合成流中采用了有限的天平量化方法,支持零弹射的语音克隆、跨语言合成和细微的情感控制。 它在主观评价中优于许多商业TTS系统。
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
是 是
2x
Dia TTS
Standard
Nari Labs的Dia是一个1.6B参数文本到语音模型,专门用于生成多声音对话。它可以产生两个发言者之间的自然声音对话,并有适当的转接、手动和情感表达。 Dia是创建播客式内容、音频书对话以及互动式对话AI的完美选择。
Nari Labs
Apache 2.0
Medium
en
4GB
否 无
2x
Parler TTS
Standard
Parler TTS 是一种文本到语音的模式, 使用自然语言语音描述来控制生成的语音。 您不是从预设的语音中选择, 而是描述您想要的( 比如“ 一种温和的女性声音, 具有轻微英国口音, 缓慢而清晰地说 ” ), 而 Parler 生成的语音描述与该描述相匹配。 这使得它具有独特的灵活性, 适用于创造性应用 。
Hugging Face
Apache 2.0
Medium
en
4GB
否 无
2x
GLM-TTS
Standard
Zhipu AI的GLM-TTS是建立在Llama结构上的文本到语音系统,与流量匹配。 它在开放源代码 TTS 模型中达到最低的字符错误率, 这意味着它产生最准确的发音。 GLM-TTS 支持英语和中文使用3-10秒音频样本的语音克隆。
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
是 是
2x
IndexTTS-2
Standard
IndexTTS-2是一个先进的文本到语音系统,在零光语音合成和精细感官控制方面优异。 它可以产生特定情感调子的演讲,比如快乐、悲伤、愤怒或恐惧,而不需要特定情感的培训数据。 该模型使用情感矢量来精确控制生成的语音的情感表达。
Index Team
Bilibili Model License
Medium
en, zh
4GB
是 是
2x
Spark TTS
Standard
SparkAudio的Spark TTS是一种将语音克隆与可控情绪和语音风格相结合的文本到语音模型。 只要使用5秒钟的参考音频,它就可以克隆一个声音,然后以不同的情感、速度和风格生成语音,同时保持克隆语音身份。 SPark TTS使用快速控制系统。
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
是 是
2x
GPT-SoVITS
Standard
GPT-SOVITS将GPT式语言模型与SOVITS(通过翻译和合成发声推论)相结合,用于强力的微声克隆。 只要只有5秒钟的音频参考,它就能准确克隆声音并产生新的演讲,同时保留发言者的独特性。 它在语音合成和唱歌合成方面都很出色。
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
是 是
2x
Orpheus
Standard
Orpheus 是一种大规模文本到语音模式,可以实现人际情感表达。 在10万多小时的多种语言数据培训中,Orpheus擅长以自然情感、重点和语言风格生成语言。 Orpheus 能够产生与人类记录几乎无法区分的言论。
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
否 无
2x
Chatterbox
Premium
由 Resemble AI 制作的聊天盒是一个最尖端的零弹声音克隆模型。 它能够以惊人的精确度复制来自单一音频样本的任何声音,不仅捕捉音调,而且捕捉语音风格和情感上的细微差别。 聊天盒还具有精细的情感控制功能,允许您调整生成的音调的情绪,而独立于声音身份。
Resemble AI
MIT
Medium
en
4GB
是 是
4x
Tortoise TTS
Premium
乌龟 TTS 是一个自动递减的多声音文本到语音系统,它将音质排在速度之上。 它使用DALL-E-受DALL-E启发的建筑来生成高度自然的言辞,其手势和语音相似性极佳。 乌龟比许多替代品慢,但它生成了一些开放源生态系统中最现实的合成言词。
James Betker
Apache 2.0
Slow
en
8GB
是 是
4x
StyleTTS 2
Premium
StyleTTS 2 将风格传播与使用大型语言模型的对抗性培训相结合,从而实现人文层面的TTS合成,在单声频模型中产生最自然的感知演讲,与人类录音相匹配。 StyleTTS 2 使用基于传播的风格模型来捕捉各种人类言语变异。
Columbia University
MIT
Medium
en
4GB
否 无
4x
OpenVoice
Premium
由Myshell.ai OpenVoice 的 OpenVoice 使得即时语音克隆能够对语音风格、情感、口音、节奏、暂停和调子进行颗粒控制。 它可以从一个简短的音频剪辑中克隆一个声音,并在保持发言者身份的同时生成多种语言的语音。 OpenVoice 也可以发挥语音转换功能,允许实时语音转换。
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
是 是
4x
Qwen3 TTS
Standard
Quen3-TTS 是一个来自 Alibaba 的 Quen 团队的17亿个参数文本到语音模型。 它支持三种模式: 预设情感控制声音( 9个发言者 ) 、 仅3秒钟的音频克隆, 以及一种独特的声音设计模式, 用来描述自然语言中您想要的声音。 它包含10种语言, 具有高度的表达性和自然的流传性 。
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
是 是
2x
Sesame CSM
Premium
Sesame CSM(Censame CSM ) ( conserenceal Speaction model ), 是一个专门设计用于生成谈话演讲的10亿个参数模型。 它模拟了人类对话的自然模式,包括回转计时、回声响应、情感反应和谈话流。 CSM 生成的音频听起来像自然的人类对话而不是合成语言。
Sesame
Apache 2.0
Slow
en
8GB
否 无
4x
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
否 无
自由
Kokoro
自由
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
自由
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
自由
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
自由
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Kitten TTS
自由
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
标准标准标准标准
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
否 无
Bark Small
标准标准标准标准
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
否 无
CosyVoice 2
标准标准标准标准
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
是 是
Dia TTS
标准标准标准标准
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
否 无
Parler TTS
标准标准标准标准
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
否 无
GLM-TTS
标准标准标准标准
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
是 是
IndexTTS-2
标准标准标准标准
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
是 是
Spark TTS
标准标准标准标准
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
是 是
GPT-SoVITS
标准标准标准标准
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
是 是
Orpheus
标准标准标准标准
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
否 无
Qwen3 TTS
标准标准标准标准
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
是 是
示范比较示范比较表
| 型 型 | 开发者 : | 级别 | 质量 : | 速度速度 | 语言语言语言 | 语音克隆 | 卷内 | 驾照 : | 贷项 | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | 自由 | 使用使用 | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | 自由 | 使用使用 | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | 自由 | 使用使用 | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | 自由 | 使用使用 | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | 使用使用 | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | 使用使用 | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | 使用使用 | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | 使用使用 | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | 使用使用 | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | 使用使用 | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | 使用使用 | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | 使用使用 | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | 使用使用 | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | 使用使用 | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | 使用使用 | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | 使用使用 | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | 使用使用 | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | 使用使用 | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | 使用使用 | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | 使用使用 | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | 自由 | 使用使用 |
最全面的AI 文本到演讲平台
为什么选择 TTS.ai 文本到演讲?
TTS.ai将世界上最好的开放源码文本到语音模型汇集在一个简单易用的单一平台上。 与将您锁定在单一语音引擎中的专利服务不同,TTS.ai给了您从主要研究实验室(包括科基、迈希尔、安菲翁、荷兰荷兰、苏诺、哈金法西、清华大学等)获得20+模型的机会。
根据麻省理工学院、Apache 2.0或类似许可许可,每种模型都是开放源码,确保您拥有在您的项目中使用所生成的音频的全部商业权利。 无论您需要快速、轻量级合成来实时应用,或是音频和播客的高级演播室质量产出, TTS.ai有适合每个使用案例的模型。
免费型号, 不需要账户
立即以三种免费TTS模式启动:Piper(超快、轻量级)、VITS(高质量神经合成)和MelotTS(多语言支持 ) 。 没有注册、没有信用卡、没有世代限制。 免费模式支持英语和其他多种语言,其自然声音输出适合大多数应用。
GPU- 加速处理
所有的 TTS 模型都在专用 NVIDIA GPUs 上运行, 运行时间快速、 一致。 免费模型通常在两秒内生成音频 。 标准模型如Kokoro, CosyVoice 2 和 Bark 平均 3-5 秒。 质量最高的 Prium 模型如 Tortoise 和 Chatterbox, 视文本长度在5-15秒内处理 。
30+语文支助
以30多种语言生成演讲,包括英文、西班牙文、法文、德文、意大利文、葡萄牙文、中文、日文、韩文、阿拉伯文、印地文、俄文和许多其他语言。 几个模型支持跨语言合成,意思是你可以以原始声音从未受过过培训的语言生成演讲。 CosyVoice 2 和 GPT-SOVITS 擅长跨语言语音克隆。
开发者- 准备 API
将 TTS.ai 整合到您的应用程序中, 与我们的 OpenAI 兼容的 REST API 。 所有 20+ 模型的一个端点 。 Python, JavaScript, cURL 和 GO SDKs 。 实时应用程序的流动支持 。 大型内容生成的批量处理 。 用于 Async 通知的 Webhoks 。 在 Pro 和 Enterprist 计划中可用 。
常问问题
我们能改进什么?您的反馈帮助我们解决问题。