免费AI 文本到语音

轻量级82M参数模型提供工作室质量的演讲以燃烧快速的推论。

82M参数超快表达声音多种语文串流支持

快速 · 1.5GB VRAM 试试

Piper

CPU 方便CPU 离线能力 100+声音 35+语言 SSMML 支持

快速、本地的神经文字以至语言系统优化了Raspberry Pi 和嵌入设备。

快速 · 0 (CPU only) VRAM 试试

VITS

有条件的变式自动编码器,对终端至终端文本到语音进行对抗式学习。

端对端合成自然抛物体快速推断多个发言者

快速 · 1GB VRAM 试试

MeloTTS

CPU 优化 CPU 多种语文多个口音生产准备就绪低延迟度

高质量的多语种文字对语音语音,在CPU上运行,最短的延迟时间。

快速 · 0.5GB (GPU optional) VRAM 试试

Bark

声效效应笑笑/叹着音乐创作 100岁以上发言者多种语文

以变换器为基础的文本到音频模型,产生现实的言论、音乐和声音效果。

慢 · 5GB VRAM 试试

Bark Small

更亮的巴克版本,其推论更快,内存用量较低。

轻重量速快于全盘情感言论多种语文

中 · 2GB VRAM 试试

CosyVoice 2

Alibaba可伸缩的TTS流与人类的平衡性自然和接近零的悬浮。

串流零光克隆跨语文情感控制人的平等

Dia TTS

多发言者对话生成模式,

多发言者对话框生成自然转向情感表达 1.6B参数

Parler TTS

用自然语言描述您想要的声音, Parler 生成匹配的语音。

语音描述自然语言控制灵活的声音创作不需要预设声音

Indic Parler TTS

11 印度语语音描述自然语言控制 Indic 真实发音

8+印度语言的高质量演讲,有自然语言语音控制。

慢 · 8GB VRAM 试试

KhanomTan TTS

Thai TTS 多个发言者您的TTS 结构商业安全许可证

Thai-First text-to-speech 与选择演讲者的声音。

快速 · 2GB VRAM 试试

IndexTTS-2

零弹TTS 精细的情感控制和高超的表情

情感控制零弹情感矢量表达式讲话精细谷物控制

Spark TTS

语音克隆情感控制样式控控控以迅速为基础的 5秒克隆

声音克隆 TTS 以可控的情绪和通过提示说话的风格。

GPT-SoVITS

几发声音克隆TTS 复制任何声音仅5秒钟的音频。

5秒克隆歌唱声几近学习高忠诚度跨语文

慢 · 6GB VRAM 试试

Orpheus

人际情感TTS模型接受100K小时语言数据培训

人文情感 100小时培训自然强调自然表达式讲话

Chatterbox

最新技术的零声克隆由重塑性人工智能的情绪控制

零光克隆情感控制高忠诚度样式传输单一样本克隆

Tortoise TTS

多声音的文字对语音侧重于自动递减结构的质量。

最高质量多声音 DALL-E建筑语音克隆自动递退

慢 · 8GB VRAM 试试

StyleTTS 2

通过风格传播和对抗性培训,人文层次的文本对语音。

人职人职人职样式扩散对抗训练自然变化高忠诚度

OpenVoice

即时声音克隆以颗粒控制风格、情感和口音

即时克隆语音转换情感控制加速控制多种语文

Qwen3 TTS

9 个预设声音文本的语音设计情感控制 10种10语言

Alibaba的多语言TTS, 预设语音和语音设计来自文字。

中 · 7GB VRAM 试试

VieNeu-TTS-v2

7个预设声音(北+南口音) En-Vi 代码开关语音克隆(3-5参考) 播客/多发言者支持 CPU 单 CPU - 不需要 GPU

越南语+英语代码转换 TTS, 有 7 个预设声音和零发声音克隆。仅使用CPU, 不需要 GPU 。

快速 · CPU VRAM 试试

Sesame CSM

交流的演讲模式产生自然的对话与适当的时间和情感。

对话自然时间十五. 转地下通道 1B参数

慢 · 8GB VRAM 试试

Chatterbox Turbo

更快捷的聊天盒, 配有二百米潜伏器和语言标签, 供笑、咳嗽等使用。

分200ms 延时语言标记 6x实时语音克隆划水

快速 · 2GB VRAM 试试

VoxCPM

44.1kHz 音频无调制器跨语言克隆环境意识 LoRA 微调

无调制 TTS, 产生44.1kHz 音频, 具有上下文感知段落一致性。

快速 · 4GB VRAM 试试

Kani TTS 2

3GB VRAM 3GB 立方体超快轻重量纳米日记自由

超轻重量400M英语TTS模型运行在3GB VRAM。

快速 · 3GB VRAM 试试

OuteTTS

以LLM为基础的TTS,在CPU、GPU上运行,或浏览器上通过llama.cpp和变压器js运行。

CPU 推断浏览器推断多个后端发言人简介

慢 · 2GB VRAM 试试

VibeVoice

多发言者 90分钟以下播客一代议长一致性 200米流

微软模型,用于长式多声音内容,如播客和音频书。

快速 · 4GB VRAM 试试

Pocket TTS

100米参数 CPU 推断语音克隆单类克隆边缘准备就绪

轻量级100米参数模型由九井制作,其语音克隆来自单一样本。

快速 · 1GB VRAM 试试

Kitten TTS

CPU 唯一的 CPU 推断低于80MB模型大小 8个内在声音速度控制以 ONNX 为基础的 24kHz 输出

超轻量级 TTS 低于 80MB。运行于 CPU 上, 没有 GPU 。

快速 · 0GB VRAM 试试

CosyVoice3

下一代多语言TTS,双流、情感控制、零声克隆。

游情感控制语音克隆速度/数量控制说明如下

快速 · 4GB VRAM 试试

NAMAA Saudi TTS

沙特阿拉伯语方言现代阿拉伯文标准零弹语音克隆情感控制土著发音

第一个开放的沙特-阿拉伯语TTS。土生土长的沙特方言,带有查特文箱质量的语音克隆。

中 · 6GB VRAM 试试

Darwin TTS

语音克隆跨语文 FF 混合的FF 4种核心语言卫3骨干

跨模式的Quen3-TTS变式,加上从Quen3-1.7B语言模型中混合的FFN重量,用于更敏锐的多语种克隆。

中 · 7GB VRAM 试试

MOSS-TTSD

多发言者对话至多5名发言者 60 分一致音频语音克隆播客优化

多发言者对话延续模式——产生播客式对话,最多有5位发言者和60分钟连贯的音频。

中 · 12GB VRAM 试试

Ming-Omni TTS

44.1kHz 输出语音克隆情感控制对话框控制 BGM 生成压缩0.5B

5B 包含性44.1kHz高贞操输出和零弹声克隆的全调演讲模式。

中 · 3GB VRAM 试试

MOSS-TTS Nano