免费AI 免费AI 文本到语音

22+开放源码模型,100+声音, 32+ 不需要账户。

0/500 字符字符字符字符 自由
无信用卡 50个免费信贷 50个免费信贷 32+ 语言语言语言 商业用途OK
0:00 / 0:00
下载音频 24小时后链接过期
像TT.ai那样 告诉你的朋友们

22+ AI 语音模型

在一个平台最全面地收集开放源代码 TTS 模型

KokoroKokoro Free

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

最佳用于: High-quality TTS with minimal latency, streaming applications

尝试自由

PiperPiper Free

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

最佳用于: Quick previews, accessibility, and embedded applications

尝试自由

VITSVITS Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

最佳用于: General-purpose text-to-speech with natural prosody

尝试自由

MeloTTSMeloTTS Free

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

最佳用于: 需要快速、多语言TTS的生产应用

尝试自由

BarkBark Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

开发者 : Suno · 驾照 : MIT

试试

Bark SmallBark Small Standard

Lighter version of Bark with faster inference and lower memory usage.

开发者 : Suno · 驾照 : MIT

试试

CosyVoice 2CosyVoice 2 Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

开发者 : Alibaba (Tongyi Lab) · 驾照 : Apache 2.0

试试

Dia TTSDia TTS Standard

多发言者对话生成模式,

开发者 : Nari Labs · 驾照 : Apache 2.0

试试

Parler TTSParler TTS Standard

Describe the voice you want in natural language and Parler generates matching speech.

开发者 : Hugging Face · 驾照 : Apache 2.0

试试

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

开发者 : Index Team · 驾照 : Apache 2.0

试试

Spark TTSSpark TTS Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

开发者 : SparkAudio · 驾照 : Apache 2.0

试试

GPT-SoVITSGPT-SoVITS Standard

Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.

开发者 : RVC-Boss · 驾照 : MIT

试试

OrpheusOrpheus Standard

Human-level emotional TTS model trained on 100K hours of speech data.

开发者 : Canopy Labs · 驾照 : Llama 3.2 Community

试试

Qwen3 TTSQwen3 TTS Standard

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.

开发者 : Alibaba (Qwen) · 驾照 : Apache 2.0

试试

ChatterboxChatterbox Premium

最新技术的零声克隆 由重塑性人工智能的情绪控制

质量 :

试试

Tortoise TTSTortoise TTS Premium

多声音的文字对语音侧重于自动递减结构的质量。

质量 :

试试

StyleTTS 2StyleTTS 2 Premium

Human-level text-to-speech through style diffusion and adversarial training.

质量 :

试试

OpenVoiceOpenVoice Premium

Instant voice cloning with granular control over style, emotion, and accent.

质量 :

试试

CosyVoice 2CosyVoice 2

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

语言: en, zh, ja, ko, fr, de, it, es

克隆声音

IndexTTS-2IndexTTS-2

Zero-shot TTS with fine-grained emotion control and high expressiveness.

语言: en, zh

克隆声音

Spark TTSSpark TTS

Voice cloning TTS with controllable emotion and speaking style via prompts.

语言: en, zh

克隆声音

GPT-SoVITSGPT-SoVITS

Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.

语言: en, zh, ja, ko

克隆声音

ChatterboxChatterbox

最新技术的零声克隆 由重塑性人工智能的情绪控制

语言: en

克隆声音

Tortoise TTSTortoise TTS

多声音的文字对语音侧重于自动递减结构的质量。

语言: en

克隆声音

OpenVoiceOpenVoice

Instant voice cloning with granular control over style, emotion, and accent.

语言: en, zh, ja, ko, fr, de, es, it

克隆声音

Qwen3 TTSQwen3 TTS

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.

语言: en, zh, ja, ko, de, fr, ru, pt, es, it

克隆声音

开发者- 第一 API

OpenAI-兼容的REST API. 一个端点, 22+模型, 流传实时应用支持 。

  • OpenAI-兼容格式
  • 实时应用程序流流 TTS
  • 大型工作的批次处理
  • WebHook 通知
查看 API 文件
Python
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts/",
    headers={"Authorization": "Bearer sk-tts-xxx"},
    json={
        "model": "kokoro",
        "text": "Hello from TTS.ai!",
        "voice": "af_bella",
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

简单、透明定价

开始自由。 随你成长, 缩放 。

自由

$0

50个贷项 50个贷项

  • Kokoro, Piper, VITS, MeloTTS
  • 500个字符限制
  • 3 gen/ 小时( 无账户)
签署自由

启动启动器

$9/以 单位

500个贷项/月/月

  • 所有22+模型
  • 5 000 个字符限制
  • 语音克隆
开始
最受欢迎的

职业

$29/以 单位

2 000个贷项/月

  • 启动器中的一切
  • API 访问
  • 优先处理事项处理
获得 Pro

企业企业企业企业企业企业企业

$99/以 单位

10 000 000个贷项/月/月

  • 全部在 Pro 中
  • 散散散API
  • 优先排队
联系销售部

View all plans including credit packs →

常问问题

TTS.ai是最全面的AI语音平台,提供22+文本到语音模型、语音克隆、语音到文字和音频工具。 所有模型都是开放源码,没有供应商锁定。

TTS. ai 提供免费文本到语音的Kokoro、Piper、VITS和MeloTTS 模型。 不需要账户 。 签名获得50个免费信用, 并访问所有模型 。 支付计划从每月9美元开始 。

用于速度, 使用 Kokoro 或 Piper 。 对于质量, 请尝试 CosyVoice 2 或 StysteleTTS 2 。 对于语音克隆, 使用 Chatterbox 或 GPT- SoVITS 。 对于对话框, 使用 Dia TTS 。 尝试同一文本上的多个模型来比较 。

是,用于TTS、STT、语音克隆和音频工具的OpenAI-兼容的REST API,载于Pro(29/mo)和Enterprises(99/mo)计划。查看 tts.ai/api/的文件。

声音质量因型号而异。 诸如CosyVoice 2, StyleTTS 2和Chatterbox等优先模型以自然通俗和情感来制作近乎人性的高质量演讲。 Kokoro等自由模型为大多数使用的案例提供了优异的质量。

TTS.ai通过其示范图书馆支持30+种语言。英语拥有最广泛的模型支持,但CosyVoice 2等模型覆盖中文、日文和韩文;GPT-SOVITS处理中文、日文、韩文和英文;MelotTS支持英文、西班牙文、法文、中文、日文和韩文。

是的。 所有处理都发生在我们专用的 GPU 服务器上。 我们不存储您的文本输入或发送后生成音频。 上传的克隆声音样本只用于本届会议, 而不保留。 我们从不与第三方共享您的数据, 也不使用它来训练模型 。

Yes. All audio generated on TTS.ai is yours to use commercially, including for YouTube videos, podcasts, audiobooks, apps, advertisements, and products. Our models are open source under permissive licenses (MIT, Apache 2.0). No royalties or attribution required.

TTS. ai 默认情况下会以 WAV 格式生成最大质量的音频。 您可以使用我们的免费音频转换工具转换为 MP3、 FLAC、 OGG 或 M4A 。 API 支持在请求中直接指定首选输出格式 。

Upload a short audio sample (as little as 5 seconds) of the voice you want to clone, then type any text to generate speech in that voice. Models like Chatterbox, GPT-SoVITS, and CosyVoice 2 support voice cloning. The cloned voice captures tone, accent, and speaking style.

免费模型(Kokoro、Piper、VITS、MeloTTS)不需要记账,成本为零。标准模型(2 CosyVoice 2、F5-TTS和Dia)包括巴克、CosyVoice 2、F5-TTS和Dia。 优先模型(4credit/1K字符)包括OpenVoice、Chatterbox、StylTTS 2和Tortoise。 付费模型通常提供质量更高、声音更多和语音克隆等其他特征。

是。 API 支持批量处理将大量文本转换为语音。 提交多个请求, 使用工作 UUID 自动检索结果。 企业计划( 99 mo) 包括优先排队进入更快的批量处理。 用于音频书籍制作、 课程内容和大型语音翻转项目的理念 。
5.0/5 (1)

开始使用 AI 语音今日

使用 TTT.ai 参与创作者、开发者和企业