フリーAI テキストを音声に変換

22以上のオープンソースモデル 100以上の声 32+ アカウントは必要ありません

0/500 文字 フリー
クレジットカードなし 50フリークレジット 32+ 言語 商用OK
0:00 / 0:00
オーディオをダウンロード リンクは24時間で失効します
TTS.aiみたいに 友達に教えて

音声AIに必要なすべて

24以上のオープンソースAIモデルで動作する26のツール

22以上のAIボイスモデル

1つのプラットフォームにおけるオープンソースTTSモデルの最も包括的なコレクション

KokoroKokoro Free

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

最適な場所: High-quality TTS with minimal latency, streaming applications

無料トライ

PiperPiper Free

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

最適な場所: Quick previews, accessibility, and embedded applications

無料トライ

VITSVITS Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

最適な場所: General-purpose text-to-speech with natural prosody

無料トライ

MeloTTSMeloTTS Free

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

最適な場所: 高速で多言語のTTSを必要とするプロダクションアプリケーション

無料トライ

BarkBark Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

開発者: Suno · ライセンス: MIT

やってみろ

Bark SmallBark Small Standard

Lighter version of Bark with faster inference and lower memory usage.

開発者: Suno · ライセンス: MIT

やってみろ

CosyVoice 2CosyVoice 2 Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

開発者: Alibaba (Tongyi Lab) · ライセンス: Apache 2.0

やってみろ

Dia TTSDia TTS Standard

対話者間の自然な会話を生成するマルチスピーカ対話生成モデルを提案した。

開発者: Nari Labs · ライセンス: Apache 2.0

やってみろ

Parler TTSParler TTS Standard

Describe the voice you want in natural language and Parler generates matching speech.

開発者: Hugging Face · ライセンス: Apache 2.0

やってみろ

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

開発者: Index Team · ライセンス: Apache 2.0

やってみろ

Spark TTSSpark TTS Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

開発者: SparkAudio · ライセンス: Apache 2.0

やってみろ

GPT-SoVITSGPT-SoVITS Standard

Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.

開発者: RVC-Boss · ライセンス: MIT

やってみろ

OrpheusOrpheus Standard

Human-level emotional TTS model trained on 100K hours of speech data.

開発者: Canopy Labs · ライセンス: Llama 3.2 Community

やってみろ

Qwen3 TTSQwen3 TTS Standard

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.

開発者: Alibaba (Qwen) · ライセンス: Apache 2.0

やってみろ

ChatterboxChatterbox Premium

最先端のゼロショット音声クローン 感情コントロール

品質:

やってみろ

Tortoise TTSTortoise TTS Premium

自己回帰アーキテクチャを用いた品質に焦点を当てたマルチボイステキスト・トゥ・スピーチを提案した。

品質:

やってみろ

StyleTTS 2StyleTTS 2 Premium

Human-level text-to-speech through style diffusion and adversarial training.

品質:

やってみろ

OpenVoiceOpenVoice Premium

Instant voice cloning with granular control over style, emotion, and accent.

品質:

やってみろ

CosyVoice 2CosyVoice 2

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

言語: en, zh, ja, ko, fr, de, it, es

クローン・ボイス

IndexTTS-2IndexTTS-2

Zero-shot TTS with fine-grained emotion control and high expressiveness.

言語: en, zh

クローン・ボイス

Spark TTSSpark TTS

Voice cloning TTS with controllable emotion and speaking style via prompts.

言語: en, zh

クローン・ボイス

GPT-SoVITSGPT-SoVITS

Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.

言語: en, zh, ja, ko

クローン・ボイス

ChatterboxChatterbox

最先端のゼロショット音声クローン 感情コントロール

言語: en

クローン・ボイス

Tortoise TTSTortoise TTS

自己回帰アーキテクチャを用いた品質に焦点を当てたマルチボイステキスト・トゥ・スピーチを提案した。

言語: en

クローン・ボイス

OpenVoiceOpenVoice

Instant voice cloning with granular control over style, emotion, and accent.

言語: en, zh, ja, ko, fr, de, es, it

クローン・ボイス

Qwen3 TTSQwen3 TTS

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.

言語: en, zh, ja, ko, de, fr, ru, pt, es, it

クローン・ボイス

デベロッパーファーストAPI

OpenAI 互換の REST API。一つのエンドポイント、22以上のモデル。リアルタイムアプリケーションのストリーミングサポート。

  • OpenAI互換フォーマット
  • リアルタイムアプリケーションのためのストリーミングTTS
  • 大型ジョブのバッチ処理
  • ウェブフック通知
API ドキュメントを表示
Python
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts/",
    headers={"Authorization": "Bearer sk-tts-xxx"},
    json={
        "model": "kokoro",
        "text": "Hello from TTS.ai!",
        "voice": "af_bella",
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

シンプルで透明な価格設定

自由に始めて 成長するにつれて拡大する

フリー

$0

50クレジット

  • Kokoro, Piper, VITS, MeloTTS
  • 文字数制限
  • 3 gen/時間(アカウントなし)
無料登録

スターター

$9/モー

500クレジット/月

  • すべての22+モデル
  • 5,000文字制限
  • 音声クローン
スタート
最も人気のある

プロ

$29/モー

2000クレジット/月

  • スターターのすべて
  • APIアクセス
  • 優先処理
ゲット・プロ

エンタープライズ

$99/モー

10000クレジット/月

  • エブリシング・イン・プロ
  • バルクAPI
  • 優先キュー
セールスに連絡

View all plans including credit packs →

よくある質問

TTS.aiは,22以上のテキストから音声へのモデル,音声クローン,音声からテキストへのモデル,オーディオツールを提供する最も包括的なAI音声プラットフォームであり,すべてのモデルはベンダーロックインなしのオープンソースである。

はい!TTS.aiはKokoro、Piper、VITS、MeloTTSモデルで無料のテキストから音声を生成します。アカウントは必要ありません。登録して50クレジットを無料で取得し、すべてのモデルにアクセスしてください。有料プランは月額9ドルからです。

速度は Kokoro か Piper を使ってください。品質は CosyVoice 2 か StyleTTS 2 を使ってください。音声クローンは Chatterbox か GPT-SoVITS を使ってください。対話は Dia TTS を使ってください。同じテキストで複数のモデルを試して比較してください。

はい。 TTS、STT、音声クローン、オーディオツールのための OpenAI 互換 REST API。 Pro ($29/月) と Enterprise ($99/月) プランで利用できます。 tts.ai/api/ でドキュメントを見てください。

音声の品質はモデルによって異なります。CosyVoice 2、StyleTTS 2、Chatterboxのようなプレミアムモデルは、自然な音調と感情を持つ人間に近い質の音声を生成します。Kokoroのようなフリーモデルは、ほとんどのユースケースで優れた品質を提供します。

英語は最も幅広いモデルサポートを持つが、CosyVoice 2のようなモデルは中国語、日本語、韓国語をカバーし、GPT-SoVITSは中国語、日本語、韓国語、英語を扱い、MeloTTSは英語、スペイン語、フランス語、中国語、日本語、韓国語をサポートする。

はい。すべての処理は専用の GPU サーバで行われます。送信後、テキスト入力や生成されたオーディオは保存されません。クローンのためにアップロードされた音声サンプルは、現在のセッションのみに使用され、保持されません。データは第三者と共有されず、モデルの訓練に使用されません。

Yes. All audio generated on TTS.ai is yours to use commercially, including for YouTube videos, podcasts, audiobooks, apps, advertisements, and products. Our models are open source under permissive licenses (MIT, Apache 2.0). No royalties or attribution required.

TTS.ai は最高の品質のためにデフォルトで WAV 形式のオーディオを生成します。無料のオーディオ変換ツールを使って MP3、FLAC、OGG、M4A に変換できます。API はリクエストで直接好みの出力フォーマットを指定することをサポートします。

Upload a short audio sample (as little as 5 seconds) of the voice you want to clone, then type any text to generate speech in that voice. Models like Chatterbox, GPT-SoVITS, and CosyVoice 2 support voice cloning. The cloned voice captures tone, accent, and speaking style.

フリーモデル (Kokoro, Piper, VITS, MeloTTS) にはアカウントが必要なく、クレジットも必要ありません。標準モデル (2 クレジット/1K 文字) には Bark, CosyVoice 2, F5-TTS, Dia が含まれます。プレミアムモデル (4 クレジット/1K 文字) には OpenVoice, Chatterbox, StyleTTS 2, Tortoise が含まれます。有料モデルは一般的により高品質で、より多くの音声を提供し、音声クローンのような追加機能を提供します。

はい。API は大容量のテキストを音声に変換するためのバッチ処理をサポートします。複数の要求を送信し、ジョブ UUID を使って非同期的に結果を検索します。エンタープライズプラン (月額 99 ドル) には、より速いバッチ処理のための優先キューアクセスが含まれています。オーディオブック製作、コースコンテンツ、大規模なボイスオーバープロジェクトに最適です。
5.0/5 (1)

AI 音声を今すぐ使い始める

TTS.aiを使用するクリエイター、開発者、ビジネスに参加