フリーAI テキストを音声に変換

20+ オープンソースモデルや 107+ 声 32+ アカウントは必要ありません

1K+
クリエイター
2K+
世代を超えて
20+
AIモデル
107+
0/500 文字 フリー
TTS.aiみたいに 友達に教えて

音声AIに必要なすべて

オープンソースAIモデルに基づく30以上のツール

20+ AIボイスモデル

1つのプラットフォームにおけるオープンソースのTTSモデルの最も包括的なコレクション

KokoroKokoro Free

Kokoroは8200万パラメータのテキストから音声を生成するモデルで、その重量クラスをはるかに上回ります。小さなサイズにもかかわらず、驚くほど自然で表現力のある音声を生成します。Kokoroは英語、日本語、中国語、韓国語を含む複数の言語をサポートし、様々な表現力のある音声を提供します。信じられないほど高速に動作し、GPUでのリアルタイム生成よりも100倍速く音声を生成します。

適応する: 遅延を最小限に抑えた高品質のTTS、ストリーミングアプリケーション

無料トライ

PiperPiper Free

Piperは、Rhasspyが開発した軽量テキストから音声に変換するエンジンで、VITSとlarynxアーキテクチャを使用しています。完全にCPU上で動作し、エッジデバイス、ホームオートメーション、オフライン TTSを必要とするアプリケーションに適しています。30以上の言語に渡る100以上の音声を持ち、PiperはRaspberry Pi 4でもリアルタイムで自然に聞こえる音声を提供します。

適応する: クイックプレビュー、アクセシビリティ、組み込みアプリケーション

無料トライ

VITSVITS Free

VITS(Variational Inference with advanced learning for end‐to‐end Text‐to‐Speak)は,従来の2段階モデルよりも自然に聞こえる音声を生成する並列エンド‐to‐end TTS法である。

適応する: 自然な韻律を持つ汎用テキスト・トゥ・スピーチ

無料トライ

MeloTTSMeloTTS Free

MyShell.ai による MeloTTS は、英語 (アメリカ、イギリス、インド、オーストラリア)、スペイン語、フランス語、中国語、日本語、韓国語をサポートする多言語 TTS ライブラリです。非常に高速で、CPUのみで実時間に近い速度でテキストを処理します。MeloTTS はプロダクション用に設計されており、CPUとGPUの両方の推論をサポートします。

適応する: 高速で多言語のTTSを必要とするプロダクションアプリケーション

無料トライ

BarkBark Standard

現実的な音声,音楽,音響効果を生成する変換器ベースのテキストオーディオモデル。

開発者: Suno · ライセンス: MIT

やってみろ

Bark SmallBark Small Standard

Barkの軽量化版で,推論速度が向上し,メモリ使用量が低減した。

開発者: Suno · ライセンス: MIT

やってみろ

CosyVoice 2CosyVoice 2 Standard

アリババのスケーラブルストリーミングTTSは,人間パリティの自然さと,ほぼゼロの遅延を持つ。

開発者: Alibaba (Tongyi Lab) · ライセンス: Apache 2.0

やってみろ

Dia TTSDia TTS Standard

対話者間の自然な会話を生成するマルチスピーカ対話生成モデルを提案した。

開発者: Nari Labs · ライセンス: Apache 2.0

やってみろ

Parler TTSParler TTS Standard

自然言語で声を記述すると、Parler はマッチングした音声を生成します。

開発者: Hugging Face · ライセンス: Apache 2.0

やってみろ

GLM-TTSGLM-TTS Standard

これは,オープンソースTTSモデルの中で最も低い文字誤り率を達成する。

開発者: Zhipu AI · ライセンス: GLM-4 License

やってみろ

IndexTTS-2IndexTTS-2 Standard

ゼロショットTTSは,微細な感情制御と高い表現力を持つ。

開発者: Index Team · ライセンス: Bilibili Model License

やってみろ

Spark TTSSpark TTS Standard

プロンプトを通して感情や話し方を制御できる音声クローンTTSを提案した。

開発者: SparkAudio · ライセンス: CC BY-NC-SA 4.0

やってみろ

GPT-SoVITSGPT-SoVITS Standard

音声の5秒間でどんな音声でも複製する,少しのショットで音声をクローンするTTS。

開発者: RVC-Boss · ライセンス: MIT

やってみろ

OrpheusOrpheus Standard

100K時間の音声データを用いて人間レベルの感情TTSモデルを訓練した。

開発者: Canopy Labs · ライセンス: Llama 3.2 Community

やってみろ

Qwen3 TTSQwen3 TTS Standard

音声クローン,プリセット音声,テキストからの音声デザインを備えたアリババの多言語TTS。

開発者: Alibaba (Qwen) · ライセンス: Apache 2.0

やってみろ

ChatterboxChatterbox Premium

最新のゼロショット音声クローン 感情制御のResemble AI

品質:

やってみろ

Tortoise TTSTortoise TTS Premium

自己回帰アーキテクチャを用いた質に焦点を当てた多声テキスト‐音声処理システムを提案した。

品質:

やってみろ

StyleTTS 2StyleTTS 2 Premium

スタイル拡散と対抗訓練を通して人間レベルのテキストから音声を生成する。

品質:

やってみろ

OpenVoiceOpenVoice Premium

スタイル,感情,アクセントの細かいコントロールを持つインスタント音声クローン。

品質:

やってみろ

Sesame CSMSesame CSM Premium

対話モデルは,適切なタイミングと感情をもつ自然な対話を生成する。

品質:

やってみろ

CosyVoice 2CosyVoice 2

アリババのスケーラブルストリーミングTTSは,人間パリティの自然さと,ほぼゼロの遅延を持つ。

言語: en, zh, ja, ko, fr, de, it, es

クローン・ボイス

GLM-TTSGLM-TTS

これは,オープンソースTTSモデルの中で最も低い文字誤り率を達成する。

言語: en, zh

クローン・ボイス

IndexTTS-2IndexTTS-2

ゼロショットTTSは,微細な感情制御と高い表現力を持つ。

言語: en, zh

クローン・ボイス

Spark TTSSpark TTS

プロンプトを通して感情や話し方を制御できる音声クローンTTSを提案した。

言語: en, zh

クローン・ボイス

GPT-SoVITSGPT-SoVITS

音声の5秒間でどんな音声でも複製する,少しのショットで音声をクローンするTTS。

言語: en, zh, ja, ko

クローン・ボイス

ChatterboxChatterbox

最新のゼロショット音声クローン 感情制御のResemble AI

言語: en

クローン・ボイス

Tortoise TTSTortoise TTS

自己回帰アーキテクチャを用いた質に焦点を当てた多声テキスト‐音声処理システムを提案した。

言語: en

クローン・ボイス

OpenVoiceOpenVoice

スタイル,感情,アクセントの細かいコントロールを持つインスタント音声クローン。

言語: en, zh, ja, ko, fr, de, es, it

クローン・ボイス

Qwen3 TTSQwen3 TTS

音声クローン,プリセット音声,テキストからの音声デザインを備えたアリババの多言語TTS。

言語: en, zh, ja, ko, de, fr, ru, pt, es, it

クローン・ボイス

デベロッパーファーストAPI

OpenAI 互換の REST API。一つのエンドポイント、22以上のモデル。リアルタイムアプリケーションのストリーミングサポート。

  • OpenAI互換フォーマット
  • リアルタイムアプリケーションのためのストリーミングTTS
  • 大型ジョブのバッチ処理
  • ウェブフック通知
API ドキュメントを表示
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

シンプルで透明な価格設定

自由に始めて 成長するにつれて拡大する

フリー

$0

15クレジット

  • Kokoro, Piper, VITS, MeloTTS
  • 文字数制限
  • 3 gen/時間(アカウントなし)
無料登録

スターター

$9/モー

500クレジット/月

  • すべての22+モデル
  • 100,000 chars per generation
  • 音声クローン
スタート
最も人気のある

プロ

$29/モー

2000クレジット/月

  • スターターのすべて
  • APIアクセス
  • 優先処理
プロになる

ビジネス

$99/モー

10000クレジット/月

  • エブリシング・イン・プロ
  • バルクAPI
  • 優先キュー
ゲット・ビジネス

クレジットパックを含むすべてのプランを表示 →

よくある質問

TTS.ai is the most comprehensive AI voice platform, offering 22+ text-to-speech models, voice cloning, speech-to-text, and audio tools. All models are open source with no vendor lock-in.

TTS.aiはKokoro、Piper、VITS、MeloTTSモデルを使った無料のテキストから音声への変換を提供しています。アカウントは必要ありません。登録して15クレジットを無料で取得し、すべてのモデルにアクセスできます。有料プランは月額9ドルからです。

速度は Kokoro か Piper を使ってください。品質は CosyVoice 2 か StyleTTS 2 を試してください。声のクローンは Chatterbox か GPT-SoVITS を使ってください。対話は Dia TTS を使ってください。同じテキストで複数のモデルを試して比較してください。

はい。 TTS、STT、音声クローン、オーディオツールのための OpenAI 互換 REST API。 Pro ($29/月) と Enterprise ($99/月) プランで利用できます。 tts.ai/api/ でドキュメントを見てください。

音声の品質はモデルによって異なります。CosyVoice 2、StyleTTS 2、Chatterboxのようなプレミアムモデルは、自然な音調と感情を持つ人間に近い質の音声を生成します。Kokoroのようなフリーモデルは、ほとんどのユースケースで優れた品質を提供します。

TTS.ai supports 30+ languages across its model library. English has the widest model support, but models like CosyVoice 2 cover Chinese, Japanese, and Korean; GPT-SoVITS handles Chinese, Japanese, Korean, and English; and MeloTTS supports English, Spanish, French, Chinese, Japanese, and Korean.

はい。すべての処理は専用の GPU サーバで行われます。送信後、テキスト入力や生成されたオーディオは保存されません。クローンのためにアップロードされた音声サンプルは、現在のセッションのみに使用され、保持されません。データは第三者と共有されず、モデルの訓練にも使用されません。

はい。 TTS.ai で生成されたすべてのオーディオは、YouTube ビデオ、ポッドキャスト、オーディオブック、アプリケーション、広告、製品などの商用利用のためのものです。我々のモデルは、許容的なライセンス(MIT、Apache 2.0)の下でオープンソースです。ロイヤリティやクレジットは必要ありません。

TTS.ai は最高の品質のためにデフォルトで WAV 形式のオーディオを生成します。無料のオーディオ変換ツールを使って MP3、FLAC、OGG、M4A に変換できます。API はリクエストで直接好みの出力フォーマットを指定することをサポートします。

クローンしたい音声の短いオーディオサンプル (5 秒以下) をアップロードし、テキストを入力して音声を生成します。 Chatterbox、GPT-SoVITS、CosyVoice 2 のようなモデルは音声クローンをサポートします。クローンされた音声は音調、アクセント、話し方を記録します。

無料モデル (Kokoro, Piper, VITS, MeloTTS) はアカウントが必要なく、クレジットもゼロです。標準モデル (2 クレジット/1K 文字) には Bark, CosyVoice 2, F5-TTS, Dia が含まれます。プレミアムモデル (4 クレジット/1K 文字) には OpenVoice, Chatterbox, StyleTTS 2, Tortoise が含まれます。有料モデルは一般的により高品質で、より多くの音声を提供し、音声クローンなどの追加機能を提供します。

はい。API は大容量のテキストを音声に変換するためのバッチ処理をサポートします。複数の要求を送信し、ジョブ UUID を使って非同期的に結果を検索します。エンタープライズプラン (月額 99 ドル) には、より速いバッチ処理のための優先キューアクセスが含まれています。オーディオブック製作、コースコンテンツ、大規模なボイスオーバープロジェクトに最適です。
4.0/5 (8)

AI 音声を今すぐ使い始める

TTS.aiを使うクリエイター、開発者、企業に参加