フリーAI テキストを音声に変換

33+ オープンソースモデルや 273+ 声 33+ 言語は 必要ありません

17K+
クリエイター
70K+
世代を超えて
33+
AIモデル
273+
0/500 文字 · 世代ごとに5000人登録 → フリー
TTS.aiが気に入りましたか?友達に教えてあげましょう!

音声AIに必要なすべて

オープンソースAIモデルに基づく30以上のツール

33+ AIボイスモデル

1つのプラットフォームにおけるオープンソースのTTSモデルの最も包括的なコレクション

KokoroKokoro 自由

Kokoroは8200万パラメータのテキストから音声を生成するモデルで、その重量クラスをはるかに超える。小さなサイズにもかかわらず、驚くほど自然で表現力のある音声を生成します。Kokoroは英語、日本語、中国語、韓国語など多くの言語をサポートし、様々な表現力のある音声を提供します。これは非常に高速で動作します。GPUでのリアルタイムよりも100倍も速く音声を生成します。

適応する: 遅延が最小限の高品質のTTS、ストリーミングアプリケーション

無料試用

PiperPiper 自由

Piperは、Rhasspyが開発した軽量テキストから音声に変換するエンジンで、VITSとlarynxアーキテクチャを使用しています。完全にCPU上で動作し、エッジデバイス、ホームオートメーション、オフライン TTSを必要とするアプリケーションに適しています。30以上の言語に渡る100以上の音声を持ち、PiperはRaspberry Pi 4でもリアルタイムで自然に聞こえる音声を提供します。

適応する: クイックプレビュー、アクセシビリティ、組み込みアプリケーション

無料試用

VITSVITS 自由

VITS(Variational Inference with advancerial largering for end‐to‐end Text‐to‐Speak)は,従来の2段階モデルよりも自然な音声を生成する並列エンド‐ト‐エンドTTS法である。

適応する: 自然な韻律を持つ汎用テキスト・トゥ・スピーチ

無料試用

MeloTTSMeloTTS 自由

MyShell.aiによるMeloTTSは、英語(米国、イギリス、インド、オーストラリア)、スペイン語、フランス語、中国語、日本語、韓国語をサポートする多言語のTTSライブラリです。非常に高速で、CPUのみで実時間に近い速度でテキストを処理します。MeloTTSは、プロダクション用に設計されており、CPUとGPUの両方の推論をサポートします。

適応する: 高速で多言語のTTSを必要とするプロダクションアプリケーション

無料試用

Kani TTS 2Kani TTS 2 自由

これはNVIDIA NanoCodecを搭載したLiquid AI LFM2バックボーン上に構築された超軽量の400Mパラメータモデルです。たった3GBのVRAMで動作し、A100(RTF 0.2)上で約2秒で約10秒の音声を生成します。現在の公開リリースは英語のみの `kani-tts-2-en`チェックポイントを搭載しており、音声クローンに必要なスピーカー埋め込みフックを暴露していません。クローンには Chatterbox / IndexTTS2 / F5-TTSを、英語以外の言語には Kokoro / MeloTTSを使用してください。

適応する: 低VRAMハードウェアでの高速英語生成、迅速なプレビュー

無料試用

OuteTTSOuteTTS 自由

OuteTTSは、テキストから音声への機能を持つ大規模な言語モデルを拡張し、オリジナルのアーキテクチャを保持します。lama.cpp (CPU/GPU)、Hugging Face Transformers、ExLlamaV2、VLLM、Transformers.jsを介したブラウザ推論などの複数のバックエンドをサポートします。JSONとして保存されたスピーカープロファイルを通じてゼロショット音声クローンを特徴とします。

適応する: エッジデプロイメント、ブラウザベースのTTS、低リソース環境

無料試用

Pocket TTSPocket TTS 自由

Pocket TTSは,モシの開発者であるKyutaiによって開発された,100Mパラメータのテキストから音声へのコンパクトなモデルで,その重さを上回る性能を持つ。CPUで効率的に動作し,単一の音声サンプルからゼロショット音声クローンをサポートし,自然な音声を生成する。小型モデルのサイズは,エッジデプロイメントや低リソース環境に適している。

適応する: 軽量化、CPU専用環境、高速な音声クローン

無料試用

Kitten TTSKitten TTS 自由

Kitten TTS by KittenMLは、ONNX上に構築された超軽量のテキストから音声へのモデルです。15Mから80Mのパラメータ(ディスク上で25-80MB)を持ち、GPUを必要としない高品質のCPU上の音声合成を提供します。8つの内蔵音声、調整可能な音声速度、数字、通貨、単位のテキスト予備処理を備えています。エッジデプロイメントと低遅延アプリケーションに適しています。

適応する: 高速軽量TTS,エッジ展開,低遅延アプリケーション

無料試用

Ming-Omni TTSMing-Omni TTS 自由

Ming‐omni‐tts‐0.5Bは,パッチ毎のフローマッチングオーディオデコーダを備えたBailingMMの高密度バックボーンに基づく小型オミニモーダル音声モデルである。44.1kHzの出力(CD品質に近い)を提供し,3秒以上の参照からのゼロショット音声クローンをサポートし,JSON命令を介した内蔵感情/方言/BGM制御を含む。優れた安定性:中国語ベンチマークで0.83%のWER。

適応する: 高信頼な二言語ナレーション、感情制御型声優、中国語オーディオブックコンテンツ

無料試用

MOSS-TTS NanoMOSS-TTS Nano 自由

MOSS‐TTS‐Nano‐100Mは,OpenMOSSのMOSS‐TTSファミリーの100Mパラメータのコンパクトな変種で,遅延変換器アーキテクチャを共有している。8Bモデルのピーク品質を,約80倍小さな重量と劇的に低い要求当りVRAMと交換し,フリーティアと高スループットのデプロイメントに適している。同じ20言語のレベル。

適応する: 自由階層型TTS,大容量生産,低遅延対話的使用

無料試用

BarkBark 標準

現実的な音声,音楽,音響効果を生成する変換器ベースのテキストオーディオモデル。

開発者: Suno · ライセンス: MIT

やってみろ

Bark SmallBark Small 標準

Barkの軽量化版で,推論速度が向上し,メモリ使用量が低減した。

開発者: Suno · ライセンス: MIT

やってみろ

CosyVoice 2CosyVoice 2 標準

人間パリティの自然さとゼロに近い遅延を持つアリババのスケーラブルなストリーミングTTS。

開発者: Alibaba (Tongyi Lab) · ライセンス: Apache 2.0

やってみろ

Dia TTSDia TTS 標準

音声の自然な対話を生成するマルチスピーカ対話生成モデルを提案した。

開発者: Nari Labs · ライセンス: Apache 2.0

やってみろ

Parler TTSParler TTS 標準

自然言語で声を記述すると、Parler はマッチングした音声を生成します。

開発者: Hugging Face · ライセンス: Apache 2.0

やってみろ

IndexTTS-2IndexTTS-2 標準

ゼロショットTTSは,微細な感情制御と高い表現力を持つ。

開発者: Index Team · ライセンス: Bilibili Model License

やってみろ

Spark TTSSpark TTS 標準

プロンプトを通して感情や話し方を制御できる音声クローンTTSを提案した。

開発者: SparkAudio · ライセンス: CC BY-NC-SA 4.0

やってみろ

GPT-SoVITSGPT-SoVITS 標準

音声の5秒間でどんな音声でも複製する,少しのショットで音声をクローンするTTS。

開発者: RVC-Boss · ライセンス: MIT

やってみろ

OrpheusOrpheus 標準

100K時間の音声データを用いて人間レベルの感情TTSモデルを訓練した。

開発者: Canopy Labs · ライセンス: Llama 3.2 Community

やってみろ

Qwen3 TTSQwen3 TTS 標準

Alibabaの多言語TTSは,テキストからの音声デザインと,予め設定された音声を持つ。

開発者: Alibaba (Qwen) · ライセンス: Apache 2.0

やってみろ

VieNeu-TTS-v2VieNeu-TTS-v2 標準

ベトナム語 + 英語のコードスイッチング TTS で、7 つの予定音声とゼロショット音声クローンが利用できます。CPU のみ、GPU は必要ありません。

開発者: Phạm Nguyễn Ngọc Bảo · ライセンス: Apache 2.0

やってみろ

Chatterbox TurboChatterbox Turbo 標準

200ms以下の遅延と笑い、咳などのパラ言語学的タグを持つより速いチャッターボックス。

開発者: Resemble AI · ライセンス: MIT

やってみろ

VoxCPMVoxCPM 標準

44.1kHzの音声を文脈に応じた段落一貫性で生成するトケナイザフリーTTSを開発した。

開発者: OpenBMB · ライセンス: Apache 2.0

やってみろ

VibeVoiceVibeVoice 標準

ポッドキャストやオーディオブックのような長い形式のマルチスピーカーコンテンツのためのマイクロソフトモデル。

開発者: Microsoft · ライセンス: MIT

やってみろ

CosyVoice3CosyVoice3 標準

次世代多言語TTSはバイストリーミング,感情制御,ゼロショット音声クローンを備えている。

開発者: Alibaba (FunAudioLLM) · ライセンス: Apache 2.0

やってみろ

NAMAA Saudi TTSNAMAA Saudi TTS 標準

初のオープンサウジアラビア語TTS。Chatterboxの品質の音声クローンを備えたサウジアラビアの方言。

開発者: NAMAA Space · ライセンス: MIT

やってみろ

Darwin TTSDarwin TTS 標準

Qwen3‐1.7B言語モデルからFFN重みを混合したクロスモーダルQwen3‐TTS変異体を用いて,より鋭い多言語クローニングを行った。

開発者: FINAL-Bench · ライセンス: Apache 2.0

やってみろ

MOSS-TTSDMOSS-TTSD 標準

マルチスピーカー対話継続モデル - 最大5人のスピーカーと60分のコヒーレント音声でポッドキャストスタイルの会話を生成する。

開発者: OpenMOSS · ライセンス: Apache 2.0

やってみろ

ChatterboxChatterbox プレミアム

最新のゼロショット音声クローン 感情制御のResemble AI

品質:

やってみろ

Tortoise TTSTortoise TTS プレミアム

自己回帰アーキテクチャを用いた質に焦点を当てた多声テキスト‐音声処理システムを提案した。

品質:

やってみろ

StyleTTS 2StyleTTS 2 プレミアム

スタイル拡散と対抗訓練を通して人間レベルのテキストから音声を生成する。

品質:

やってみろ

OpenVoiceOpenVoice プレミアム

スタイル,感情,アクセントの細かい制御を持つインスタント音声クローン。

品質:

やってみろ

Sesame CSMSesame CSM プレミアム

対話モデルは,適切なタイミングと感情をもつ自然な対話を生成する。

品質:

やってみろ

CosyVoice 2CosyVoice 2

人間パリティの自然さとゼロに近い遅延を持つアリババのスケーラブルなストリーミングTTS。

言語: en, zh, ja, ko, fr, de, it, es

クローン・ボイス

IndexTTS-2IndexTTS-2

ゼロショットTTSは,微細な感情制御と高い表現力を持つ。

言語: en, zh

クローン・ボイス

Spark TTSSpark TTS

プロンプトを通して感情や話し方を制御できる音声クローンTTSを提案した。

言語: en, zh

クローン・ボイス

GPT-SoVITSGPT-SoVITS

音声の5秒間でどんな音声でも複製する,少しのショットで音声をクローンするTTS。

言語: en, zh, ja, ko

クローン・ボイス

ChatterboxChatterbox

最新のゼロショット音声クローン 感情制御のResemble AI

言語: en

クローン・ボイス

Tortoise TTSTortoise TTS

自己回帰アーキテクチャを用いた質に焦点を当てた多声テキスト‐音声処理システムを提案した。

言語: en

クローン・ボイス

OpenVoiceOpenVoice

スタイル,感情,アクセントの細かい制御を持つインスタント音声クローン。

言語: en, zh, ja, ko, fr, es

クローン・ボイス

VieNeu-TTS-v2VieNeu-TTS-v2

ベトナム語 + 英語のコードスイッチング TTS で、7 つの予定音声とゼロショット音声クローンが利用できます。CPU のみ、GPU は必要ありません。

言語: vi, en

クローン・ボイス

Chatterbox TurboChatterbox Turbo

200ms以下の遅延と笑い、咳などのパラ言語学的タグを持つより速いチャッターボックス。

言語: en

クローン・ボイス

VoxCPMVoxCPM

44.1kHzの音声を文脈に応じた段落一貫性で生成するトケナイザフリーTTSを開発した。

言語: en, zh

クローン・ボイス

OuteTTSOuteTTS

LLMベースのTTSは、CPU、GPU、またはブラウザ上でlama.cppとTransformers.jsを介して動作する。

言語: en

クローン・ボイス

Pocket TTSPocket TTS

単一サンプルからの音声クローンを用いたKyutaiによる軽量100Mパラメータモデル。

言語: en, fr

クローン・ボイス

CosyVoice3CosyVoice3

次世代多言語TTSはバイストリーミング,感情制御,ゼロショット音声クローンを備えている。

言語: en, zh, ja, ko, de, es, fr, it, ru

クローン・ボイス

NAMAA Saudi TTSNAMAA Saudi TTS

初のオープンサウジアラビア語TTS。Chatterboxの品質の音声クローンを備えたサウジアラビアの方言。

言語: ar

クローン・ボイス

Darwin TTSDarwin TTS

Qwen3‐1.7B言語モデルからFFN重みを混合したクロスモーダルQwen3‐TTS変異体を用いて,より鋭い多言語クローニングを行った。

言語: en, ko, ja, zh

クローン・ボイス

MOSS-TTSDMOSS-TTSD

マルチスピーカー対話継続モデル - 最大5人のスピーカーと60分のコヒーレント音声でポッドキャストスタイルの会話を生成する。

言語: en, zh

クローン・ボイス

Ming-Omni TTSMing-Omni TTS

44.1kHzの高信頼出力とゼロショット音声クローンを持つインクリボンAIからの小型0.5Bオミニモーダル音声モデルを開発した。

言語: en, zh

クローン・ボイス

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M MOSS-TTS 変種 - 同じアーキテクチャ、80倍小型、フリー階層遅延。

言語: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

クローン・ボイス

開発者優先型API

OpenAI 互換の REST API。一つのエンドポイント、22以上のモデル。リアルタイムアプリケーションのストリーミングサポート。

  • OpenAI互換フォーマット
  • リアルタイムアプリケーションのためのストリーミングTTS
  • 大型ジョブのバッチ処理
  • ウェブフック通知
API ドキュメントを表示
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

シンプルで透明な価格設定

自由に始めて 成長するにつれて拡大する

フリー

$0

15,000文字+5,000/日

  • 子供を含む7人のフリーモデル
  • 世代ごとに5000文字
  • APIアクセスを含む
無料登録

スターター

$9/モー

500クレジット/月

  • すべての22+モデル
  • 1世代あたり10万文字
  • 音声クローン
スタート
最も人気のある

プロ

$29/モー

2000クレジット/月

  • スターターのすべて
  • APIアクセス
  • 優先処理
プロになる

ビジネス

$99/モー

10000クレジット/月

  • エブリシング・イン・プロ
  • バルクAPI
  • 優先キュー
ゲット・ビジネス

クレジットパックを含むすべてのプランを表示 →

よくある質問

TTS.ai is the most comprehensive AI voice platform, offering 20+ text-to-speech models, voice cloning, speech-to-text, and audio tools. All models are open source with no vendor lock-in.

TTS.aiはKokoro、Piper、VITS、MeloTTSモデルを使った無料のテキストから音声への変換を提供しています。アカウントは必要ありません。登録して15クレジットを無料で取得し、すべてのモデルにアクセスできます。有料プランは月額9ドルからです。

速度は Kokoro か Piper を使ってください。品質は CosyVoice 2 か StyleTTS 2 を試してください。声のクローンは Chatterbox か GPT-SoVITS を使ってください。対話は Dia TTS を使ってください。同じテキストで複数のモデルを試して比較してください。

はい。OpenAI 互換の TTS、STT、音声クローン、オーディオツールの REST API。フリーを含むすべてのプランに含まれ、レート制限は階層によって変化します(フリー: 10 req/min、ライト: 20、スタート: 30、プロ: 60、ビジネス: 300)。ドキュメントは tts.ai/api/ を参照してください。

音声の品質はモデルによって異なります。CosyVoice 2、StyleTTS 2、Chatterboxのようなプレミアムモデルは、自然な音調と感情を持つ人間に近い質の音声を生成します。Kokoroのようなフリーモデルは、ほとんどのユースケースで優れた品質を提供します。

TTS.aiはモデルライブラリ全体で30以上の言語をサポートしています。英語は最も広いモデルサポートを持っていますが、CosyVoice 2のようなモデルは中国語、日本語、韓国語をカバーしています。GPT-SoVITSは中国語、日本語、韓国語、英語を扱い、MeloTTSは英語、スペイン語、フランス語、中国語、日本語、韓国語をサポートしています。

はい。すべての処理は専用の GPU サーバで行われます。送信後、テキスト入力や生成されたオーディオは保存されません。クローンのためにアップロードされた音声サンプルは、現在のセッションのみに使用され、保持されません。データは第三者と共有されず、モデルの訓練にも使用されません。

はい。 TTS.ai で生成されたすべてのオーディオは、YouTube ビデオ、ポッドキャスト、オーディオブック、アプリケーション、広告、製品などの商用利用のためのものです。我々のモデルは、許容的なライセンス(MIT、Apache 2.0)の下でオープンソースです。ロイヤリティやクレジットは必要ありません。

TTS.ai は最高の品質を得るために、デフォルトで WAV フォーマットのオーディオを生成します。無料のオーディオ変換ツールを使って MP3、FLAC、OGG、M4A に変換できます。API は、要求において直接、お好みの出力フォーマットを指定することをサポートします。

クローンしたい音声の短いオーディオサンプル (5 秒以下) をアップロードし、テキストを入力して音声を生成します。 Chatterbox、GPT-SoVITS、CosyVoice 2 のようなモデルは音声クローンをサポートします。クローンされた音声は音調、アクセント、話し方を記録します。

無料モデル (Kokoro, Piper, VITS, MeloTTS) はアカウントが必要なく、クレジットもゼロです。標準モデル (2 クレジット/1K 文字) には Bark, CosyVoice 2, F5-TTS, Dia が含まれます。プレミアムモデル (4 クレジット/1K 文字) には OpenVoice, Chatterbox, StyleTTS 2, Tortoise が含まれます。有料モデルは一般的により高品質で、より多くの音声を提供し、音声クローンなどの追加機能を提供します。

はい。API は大量のテキストを音声に変換するためのバッチ処理をサポートします。複数の要求を送信し、ジョブ UUID を使って非同期的に結果を検索します。ビジネスプラン (月額 99 ドル以上) では、より速いバッチ処理のための優先キューアクセスが含まれています。オーディオブックの製作、コースコンテンツ、大規模なボイスオーバープロジェクトに最適です。
4.1/5 (42)

改善点は何ですか?フィードバックは問題を解決するのに役立ちます。

AI 音声を今すぐ使い始める

TTS.aiを使うクリエイター、開発者、企業に参加