フリーAI テキストを音声に変換
33+ オープンソースモデルや 273+ 声 33+ 言語は 必要ありません
音声AIに必要なすべて
オープンソースAIモデルに基づく30以上のツール
33+ AIボイスモデル
1つのプラットフォームにおけるオープンソースのTTSモデルの最も包括的なコレクション
Kokoro 自由
Kokoroは8200万パラメータのテキストから音声を生成するモデルで、その重量クラスをはるかに超える。小さなサイズにもかかわらず、驚くほど自然で表現力のある音声を生成します。Kokoroは英語、日本語、中国語、韓国語など多くの言語をサポートし、様々な表現力のある音声を提供します。これは非常に高速で動作します。GPUでのリアルタイムよりも100倍も速く音声を生成します。
適応する: 遅延が最小限の高品質のTTS、ストリーミングアプリケーション
無料試用
Piper 自由
Piperは、Rhasspyが開発した軽量テキストから音声に変換するエンジンで、VITSとlarynxアーキテクチャを使用しています。完全にCPU上で動作し、エッジデバイス、ホームオートメーション、オフライン TTSを必要とするアプリケーションに適しています。30以上の言語に渡る100以上の音声を持ち、PiperはRaspberry Pi 4でもリアルタイムで自然に聞こえる音声を提供します。
適応する: クイックプレビュー、アクセシビリティ、組み込みアプリケーション
無料試用
VITS 自由
VITS(Variational Inference with advancerial largering for end‐to‐end Text‐to‐Speak)は,従来の2段階モデルよりも自然な音声を生成する並列エンド‐ト‐エンドTTS法である。
適応する: 自然な韻律を持つ汎用テキスト・トゥ・スピーチ
無料試用
MeloTTS 自由
MyShell.aiによるMeloTTSは、英語(米国、イギリス、インド、オーストラリア)、スペイン語、フランス語、中国語、日本語、韓国語をサポートする多言語のTTSライブラリです。非常に高速で、CPUのみで実時間に近い速度でテキストを処理します。MeloTTSは、プロダクション用に設計されており、CPUとGPUの両方の推論をサポートします。
適応する: 高速で多言語のTTSを必要とするプロダクションアプリケーション
無料試用
Kani TTS 2 自由
これはNVIDIA NanoCodecを搭載したLiquid AI LFM2バックボーン上に構築された超軽量の400Mパラメータモデルです。たった3GBのVRAMで動作し、A100(RTF 0.2)上で約2秒で約10秒の音声を生成します。現在の公開リリースは英語のみの `kani-tts-2-en`チェックポイントを搭載しており、音声クローンに必要なスピーカー埋め込みフックを暴露していません。クローンには Chatterbox / IndexTTS2 / F5-TTSを、英語以外の言語には Kokoro / MeloTTSを使用してください。
適応する: 低VRAMハードウェアでの高速英語生成、迅速なプレビュー
無料試用
OuteTTS 自由
OuteTTSは、テキストから音声への機能を持つ大規模な言語モデルを拡張し、オリジナルのアーキテクチャを保持します。lama.cpp (CPU/GPU)、Hugging Face Transformers、ExLlamaV2、VLLM、Transformers.jsを介したブラウザ推論などの複数のバックエンドをサポートします。JSONとして保存されたスピーカープロファイルを通じてゼロショット音声クローンを特徴とします。
適応する: エッジデプロイメント、ブラウザベースのTTS、低リソース環境
無料試用
Pocket TTS 自由
Pocket TTSは,モシの開発者であるKyutaiによって開発された,100Mパラメータのテキストから音声へのコンパクトなモデルで,その重さを上回る性能を持つ。CPUで効率的に動作し,単一の音声サンプルからゼロショット音声クローンをサポートし,自然な音声を生成する。小型モデルのサイズは,エッジデプロイメントや低リソース環境に適している。
適応する: 軽量化、CPU専用環境、高速な音声クローン
無料試用
Kitten TTS 自由
Kitten TTS by KittenMLは、ONNX上に構築された超軽量のテキストから音声へのモデルです。15Mから80Mのパラメータ(ディスク上で25-80MB)を持ち、GPUを必要としない高品質のCPU上の音声合成を提供します。8つの内蔵音声、調整可能な音声速度、数字、通貨、単位のテキスト予備処理を備えています。エッジデプロイメントと低遅延アプリケーションに適しています。
適応する: 高速軽量TTS,エッジ展開,低遅延アプリケーション
無料試用
Ming-Omni TTS 自由
Ming‐omni‐tts‐0.5Bは,パッチ毎のフローマッチングオーディオデコーダを備えたBailingMMの高密度バックボーンに基づく小型オミニモーダル音声モデルである。44.1kHzの出力(CD品質に近い)を提供し,3秒以上の参照からのゼロショット音声クローンをサポートし,JSON命令を介した内蔵感情/方言/BGM制御を含む。優れた安定性:中国語ベンチマークで0.83%のWER。
適応する: 高信頼な二言語ナレーション、感情制御型声優、中国語オーディオブックコンテンツ
無料試用
MOSS-TTS Nano 自由
MOSS‐TTS‐Nano‐100Mは,OpenMOSSのMOSS‐TTSファミリーの100Mパラメータのコンパクトな変種で,遅延変換器アーキテクチャを共有している。8Bモデルのピーク品質を,約80倍小さな重量と劇的に低い要求当りVRAMと交換し,フリーティアと高スループットのデプロイメントに適している。同じ20言語のレベル。
適応する: 自由階層型TTS,大容量生産,低遅延対話的使用
無料試用
CosyVoice 2 標準
人間パリティの自然さとゼロに近い遅延を持つアリババのスケーラブルなストリーミングTTS。
開発者: Alibaba (Tongyi Lab) · ライセンス: Apache 2.0
やってみろ
Qwen3 TTS 標準
Alibabaの多言語TTSは,テキストからの音声デザインと,予め設定された音声を持つ。
開発者: Alibaba (Qwen) · ライセンス: Apache 2.0
やってみろ
VieNeu-TTS-v2 標準
ベトナム語 + 英語のコードスイッチング TTS で、7 つの予定音声とゼロショット音声クローンが利用できます。CPU のみ、GPU は必要ありません。
開発者: Phạm Nguyễn Ngọc Bảo · ライセンス: Apache 2.0
やってみろ
VibeVoice 標準
ポッドキャストやオーディオブックのような長い形式のマルチスピーカーコンテンツのためのマイクロソフトモデル。
開発者: Microsoft · ライセンス: MIT
やってみろ
CosyVoice3 標準
次世代多言語TTSはバイストリーミング,感情制御,ゼロショット音声クローンを備えている。
開発者: Alibaba (FunAudioLLM) · ライセンス: Apache 2.0
やってみろ
NAMAA Saudi TTS 標準
初のオープンサウジアラビア語TTS。Chatterboxの品質の音声クローンを備えたサウジアラビアの方言。
開発者: NAMAA Space · ライセンス: MIT
やってみろ
Darwin TTS 標準
Qwen3‐1.7B言語モデルからFFN重みを混合したクロスモーダルQwen3‐TTS変異体を用いて,より鋭い多言語クローニングを行った。
開発者: FINAL-Bench · ライセンス: Apache 2.0
やってみろ
MOSS-TTSD 標準
マルチスピーカー対話継続モデル - 最大5人のスピーカーと60分のコヒーレント音声でポッドキャストスタイルの会話を生成する。
開発者: OpenMOSS · ライセンス: Apache 2.0
やってみろ
CosyVoice 2
人間パリティの自然さとゼロに近い遅延を持つアリババのスケーラブルなストリーミングTTS。
言語: en, zh, ja, ko, fr, de, it, es
クローン・ボイス
VieNeu-TTS-v2
ベトナム語 + 英語のコードスイッチング TTS で、7 つの予定音声とゼロショット音声クローンが利用できます。CPU のみ、GPU は必要ありません。
言語: vi, en
クローン・ボイス
CosyVoice3
次世代多言語TTSはバイストリーミング,感情制御,ゼロショット音声クローンを備えている。
言語: en, zh, ja, ko, de, es, fr, it, ru
クローン・ボイス
Darwin TTS
Qwen3‐1.7B言語モデルからFFN重みを混合したクロスモーダルQwen3‐TTS変異体を用いて,より鋭い多言語クローニングを行った。
言語: en, ko, ja, zh
クローン・ボイス
MOSS-TTS Nano
Tiny 100M MOSS-TTS 変種 - 同じアーキテクチャ、80倍小型、フリー階層遅延。
言語: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
クローン・ボイス開発者優先型API
OpenAI 互換の REST API。一つのエンドポイント、22以上のモデル。リアルタイムアプリケーションのストリーミングサポート。
- OpenAI互換フォーマット
- リアルタイムアプリケーションのためのストリーミングTTS
- 大型ジョブのバッチ処理
- ウェブフック通知
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
シンプルで透明な価格設定
自由に始めて 成長するにつれて拡大する
よくある質問
改善点は何ですか?フィードバックは問題を解決するのに役立ちます。