フリーAI テキストを音声に変換
31+ オープンソースモデルや 231+ 声 34+ 言語は 必要ありません
音声AIに必要なすべて
オープンソースAIモデルに基づく30以上のツール
31+ AIボイスモデル
1つのプラットフォームにおけるオープンソースのTTSモデルの最も包括的なコレクション
Kokoro Free
Kokoroは8200万パラメータのテキストから音声を生成するモデルで、その重量クラスをはるかに超える。小さなサイズにもかかわらず、驚くほど自然で表現力のある音声を生成します。Kokoroは英語、日本語、中国語、韓国語など多くの言語をサポートし、様々な表現力のある音声を提供します。これは非常に高速で動作します。GPUでのリアルタイムよりも100倍も速く音声を生成します。
適応する: 遅延が最小限の高品質のTTS、ストリーミングアプリケーション
無料試用
Piper Free
Piperは、Rhasspyが開発した軽量テキストから音声に変換するエンジンで、VITSとlarynxアーキテクチャを使用しています。完全にCPU上で動作し、エッジデバイス、ホームオートメーション、オフライン TTSを必要とするアプリケーションに適しています。30以上の言語に渡る100以上の音声を持ち、PiperはRaspberry Pi 4でもリアルタイムで自然に聞こえる音声を提供します。
適応する: クイックプレビュー、アクセシビリティ、組み込みアプリケーション
無料試用
VITS Free
VITS(Variational Inference with advancerial largering for end‐to‐end Text‐to‐Speak)は,従来の2段階モデルよりも自然な音声を生成する並列エンド‐ト‐エンドTTS法である。
適応する: 自然な韻律を持つ汎用テキスト・トゥ・スピーチ
無料試用
MeloTTS Free
MyShell.aiによるMeloTTSは、英語(米国、イギリス、インド、オーストラリア)、スペイン語、フランス語、中国語、日本語、韓国語をサポートする多言語のTTSライブラリです。非常に高速で、CPUのみで実時間に近い速度でテキストを処理します。MeloTTSは、プロダクション用に設計されており、CPUとGPUの両方の推論をサポートします。
適応する: 高速で多言語のTTSを必要とするプロダクションアプリケーション
無料試用
OuteTTS Free
OuteTTSは、テキストから音声への機能を持つ大規模な言語モデルを拡張し、オリジナルのアーキテクチャを保持します。lama.cpp (CPU/GPU)、Hugging Face Transformers、ExLlamaV2、VLLM、Transformers.jsを介したブラウザ推論などの複数のバックエンドをサポートします。JSONとして保存されたスピーカープロファイルを通じてゼロショット音声クローンを特徴とします。
適応する: エッジデプロイメント、ブラウザベースのTTS、低リソース環境
無料試用
Pocket TTS Free
Pocket TTSは,モシの開発者であるKyutaiによって開発された,100Mパラメータのテキストから音声へのコンパクトなモデルで,その重さを上回る性能を持つ。CPUで効率的に動作し,単一の音声サンプルからゼロショット音声クローンをサポートし,自然な音声を生成する。小型モデルのサイズは,エッジデプロイメントや低リソース環境に適している。
適応する: 軽量化、CPU専用環境、高速な音声クローン
無料試用
Kitten TTS Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
適応する: Fast lightweight TTS, edge deployment, low-latency applications
無料試用
CosyVoice 2 Standard
人間パリティの自然さとゼロに近い遅延を持つアリババのスケーラブルなストリーミングTTS。
開発者: Alibaba (Tongyi Lab) · ライセンス: Apache 2.0
やってみろ
Parler TTS Standard
自然言語で声を記述すると、Parler はマッチングした音声を生成します。
開発者: Hugging Face · ライセンス: Apache 2.0
やってみろ
IndexTTS-2 Standard
ゼロショットTTSは,微細な感情制御と高い表現力を持つ。
開発者: Index Team · ライセンス: Bilibili Model License
やってみろ
Spark TTS Standard
プロンプトを通して感情や話し方を制御できる音声クローンTTSを提案した。
開発者: SparkAudio · ライセンス: CC BY-NC-SA 4.0
やってみろ
Orpheus Standard
100K時間の音声データを用いて人間レベルの感情TTSモデルを訓練した。
開発者: Canopy Labs · ライセンス: Llama 3.2 Community
やってみろ
Qwen3 TTS Standard
音声クローン,プリセット音声,テキストからの音声デザインを備えたアリババの多言語TTS。
開発者: Alibaba (Qwen) · ライセンス: Apache 2.0
やってみろ
Chatterbox Turbo Standard
200ms以下の遅延と笑い、咳などのパラ言語学的タグを持つより速いチャッターボックス。
開発者: Resemble AI · ライセンス: MIT
やってみろ
VibeVoice Standard
ポッドキャストやオーディオブックのような長い形式のマルチスピーカーコンテンツのためのマイクロソフトモデル。
開発者: Microsoft · ライセンス: MIT
やってみろ
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
開発者: Alibaba (FunAudioLLM) · ライセンス: Apache 2.0
やってみろ
CosyVoice 2
人間パリティの自然さとゼロに近い遅延を持つアリババのスケーラブルなストリーミングTTS。
言語: en, zh, ja, ko, fr, de, it, es
クローン・ボイス
Qwen3 TTS
音声クローン,プリセット音声,テキストからの音声デザインを備えたアリババの多言語TTS。
言語: en, zh, ja, ko, de, fr, ru, pt, es, it
クローン・ボイス
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
言語: en, zh, ja, ko, de, es, fr, it, ru
クローン・ボイス
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
言語: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
クローン・ボイス
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
言語: en, zh
クローン・ボイス開発者優先型API
OpenAI 互換の REST API。一つのエンドポイント、22以上のモデル。リアルタイムアプリケーションのストリーミングサポート。
- OpenAI互換フォーマット
- リアルタイムアプリケーションのためのストリーミングTTS
- 大型ジョブのバッチ処理
- ウェブフック通知
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
シンプルで透明な価格設定
自由に始めて 成長するにつれて拡大する
よくある質問
改善点は何ですか?フィードバックは問題を解決するのに役立ちます。