フリーAI テキストを音声に変換

82Mのパラメータ超高速表現的な声多言語ストリーミング対応

超高速推論とスタジオ品質の音声を提供する軽量の８２Ｍパラメータモデル。

ファスト · 1.5GB VRAM やってみろ

Piper

CPU-friendly オフライン対応 100以上の声 35以上の言語 SSMLサポート

Ｒａｓｐｂｅｒｙ　Ｐａｉと組み込みデバイスに最適化した高速，ローカルなニューラルテキスト‐音声システム。

ファスト · 0 (CPU only) VRAM やってみろ

VITS

条件変分自動符号化器は，エンドツーエンドテキスト‐トゥー‐スピーチのための対抗的学習を持つ。

エンドツーエンド合成自然韻律速推論複数の話者

ファスト · 1GB VRAM やってみろ

MeloTTS

ファスト · 0.5GB (GPU optional) VRAM やってみろ

ＣＰＵ上で最小の遅延で動作する高品質の多言語テキストから音声への変換。

CPU最適化多言語複数アクセント生産準備低遅延

Bark

音響効果笑い/嘆き音楽世代 100人以上の話者多言語

現実的な音声，音楽，音響効果を生成する変換器ベースのテキストオーディオモデル。

スロー · 5GB VRAM やってみろ

Bark Small

Ｂａｒｋの軽量化版で，推論速度が向上し，メモリ使用量が低減した。

軽量級完全なバークより速い感情的言語多言語

メディア · 2GB VRAM やってみろ

CosyVoice 2

ストリーミングゼロショットクローン交叉語感情制御ヒューマンパリティ

人間パリティの自然さとゼロに近い遅延を持つアリババのスケーラブルなストリーミングＴＴＳ。

Dia TTS

マルチスピーカーダイアログ生成自然ターン感情表現 1.6Bパラメータ

音声の自然な対話を生成するマルチスピーカ対話生成モデルを提案した。

Parler TTS

音声記述自然言語制御柔軟な音声生成プリセット音声は必要ありません

自然言語で声を記述すると、Parler はマッチングした音声を生成します。

Indic Parler TTS

自然言語音声制御を用いた８以上のインド語の高品質音声。

インドの言語声記述自然言語制御真のインド語発音

スロー · 8GB VRAM やってみろ

KhanomTan TTS

タイ語TTS 複数の話者 YourTTSアーキテクチャ商用安全ライセンス

タイ語を最初にテキストから音声に変換し、話者の声を選択する。

ファスト · 2GB VRAM やってみろ

IndexTTS-2

感情制御ゼロショット感情ベクトル表現的言語微粒子制御

ゼロショットＴＴＳは，微細な感情制御と高い表現力を持つ。

Spark TTS

声のクローン感情制御スタイルコントロールプロンプトベース 5秒クローン

プロンプトを通して感情や話し方を制御できる音声クローンＴＴＳを提案した。

GPT-SoVITS

5秒クローン歌声少数のショットで学習ハイフィールディング交叉語

音声の５秒間でどんな音声でも複製する，少しのショットで音声をクローンするＴＴＳ。

スロー · 6GB VRAM やってみろ

Orpheus

人間レベルの感情 10万時間の訓練自然強調表現的言語

１００Ｋ時間の音声データを用いて人間レベルの感情ＴＴＳモデルを訓練した。

Chatterbox

ゼロショットクローン感情制御ハイフィールディングスタイル転送単一サンプルクローン

最新のゼロショット音声クローン感情制御のResemble AI

Tortoise TTS

最高品質多声 DALL-Eアーキテクチャ声のクローン自己回帰

自己回帰アーキテクチャを用いた質に焦点を当てた多声テキスト‐音声処理システムを提案した。

スロー · 8GB VRAM やってみろ

StyleTTS 2

人間レベルスタイル拡散対抗訓練自然変動ハイフィールディング

スタイル拡散と対抗訓練を通して人間レベルのテキストから音声を生成する。

OpenVoice

インスタントクローン音声変換感情制御アクセント制御多言語

スタイル，感情，アクセントの細かい制御を持つインスタント音声クローン。

Qwen3 TTS

9つのプリセット音声テキストからの音声デザイン感情制御 10の言語

Ａｌｉｂａｂａの多言語ＴＴＳは，テキストからの音声デザインと，予め設定された音声を持つ。

メディア · 7GB VRAM やってみろ

VieNeu-TTS-v2

7 つのプリセット音声 (北部と南部アクセント) En-Vi符号切替音声クローン（3-5秒参照）ポッドキャスト/マルチスピーカーサポート CPU のみ — GPU は必要ありません

ベトナム語 + 英語のコードスイッチング TTS で、7 つの予定音声とゼロショット音声クローンが利用できます。CPU のみ、GPU は必要ありません。

ファスト · CPU VRAM やってみろ

Sesame CSM

会話自然タイミングターンテイクバックチャネル 1Bパラメータ

対話モデルは，適切なタイミングと感情をもつ自然な対話を生成する。

スロー · 8GB VRAM やってみろ

Chatterbox Turbo

サブ200ms遅延言語パラタグ 6xリアルタイム声のクローン透かし

200ms以下の遅延と笑い、咳などのパラ言語学的タグを持つより速いチャッターボックス。

ファスト · 2GB VRAM やってみろ

VoxCPM

44.1kHzオーディオトケニザーフリークロス言語クローン文脈認識 LoRAフィンチューニング

４４．１ｋＨｚの音声を文脈に応じた段落一貫性で生成するトケナイザフリーＴＴＳを開発した。

ファスト · 4GB VRAM やってみろ

Kani TTS 2

超軽量の４００Ｍ英語ＴＴＳモデルで，３ＧＢのＶＲＡＭで動作する。

3GB VRAM 超高速軽量級ナノコーデック自由

ファスト · 3GB VRAM やってみろ

OuteTTS

CPU推論ブラウザ推論複数のバックエンドスピーカープロファイル

ＬＬＭベースのＴＴＳは、CPU、GPU、またはブラウザ上でlama.cppとTransformers.jsを介して動作する。

スロー · 2GB VRAM やってみろ

VibeVoice

マルチスピーカー 90分までポッドキャスト生成話者の一貫性 200msストリーミング

ポッドキャストやオーディオブックのような長い形式のマルチスピーカーコンテンツのためのマイクロソフトモデル。

ファスト · 4GB VRAM やってみろ

Pocket TTS

100Mパラメータ CPU推論声のクローン単一サンプルクローンエッジ・レディ

単一サンプルからの音声クローンを用いたＫｙｕｔａｉによる軽量１００Ｍパラメータモデル。

ファスト · 1GB VRAM やってみろ

Kitten TTS

CPUのみ推論 80MB以下のモデルサイズ 8つの内蔵音声速度制御 ONNXベース 24kHz出力

80MB以下の超軽量のTTS。GPUなしのCPUで動作します。

ファスト · 0GB VRAM やってみろ

CosyVoice3

バイストリーミング感情制御声のクローン速度・音量制御指令追従

次世代多言語ＴＴＳはバイストリーミング，感情制御，ゼロショット音声クローンを備えている。

ファスト · 4GB VRAM やってみろ

NAMAA Saudi TTS

サウジアラビア方言現代標準アラビア語ゼロショット声のクローン感情制御母語発音

初のオープンサウジアラビア語TTS。Chatterboxの品質の音声クローンを備えたサウジアラビアの方言。

メディア · 6GB VRAM やってみろ

Darwin TTS

声のクローン交叉語 FFNブレンド 4つのコア言語 Qwen3バックボーン

Ｑｗｅｎ３‐１．７Ｂ言語モデルからＦＦＮ重みを混合したクロスモーダルＱｗｅｎ３‐ＴＴＳ変異体を用いて，より鋭い多言語クローニングを行った。

メディア · 7GB VRAM やってみろ

MOSS-TTSD

多声対話 5台まで 60分のコヒーレントオーディオ声のクローンポッドキャスト最適化

マルチスピーカー対話継続モデル - 最大5人のスピーカーと60分のコヒーレント音声でポッドキャストスタイルの会話を生成する。

メディア · 12GB VRAM やってみろ

Ming-Omni TTS

44.1kHz出力声のクローン感情制御方言制御 BGM世代コンパクト0.5B

４４．１ｋＨｚの高信頼出力とゼロショット音声クローンを持つインクリボンＡＩからの小型０．５Ｂオミニモーダル音声モデルを開発した。

メディア · 3GB VRAM やってみろ

MOSS-TTS Nano