Report Bug / Feature Request

テキスト・トゥ・スピーチ

オープンソースのAIモデルを使ってテキストを自然な音声に変換します。無料で使用できます。アカウントは必要ありません。

無料登録

0/500 文字 · Sign up for 5,000 per generation →

登録 5000文字の制限を設けました

SSML モード (音声合成マークアップ言語)

SSML タグでテキストを囲み、正確な制御を行う:

<speak><prosody rate="slow">Slow speech</prosody></speak>

感情/スタイルタグ

送信に影響を与える感情マーカーを追加します（モデルサポートによって異なります）:

発音辞典

カスタム発音を定義 (単語=発音):

ピッチ 0

-12 +12

AIモデル

声

言語

出力フォーマット

スピード 1.0x

0.5x 2.0x

ピパー、VITS、MeloTTS をフリーで使用

生成したオーディオがここに表示されます。モデルを選択し、テキストを入力して、生成をクリックします。

モデルの詳細

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

開発者:	Sesame
ライセンス:	Apache 2.0
スピード	Slow
品質:
言語	1 言語
仮想メモリ	8GB
音声クローン	サポートされていません

特徴:

Conversational Natural timing Turn-taking Backchannel 1B parameters

適応する:: AI assistants, chatbots, conversational AI applications

より良い結果を得るためのヒント

自然な休止と音調に適切な句読点を使う
数字や略語をスペルアウトして発音を明確にします
短い休止を作成するためにコンマを追加します
長いドラマティックな休止には (...) を使ってください
最も自然な結果を得るには Kokoro または CosyVoice 2 を試してください
マルチスピーカーダイアログやポッドキャストコンテンツに Dia を使う

信用コスト

動物	1K 文字当たりのコスト
フリー	0 クレジット (無制限)
標準	2クレジット / 1K文字
プレミアム	4クレジット / 1K文字

文字を追加

テキストから音声への変換

3つの簡単なステップでプロの品質のボイスオーバーを生成します。技術的な知識は必要ありません。

ステップ 1

テキストを入力

音声に変換するテキストをタイプ、貼り付け、またはアップロードします。ログインしたユーザの場合、1 回の生成で最大 5,000 文字までサポートします。プレーンテキストを使用したり、SSML タグを追加して発音、休止、強調を高度に制御できます。

ステップ 2

モデルと音声を選択

3 つのレベルにわたる 20 以上の AI モデルから選択できます。コンテンツに合った音声を選び、ターゲット言語を選び、再生速度を 0.5x から 2.0x まで調整し、好みの出力フォーマット (MP3、WAV、OGG、FLAC) を選択します。

ステップ 3

生成とダウンロード

生成をクリックすると、オーディオは数秒で準備完了します。内蔵プレーヤーでプレビュー、選択したフォーマットでダウンロード、または共有可能なリンクをコピーしてください。APIを使用してバッチ処理を行い、ワークフローに統合してください。

テキストから音声を生成するユースケース

人工知能を駆使したテキスト・トゥ・スピーチは，人々が音声コンテンツを作成し，消費し，相互作用する方法を数十の産業にわたって変革している。

オーディオブック

本全体をスタジオ品質のナレーションを持つ自然な音声のオーディオブックに変換します。キャラクターの対話に対して Dia でマルチスピーカーサポートを提供します。

音声

YouTube、TikTok、Instagram Reels、ショートビデオ用のプロのボイスオーバーを作成します。100以上の声を使用できます。

ポッドキャスト

複数の人工音声を持つスクリプトからポッドキャストエピソードを生成します。自然な二人の会話には Dia を使用してください。

ゲーム

インディゲーム、ビジュアルノベル、インタラクティブフィクションのためのAI声優。NPC対話、カットシーン音声、30以上の言語。

電子学習

授業資料、講義、訓練コンテンツをオーディオに変換します。グローバルなプラットフォームの多言語サポート。

アクセシビリティ

ウェブサイト、文書、アプリケーションをアクセシブルにします。スクリーンリーダー API の統合と記事からオーディオへの変換。

電話システム

自然な人工知能音声でIVRシステム、電話メニュー、顧客サービスを動かす。

ソーシャルメディア

TikTok ナレーション、Instagram リール、Twitter/X コメント、YouTube ショート。フリーモデルで迅速に生成。

ストリーミング

Twitch TTS アラート、チャットから音声、AI コホスト、Discord ボット。低遅延、100以上の音声、StreamElements 互換。

マーケティング

広告ボイスオーバー、説明ビデオ、製品デモ、セールスプレゼンテーション。キャンペーン間でオーディオコンテンツの生産を拡大。

ダビングとローカライゼーション

音声合成AIでビデオを30以上の言語に翻訳し、字幕を付けます。自動転写と話者検出。

瞑想と健康

瞑想ガイド、睡眠ストーリー、呼吸法、静かで安らぎのある人工音声での肯定。

すべてのユースケースとツールを表示

すべてのテキストから音声への変換モデル

TTS.aiで利用可能な全てのAIモデルの詳細な仕様。品質、速度、言語サポート、機能を比較して、あなたのプロジェクトに最適なモデルを見つけてください。

Kokoro

Free

Kokoroは8200万パラメータのテキストから音声を生成するモデルで、その重量クラスをはるかに超える。小さなサイズにもかかわらず、驚くほど自然で表現力のある音声を生成します。Kokoroは英語、日本語、中国語、韓国語など多くの言語をサポートし、様々な表現力のある音声を提供します。これは非常に高速で動作します。GPUでのリアルタイムよりも100倍も速く音声を生成します。

開発者::
Hexgrad

ライセンス::
Apache 2.0

スピード:
Fast

品質::

言語:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

仮想メモリ:
1.5GB

音声クローン:
いいえ

1K 文字当たりのコスト:
フリー

82Mのパラメータ超高速表現的な声多言語ストリーミング対応

適応する:: 遅延が最小限の高品質のTTS、ストリーミングアプリケーション

トライ Kokoro

Piper

Free

Piperは、Rhasspyが開発した軽量テキストから音声に変換するエンジンで、VITSとlarynxアーキテクチャを使用しています。完全にCPU上で動作し、エッジデバイス、ホームオートメーション、オフライン TTSを必要とするアプリケーションに適しています。30以上の言語に渡る100以上の音声を持ち、PiperはRaspberry Pi 4でもリアルタイムで自然に聞こえる音声を提供します。

開発者::
Rhasspy

ライセンス::
MIT

スピード:
Fast

品質::

言語:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

仮想メモリ:
0 (CPU only)

音声クローン:
いいえ

1K 文字当たりのコスト:
フリー

CPU-friendly オフライン対応 100以上の声 30以上の言語 SSMLサポート

適応する:: クイックプレビュー、アクセシビリティ、組み込みアプリケーション

トライ Piper

VITS

Free

ＶＩＴＳ（Ｖａｒｉａｔｉｏｎａｌ　Ｉｎｆｅｒｅｎｃｅ　ｗｉｔｈ　ａｄｖａｎｃｅｒｉａｌ　ｌａｒｇｅｒｉｎｇ　ｆｏｒ　ｅｎｄ‐ｔｏ‐ｅｎｄ　Ｔｅｘｔ‐ｔｏ‐Ｓｐｅａｋ）は，従来の２段階モデルよりも自然な音声を生成する並列エンド‐ト‐エンドＴＴＳ法である。

開発者::
Jaehyeon Kim et al.

ライセンス::
MIT

スピード:
Fast

品質::

言語:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

仮想メモリ:
1GB

音声クローン:
いいえ

1K 文字当たりのコスト:
フリー

エンドツーエンド合成自然韻律速推論複数の話者

適応する:: 自然な韻律を持つ汎用テキスト・トゥ・スピーチ

トライ VITS

MeloTTS

Free

MyShell.aiによるMeloTTSは、英語（米国、イギリス、インド、オーストラリア）、スペイン語、フランス語、中国語、日本語、韓国語をサポートする多言語のTTSライブラリです。非常に高速で、CPUのみで実時間に近い速度でテキストを処理します。MeloTTSは、プロダクション用に設計されており、CPUとGPUの両方の推論をサポートします。

開発者::
MyShell.ai

ライセンス::
MIT

スピード:
Fast

品質::

言語:
en, es, fr, zh, ja, ko

仮想メモリ:
0.5GB (GPU optional)

音声クローン:
いいえ

1K 文字当たりのコスト:
フリー

CPU最適化多言語複数アクセント生産準備低遅延

適応する:: 高速で多言語のTTSを必要とするプロダクションアプリケーション

トライ MeloTTS

Bark

Standard

バークは音声変換に基づくテキストから音声へのモデルであり、音楽、背景音、音響効果などの音声とともに、非常にリアルな多言語の音声を生成できます。笑い、嘆き、泣きなどの非言語的なコミュニケーションを生成できます。バークは100以上のプレセットスピーカーと13以上の言語をサポートします。

開発者::
Suno

ライセンス::
MIT

スピード:
Slow

品質::

言語:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

仮想メモリ:
5GB

音声クローン:
いいえ

1K 文字当たりのコスト:
2x

音響効果笑い/嘆き音楽世代 100人以上の話者多言語

適応する:: クリエイティブオーディオコンテンツ、感情的なオーディオブック、音響効果

トライ Bark

Bark Small

Standard

Ｂａｒｋ　ＳｍａｌｌはＢａｒｋモデルの抽出版で，音質を交換して推論速度を大幅に向上させ，メモリ要求量を低減した。

開発者::
Suno

ライセンス::
MIT

スピード:
Medium

品質::

言語:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

仮想メモリ:
2GB

音声クローン:
いいえ

1K 文字当たりのコスト:
2x

軽量級完全なバークより速い感情的言語多言語

適応する:: 速いクリエイティブ音声をフルバークが遅すぎるときに

トライ Bark Small

CosyVoice 2

Standard

ＣｏｓｙＶｏｉｃｅ２は，人間の音声と同等の音質を極めて低い遅延で達成し，リアルタイムアプリケーションに適している。

開発者::
Alibaba (Tongyi Lab)

ライセンス::
Apache 2.0

スピード:
Medium

品質::

言語:
en, zh, ja, ko, fr, de, it, es

仮想メモリ:
4GB

音声クローン:
はい

1K 文字当たりのコスト:
2x

ストリーミングゼロショットクローン交叉語感情制御ヒューマンパリティ

適応する:: リアルタイムアプリケーション、ストリーミングTTS、ボイスアシスタント

トライ CosyVoice 2

Dia TTS

Standard

ナリラボのDiaは、多人数の対話を生成するために特別に設計された1.6Bパラメータのテキストから音声へのモデルです。適切なターン、韻律、感情表現を持つ2人の話者間の自然に聞こえる会話を生成できます。Diaは、ポッドキャストスタイルのコンテンツ、オーディオブック対話、対話型AIを作成するのに完璧です。

開発者::
Nari Labs

ライセンス::
Apache 2.0

スピード:
Medium

品質::

言語:
en

仮想メモリ:
4GB

音声クローン:
いいえ

1K 文字当たりのコスト:
2x

マルチスピーカーダイアログ生成自然ターン感情表現 1.6Bパラメータ

適応する:: ポッドキャスト、オーディオブックの対話、会話コンテンツ

トライ Dia TTS

Parler TTS

Standard

Parler TTS は生成された音声を制御するために自然言語の音声記述を使用するテキストから音声へのモデルです。プリセットの音声から選択する代わりに、あなたが望む音声を記述します（例えば、「軽いイギリス訛りの温かい女性の声、ゆっくりと明瞭に話す」）そして Parler はその記述に合った音声を生成します。これは、クリエイティブなアプリケーションにとって独特の柔軟性をもたらします。

開発者::
Hugging Face

ライセンス::
Apache 2.0

スピード:
Medium

品質::

言語:
en

仮想メモリ:
4GB

音声クローン:
いいえ

1K 文字当たりのコスト:
2x

音声記述自然言語制御柔軟な音声生成プリセット音声は必要ありません

適応する:: カスタム音声特性が必要なクリエイティブなアプリケーションName

トライ Parler TTS

GLM-TTS

Standard

ジープのAIによるGLM-TTSは，フローマッチングを用いたラマアーキテクチャに基づくテキストから音声へのシステムである。オープンソースのTTSモデルの中で最も文字誤り率が低く，最も正確な発音を生成する。GLM-TTSは，３〜１０秒の音声サンプルからの音声クローンを行うことで，英語と中国語をサポートする。

開発者::
Zhipu AI

ライセンス::
GLM-4 License

スピード:
Medium

品質::

言語:
en, zh

仮想メモリ:
4GB

音声クローン:
はい

1K 文字当たりのコスト:
2x

最小誤差率声のクローンフローマッチング自然韻律

適応する:: 発音の正確さを最大限に求めるアプリケーション

トライ GLM-TTS

IndexTTS-2

Standard

ＩｎｄｅｘＴＴＳ‐２は，感情特異的な訓練データを必要としない，ハッピー，悲しみ，怒り，恐怖などの特定の感情的な音を生成するテキスト‐トゥ‐スピーチシステムである。

開発者::
Index Team

ライセンス::
Bilibili Model License

スピード:
Medium

品質::

言語:
en, zh

仮想メモリ:
4GB

音声クローン:
はい

1K 文字当たりのコスト:
2x

感情制御ゼロショット感情ベクトル表現的言語微粒子制御

適応する:: 感情的に表現できるコンテンツ、オーディオブック、バーチャルアシスタント

トライ IndexTTS-2

Spark TTS

Standard

Spark TTSは、音声クローンと制御可能な感情と話し方を組み合わせたテキストから音声へのモデルです。たった5秒の参照オーディオを使って、音声をクローンし、クローンされた音声のアイデンティティを維持しながら、異なる感情、速度、スタイルの音声を生成します。Spark TTSはプロンプトベースの制御システムを使用します。

開発者::
SparkAudio

ライセンス::
CC BY-NC-SA 4.0

スピード:
Medium

品質::

言語:
en, zh

仮想メモリ:
4GB

音声クローン:
はい

1K 文字当たりのコスト:
2x

声のクローン感情制御スタイルコントロールプロンプトベース 5秒クローン

適応する:: クローン音声と感情制御によるコンテンツ作成

トライ Spark TTS

GPT-SoVITS

Standard

GPT-SoVITSは、GPTスタイルの言語モデルとソビツ（翻訳と合成を通じた歌声推論）を組み合わせた、強力な少数のショットの声のクローンです。参照音声の5秒で、正確に声をクローンし、話者の独特な特徴を保持しながら新しい声を生成できます。話し声と歌声の合成に優れています。

開発者::
RVC-Boss

ライセンス::
MIT

スピード:
Slow

品質::

言語:
en, zh, ja, ko

仮想メモリ:
6GB

音声クローン:
はい

1K 文字当たりのコスト:
2x

5秒クローン歌声少数のショットで学習ハイフィールディング交叉語

適応する:: 音声クローン，歌唱合成，コンテンツクリエーター音声複製

トライ GPT-SoVITS

Orpheus

Standard

Orpheusは、人間レベルの感情表現を達成する大規模なテキストから音声へのモデルです。10万時間以上の多様な音声データに基づいて訓練され、自然な感情、強調、話し方を持つ音声を生成するのに優れています。Orpheusは、人間の録音とほとんど区別できない音声を生成できます。

開発者::
Canopy Labs

ライセンス::
Llama 3.2 Community

スピード:
Medium

品質::

言語:
en

仮想メモリ:
4GB

音声クローン:
いいえ

1K 文字当たりのコスト:
2x

人間レベルの感情 10万時間の訓練自然強調表現的言語

適応する:: 高品質感情発言、オーディオブック、声優

トライ Orpheus

Chatterbox

Premium

音声の音色だけでなく、話し方や感情のニュアンスも捕捉できる、音声クローンの最先端のゼロショットモデルです。

開発者::
Resemble AI

ライセンス::
MIT

スピード:
Medium

品質::

言語:
en

仮想メモリ:
4GB

音声クローン:
はい

1K 文字当たりのコスト:
4x

ゼロショットクローン感情制御ハイフィールディングスタイル転送単一サンプルクローン

適応する:: 感情制御を備えたプロの声のクローン化，コンテンツ作成

トライ Chatterbox

Tortoise TTS

Premium

Tortoise TTSは、音質を速度より優先する自己回帰的な多声テキストから音声を生成するシステムです。DALL-Eにインスピレーションを得たアーキテクチャを使用して、優れた韻律と話者の類似性を持つ非常に自然な音声を生成します。多くの代替品より遅いですが、Tortoiseはオープンソースエコシステムで利用可能な最もリアルな合成音声のいくつかを生成します。

開発者::
James Betker

ライセンス::
Apache 2.0

スピード:
Slow

品質::

言語:
en

仮想メモリ:
8GB

音声クローン:
はい

1K 文字当たりのコスト:
4x

最高品質多声 DALL-Eアーキテクチャ声のクローン自己回帰

適応する:: オーディオブック、プレミアムコンテンツ、品質第一のアプリケーション

トライ Tortoise TTS

StyleTTS 2

Premium

ＳｔｙｌｅＴＴＳ２は，大規模な音声言語モデルを用いた対抗訓練とスタイル拡散を組み合わせることにより，人間レベルのＴＴＳ合成を達成する。

開発者::
Columbia University

ライセンス::
MIT

スピード:
Medium

品質::

言語:
en

仮想メモリ:
4GB

音声クローン:
いいえ

1K 文字当たりのコスト:
4x

人間レベルスタイル拡散対抗訓練自然変動ハイフィールディング

適応する:: スタジオ品質のシングルスピーカー合成、プロのナレーション

トライ StyleTTS 2

OpenVoice

Premium

OpenVoice by MyShell.aiは、音声スタイル、感情、アクセント、リズム、休止、音調を細かく制御して、即座に音声クローンを可能にします。短いオーディオクリップから音声をクローンし、多言語での音声を生成しながら、話者のアイデンティティを保持します。OpenVoiceは、音声変換器としても機能し、リアルタイムの音声変換を可能にします。

開発者::
MyShell.ai / MIT

ライセンス::
MIT

スピード:
Medium

品質::

言語:
en, zh, ja, ko, fr, de, es, it

仮想メモリ:
4GB

音声クローン:
はい

1K 文字当たりのコスト:
4x

インスタントクローン音声変換感情制御アクセント制御多言語

適応する:: 音声クローンと微細なスタイル制御、音声変換

トライ OpenVoice

Qwen3 TTS

Standard

Qwen3-TTSは、AlibabaのQwenチームが開発した17億パラメータのテキストから音声へのモデルです。感情制御付きのプリセット音声（9人のスピーカー）、3秒の音声からの声のクローン化、および自然言語でお好みの声を記述するユニークな声のデザインモードの3つのモードをサポートします。10の言語を高い表現力と自然な韻律でカバーします。

開発者::
Alibaba (Qwen)

ライセンス::
Apache 2.0

スピード:
Medium

品質::

言語:
en, zh, ja, ko, de, fr, ru, pt, es, it

仮想メモリ:
7GB

音声クローン:
はい

1K 文字当たりのコスト:
2x

声のクローン 9つのプリセット音声テキストからの音声デザイン感情制御 10の言語

適応する:: 音声クローンやカスタム音声デザインを備えた多言語コンテンツ

トライ Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) は会話音声を生成するために特別に設計された１０億パラメータモデルです。ターンタイミング、バックチャネル応答、感情反応、会話フローを含む人間の会話の自然なパターンをモデル化します。CSM は合成音声よりも自然な人間の会話のように聞こえる音を生成します。

開発者::
Sesame

ライセンス::
Apache 2.0

スピード:
Slow

品質::

言語:
en

仮想メモリ:
8GB

音声クローン:
いいえ

1K 文字当たりのコスト:
4x

会話自然タイミングターンテイクバックチャネル 1Bパラメータ

適応する:: AIアシスタント、チャットボット、会話型AIアプリケーション

トライ Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI は Chatterbox の 350M パラメータアップグレードで、200ms以下の遅延で6倍のリアルタイム速度を提供します。 [笑い]、[咳]、[笑い] のようなパラ言語学的タグをテキスト中で直接サポートします。生成された全てのオーディオに Perth 透かしを含み、出所を追跡します。

開発者::
Resemble AI

ライセンス::
MIT

スピード:
Fast

品質::

言語:
en

仮想メモリ:
2GB

音声クローン:
はい

1K 文字当たりのコスト:
2x

サブ200ms遅延言語パラタグ 6xリアルタイム声のクローン透かし

適応する:: リアルタイム音声エージェント、自然な音を持つ表現的な話し言葉

トライ Chatterbox Turbo

Dia 2

Standard

ナリラボによる Dia2 は、ストリーミングを最初に行う Dia のアップグレードで、1Bと2Bのパラメータ変種で利用可能です。最初の数個のトークンから音声を合成し始め、リアルタイム音声エージェントやスピーチツースピーチパイプラインに適しています。[S1]/[S2] タグと (笑い)、(咳) のようなパラ言語的なキューを用いた多人数の会話をサポートします。

開発者::
Nari Labs

ライセンス::
Apache 2.0

スピード:
Fast

品質::

言語:
en

仮想メモリ:
4GB

音声クローン:
いいえ

1K 文字当たりのコスト:
2x

ストリーミング出力マルチスピーカー低遅延言語パラダイム出力2分まで

適応する:: リアルタイム音声エージェント、対話生成、ストリーミングアプリケーション

トライ Dia 2

VoxCPM

Standard

OpenBMB による VoxCPM 1.5 は、離散トークンではなく連続空間で動作する新しいトークン化器を使わない TTS モデルです。高信頼性の 44.1kHz オーディオを生成し、3-10 秒のゼロショット音声クローンをサポートし、段落間の一貫性を維持します。言語間クローンは、英語の音声を中国語の音声に適用し、逆も可能です。

開発者::
OpenBMB

ライセンス::
Apache 2.0

スピード:
Fast

品質::

言語:
en, zh

仮想メモリ:
4GB

音声クローン:
はい

1K 文字当たりのコスト:
2x

44.1kHzオーディオトケニザーフリークロス言語クローン文脈認識 LoRAフィンチューニング

適応する:: 高音質音声、オーディオブック、音声一貫性のある長文コンテンツ

トライ VoxCPM

OuteTTS

Free

OuteTTSは、テキストから音声への機能を持つ大規模な言語モデルを拡張し、オリジナルのアーキテクチャを保持します。lama.cpp (CPU/GPU)、Hugging Face Transformers、ExLlamaV2、VLLM、Transformers.jsを介したブラウザ推論などの複数のバックエンドをサポートします。JSONとして保存されたスピーカープロファイルを通じてゼロショット音声クローンを特徴とします。

開発者::
OuteAI

ライセンス::
Apache 2.0

スピード:
Fast

品質::

言語:
en

仮想メモリ:
2GB

音声クローン:
はい

1K 文字当たりのコスト:
フリー

CPU推論ブラウザ推論声のクローン複数のバックエンドスピーカープロファイル

適応する:: エッジデプロイメント、ブラウザベースのTTS、低リソース環境

トライ OuteTTS

TADA

Standard

ＴＡＤＡは，Ｌａｍａ３．２に基づく新しいデュアルアラインメントアーキテクチャを通して幻覚を除去する革新的なＴＴＳモデルである。

開発者::
Hume AI

ライセンス::
MIT

スピード:
Fast

品質::

言語:
en

仮想メモリ:
5GB

音声クローン:
いいえ

1K 文字当たりのコスト:
2x

ゼロ幻覚 LLM TTSより5倍速い感情表現 700年代の音声コンテキスト二重整列

適応する:: 高品質幻覚なしの話し方，感情表現，迅速な推論

トライ TADA

VibeVoice

Standard

Microsoft の VibeVoice は、長いコンテンツ (最大90分、4人のスピーカー) に適した 1.5B モデルと、ストリーミングに適した Realtime 0.5B モデルの2つのバージョンがある。 1.5B バージョンは、長いパスにわたってスピーカーの一貫性を持つポッドキャストやオーディオブックに優れています。注: Microsoft は TTS コードをリポジトリから削除し、生成されたオーディオには可聴な AI 免責事項が含まれています。

開発者::
Microsoft

ライセンス::
MIT

スピード:
Fast

品質::

言語:
en, zh

仮想メモリ:
4GB

音声クローン:
いいえ

1K 文字当たりのコスト:
2x

マルチスピーカー 90分までポッドキャスト生成話者の一貫性 200msストリーミング

適応する:: ポッドキャスト、オーディオブック、長い形式のマルチスピーカーコンテンツ

トライ VibeVoice

Pocket TTS

Free

Pocket TTSは，モシの開発者であるKyutaiによって開発された，100Mパラメータのテキストから音声へのコンパクトなモデルで，その重さを上回る性能を持つ。CPUで効率的に動作し，単一の音声サンプルからゼロショット音声クローンをサポートし，自然な音声を生成する。小型モデルのサイズは，エッジデプロイメントや低リソース環境に適している。

開発者::
Kyutai

ライセンス::
MIT

スピード:
Fast

品質::

言語:
en, fr

仮想メモリ:
1GB

音声クローン:
はい

1K 文字当たりのコスト:
フリー

100Mパラメータ CPU推論声のクローン単一サンプルクローンエッジ・レディ

適応する:: 軽量化、CPU専用環境、高速な音声クローン

トライ Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

開発者::
KittenML

ライセンス::
Apache 2.0

スピード:
Fast

品質::

言語:
en

仮想メモリ:
0GB

音声クローン:
いいえ

1K 文字当たりのコスト:
フリー

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

適応する:: Fast lightweight TTS, edge deployment, low-latency applications

トライ Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

開発者::
Alibaba (FunAudioLLM)

ライセンス::
Apache 2.0

スピード:
Fast

品質::

言語:
en, zh, ja, ko, de, es, fr, it, ru

仮想メモリ:
4GB

音声クローン:
はい

1K 文字当たりのコスト:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

適応する:: Multilingual production TTS, real-time applications, voice cloning

トライ CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

開発者::
OpenMOSS

ライセンス::
Apache 2.0

スピード:
Medium

品質::

言語:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

仮想メモリ:
16GB

音声クローン:
はい

1K 文字当たりのコスト:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

適応する:: Audiobooks, long-form content, multilingual production

トライ MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

開発者::
ByteDance

ライセンス::
Apache 2.0

スピード:
Slow

品質::

言語:
en, zh

仮想メモリ:
8GB

音声クローン:
はい

1K 文字当たりのコスト:
4x

Voice cloning Adjustable similarity Cross-lingual

適応する:: High-fidelity voice cloning

トライ MegaTTS3

Kokoro

フリー

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

開発者::
Hexgrad

ライセンス::
Apache 2.0

スピード:
Fast

品質::

言語: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

適応する:: High-quality TTS with minimal latency, streaming applications

無料トライ

Piper

フリー

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

開発者::
Rhasspy

ライセンス::
MIT

スピード:
Fast

品質::

言語: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

適応する:: Quick previews, accessibility, and embedded applications

無料トライ

VITS

フリー

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

開発者::
Jaehyeon Kim et al.

ライセンス::
MIT

スピード:
Fast

品質::

言語: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

適応する:: General-purpose text-to-speech with natural prosody

無料トライ

MeloTTS

フリー

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

開発者::
MyShell.ai

ライセンス::
MIT

スピード:
Fast

品質::

言語: en, es, fr, zh, ja, ko

適応する:: Production applications needing fast, multilingual TTS

無料トライ

OuteTTS

フリー

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

開発者::
OuteAI

ライセンス::
Apache 2.0

スピード:
Fast

品質::

言語: en

適応する:: Edge deployment, browser-based TTS, low-resource environments

無料トライ

Pocket TTS

フリー

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

開発者::
Kyutai

ライセンス::
MIT

スピード:
Fast

品質::

言語: en, fr

プレミアム

開発者::
Sesame

ライセンス::
Apache 2.0

スピード:
Slow

品質::

言語:
en

音声クローン:
いいえ

仮想メモリ:
8GB

1K 文字当たりのコスト:
4x

ConversationalNatural timingTurn-takingBackchannel1B parameters

適応する:: AI assistants, chatbots, conversational AI applications

トライ Sesame CSM

MOSS-TTS

プレミアム

開発者::
OpenMOSS

ライセンス::
Apache 2.0

スピード:
Medium

品質::

言語:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

音声クローン:
はい

仮想メモリ:
16GB

1K 文字当たりのコスト:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

適応する:: Audiobooks, long-form content, multilingual production

トライ MOSS-TTS

MegaTTS3

プレミアム

開発者::
ByteDance

ライセンス::
Apache 2.0

スピード:
Slow

品質::

言語:
en, zh

音声クローン:
はい

仮想メモリ:
8GB

1K 文字当たりのコスト:
4x

Voice cloningAdjustable similarityCross-lingual

適応する:: High-fidelity voice cloning

トライ MegaTTS3

モデル比較表

モデル	開発者:	動物	スピード	言語	仮想メモリ	ライセンス:	クレジット
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	フリー	使用
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	フリー	使用
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	フリー	使用
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	フリー	使用
Bark	Suno	Standard	Slow	13	5GB	MIT	2	使用
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	使用
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	使用
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	使用
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	使用
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	使用
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	使用
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	使用
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	使用
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	使用
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	使用
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	使用
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	使用
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	使用
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	使用
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	使用
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	使用
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	使用
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	使用
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	フリー	使用
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	使用
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	使用
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	フリー	使用
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	フリー	使用
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	使用
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	使用
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	使用

人工知能テキスト・トゥ・スピーチプラットフォーム

TTS.aiシリーズのテキスト・トゥ・スピーチ機能を搭載。

TTS.aiは世界で最も優れたオープンソースのテキストから音声へのモデルを一つの使いやすいプラットフォームに集約したものである。単一の音声エンジンに閉じ込められるプロプライエタリサービスとは異なり、TTS.aiはCoqui、MyShell、Amphion、NVIDIA、Suno、HuggingFace、清華大学などの主要な研究所から20以上のモデルにアクセスできる。

すべてのモデルは MIT、Apache 2.0、または同様の許容的なライセンスの下でオープンソースであり、生成されたオーディオをプロジェクトで使用する完全な商業的権利を保証します。リアルタイムアプリケーションのための高速で軽量な合成か、オーディオブックやポッドキャストのためのプレミアムなスタジオ品質の出力か、TTS.aiはあらゆるユースケースに適したモデルを持っています。

フリーモデル、アカウント不要

Piper (超高速、軽量)、VITS (高品質ニューラル合成)、MeloTTS (多言語サポート)の3つのフリーのTTSモデルですぐに始めてください。登録もクレジットカードもなく、世代の制限もありません。フリーモデルは英語と多くの他の言語をサポートし、ほとんどのアプリケーションに適した自然に聞こえる出力を提供します。

GPU加速処理

すべての TTS モデルは専用 NVIDIA GPU で動作し、高速で一貫した生成時間を提供します。フリーモデルは通常2秒以内でオーディオを生成します。Kokoro、CosyVoice 2、Barkのような標準モデルは平均3-5秒で生成します。最高品質のプレミアムモデル、例えば Tortoise や Chatterbox はテキストの長さに応じて5-15秒で生成します。

30以上の言語をサポート

英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、中国語、日本語、韓国語、アラビア語、ヒンディー語、ロシア語など30以上の言語で音声を生成します。いくつかのモデルは言語間合成をサポートします。これは、元の音声が訓練されていない言語で音声を生成できることを意味します。CosyVoice 2とGPT-SoVITSは言語間の音声クローンに優れています。

開発者向けAPI

TTS.aiをOpenAI互換のREST APIでアプリケーションに統合。20以上のモデルに対応した1つのエンドポイント。Python、JavaScript、cURL、Go SDK。リアルタイムアプリケーションのストリーミングサポート。大規模コンテンツ生成のバッチ処理。非同期通知のためのWebhooks。ProとEnterpriseプランで利用可能。

よくある質問

テキスト・トゥ・スピーチ（ＴＴＳ）は，テキストを自然に聞こえる音声に変換する人工知能技術である。

必要に応じて選択できます。早いプレビューには Piper か MeloTTS (無料で高速) を使ってください。高品質には Kokoro か CosyVoice 2 (標準) を試してください。声のクローンには Chatterbox か GPT-SoVITS (プレミアム) を使ってください。会話/ポッドキャストのコンテンツには Dia TTS を試してください。それぞれのモデルは強みが異なります。最適なものを見つけるために実験してください。

はい! TTS.ai は Kokoro, Piper, VITS, MeloTTS モデルを使った無料のテキストから音声への変換を提供しています。最大 500 文字、1 時間あたり 3 回の生成まではアカウントが必要ありません。無料のアカウントに登録して 50 クレジットを取得し、すべてのモデルにアクセスしてください。

ＴＴＳモデルは，英語，スペイン語，フランス語，ドイツ語，イタリア語，ポルトガル語，中国語，日本語，韓国語，アラビア語，ロシア語，ヒンディー語など３０以上の言語をサポートしている。

はい、TTS.ai を使って生成されたオーディオは商用利用できます。私たちのすべてのモデルはオープンソースライセンス (MIT, Apache 2.0) を使用しています。特定の条件については、個々のモデルのライセンスを確認してください。あなたのプロジェクトで使用する特定のモデルのライセンスを確認することをお勧めします。

TTS.ai は MP3、WAV、OGG、FLAC の出力フォーマットをサポートします。ウェブ再生のデフォルトは MP3 です。さらなるオーディオ処理には WAV を推奨します。オーディオ変換ツールを使ってフォーマットを変換できます。

音声クローンは、短いオーディオサンプル（通常5-30秒）から特定の音声を複製するために人工知能を使用します。ターゲットの音声の明瞭な録音をアップロードすると、Chatterbox、GPT-SoVITS、OpenVoiceなどのモデルがその音声で新しい音声を生成します。品質はより清潔で長い参照音声で向上します。

無料ユーザは要求当たり500文字まで生成できます。登録ユーザは要求当たり5000文字まで生成できます。長いテキストの場合、オーディオはチャンクで生成され、自動的に合成されます。APIユーザは要求当たり10000文字まで処理できます。

SSML (Speech Synthesis Markup Language) のサポートはモデルによって異なります。Piper や他のモデルは休止、強調、発音制御のための基本的な SSML タグをサポートします。SSML をネイティブにサポートしていないモデルでは、自然な句読点や行切りを使って韻律を変えることもできます。

はい、ほとんどのモデルは 0.5x から 2.0x までの速度調整をサポートします。Bark や Parler のようなモデルではピッチとスタイルの制御も可能です。速度パラメータは、高度な設定パネルまたは API の速度パラメータを使って設定できます。

はい、バッチ処理は API を介して利用できます。複数のテキストセグメントを一つの API コールまたはスクリプトで送信すると、それぞれが別々のオーディオファイルとして処理され返されます。これはオーディオブックの章、e-learning モジュール、ゲームのダイアログスクリプトに適しています。

アカウントのダッシュボードからAPIキーを生成し、テキスト、モデル、音声パラメータと共にREST APIエンドポイントにPOSTリクエストを送信します。Python、JavaScript、cURLのコード例を提供します。APIはOpenAI互換であり、既存の統合は最小限の変更で動作します。

5.0/5 (3)

テキストを音声に変換を開始

TTS.aiを使って数千のクリエイターに加わりましょう。新しいアカウントで15,000の無料キャラクターを入手してください。無料モデルは登録なしで利用できます。

無料登録価格を表示

テキスト・トゥ・スピーチ

TTS.aiが気に入りましたか？友達に教えてあげましょう！

モデルの詳細

Sesame CSM

より良い結果を得るためのヒント

信用コスト

テキストから音声への変換

テキストを入力

モデルと音声を選択

生成とダウンロード

テキストから音声を生成するユースケース

オーディオブック

音声

ポッドキャスト

ゲーム

電子学習

アクセシビリティ

電話システム

ソーシャルメディア

ストリーミング

マーケティング

ダビングとローカライゼーション

瞑想と健康

すべてのテキストから音声への変換モデル

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Dia 2

VoxCPM

TADA

VibeVoice

CosyVoice3

Chatterbox