テキスト・トゥ・スピーチ
オープンソースのAIモデルを使ってテキストを自然な音声に変換します。無料で使用できます。アカウントは必要ありません。
SSML タグでテキストを囲み、正確な制御を行う:
<speak><prosody rate="slow">Slow speech</prosody></speak>
送信に影響を与える感情マーカーを追加 (モデルサポートによって異なります):
カスタム発音を定義 (単語=発音):
モデルの詳細
Kitten TTS
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
| 開発者: | KittenML |
| ライセンス: | Apache 2.0 |
| スピード | Fast |
| 品質: | |
| 言語 | 1 言語 |
| 仮想メモリ | 0GB |
| 音声クローン | サポートされていません |
より良い結果を得るためのヒント
- 自然な休止と音調に適切な句読点を使う
- 数字や略語をスペルアウトして発音を明確にします
- 短い休止を作成するためにコンマを追加します
- 長いドラマティックな休止には (...) を使ってください
- 最も自然な結果を得るには Kokoro または CosyVoice 2 を試してください
- マルチスピーカーダイアログやポッドキャストコンテンツに Dia を使う
信用コスト
| 動物 | 1K 文字当たりのコスト |
|---|---|
| フリー | 0 クレジット (無制限) |
| 標準 | 2クレジット / 1K文字 |
| プレミアム | 4クレジット / 1K文字 |
テキストから音声への変換
3つの簡単なステップでプロの品質のボイスオーバーを生成します。技術的な知識は必要ありません。
テキストを入力
音声に変換するテキストをタイプ、貼り付け、またはアップロードします。ログインしたユーザの場合、1 回の生成で最大 5,000 文字までサポートします。 プレーンテキストを使用したり、SSML タグを追加して発音、休止、強調を高度に制御できます。
モデルと音声を選択
3 つのレベルにわたる 20 以上の AI モデルから選択できます。コンテンツに合った音声を選び、ターゲット言語を選び、再生速度を 0.5x から 2.0x まで調整し、好みの出力フォーマット (MP3、WAV、OGG、FLAC) を選択します。
生成とダウンロード
生成をクリックすると、オーディオは数秒で準備完了します。内蔵プレーヤーでプレビュー、選択したフォーマットでダウンロード、または共有可能なリンクをコピーしてください。APIを使用してバッチ処理を行い、ワークフローに統合してください。
テキストから音声を生成するユースケース
人工知能を駆使したテキスト・トゥ・スピーチは,人々が音声コンテンツを作成し,消費し,相互作用する方法を数十の産業にわたって変革している。
すべてのテキストから音声への変換モデル
TTS.aiで利用可能な全てのAIモデルの詳細な仕様。品質、速度、言語サポート、機能を比較して、あなたのプロジェクトに最適なモデルを見つけてください。
Kokoro
Free
Kokoroは8200万パラメータのテキストから音声を生成するモデルで、その重量クラスをはるかに超える。小さなサイズにもかかわらず、驚くほど自然で表現力のある音声を生成します。Kokoroは英語、日本語、中国語、韓国語など多くの言語をサポートし、様々な表現力のある音声を提供します。これは非常に高速で動作します。GPUでのリアルタイムよりも100倍も速く音声を生成します。
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
いいえ
フリー
Piper
Free
Piperは、Rhasspyが開発した軽量テキストから音声に変換するエンジンで、VITSとlarynxアーキテクチャを使用しています。完全にCPU上で動作し、エッジデバイス、ホームオートメーション、オフライン TTSを必要とするアプリケーションに適しています。30以上の言語に渡る100以上の音声を持ち、PiperはRaspberry Pi 4でもリアルタイムで自然に聞こえる音声を提供します。
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
いいえ
フリー
VITS
Free
VITS(Variational Inference with advancerial largering for end‐to‐end Text‐to‐Speak)は,従来の2段階モデルよりも自然な音声を生成する並列エンド‐ト‐エンドTTS法である。
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
いいえ
フリー
MeloTTS
Free
MyShell.aiによるMeloTTSは、英語(米国、イギリス、インド、オーストラリア)、スペイン語、フランス語、中国語、日本語、韓国語をサポートする多言語のTTSライブラリです。非常に高速で、CPUのみで実時間に近い速度でテキストを処理します。MeloTTSは、プロダクション用に設計されており、CPUとGPUの両方の推論をサポートします。
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
いいえ
フリー
Bark
Standard
バークは音声変換に基づくテキストから音声へのモデルであり、音楽、背景音、音響効果などの音声とともに、非常にリアルな多言語の音声を生成できます。笑い、嘆き、泣きなどの非言語的なコミュニケーションを生成できます。バークは100以上のプレセットスピーカーと13以上の言語をサポートします。
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
いいえ
2x
Bark Small
Standard
Bark SmallはBarkモデルの抽出版で,音質を交換して推論速度を大幅に向上させ,メモリ要求量を低減した。
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
いいえ
2x
CosyVoice 2
Standard
CosyVoice2は,人間の音声と同等の音質を極めて低い遅延で達成し,リアルタイムアプリケーションに適している。
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
はい
2x
Dia TTS
Standard
ナリラボのDiaは、多人数の対話を生成するために特別に設計された1.6Bパラメータのテキストから音声へのモデルです。適切なターン、韻律、感情表現を持つ2人の話者間の自然に聞こえる会話を生成できます。Diaは、ポッドキャストスタイルのコンテンツ、オーディオブック対話、対話型AIを作成するのに完璧です。
Nari Labs
Apache 2.0
Medium
en
4GB
いいえ
2x
Parler TTS
Standard
Parler TTS は生成された音声を制御するために自然言語の音声記述を使用するテキストから音声へのモデルです。プリセットの音声から選択する代わりに、あなたが望む音声を記述します(例えば、「軽いイギリス訛りの温かい女性の声、ゆっくりと明瞭に話す」)そして Parler はその記述に合った音声を生成します。これは、クリエイティブなアプリケーションにとって独特の柔軟性をもたらします。
Hugging Face
Apache 2.0
Medium
en
4GB
いいえ
2x
GLM-TTS
Standard
ジープのAIによるGLM-TTSは,フローマッチングを用いたラマアーキテクチャに基づくテキストから音声へのシステムである。オープンソースのTTSモデルの中で最も文字誤り率が低く,最も正確な発音を生成する。GLM-TTSは,3〜10秒の音声サンプルからの音声クローンを行うことで,英語と中国語をサポートする。
Zhipu AI
GLM-4 License
Medium
en, zh
4GB
はい
2x
IndexTTS-2
Standard
IndexTTS‐2は,感情特異的な訓練データを必要としない,ハッピー,悲しみ,怒り,恐怖などの特定の感情的な音を生成するテキスト‐トゥ‐スピーチシステムである。
Index Team
Bilibili Model License
Medium
en, zh
4GB
はい
2x
Spark TTS
Standard
Spark TTSは、音声クローンと制御可能な感情と話し方を組み合わせたテキストから音声へのモデルです。たった5秒の参照オーディオを使って、音声をクローンし、クローンされた音声のアイデンティティを維持しながら、異なる感情、速度、スタイルの音声を生成します。Spark TTSはプロンプトベースの制御システムを使用します。
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
4GB
はい
2x
GPT-SoVITS
Standard
GPT-SoVITSは、GPTスタイルの言語モデルとソビツ(翻訳と合成を通じた歌声推論)を組み合わせた、強力な少数のショットの声のクローンです。参照音声の5秒で、正確に声をクローンし、話者の独特な特徴を保持しながら新しい声を生成できます。話し声と歌声の合成に優れています。
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
はい
2x
Orpheus
Standard
Orpheusは、人間レベルの感情表現を達成する大規模なテキストから音声へのモデルです。10万時間以上の多様な音声データに基づいて訓練され、自然な感情、強調、話し方を持つ音声を生成するのに優れています。Orpheusは、人間の録音とほとんど区別できない音声を生成できます。
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
いいえ
2x
Chatterbox
Premium
Resemble AI による Chatterbox は最先端のゼロショット音声クローンモデルです。音色だけでなく話し方や感情のニュアンスを捕捉し、単一のオーディオサンプルからすべての音声を驚くべき精度で複製できます。Chatterbox はまた、生成された音声の感情的なトーンを音声アイデンティティとは独立に調整できる微細な感情コントロールを備えています。
Resemble AI
MIT
Medium
en
4GB
はい
4x
Tortoise TTS
Premium
Tortoise TTSは速度より音質を優先する自己回帰的なマルチボイステキスト・トゥ・スピーチシステムです。DALL-Eからインスピレーションを得たアーキテクチャを使用して、優れた韻律と話者の類似性を持つ非常に自然な音声を生成します。多くの代替品より遅いですが、Tortoiseはオープンソースエコシステムで利用可能な最もリアルな合成音声のいくつかを生成します。
James Betker
Apache 2.0
Slow
en
8GB
はい
4x
StyleTTS 2
Premium
StyleTTS2は,大規模な音声言語モデルを用いた対抗訓練とスタイル拡散を組み合わせることにより,人間レベルのTTS合成を達成する。
Columbia University
MIT
Medium
en
4GB
いいえ
4x
OpenVoice
Premium
OpenVoice by MyShell.aiは、音声スタイル、感情、アクセント、リズム、休止、音調を細かく制御して、即座に音声クローンを可能にします。短いオーディオクリップから音声をクローンし、多言語での音声を生成しながら、話者のアイデンティティを保持します。OpenVoiceは、音声変換器としても機能し、リアルタイムの音声変換を可能にします。
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
はい
4x
Qwen3 TTS
Standard
Qwen3-TTSは、AlibabaのQwenチームが開発した17億パラメータのテキストから音声へのモデルです。感情制御付きのプリセット音声(9人のスピーカー)、3秒の音声からの声のクローン化、および自然言語でお好みの声を記述するユニークな声のデザインモードの3つのモードをサポートします。10の言語を高い表現力と自然な韻律でカバーします。
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
はい
2x
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) は会話音声を生成するために特別に設計された10億パラメータモデルです。ターンタイミング、バックチャネル応答、感情反応、会話フローを含む人間の会話の自然なパターンをモデル化します。CSM は合成音声よりも自然な人間の会話のように聞こえる音を生成します。
Sesame
Apache 2.0
Slow
en
8GB
いいえ
4x
Kitten TTS
Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
en
0GB
いいえ
フリー
Kokoro
フリー
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
フリー
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
フリー
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
フリー
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Kitten TTS
フリー
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
KittenML
Apache 2.0
Fast
Bark
標準
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
いいえ
Bark Small
標準
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
いいえ
CosyVoice 2
標準
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
はい
Dia TTS
標準
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
いいえ
Parler TTS
標準
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
いいえ
GLM-TTS
標準
GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
Zhipu AI
GLM-4 License
Medium
en, zh
はい
IndexTTS-2
標準
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Bilibili Model License
Medium
en, zh
はい
Spark TTS
標準
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
CC BY-NC-SA 4.0
Medium
en, zh
はい
GPT-SoVITS
標準
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
はい
Orpheus
標準
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
いいえ
Qwen3 TTS
標準
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
はい
モデル比較表
| モデル | 開発者: | 動物 | 品質: | スピード | 言語 | 音声クローン | 仮想メモリ | ライセンス: | クレジット | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | フリー | 使用 | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | フリー | 使用 | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | フリー | 使用 | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | フリー | 使用 | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | 使用 | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | 使用 | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | 使用 | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | 使用 | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | 使用 | ||
| GLM-TTS | Zhipu AI | Standard | Medium | 2 | 4GB | GLM-4 License | 2 | 使用 | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Bilibili Model License | 2 | 使用 | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | CC BY-NC-SA 4.0 | 2 | 使用 | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | 使用 | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | 使用 | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | 使用 | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | 使用 | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | 使用 | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | 使用 | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | 使用 | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | 使用 | ||
| Kitten TTS | KittenML | Free | Fast | 1 | 0GB | Apache 2.0 | フリー | 使用 |
人工知能テキスト・トゥ・スピーチプラットフォーム
テキスト・トゥ・スピーチのためのTTS.aiを選ぶ理由は?
TTS.aiは世界で最も優れたオープンソースのテキストから音声へのモデルを一つの使いやすいプラットフォームに集約したものである。 単一の音声エンジンに閉じ込められるプロプライエタリサービスとは異なり、TTS.aiはCoqui、MyShell、Amphion、NVIDIA、Suno、HuggingFace、清華大学などの主要な研究所から20以上のモデルにアクセスできる。
すべてのモデルは MIT、Apache 2.0、または同様の許容的なライセンスの下でオープンソースであり、生成されたオーディオをプロジェクトで使用する完全な商業的権利を保証します。リアルタイムアプリケーションのための高速で軽量な合成か、オーディオブックやポッドキャストのためのプレミアムなスタジオ品質の出力か、TTS.aiはあらゆるユースケースに適したモデルを持っています。
フリーモデル、アカウント不要
Piper (超高速、軽量)、VITS (高品質ニューラル合成)、MeloTTS (多言語サポート)の3つのフリーのTTSモデルですぐに始めてください。登録もクレジットカードもなく、世代の制限もありません。フリーモデルは英語と多くの他の言語をサポートし、ほとんどのアプリケーションに適した自然に聞こえる出力を提供します。
GPU加速処理
すべての TTS モデルは専用 NVIDIA GPU で動作し、高速で一貫した生成時間を提供します。フリーモデルは通常2秒以内でオーディオを生成します。Kokoro、CosyVoice 2、Barkのような標準モデルは平均3-5秒で生成します。最高品質のプレミアムモデル、例えば Tortoise や Chatterbox はテキストの長さに応じて5-15秒で生成します。
30以上の言語をサポート
英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、中国語、日本語、韓国語、アラビア語、ヒンディー語、ロシア語など30以上の言語で音声を生成します。いくつかのモデルは言語間合成をサポートします。これは、元の音声が訓練されていない言語で音声を生成できることを意味します。CosyVoice 2とGPT-SoVITSは言語間の音声クローンに優れています。
開発者向けAPI
TTS.aiをOpenAI互換のREST APIでアプリケーションに統合。20以上のモデルに対応した1つのエンドポイント。Python、JavaScript、cURL、Go SDK。リアルタイムアプリケーションのストリーミングサポート。大規模コンテンツ生成のバッチ処理。非同期通知のためのWebhooks。ProとEnterpriseプランで利用可能。
よくある質問
改善点は何ですか?フィードバックは問題を解決するのに役立ちます。