テキスト・トゥ・スピーチ

オープンソースのAIモデルを使ってテキストを自然な音声に変換します。無料で使用できます。アカウントは必要ありません。

登録 5000文字の制限を設けました

SSML タグでテキストを囲み、正確な制御を行う:

<speak><prosody rate="slow">Slow speech</prosody></speak>

送信に影響を与える感情マーカーを追加 (モデルサポートによって異なります):

カスタム発音を定義 (単語=発音):

-12 +12
0.5x 2.0x
パイパー、VITS、MeloTTS とのフリー
生成したオーディオがここに表示されます。モデルを選択し、テキストを入力して、生成をクリックします。
オーディオを作成しましたName
0:00 0:00
音声をダウンロード リンクは24時間で失効します
TTS.aiみたいに 友達に教えて

モデルの詳細

Kitten TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

開発者: KittenML
ライセンス: Apache 2.0
スピード Fast
品質:
言語 1 言語
仮想メモリ 0GB
音声クローン サポートされていません
特徴:
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
適応する:: Fast lightweight TTS, edge deployment, low-latency applications

より良い結果を得るためのヒント

  • 自然な休止と音調に適切な句読点を使う
  • 数字や略語をスペルアウトして発音を明確にします
  • 短い休止を作成するためにコンマを追加します
  • 長いドラマティックな休止には (...) を使ってください
  • 最も自然な結果を得るには Kokoro または CosyVoice 2 を試してください
  • マルチスピーカーダイアログやポッドキャストコンテンツに Dia を使う

信用コスト

動物 1K 文字当たりのコスト
フリー 0 クレジット (無制限)
標準 2クレジット / 1K文字
プレミアム 4クレジット / 1K文字

テキストから音声への変換

3つの簡単なステップでプロの品質のボイスオーバーを生成します。技術的な知識は必要ありません。

ステップ 1

テキストを入力

音声に変換するテキストをタイプ、貼り付け、またはアップロードします。ログインしたユーザの場合、1 回の生成で最大 5,000 文字までサポートします。 プレーンテキストを使用したり、SSML タグを追加して発音、休止、強調を高度に制御できます。

ステップ 2

モデルと音声を選択

3 つのレベルにわたる 20 以上の AI モデルから選択できます。コンテンツに合った音声を選び、ターゲット言語を選び、再生速度を 0.5x から 2.0x まで調整し、好みの出力フォーマット (MP3、WAV、OGG、FLAC) を選択します。

ステップ 3

生成とダウンロード

生成をクリックすると、オーディオは数秒で準備完了します。内蔵プレーヤーでプレビュー、選択したフォーマットでダウンロード、または共有可能なリンクをコピーしてください。APIを使用してバッチ処理を行い、ワークフローに統合してください。

テキストから音声を生成するユースケース

人工知能を駆使したテキスト・トゥ・スピーチは,人々が音声コンテンツを作成し,消費し,相互作用する方法を数十の産業にわたって変革している。

すべてのテキストから音声への変換モデル

TTS.aiで利用可能な全てのAIモデルの詳細な仕様。品質、速度、言語サポート、機能を比較して、あなたのプロジェクトに最適なモデルを見つけてください。

KokoroKokoro

Free

Kokoroは8200万パラメータのテキストから音声を生成するモデルで、その重量クラスをはるかに超える。小さなサイズにもかかわらず、驚くほど自然で表現力のある音声を生成します。Kokoroは英語、日本語、中国語、韓国語など多くの言語をサポートし、様々な表現力のある音声を提供します。これは非常に高速で動作します。GPUでのリアルタイムよりも100倍も速く音声を生成します。

開発者::
Hexgrad
ライセンス::
Apache 2.0
スピード:
Fast
品質::
言語:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
仮想メモリ:
1.5GB
音声クローン:
いいえ
1K 文字当たりのコスト:
フリー
82Mのパラメータ 超高速 表現的な声 多言語 ストリーミング対応
適応する:: 遅延を最小限に抑えた高品質のTTS、ストリーミングアプリケーション

PiperPiper

Free

Piperは、Rhasspyが開発した軽量テキストから音声に変換するエンジンで、VITSとlarynxアーキテクチャを使用しています。完全にCPU上で動作し、エッジデバイス、ホームオートメーション、オフライン TTSを必要とするアプリケーションに適しています。30以上の言語に渡る100以上の音声を持ち、PiperはRaspberry Pi 4でもリアルタイムで自然に聞こえる音声を提供します。

開発者::
Rhasspy
ライセンス::
MIT
スピード:
Fast
品質::
言語:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
仮想メモリ:
0 (CPU only)
音声クローン:
いいえ
1K 文字当たりのコスト:
フリー
CPU-friendly オフライン対応 100以上の声 30以上の言語 SSMLサポート
適応する:: クイックプレビュー、アクセシビリティ、組み込みアプリケーション

VITSVITS

Free

VITS(Variational Inference with advancerial largering for end‐to‐end Text‐to‐Speak)は,従来の2段階モデルよりも自然な音声を生成する並列エンド‐ト‐エンドTTS法である。

開発者::
Jaehyeon Kim et al.
ライセンス::
MIT
スピード:
Fast
品質::
言語:
en, zh, ja, ko
仮想メモリ:
1GB
音声クローン:
いいえ
1K 文字当たりのコスト:
フリー
エンドツーエンド合成 自然韻律 速推論 複数の話者
適応する:: 自然な韻律を持つ汎用テキスト・トゥ・スピーチ

MeloTTSMeloTTS

Free

MyShell.aiによるMeloTTSは、英語(米国、イギリス、インド、オーストラリア)、スペイン語、フランス語、中国語、日本語、韓国語をサポートする多言語のTTSライブラリです。非常に高速で、CPUのみで実時間に近い速度でテキストを処理します。MeloTTSは、プロダクション用に設計されており、CPUとGPUの両方の推論をサポートします。

開発者::
MyShell.ai
ライセンス::
MIT
スピード:
Fast
品質::
言語:
en, es, fr, zh, ja, ko
仮想メモリ:
0.5GB (GPU optional)
音声クローン:
いいえ
1K 文字当たりのコスト:
フリー
CPU最適化 多言語 複数アクセント 生産準備 低遅延
適応する:: 高速で多言語のTTSを必要とするプロダクションアプリケーション

BarkBark

Standard

バークは音声変換に基づくテキストから音声へのモデルであり、音楽、背景音、音響効果などの音声とともに、非常にリアルな多言語の音声を生成できます。笑い、嘆き、泣きなどの非言語的なコミュニケーションを生成できます。バークは100以上のプレセットスピーカーと13以上の言語をサポートします。

開発者::
Suno
ライセンス::
MIT
スピード:
Slow
品質::
言語:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
仮想メモリ:
5GB
音声クローン:
いいえ
1K 文字当たりのコスト:
2x
音響効果 笑い/嘆き 音楽世代 100人以上の話者 多言語
適応する:: クリエイティブオーディオコンテンツ、感情的なオーディオブック、音響効果

Bark SmallBark Small

Standard

Bark SmallはBarkモデルの抽出版で,音質を交換して推論速度を大幅に向上させ,メモリ要求量を低減した。

開発者::
Suno
ライセンス::
MIT
スピード:
Medium
品質::
言語:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
仮想メモリ:
2GB
音声クローン:
いいえ
1K 文字当たりのコスト:
2x
軽量級 フルバークより速い 感情的発言 多言語
適応する:: 速いクリエイティブ音声をフルバークが遅すぎるときに

CosyVoice 2CosyVoice 2

Standard

CosyVoice2は,人間の音声と同等の音質を極めて低い遅延で達成し,リアルタイムアプリケーションに適している。

開発者::
Alibaba (Tongyi Lab)
ライセンス::
Apache 2.0
スピード:
Medium
品質::
言語:
en, zh, ja, ko, fr, de, it, es
仮想メモリ:
4GB
音声クローン:
はい
1K 文字当たりのコスト:
2x
ストリーミング ゼロショットクローン クロス・リンガル 感情制御 ヒューマンパリティ
適応する:: リアルタイムアプリケーション、ストリーミングTTS、ボイスアシスタント

Dia TTSDia TTS

Standard

ナリラボのDiaは、多人数の対話を生成するために特別に設計された1.6Bパラメータのテキストから音声へのモデルです。適切なターン、韻律、感情表現を持つ2人の話者間の自然に聞こえる会話を生成できます。Diaは、ポッドキャストスタイルのコンテンツ、オーディオブック対話、対話型AIを作成するのに完璧です。

開発者::
Nari Labs
ライセンス::
Apache 2.0
スピード:
Medium
品質::
言語:
en
仮想メモリ:
4GB
音声クローン:
いいえ
1K 文字当たりのコスト:
2x
マルチスピーカー ダイアログ生成 自然ターン 感情表現 1.6Bパラメータ
適応する:: ポッドキャスト、オーディオブックの対話、会話コンテンツ

Parler TTSParler TTS

Standard

Parler TTS は生成された音声を制御するために自然言語の音声記述を使用するテキストから音声へのモデルです。プリセットの音声から選択する代わりに、あなたが望む音声を記述します(例えば、「軽いイギリス訛りの温かい女性の声、ゆっくりと明瞭に話す」)そして Parler はその記述に合った音声を生成します。これは、クリエイティブなアプリケーションにとって独特の柔軟性をもたらします。

開発者::
Hugging Face
ライセンス::
Apache 2.0
スピード:
Medium
品質::
言語:
en
仮想メモリ:
4GB
音声クローン:
いいえ
1K 文字当たりのコスト:
2x
音声記述 自然言語制御 柔軟な音声生成 プリセット音声は必要ありません
適応する:: カスタム音声特性が必要なクリエイティブなアプリケーションName

GLM-TTSGLM-TTS

Standard

ジープのAIによるGLM-TTSは,フローマッチングを用いたラマアーキテクチャに基づくテキストから音声へのシステムである。オープンソースのTTSモデルの中で最も文字誤り率が低く,最も正確な発音を生成する。GLM-TTSは,3〜10秒の音声サンプルからの音声クローンを行うことで,英語と中国語をサポートする。

開発者::
Zhipu AI
ライセンス::
GLM-4 License
スピード:
Medium
品質::
言語:
en, zh
仮想メモリ:
4GB
音声クローン:
はい
1K 文字当たりのコスト:
2x
最小誤差率 音声クローン フローマッチング 自然韻律
適応する:: 発音の正確さを最大限に求めるアプリケーション

IndexTTS-2IndexTTS-2

Standard

IndexTTS‐2は,感情特異的な訓練データを必要としない,ハッピー,悲しみ,怒り,恐怖などの特定の感情的な音を生成するテキスト‐トゥ‐スピーチシステムである。

開発者::
Index Team
ライセンス::
Bilibili Model License
スピード:
Medium
品質::
言語:
en, zh
仮想メモリ:
4GB
音声クローン:
はい
1K 文字当たりのコスト:
2x
感情制御 ゼロショット 感情ベクトル 表現的言語 微粒子制御
適応する:: 感情的に表現できるコンテンツ、オーディオブック、バーチャルアシスタント

Spark TTSSpark TTS

Standard

Spark TTSは、音声クローンと制御可能な感情と話し方を組み合わせたテキストから音声へのモデルです。たった5秒の参照オーディオを使って、音声をクローンし、クローンされた音声のアイデンティティを維持しながら、異なる感情、速度、スタイルの音声を生成します。Spark TTSはプロンプトベースの制御システムを使用します。

開発者::
SparkAudio
ライセンス::
CC BY-NC-SA 4.0
スピード:
Medium
品質::
言語:
en, zh
仮想メモリ:
4GB
音声クローン:
はい
1K 文字当たりのコスト:
2x
声のクローン 感情制御 スタイルコントロール プロンプトベース 5秒クローン
適応する:: クローン音声と感情制御によるコンテンツ作成

GPT-SoVITSGPT-SoVITS

Standard

GPT-SoVITSは、GPTスタイルの言語モデルとソビツ(翻訳と合成を通じた歌声推論)を組み合わせた、強力な少数のショットの声のクローンです。参照音声の5秒で、正確に声をクローンし、話者の独特な特徴を保持しながら新しい声を生成できます。話し声と歌声の合成に優れています。

開発者::
RVC-Boss
ライセンス::
MIT
スピード:
Slow
品質::
言語:
en, zh, ja, ko
仮想メモリ:
6GB
音声クローン:
はい
1K 文字当たりのコスト:
2x
5秒クローン 歌声 少数のショットで学習 ハイフィールディング 交叉語
適応する:: 音声クローン,歌唱合成,コンテンツクリエーター音声複製

OrpheusOrpheus

Standard

Orpheusは、人間レベルの感情表現を達成する大規模なテキストから音声へのモデルです。10万時間以上の多様な音声データに基づいて訓練され、自然な感情、強調、話し方を持つ音声を生成するのに優れています。Orpheusは、人間の録音とほとんど区別できない音声を生成できます。

開発者::
Canopy Labs
ライセンス::
Llama 3.2 Community
スピード:
Medium
品質::
言語:
en
仮想メモリ:
4GB
音声クローン:
いいえ
1K 文字当たりのコスト:
2x
人間レベルの感情 10万時間の訓練 自然強調 表現的言語
適応する:: 高品質感情発言、オーディオブック、声優

ChatterboxChatterbox

Premium

Resemble AI による Chatterbox は最先端のゼロショット音声クローンモデルです。音色だけでなく話し方や感情のニュアンスを捕捉し、単一のオーディオサンプルからすべての音声を驚くべき精度で複製できます。Chatterbox はまた、生成された音声の感情的なトーンを音声アイデンティティとは独立に調整できる微細な感情コントロールを備えています。

開発者::
Resemble AI
ライセンス::
MIT
スピード:
Medium
品質::
言語:
en
仮想メモリ:
4GB
音声クローン:
はい
1K 文字当たりのコスト:
4x
ゼロショットクローン 感情制御 ハイ・フィデリティ スタイル転送 単一サンプルクローン
適応する:: 感情制御を備えたプロの声のクローン化,コンテンツ作成

Tortoise TTSTortoise TTS

Premium

Tortoise TTSは速度より音質を優先する自己回帰的なマルチボイステキスト・トゥ・スピーチシステムです。DALL-Eからインスピレーションを得たアーキテクチャを使用して、優れた韻律と話者の類似性を持つ非常に自然な音声を生成します。多くの代替品より遅いですが、Tortoiseはオープンソースエコシステムで利用可能な最もリアルな合成音声のいくつかを生成します。

開発者::
James Betker
ライセンス::
Apache 2.0
スピード:
Slow
品質::
言語:
en
仮想メモリ:
8GB
音声クローン:
はい
1K 文字当たりのコスト:
4x
最高品質 多声 DALL-Eアーキテクチャ 声のクローン 自己回帰
適応する:: オーディオブック、プレミアムコンテンツ、品質第一のアプリケーション

StyleTTS 2StyleTTS 2

Premium

StyleTTS2は,大規模な音声言語モデルを用いた対抗訓練とスタイル拡散を組み合わせることにより,人間レベルのTTS合成を達成する。

開発者::
Columbia University
ライセンス::
MIT
スピード:
Medium
品質::
言語:
en
仮想メモリ:
4GB
音声クローン:
いいえ
1K 文字当たりのコスト:
4x
人間レベル スタイル拡散 対抗訓練 自然変動 ハイフィールディング
適応する:: スタジオ品質のシングルスピーカー合成、プロのナレーション

OpenVoiceOpenVoice

Premium

OpenVoice by MyShell.aiは、音声スタイル、感情、アクセント、リズム、休止、音調を細かく制御して、即座に音声クローンを可能にします。短いオーディオクリップから音声をクローンし、多言語での音声を生成しながら、話者のアイデンティティを保持します。OpenVoiceは、音声変換器としても機能し、リアルタイムの音声変換を可能にします。

開発者::
MyShell.ai / MIT
ライセンス::
MIT
スピード:
Medium
品質::
言語:
en, zh, ja, ko, fr, de, es, it
仮想メモリ:
4GB
音声クローン:
はい
1K 文字当たりのコスト:
4x
インスタントクローン 音声変換 感情制御 アクセント制御 多言語
適応する:: 音声クローンと微細なスタイル制御、音声変換

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTSは、AlibabaのQwenチームが開発した17億パラメータのテキストから音声へのモデルです。感情制御付きのプリセット音声(9人のスピーカー)、3秒の音声からの声のクローン化、および自然言語でお好みの声を記述するユニークな声のデザインモードの3つのモードをサポートします。10の言語を高い表現力と自然な韻律でカバーします。

開発者::
Alibaba (Qwen)
ライセンス::
Apache 2.0
スピード:
Medium
品質::
言語:
en, zh, ja, ko, de, fr, ru, pt, es, it
仮想メモリ:
7GB
音声クローン:
はい
1K 文字当たりのコスト:
2x
声のクローン 9つのプリセット音声 テキストからの音声デザイン 感情制御 10の言語
適応する:: 音声クローンやカスタム音声デザインを備えた多言語コンテンツ

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) は会話音声を生成するために特別に設計された10億パラメータモデルです。ターンタイミング、バックチャネル応答、感情反応、会話フローを含む人間の会話の自然なパターンをモデル化します。CSM は合成音声よりも自然な人間の会話のように聞こえる音を生成します。

開発者::
Sesame
ライセンス::
Apache 2.0
スピード:
Slow
品質::
言語:
en
仮想メモリ:
8GB
音声クローン:
いいえ
1K 文字当たりのコスト:
4x
会話 自然タイミング ターンテイク バックチャネル 1Bパラメータ
適応する:: AIアシスタント、チャットボット、会話型AIアプリケーション

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

開発者::
KittenML
ライセンス::
Apache 2.0
スピード:
Fast
品質::
言語:
en
仮想メモリ:
0GB
音声クローン:
いいえ
1K 文字当たりのコスト:
フリー
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
適応する:: Fast lightweight TTS, edge deployment, low-latency applications

KokoroKokoro

フリー

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

開発者::
Hexgrad
ライセンス::
Apache 2.0
スピード:
Fast
品質::
言語: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
適応する:: High-quality TTS with minimal latency, streaming applications

PiperPiper

フリー

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

開発者::
Rhasspy
ライセンス::
MIT
スピード:
Fast
品質::
言語: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
適応する:: Quick previews, accessibility, and embedded applications

VITSVITS

フリー

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

開発者::
Jaehyeon Kim et al.
ライセンス::
MIT
スピード:
Fast
品質::
言語: en, zh, ja, ko
適応する:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

フリー

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

開発者::
MyShell.ai
ライセンス::
MIT
スピード:
Fast
品質::
言語: en, es, fr, zh, ja, ko
適応する:: Production applications needing fast, multilingual TTS

Kitten TTSKitten TTS

フリー

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

開発者::
KittenML
ライセンス::
Apache 2.0
スピード:
Fast
品質::
言語: en
適応する:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

標準

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

開発者::
Suno
ライセンス::
MIT
スピード:
Slow
品質::
言語:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
音声クローン:
いいえ
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
適応する:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

標準

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

開発者::
Suno
ライセンス::
MIT
スピード:
Medium
品質::
言語:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
音声クローン:
いいえ
LightweightFaster than full BarkEmotional speechMultilingual
適応する:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

標準

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

開発者::
Alibaba (Tongyi Lab)
ライセンス::
Apache 2.0
スピード:
Medium
品質::
言語:
en, zh, ja, ko, fr, de, it, es
音声クローン:
はい
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
適応する:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

標準

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

開発者::
Nari Labs
ライセンス::
Apache 2.0
スピード:
Medium
品質::
言語:
en
音声クローン:
いいえ
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
適応する:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

標準

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

開発者::
Hugging Face
ライセンス::
Apache 2.0
スピード:
Medium
品質::
言語:
en
音声クローン:
いいえ
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
適応する:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

標準

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

開発者::
Zhipu AI
ライセンス::
GLM-4 License
スピード:
Medium
品質::
言語:
en, zh
音声クローン:
はい
Lowest error rateVoice cloningFlow matchingNatural prosody
適応する:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

標準

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

開発者::
Index Team
ライセンス::
Bilibili Model License
スピード:
Medium
品質::
言語:
en, zh
音声クローン:
はい
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
適応する:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

標準

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

開発者::
SparkAudio
ライセンス::
CC BY-NC-SA 4.0
スピード:
Medium
品質::
言語:
en, zh
音声クローン:
はい
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
適応する:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

標準

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

開発者::
RVC-Boss
ライセンス::
MIT
スピード:
Slow
品質::
言語:
en, zh, ja, ko
音声クローン:
はい
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
適応する:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

標準

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

開発者::
Canopy Labs
ライセンス::
Llama 3.2 Community
スピード:
Medium
品質::
言語:
en
音声クローン:
いいえ
Human-level emotion100K hours trainingNatural emphasisExpressive speech
適応する:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

標準

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

開発者::
Alibaba (Qwen)
ライセンス::
Apache 2.0
スピード:
Medium
品質::
言語:
en, zh, ja, ko, de, fr, ru, pt, es, it
音声クローン:
はい
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
適応する:: Multilingual content with voice cloning or custom voice design

ChatterboxChatterbox

プレミアム

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

開発者::
Resemble AI
ライセンス::
MIT
スピード:
Medium
品質::
言語:
en
音声クローン:
はい
仮想メモリ:
4GB
1K 文字当たりのコスト:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
適応する:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

プレミアム

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

開発者::
James Betker
ライセンス::
Apache 2.0
スピード:
Slow
品質::
言語:
en
音声クローン:
はい
仮想メモリ:
8GB
1K 文字当たりのコスト:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
適応する:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

プレミアム

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

開発者::
Columbia University
ライセンス::
MIT
スピード:
Medium
品質::
言語:
en
音声クローン:
いいえ
仮想メモリ:
4GB
1K 文字当たりのコスト:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
適応する:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

プレミアム

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

開発者::
MyShell.ai / MIT
ライセンス::
MIT
スピード:
Medium
品質::
言語:
en, zh, ja, ko, fr, de, es, it
音声クローン:
はい
仮想メモリ:
4GB
1K 文字当たりのコスト:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
適応する:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

プレミアム

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

開発者::
Sesame
ライセンス::
Apache 2.0
スピード:
Slow
品質::
言語:
en
音声クローン:
いいえ
仮想メモリ:
8GB
1K 文字当たりのコスト:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
適応する:: AI assistants, chatbots, conversational AI applications

モデル比較表

モデル 開発者: 動物 品質: スピード 言語 音声クローン 仮想メモリ ライセンス: クレジット
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 フリー 使用
Piper Rhasspy Free Fast 31 0 (CPU only) MIT フリー 使用
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT フリー 使用
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT フリー 使用
Bark Suno Standard Slow 13 5GB MIT 2 使用
Bark Small Suno Standard Medium 13 2GB MIT 2 使用
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 使用
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 使用
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 使用
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 使用
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 使用
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 使用
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 使用
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 使用
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 使用
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 使用
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 使用
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 使用
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 使用
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 使用
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 フリー 使用

人工知能テキスト・トゥ・スピーチプラットフォーム

テキスト・トゥ・スピーチのためのTTS.aiを選ぶ理由は?

TTS.aiは世界で最も優れたオープンソースのテキストから音声へのモデルを一つの使いやすいプラットフォームに集約したものである。 単一の音声エンジンに閉じ込められるプロプライエタリサービスとは異なり、TTS.aiはCoqui、MyShell、Amphion、NVIDIA、Suno、HuggingFace、清華大学などの主要な研究所から20以上のモデルにアクセスできる。

すべてのモデルは MIT、Apache 2.0、または同様の許容的なライセンスの下でオープンソースであり、生成されたオーディオをプロジェクトで使用する完全な商業的権利を保証します。リアルタイムアプリケーションのための高速で軽量な合成か、オーディオブックやポッドキャストのためのプレミアムなスタジオ品質の出力か、TTS.aiはあらゆるユースケースに適したモデルを持っています。

フリーモデル、アカウント不要

Piper (超高速、軽量)、VITS (高品質ニューラル合成)、MeloTTS (多言語サポート)の3つのフリーのTTSモデルですぐに始めてください。登録もクレジットカードもなく、世代の制限もありません。フリーモデルは英語と多くの他の言語をサポートし、ほとんどのアプリケーションに適した自然に聞こえる出力を提供します。

GPU加速処理

すべての TTS モデルは専用 NVIDIA GPU で動作し、高速で一貫した生成時間を提供します。フリーモデルは通常2秒以内でオーディオを生成します。Kokoro、CosyVoice 2、Barkのような標準モデルは平均3-5秒で生成します。最高品質のプレミアムモデル、例えば Tortoise や Chatterbox はテキストの長さに応じて5-15秒で生成します。

30以上の言語をサポート

英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、中国語、日本語、韓国語、アラビア語、ヒンディー語、ロシア語など30以上の言語で音声を生成します。いくつかのモデルは言語間合成をサポートします。これは、元の音声が訓練されていない言語で音声を生成できることを意味します。CosyVoice 2とGPT-SoVITSは言語間の音声クローンに優れています。

開発者向けAPI

TTS.aiをOpenAI互換のREST APIでアプリケーションに統合。20以上のモデルに対応した1つのエンドポイント。Python、JavaScript、cURL、Go SDK。リアルタイムアプリケーションのストリーミングサポート。大規模コンテンツ生成のバッチ処理。非同期通知のためのWebhooks。ProとEnterpriseプランで利用可能。

よくある質問

テキスト・トゥ・スピーチ(TTS)は,テキストを自然に聞こえる音声に変換する人工知能技術である。

必要に応じて選択できます。 早いプレビューには Piper か MeloTTS (無料で高速) を使ってください。 高品質には Kokoro か CosyVoice 2 (標準) を試してください。 声のクローンには Chatterbox か GPT-SoVITS (プレミアム) を使ってください。 会話/ポッドキャストのコンテンツには Dia TTS を試してください。 それぞれのモデルは強みが異なります。最適なものを見つけるために実験してください。

はい! TTS.ai は Kokoro, Piper, VITS, MeloTTS モデルを使った無料のテキストから音声への変換を提供しています。最大 500 文字、1 時間あたり 3 回の生成まではアカウントが必要ありません。無料のアカウントに登録して 50 クレジットを取得し、すべてのモデルにアクセスしてください。

TTSモデルは,英語,スペイン語,フランス語,ドイツ語,イタリア語,ポルトガル語,中国語,日本語,韓国語,アラビア語,ロシア語,ヒンディー語など30以上の言語をサポートしている。

はい、TTS.ai で生成されたオーディオは商業的に使用できます。我々のすべてのモデルはオープンソースライセンス (MIT, Apache 2.0) を使用しています。特定の条件については個々のモデルのライセンスを確認してください。あなたのプロジェクトで使用する特定のモデルのライセンスを確認することをお勧めします。

TTS.ai は MP3、WAV、OGG、FLAC の出力フォーマットをサポートします。ウェブ再生のデフォルトは MP3 です。さらなるオーディオ処理には WAV を推奨します。オーディオ変換ツールを使ってフォーマットを変換できます。

音声クローンは、短いオーディオサンプル(通常5-30秒)から特定の音声を複製するために人工知能を使用します。ターゲットの音声の明瞭な録音をアップロードすると、Chatterbox、GPT-SoVITS、OpenVoiceなどのモデルがその音声で新しい音声を生成します。品質はより清潔で長い参照音声で向上します。

無料ユーザは要求当たり500文字まで生成できます。登録ユーザは要求当たり5000文字まで生成できます。長いテキストの場合、オーディオはチャンクで生成され、自動的に合成されます。APIユーザは要求当たり10000文字まで処理できます。

SSML (Speech Synthesis Markup Language) のサポートはモデルによって異なります。Piper や他のモデルは休止、強調、発音制御のための基本的な SSML タグをサポートします。SSML をネイティブにサポートしていないモデルでは、自然な句読点や行切りを使って韻律を変えることもできます。

はい、ほとんどのモデルは 0.5x から 2.0x までの速度調整をサポートします。Bark や Parler のようなモデルではピッチとスタイルの制御も可能です。速度パラメータは、高度な設定パネルまたは API の速度パラメータを使って設定できます。

はい、バッチ処理は API を介して利用できます。複数のテキストセグメントを一つの API コールまたはスクリプトで送信すると、それぞれが別々のオーディオファイルとして処理され返されます。これはオーディオブックの章、e-learning モジュール、ゲームのダイアログスクリプトに適しています。

アカウントのダッシュボードからAPIキーを生成し、テキスト、モデル、音声パラメータと共にREST APIエンドポイントにPOSTリクエストを送信します。Python、JavaScript、cURLのコード例を提供します。APIはOpenAI互換であり、既存の統合は最小限の変更で動作します。
5.0/5 (2)

改善点は何ですか?フィードバックは問題を解決するのに役立ちます。

テキストを音声に変換を開始

TTS.aiを使って数千のクリエイターに加わりましょう。新しいアカウントで15,000の無料キャラクターを入手してください。無料モデルは登録なしで利用できます。