フリーAI テキストを音声に変換

31+ オープンソースモデルや 231+ 声 34+ 言語は 必要ありません

8K+
クリエイター
31K+
世代を超えて
31+
AIモデル
231+
0/500 文字 · Sign up for 5,000 per generation → フリー
TTS.aiが気に入りましたか?友達に教えてあげましょう!

音声AIに必要なすべて

オープンソースAIモデルに基づく30以上のツール

31+ AIボイスモデル

1つのプラットフォームにおけるオープンソースのTTSモデルの最も包括的なコレクション

KokoroKokoro Free

Kokoroは8200万パラメータのテキストから音声を生成するモデルで、その重量クラスをはるかに超える。小さなサイズにもかかわらず、驚くほど自然で表現力のある音声を生成します。Kokoroは英語、日本語、中国語、韓国語など多くの言語をサポートし、様々な表現力のある音声を提供します。これは非常に高速で動作します。GPUでのリアルタイムよりも100倍も速く音声を生成します。

適応する: 遅延が最小限の高品質のTTS、ストリーミングアプリケーション

無料試用

PiperPiper Free

Piperは、Rhasspyが開発した軽量テキストから音声に変換するエンジンで、VITSとlarynxアーキテクチャを使用しています。完全にCPU上で動作し、エッジデバイス、ホームオートメーション、オフライン TTSを必要とするアプリケーションに適しています。30以上の言語に渡る100以上の音声を持ち、PiperはRaspberry Pi 4でもリアルタイムで自然に聞こえる音声を提供します。

適応する: クイックプレビュー、アクセシビリティ、組み込みアプリケーション

無料試用

VITSVITS Free

VITS(Variational Inference with advancerial largering for end‐to‐end Text‐to‐Speak)は,従来の2段階モデルよりも自然な音声を生成する並列エンド‐ト‐エンドTTS法である。

適応する: 自然な韻律を持つ汎用テキスト・トゥ・スピーチ

無料試用

MeloTTSMeloTTS Free

MyShell.aiによるMeloTTSは、英語(米国、イギリス、インド、オーストラリア)、スペイン語、フランス語、中国語、日本語、韓国語をサポートする多言語のTTSライブラリです。非常に高速で、CPUのみで実時間に近い速度でテキストを処理します。MeloTTSは、プロダクション用に設計されており、CPUとGPUの両方の推論をサポートします。

適応する: 高速で多言語のTTSを必要とするプロダクションアプリケーション

無料試用

OuteTTSOuteTTS Free

OuteTTSは、テキストから音声への機能を持つ大規模な言語モデルを拡張し、オリジナルのアーキテクチャを保持します。lama.cpp (CPU/GPU)、Hugging Face Transformers、ExLlamaV2、VLLM、Transformers.jsを介したブラウザ推論などの複数のバックエンドをサポートします。JSONとして保存されたスピーカープロファイルを通じてゼロショット音声クローンを特徴とします。

適応する: エッジデプロイメント、ブラウザベースのTTS、低リソース環境

無料試用

Pocket TTSPocket TTS Free

Pocket TTSは,モシの開発者であるKyutaiによって開発された,100Mパラメータのテキストから音声へのコンパクトなモデルで,その重さを上回る性能を持つ。CPUで効率的に動作し,単一の音声サンプルからゼロショット音声クローンをサポートし,自然な音声を生成する。小型モデルのサイズは,エッジデプロイメントや低リソース環境に適している。

適応する: 軽量化、CPU専用環境、高速な音声クローン

無料試用

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

適応する: Fast lightweight TTS, edge deployment, low-latency applications

無料試用

BarkBark Standard

現実的な音声,音楽,音響効果を生成する変換器ベースのテキストオーディオモデル。

開発者: Suno · ライセンス: MIT

やってみろ

Bark SmallBark Small Standard

Barkの軽量化版で,推論速度が向上し,メモリ使用量が低減した。

開発者: Suno · ライセンス: MIT

やってみろ

CosyVoice 2CosyVoice 2 Standard

人間パリティの自然さとゼロに近い遅延を持つアリババのスケーラブルなストリーミングTTS。

開発者: Alibaba (Tongyi Lab) · ライセンス: Apache 2.0

やってみろ

Dia TTSDia TTS Standard

音声の自然な対話を生成するマルチスピーカ対話生成モデルを提案した。

開発者: Nari Labs · ライセンス: Apache 2.0

やってみろ

Parler TTSParler TTS Standard

自然言語で声を記述すると、Parler はマッチングした音声を生成します。

開発者: Hugging Face · ライセンス: Apache 2.0

やってみろ

GLM-TTSGLM-TTS Standard

これは,オープンソースTTSモデルの中で最も低い文字誤り率を達成する。

開発者: Zhipu AI · ライセンス: GLM-4 License

やってみろ

IndexTTS-2IndexTTS-2 Standard

ゼロショットTTSは,微細な感情制御と高い表現力を持つ。

開発者: Index Team · ライセンス: Bilibili Model License

やってみろ

Spark TTSSpark TTS Standard

プロンプトを通して感情や話し方を制御できる音声クローンTTSを提案した。

開発者: SparkAudio · ライセンス: CC BY-NC-SA 4.0

やってみろ

GPT-SoVITSGPT-SoVITS Standard

音声の5秒間でどんな音声でも複製する,少しのショットで音声をクローンするTTS。

開発者: RVC-Boss · ライセンス: MIT

やってみろ

OrpheusOrpheus Standard

100K時間の音声データを用いて人間レベルの感情TTSモデルを訓練した。

開発者: Canopy Labs · ライセンス: Llama 3.2 Community

やってみろ

Qwen3 TTSQwen3 TTS Standard

音声クローン,プリセット音声,テキストからの音声デザインを備えたアリババの多言語TTS。

開発者: Alibaba (Qwen) · ライセンス: Apache 2.0

やってみろ

Chatterbox TurboChatterbox Turbo Standard

200ms以下の遅延と笑い、咳などのパラ言語学的タグを持つより速いチャッターボックス。

開発者: Resemble AI · ライセンス: MIT

やってみろ

Dia 2Dia 2 Standard

多言語対話とパラ言語的な情報を含むストリーミングファースト会話型TTS。

開発者: Nari Labs · ライセンス: Apache 2.0

やってみろ

VoxCPMVoxCPM Standard

44.1kHzの音声を文脈に応じた段落一貫性で生成するトケナイザフリーTTSを開発した。

開発者: OpenBMB · ライセンス: Apache 2.0

やってみろ

TADATADA Standard

テキスト音声デュアルアライメントを有する幻覚ゼロTTSは,LLMTTSより5倍速い。

開発者: Hume AI · ライセンス: MIT

やってみろ

VibeVoiceVibeVoice Standard

ポッドキャストやオーディオブックのような長い形式のマルチスピーカーコンテンツのためのマイクロソフトモデル。

開発者: Microsoft · ライセンス: MIT

やってみろ

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

開発者: Alibaba (FunAudioLLM) · ライセンス: Apache 2.0

やってみろ

ChatterboxChatterbox Premium

最新のゼロショット音声クローン 感情制御のResemble AI

品質:

やってみろ

Tortoise TTSTortoise TTS Premium

自己回帰アーキテクチャを用いた質に焦点を当てた多声テキスト‐音声処理システムを提案した。

品質:

やってみろ

StyleTTS 2StyleTTS 2 Premium

スタイル拡散と対抗訓練を通して人間レベルのテキストから音声を生成する。

品質:

やってみろ

OpenVoiceOpenVoice Premium

スタイル,感情,アクセントの細かい制御を持つインスタント音声クローン。

品質:

やってみろ

Sesame CSMSesame CSM Premium

対話モデルは,適切なタイミングと感情をもつ自然な対話を生成する。

品質:

やってみろ

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

品質:

やってみろ

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

品質:

やってみろ

CosyVoice 2CosyVoice 2

人間パリティの自然さとゼロに近い遅延を持つアリババのスケーラブルなストリーミングTTS。

言語: en, zh, ja, ko, fr, de, it, es

クローン・ボイス

GLM-TTSGLM-TTS

これは,オープンソースTTSモデルの中で最も低い文字誤り率を達成する。

言語: en, zh

クローン・ボイス

IndexTTS-2IndexTTS-2

ゼロショットTTSは,微細な感情制御と高い表現力を持つ。

言語: en, zh

クローン・ボイス

Spark TTSSpark TTS

プロンプトを通して感情や話し方を制御できる音声クローンTTSを提案した。

言語: en, zh

クローン・ボイス

GPT-SoVITSGPT-SoVITS

音声の5秒間でどんな音声でも複製する,少しのショットで音声をクローンするTTS。

言語: en, zh, ja, ko

クローン・ボイス

ChatterboxChatterbox

最新のゼロショット音声クローン 感情制御のResemble AI

言語: en

クローン・ボイス

Tortoise TTSTortoise TTS

自己回帰アーキテクチャを用いた質に焦点を当てた多声テキスト‐音声処理システムを提案した。

言語: en

クローン・ボイス

OpenVoiceOpenVoice

スタイル,感情,アクセントの細かい制御を持つインスタント音声クローン。

言語: en, zh, ja, ko, fr, de, es, it

クローン・ボイス

Qwen3 TTSQwen3 TTS

音声クローン,プリセット音声,テキストからの音声デザインを備えたアリババの多言語TTS。

言語: en, zh, ja, ko, de, fr, ru, pt, es, it

クローン・ボイス

Chatterbox TurboChatterbox Turbo

200ms以下の遅延と笑い、咳などのパラ言語学的タグを持つより速いチャッターボックス。

言語: en

クローン・ボイス

VoxCPMVoxCPM

44.1kHzの音声を文脈に応じた段落一貫性で生成するトケナイザフリーTTSを開発した。

言語: en, zh

クローン・ボイス

OuteTTSOuteTTS

LLMベースのTTSは、CPU、GPU、またはブラウザ上でlama.cppとTransformers.jsを介して動作する。

言語: en

クローン・ボイス

Pocket TTSPocket TTS

単一サンプルからの音声クローンを用いたKyutaiによる軽量100Mパラメータモデル。

言語: en, fr

クローン・ボイス

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

言語: en, zh, ja, ko, de, es, fr, it, ru

クローン・ボイス

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

言語: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

クローン・ボイス

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

言語: en, zh

クローン・ボイス

開発者優先型API

OpenAI 互換の REST API。一つのエンドポイント、22以上のモデル。リアルタイムアプリケーションのストリーミングサポート。

  • OpenAI互換フォーマット
  • リアルタイムアプリケーションのためのストリーミングTTS
  • 大型ジョブのバッチ処理
  • ウェブフック通知
API ドキュメントを表示
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

シンプルで透明な価格設定

自由に始めて 成長するにつれて拡大する

フリー

$0

15クレジット

  • Kokoro, Piper, VITS, MeloTTS
  • 文字数制限
  • 3 gen/時間(アカウントなし)
無料登録

スターター

$9/モー

500クレジット/月

  • すべての22+モデル
  • 1世代あたり10万文字
  • 音声クローン
スタート
最も人気のある

プロ

$29/モー

2000クレジット/月

  • スターターのすべて
  • APIアクセス
  • 優先処理
プロになる

ビジネス

$99/モー

10000クレジット/月

  • エブリシング・イン・プロ
  • バルクAPI
  • 優先キュー
ゲット・ビジネス

クレジットパックを含むすべてのプランを表示 →

よくある質問

TTS.ai is the most comprehensive AI voice platform, offering 20+ text-to-speech models, voice cloning, speech-to-text, and audio tools. All models are open source with no vendor lock-in.

TTS.aiはKokoro、Piper、VITS、MeloTTSモデルを使った無料のテキストから音声への変換を提供しています。アカウントは必要ありません。登録して15クレジットを無料で取得し、すべてのモデルにアクセスできます。有料プランは月額9ドルからです。

速度は Kokoro か Piper を使ってください。品質は CosyVoice 2 か StyleTTS 2 を試してください。声のクローンは Chatterbox か GPT-SoVITS を使ってください。対話は Dia TTS を使ってください。同じテキストで複数のモデルを試して比較してください。

はい。OpenAI互換のREST APIでTTS、STT、音声クローン、オーディオツールをサポートします。Proプラン(月額29ドル)とEnterpriseプラン(月額99ドル)で利用できます。tts.ai/api/でドキュメントを見ることができます。

音声の品質はモデルによって異なります。CosyVoice 2、StyleTTS 2、Chatterboxのようなプレミアムモデルは、自然な音調と感情を持つ人間に近い質の音声を生成します。Kokoroのようなフリーモデルは、ほとんどのユースケースで優れた品質を提供します。

TTS.aiはモデルライブラリ全体で30以上の言語をサポートしています。英語は最も広いモデルサポートを持っていますが、CosyVoice 2のようなモデルは中国語、日本語、韓国語をカバーしています。GPT-SoVITSは中国語、日本語、韓国語、英語を扱い、MeloTTSは英語、スペイン語、フランス語、中国語、日本語、韓国語をサポートしています。

はい。すべての処理は専用の GPU サーバで行われます。送信後、テキスト入力や生成されたオーディオは保存されません。クローンのためにアップロードされた音声サンプルは、現在のセッションのみに使用され、保持されません。データは第三者と共有されず、モデルの訓練にも使用されません。

はい。 TTS.ai で生成されたすべてのオーディオは、YouTube ビデオ、ポッドキャスト、オーディオブック、アプリケーション、広告、製品などの商用利用のためのものです。我々のモデルは、許容的なライセンス(MIT、Apache 2.0)の下でオープンソースです。ロイヤリティやクレジットは必要ありません。

TTS.ai は最高の品質を得るために、デフォルトで WAV フォーマットのオーディオを生成します。無料のオーディオ変換ツールを使って MP3、FLAC、OGG、M4A に変換できます。API は、要求において直接、お好みの出力フォーマットを指定することをサポートします。

クローンしたい音声の短いオーディオサンプル (5 秒以下) をアップロードし、テキストを入力して音声を生成します。 Chatterbox、GPT-SoVITS、CosyVoice 2 のようなモデルは音声クローンをサポートします。クローンされた音声は音調、アクセント、話し方を記録します。

無料モデル (Kokoro, Piper, VITS, MeloTTS) はアカウントが必要なく、クレジットもゼロです。標準モデル (2 クレジット/1K 文字) には Bark, CosyVoice 2, F5-TTS, Dia が含まれます。プレミアムモデル (4 クレジット/1K 文字) には OpenVoice, Chatterbox, StyleTTS 2, Tortoise が含まれます。有料モデルは一般的により高品質で、より多くの音声を提供し、音声クローンなどの追加機能を提供します。

はい。API は大容量のテキストを音声に変換するためのバッチ処理をサポートします。複数の要求を送信し、ジョブ UUID を使って非同期的に結果を検索します。エンタープライズプラン (月額 99 ドル) には、より速いバッチ処理のための優先キューアクセスが含まれています。オーディオブック製作、コースコンテンツ、大規模なボイスオーバープロジェクトに最適です。
4.0/5 (22)

改善点は何ですか?フィードバックは問題を解決するのに役立ちます。

AI 音声を今すぐ使い始める

TTS.aiを使うクリエイター、開発者、企業に参加