オープンソーステキスト・トゥ・スピーチモデル
私たちのプラットフォーム上のすべてのTTSモデルは、商業的に友好的なライセンスでオープンソースです。MIT、Apache 2.0 - プロプライエタリロックイン、使用制限、驚くべきライセンス料はありません。私たちのホストされたAPIを通じて使用するか、完全なコントロールで自分のインフラストラクチャ上で自己ホストします。
トライ・イット・ナウ
オープンソースTTS
オープンソースモデルがプロジェクトに重要な理由
全てオープンソースライセンス
TTS.aiのすべてのモデルはオープンソースライセンスを使用しており、プロプライエタリなブラックボックス、ベンダーロックイン、予想外のライセンス料はありません。
アパッチ
モデルは MIT または Apache 2.0 のライセンスでライセンスされています。これは最も寛容なオープンソースライセンスです。商用利用、修正、再配布は制限なしです。
セルフホスタブル
任意のモデルをダウンロードして、自分のハードウェアで実行します。データ、遅延、インフラストラクチャを完全にコントロールできます。クラウド依存性は必要ありません。
GPU 最適化
モデルはCUDAサポートのNVIDIA GPUに最適化されています。PiperはCPUのみで動作します。効率的な推論にはほとんどのモデルで2-8GBのVRAMが必要です。
コミュニティ管理
活発なオープンソースコミュニティがこれらのモデルを維持し、改善しています。GitHubにバグ、改善、新しい声を提出することで、貢献を歓迎しています。
商用利用OK
すべてのモデルはライセンスの下で商業的な使用を許可しています。製品を作成し、サービスを販売し、商業的なコンテンツをロイヤリティや使用料なしで作成できます。
オープンソースモデルカタログ
それぞれのモデル、ライセンス、 それが最も得意なこと
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
適応する: Apache 2.0 - 最高品質のフリーモデル、82Mパラメータ、簡単なセルフホスティング
試してみる Kokoro
Piper
Free
A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.
適応する: MIT — CPU のみ、エッジデバイスや組み込みセルフホスティングに適している
試してみる Piper
VITS
Free
Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.
適応する: MIT — 多くのダウンストリームモデルで使われている基礎アーキテクチャ
試してみる VITS
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
適応する: MIT — 標準のTTSを超えるユニークなオーディオ生成能力
試してみる Bark
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
適応する: Apache 2.0 - 最高品質、広く研究された参照実装
試してみる Tortoise TTS
OpenVoice
Premium
Instant voice cloning with granular control over style, emotion, and accent.
適応する: MIT — 粒状スタイル制御を備えたオープンソースの音声クローン
試してみる OpenVoiceオープンソース TTS の使い方
ホストされた API を使うか、自分でモデルを実行します
オープンソースモデルを探索
20以上のオープンソース TTS モデルのカタログをブラウズしてください。各モデルページはライセンス、アーキテクチャ、機能、セルフホスティング要件を示しています。
ブラウザで試してみる
何もインストールせずに TTS.ai 上で直接どんなモデルでもテストできます。私たちの GPU サーバが処理を行うので、セルフホスティングに取り組む前に品質を評価できます。
自己ホストか、我々の API を使用
GitHub からモデルリポジトリをクローンしてローカルで実行するか、プロダクション用にホストされた API を使用します。セルフホスティングは完全なコントロールを与え、我々の API は管理されたインフラストラクチャを提供します。
アプリケーションを作成
自己ホストモデルまたはREST APIを使ってTTSをプロダクトに統合します。すべてのモデルはライセンス料やロイヤリティなしで商用利用可能です。
ライセンス比較
TTS.aiの全モデルは商用に適したオープンソースライセンスを使用している。
| モデル | ライセンス | 商用利用 | 修正 | セルフホスト | 著作権 |
|---|---|---|---|---|---|
| Kokoro | Apache 2.0 | 必須 | |||
| Piper | MIT | オプション | |||
| VITS | MIT | オプション | |||
| MeloTTS | MIT | オプション | |||
| Chatterbox | MIT | オプション | |||
| Tortoise TTS | Apache 2.0 | 必須 | |||
| StyleTTS 2 | MIT | オプション | |||
| OpenVoice | MIT | オプション | |||
| Sesame CSM | Apache 2.0 | 必須 | |||
| Orpheus | Llama 3.2 | "Built with Llama" |
セルフホスティングとホストAPI
自分でモデルを実行するか、インフラストラクチャを我々に任せるか
自分のハードウェアでセルフホスト
TTS.ai のすべてのモデルは GitHub または Hugging Face でオープンソースプロジェクトとして利用できます。重みをダウンロードし、依存関係をインストールし、自分の GPU で推論を実行します。遅延、プライバシー、スケーリングを完全にコントロールできます。
- 完全なデータプライバシー — オーディオはサーバを離れません
- 初期設定後はリクエスト当たりのコストはありません
- 自分のデータをカスタムフィット
- GPU ハードウェアが必要 (NVIDIA を推奨)
- 更新、スケールアップ、依存関係の管理
TTS.ai ホスト API を使う
REST APIを使って20以上のモデルに即座にアクセスできます。GPUプロビジョニング、モデル更新、キュー管理、スケーリングを行います。1つのAPIキーで全てのモデルにアクセスできます。別々のデプロイメントを管理する必要はありません。
- GPU ハードウェアが必要ありません
- 1つのAPIを通して20以上のモデルを全てサポート
- 自動モデル更新と改善
- 冗長インフラで99.9%の稼働率
- 使用分だけ支払う
クイックスタート: API またはセルフホスト
私たちのホストAPIを使用するか、Kokoroをローカルに数分でインストールします
import requests
response = requests.post("https://api.tts.ai/v1/tts", json={
"text": "Open source TTS with a simple API.",
"model": "kokoro",
"voice": "af_heart",
"format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})
with open("output.wav", "wb") as f:
f.write(response.content)
# Install Kokoro locally
pip install kokoro
# Generate speech on your own GPU
import kokoro
pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
kokoro.save(audio, f"output_{i}.wav")
オープンソースで安価
これらのAPIは,GPUを管理することなくオープンソースのTTSをアクセスできるようにする。
フリー・タイア
$0
登録で50クレジット
- 4つのオープンソースモデルがフリーで
- 基本的な使用にはサインインしない
- 商業利用許可
スターター
$9
500クレジット/月
- すべての20+オープンソースモデル
- 声のクローン
- APIアクセス
プロ
$29
月間200万文字
- 優先GPU処理
- プレミアムモデル
- エンタープライズサポート
よくある質問
オープンソースのテキスト・トゥ・スピーチに関するよくある質問
改善点は何ですか?フィードバックは問題を解決するのに役立ちます。