バグ/機能要求を報告

開発者向けテキスト・トゥ・スピーチ API

REST APIを使って音声をサポートするアプリケーションを構築します。アプリケーション、チャットボット、ボイスアシスタント、SaaS製品に自然なテキストから音声、音声クローン、音声からテキスト、オーディオ処理を追加します。OpenAI互換フォーマット、20以上のモデル、簡単な統合。

REST API チャットボットボイスアプリケーション SaaS製品自動化

完全な TTS エディタ API ドキュメント

トライ・イット・ナウ

0/500

無料でココロ、パイパー、VITS、メロTTS

生成されたオーディオはここに表示されます

完全な TTS エディタを開く

開発者向けのAPI機能

音声認識アプリケーションを構築するために必要なすべて

簡単なREST API

1 つの POST リクエストで音声を生成します。JSON リクエスト、音声応答。HTTP をサポートするすべてのプログラミング言語で動作します。

OpenAI互換

OpenAI TTS API のドロップイン置換。 base_url と API キーを切り替えてください。既存のコードはすぐに動作します。

24以上のモデル

1つのAPIを通してすべてのモデルにアクセスできます。1つのパラメータを変更してモデルを切り替えます。品質、速度、コストを比較できます。

サブ秒遅延

Kokoroは1秒以内に音声を生成します。リアルタイムチャットボット、音声アシスタント、対話型アプリケーションに最適です。

音声クローン

API を使って短いオーディオサンプルからどんな声でもクローンします。次のすべての世代にクローンした声を使います。

複数のフォーマット

出力形式は WAV、MP3、OGG、FLAC です。サンプルレートとビット深さを選択できます。リアルタイムアプリケーション用のストリーミングオーディオサポート

開発者統合のためのベストモデル

あなたのアプリケーションの速度、品質、コスト要求に合ったモデルを選択

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

ファスト 5/5

適応する: 最速モデル - サブ秒の遅延時間で、リアルタイムアプリケーションやチャットボットに理想的

試してみる Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

メディア 5/5 音声クローン

適応する: 音声アシスタントアプリケーションのための音声クローンとストリーミングTTS

試してみる CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

スロー 5/5

適応する: チャットボットとアシスタント音声の自然なタイミングを持つ会話型AI

試してみる Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

ファスト 3/5

適応する: 無料で、コストゼロで大容量アプリケーションを実現するCPU専用モデル

試してみる Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

スロー 4/5

適応する: クリエイティブ・エンターテインメントアプリケーションのための音響効果付きオーディオ生成

試してみる Bark

TTS API の統合方法

登録から最初の API 呼び出しまで5分以内

API キーを取得

無料で登録し、アカウントのダッシュボードから API キーを生成します。15,000文字が含まれています。

メイク・ユア・ファースト・コール

テキスト、モデル、音声で /v1/tts に POST します。オーディオバイトを取得します。 5行のコードで。

モデルを選択

ユースケースに合った異なるモデルをテストします。速度、品質、および世代ごとのコストを比較します。

生産から発注

利用分の料金でスケールアップ。有料プランには料金制限はありません。ダッシュボードで使用状況をモニタリングできます。

クイックスタートコードの例

REST API で TTS.ai を任意の言語で統合

Python ポピュラー

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL ユニバーサル

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

OpenAI互換フォーマットドロップイン

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

無料のAPIキーを取得

TTS.aiで開発者が作るもの

一般的な積分パターンと応用

チャットボット

チャットボットやAIアシスタントに音声出力を追加します。音声認識インターフェースのために TTS を通して LLM 応答を送信します。Kokoro はリアルタイム会話にサブ秒の遅延を提供します。Sesame CSM は自然なタイミングで会話音声を生成します。

音声パイプラインへのLLM応答
子供のためのサブ秒遅延
会話スピーチ
ストリーミング音声出力

音声アプリケーション

音声をサポートするモバイルアプリケーション、アクセシビリティツール、読書アプリケーション、言語学習プラットフォームを作成します。REST API はどんなモバイルフレームワークでも動作します。オーディオファイルをダウンロードしたり、クライアントに直接ストリーミングしたりできます。

React Native、Flutter、Swift、Kotlin
アクセシビリティアプリケーション
言語学習プラットフォーム
オーディオコンテンツ生成

SaaS製品

SaaS 製品のホワイトラベル音声機能。TTS、STT、音声クローン、オーディオ処理をプラットフォームの機能として追加。GPU インフラストラクチャを管理することなく、私たちの API を音声バックエンドとして使用してください。

ホワイトラベル音声機能
GPUインフラが必要ない
利用料金
ユーザーに提供する20以上のモデル

自動化パイプライン

音声生成をＣＩ／ＣＤパイプライン，コンテンツ自動化，バッチ処理ワークフローに統合。スプレッドシートデータから数千のオーディオファイルを生成し，ポッドキャスト生成を自動化し，コンテンツの地域化パイプラインを構築する。

APIを介したバッチ処理
コンテンツ現地化パイプライン
CI/CD統合
音声自動化用スプレッドシート

完全な API ドキュメントを表示

API仕様

プロダクション向けに開発された

20+

TTSモデルズ

100+

声

30+

言語

<1s

遅延 (Kokoro)

無料登録

よくある質問

TTS.ai開発者APIに関するよくある質問

はい。我々の API は OpenAI 音声スピーチフォーマットに従います。OpenAI Python または JavaScript クライアントライブラリを使用している場合は、base_url と api_key パラメータを変更して TTS.ai に切り替えることもできます。既存のコードは変更なしで動作します。

これは、ココロが1秒以内に典型的な文を生成するためのものです。CosyVoice 2はストリーミング出力をサポートしており、さらに低い知覚遅延を実現しています。チャットボットや音声アシスタントの場合、通常のラウンドトリップ時間はテキストの長さとモデルの選択に依存して1-3秒です。

無料モデル (Kokoro, Piper, VITS, MeloTTS) は完全に無料です。標準モデルはテキスト 1K あたり 2x 文字を使用します。プレミアムモデルはテキスト 1K あたり 4x 文字を使用します。15,000 文字で無料で登録できます。プランは 500,000 文字で月額 9 ドルから始まります。

はい。参照音声サンプル (5-30 秒) を音声クローンエンドポイントにアップロードし、クローンされた音声 ID を次の TTS リクエストに使用します。クローンをサポートするモデルには CosyVoice 2、Chatterbox、Fish Speech、GPT-SoVITS が含まれます。

無料プランは基本的なレート制限 (アカウントなしで1時間あたり3件の要求) があります。有料プランはプロダクションアプリケーションに適した寛大なレート制限があります。エンタープライズレベルのスループット要求については、我々に連絡してください。

WAV (非圧縮、最高品質)、MP3 (圧縮、小さいファイル)、OGG (オープンフォーマット)、FLAC (損失なし圧縮) フォーマットを指定してください。デフォルトはモデルのネイティブサンプリングレートで WAV です。

はい。TTS APIを音声からテキストへのモデルとLLMと組み合わせて、完全な音声アシスタントパイプラインを構築します。Kokoroはリアルタイム会話に適したサブ秒の遅延を提供します。CosyVoice 2はストリーミング出力をサポートし、より低い感知応答時間を提供します。

CosyVoice 2とKokoroは生成されるオーディオチャンクが送信されるストリーミングオーディオ出力をサポートします。これは音声アシスタントやインタラクティブ体験のようなリアルタイムアプリケーションの最初のバイトまでの時間を短縮します。

APIは標準のHTTP状態コードを返します。5xxエラーと速度制限応答に対して指数的バックオフを実装します。ミッションクリティカルなアプリケーションに対して、再試行論理を持つキューを追加します。我々のAPIは高い稼働時間を持っていますが、エラー処理の回復性は常に推奨されています。

はい。 /v1/voices と /v1/models エンドポイントは、メタデータ (言語サポート、品質評価、速度評価、価格層) を含む、すべての利用可能な音声とモデルの JSON リストを返します。これを使って、アプリケーションに動的モデル選択器を作成します。

フリーモデル (Kokoro, Piper, VITS, MeloTTS) はクレジットがゼロなので効果的なサンドボックスとして機能します。フリーモデルで統合をテストし、モデルパラメータを変更してプロダクションでプレミアムモデルに切り替えてください。別のテスト環境は必要ありません。

私たちのモデルのほとんどはオープンソースであり、自己ホスティングが可能である。しかし、自己ホスティングにはかなりのGPUリソースが必要である(私たちはNVIDIA Tesla P40 4xと96GB VRAMを使用している)。APIはインフラストラクチャ管理なしでコスト効率的な代替手段を提供している。

5.0/5 (1)

音声AIで作る準備はできていますか？

無料の API キーを入手し、ビルドを開始します。登録で 50 クレジット、無料のモデル、詳細なドキュメントが利用できます。

無料登録価格を表示

開発者向けテキスト・トゥ・スピーチ API

トライ・イット・ナウ

TTS.aiが気に入りましたか？友達に教えてあげましょう！

開発者向けのAPI機能

簡単なREST API

OpenAI互換

24以上のモデル

サブ秒遅延

音声クローン

複数のフォーマット

開発者統合のためのベストモデル

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

TTS API の統合方法

API キーを取得

メイク・ユア・ファースト・コール

モデルを選択

生産から発注

クイックスタートコードの例

TTS.aiで開発者が作るもの

チャットボット

音声アプリケーション

SaaS製品

自動化パイプライン

API仕様

よくある質問

これは，OpenAI TTSフォーマットと互換性があるかどうかを確認するためのものである。

リアルタイムアプリケーションの遅延はどの程度か。

ＡＰＩ利用の価格はどうなるのか。

API を通して音声クローンを使用できますか？

速度制限はありますか。

API はどのオーディオフォーマットを返しますか？

私はこのAPIを使ってボイスアシスタントやチャットボットを作成できますか？

WebSocket またはストリーミング API はありますか？

プロダクション中のエラーと再試行をどうやって扱うか。

プログラム的に利用可能な音声とモデルをリストできますか？

サンドボックスかテスト環境はありますか？

API を使う代わりにモデルを自己ホストできるのですか？

音声AIで作る準備はできていますか？