開発者向けテキスト・トゥ・スピーチ API

REST APIを使って音声をサポートするアプリケーションを構築します。アプリケーション、チャットボット、ボイスアシスタント、SaaS製品に自然なテキストから音声、音声クローン、音声からテキスト、オーディオ処理を追加します。OpenAI互換フォーマット、20以上のモデル、簡単な統合。

REST API チャットボット ボイスアプリケーション SaaS製品 自動化

トライ・イット・ナウ

無料でココロ、パイパー、VITS、メロTTS
生成されたオーディオはここに表示されます
生成
TTS.aiが気に入りましたか?友達に教えてあげましょう!

開発者向けのAPI機能

音声認識アプリケーションを構築するために必要なすべて

簡単なREST API

1 つの POST リクエストで音声を生成します。JSON リクエスト、音声応答。HTTP をサポートするすべてのプログラミング言語で動作します。

OpenAI互換

OpenAI TTS API のドロップイン置換。 base_url と API キーを切り替えてください。既存のコードはすぐに動作します。

24以上のモデル

1つのAPIを通してすべてのモデルにアクセスできます。1つのパラメータを変更してモデルを切り替えます。品質、速度、コストを比較できます。

サブ秒遅延

Kokoroは1秒以内に音声を生成します。リアルタイムチャットボット、音声アシスタント、対話型アプリケーションに最適です。

音声クローン

API を使って短いオーディオサンプルからどんな声でもクローンします。次のすべての世代にクローンした声を使います。

複数のフォーマット

出力形式は WAV、MP3、OGG、FLAC です。サンプルレートとビット深さを選択できます。リアルタイムアプリケーション用のストリーミングオーディオサポート

開発者統合のためのベストモデル

あなたのアプリケーションの速度、品質、コスト要求に合ったモデルを選択

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

適応する: 最速モデル - サブ秒の遅延時間で、リアルタイムアプリケーションやチャットボットに理想的

試してみる Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 音声クローン

適応する: 音声アシスタントアプリケーションのための音声クローンとストリーミングTTS

試してみる CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

適応する: チャットボットとアシスタント音声の自然なタイミングを持つ会話型AI

試してみる Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

適応する: 無料で、コストゼロで大容量アプリケーションを実現するCPU専用モデル

試してみる Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

適応する: クリエイティブ・エンターテインメントアプリケーションのための音響効果付きオーディオ生成

試してみる Bark

TTS API の統合方法

登録から最初の API 呼び出しまで5分以内

1

API キーを取得

無料で登録し、アカウントのダッシュボードから API キーを生成します。15,000文字が含まれています。

2

メイク・ユア・ファースト・コール

テキスト、モデル、音声で /v1/tts に POST します。 オーディオバイトを取得します。 5行のコードで。

3

モデルを選択

ユースケースに合った異なるモデルをテストします。速度、品質、および世代ごとのコストを比較します。

4

生産から発注

利用分の料金でスケールアップ。有料プランには料金制限はありません。ダッシュボードで使用状況をモニタリングできます。

クイックスタートコードの例

REST API で TTS.ai を任意の言語で統合

Python ポピュラー
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL ユニバーサル
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI互換フォーマット ドロップイン
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

TTS.aiで開発者が作るもの

一般的な積分パターンと応用

チャットボット

チャットボットやAIアシスタントに音声出力を追加します。音声認識インターフェースのために TTS を通して LLM 応答を送信します。Kokoro はリアルタイム会話にサブ秒の遅延を提供します。Sesame CSM は自然なタイミングで会話音声を生成します。

  • 音声パイプラインへのLLM応答
  • 子供のためのサブ秒遅延
  • 会話スピーチ
  • ストリーミング音声出力

音声アプリケーション

音声をサポートするモバイルアプリケーション、アクセシビリティツール、読書アプリケーション、言語学習プラットフォームを作成します。REST API はどんなモバイルフレームワークでも動作します。オーディオファイルをダウンロードしたり、クライアントに直接ストリーミングしたりできます。

  • React Native、Flutter、Swift、Kotlin
  • アクセシビリティアプリケーション
  • 言語学習プラットフォーム
  • オーディオコンテンツ生成

SaaS製品

SaaS 製品のホワイトラベル音声機能。TTS、STT、音声クローン、オーディオ処理をプラットフォームの機能として追加。GPU インフラストラクチャを管理することなく、私たちの API を音声バックエンドとして使用してください。

  • ホワイトラベル音声機能
  • GPUインフラが必要ない
  • 利用料金
  • ユーザーに提供する20以上のモデル

自動化パイプライン

音声生成をCI/CDパイプライン,コンテンツ自動化,バッチ処理ワークフローに統合。スプレッドシートデータから数千のオーディオファイルを生成し,ポッドキャスト生成を自動化し,コンテンツの地域化パイプラインを構築する。

  • APIを介したバッチ処理
  • コンテンツ現地化パイプライン
  • CI/CD統合
  • 音声自動化用スプレッドシート

API仕様

プロダクション向けに開発された

20+

TTSモデルズ

100+

30+

言語

<1s

遅延 (Kokoro)

よくある質問

TTS.ai開発者APIに関するよくある質問

はい。我々の API は OpenAI 音声スピーチフォーマットに従います。OpenAI Python または JavaScript クライアントライブラリを使用している場合は、base_url と api_key パラメータを変更して TTS.ai に切り替えることもできます。既存のコードは変更なしで動作します。

これは、ココロが1秒以内に典型的な文を生成するためのものです。CosyVoice 2はストリーミング出力をサポートしており、さらに低い知覚遅延を実現しています。チャットボットや音声アシスタントの場合、通常のラウンドトリップ時間はテキストの長さとモデルの選択に依存して1-3秒です。

無料モデル (Kokoro, Piper, VITS, MeloTTS) は完全に無料です。標準モデルはテキスト 1K あたり 2x 文字を使用します。プレミアムモデルはテキスト 1K あたり 4x 文字を使用します。15,000 文字で無料で登録できます。プランは 500,000 文字で月額 9 ドルから始まります。

はい。参照音声サンプル (5-30 秒) を音声クローンエンドポイントにアップロードし、クローンされた音声 ID を次の TTS リクエストに使用します。クローンをサポートするモデルには CosyVoice 2、Chatterbox、Fish Speech、GPT-SoVITS が含まれます。

無料プランは基本的なレート制限 (アカウントなしで1時間あたり3件の要求) があります。有料プランはプロダクションアプリケーションに適した寛大なレート制限があります。エンタープライズレベルのスループット要求については、我々に連絡してください。

WAV (非圧縮、最高品質)、MP3 (圧縮、小さいファイル)、OGG (オープンフォーマット)、FLAC (損失なし圧縮) フォーマットを指定してください。デフォルトはモデルのネイティブサンプリングレートで WAV です。

はい。TTS APIを音声からテキストへのモデルとLLMと組み合わせて、完全な音声アシスタントパイプラインを構築します。Kokoroはリアルタイム会話に適したサブ秒の遅延を提供します。CosyVoice 2はストリーミング出力をサポートし、より低い感知応答時間を提供します。

CosyVoice 2とKokoroは生成されるオーディオチャンクが送信されるストリーミングオーディオ出力をサポートします。これは音声アシスタントやインタラクティブ体験のようなリアルタイムアプリケーションの最初のバイトまでの時間を短縮します。

APIは標準のHTTP状態コードを返します。5xxエラーと速度制限応答に対して指数的バックオフを実装します。ミッションクリティカルなアプリケーションに対して、再試行論理を持つキューを追加します。我々のAPIは高い稼働時間を持っていますが、エラー処理の回復性は常に推奨されています。

はい。 /v1/voices と /v1/models エンドポイントは、メタデータ (言語サポート、品質評価、速度評価、価格層) を含む、すべての利用可能な音声とモデルの JSON リストを返します。これを使って、アプリケーションに動的モデル選択器を作成します。

フリーモデル (Kokoro, Piper, VITS, MeloTTS) はクレジットがゼロなので効果的なサンドボックスとして機能します。フリーモデルで統合をテストし、モデルパラメータを変更してプロダクションでプレミアムモデルに切り替えてください。別のテスト環境は必要ありません。

私たちのモデルのほとんどはオープンソースであり、自己ホスティングが可能である。しかし、自己ホスティングにはかなりのGPUリソースが必要である(私たちはNVIDIA Tesla P40 4xと96GB VRAMを使用している)。APIはインフラストラクチャ管理なしでコスト効率的な代替手段を提供している。
5.0/5 (1)

改善点は何ですか?フィードバックは問題を解決するのに役立ちます。

音声AIで作る準備はできていますか?

無料の API キーを入手し、ビルドを開始します。登録で 50 クレジット、無料のモデル、詳細なドキュメントが利用できます。