開発者向けテキスト・トゥ・スピーチ API
REST APIを使って音声をサポートするアプリケーションを構築します。アプリケーション、チャットボット、ボイスアシスタント、SaaS製品に自然なテキストから音声、音声クローン、音声からテキスト、オーディオ処理を追加します。OpenAI互換フォーマット、20以上のモデル、簡単な統合。
トライ・イット・ナウ
開発者向けのAPI機能
音声認識アプリケーションを構築するために必要なすべて
簡単なREST API
1 つの POST リクエストで音声を生成します。JSON リクエスト、音声応答。HTTP をサポートするすべてのプログラミング言語で動作します。
OpenAI互換
OpenAI TTS API のドロップイン置換。 base_url と API キーを切り替えてください。既存のコードはすぐに動作します。
24以上のモデル
1つのAPIを通してすべてのモデルにアクセスできます。1つのパラメータを変更してモデルを切り替えます。品質、速度、コストを比較できます。
サブ秒遅延
Kokoroは1秒以内に音声を生成します。リアルタイムチャットボット、音声アシスタント、対話型アプリケーションに最適です。
音声クローン
API を使って短いオーディオサンプルからどんな声でもクローンします。次のすべての世代にクローンした声を使います。
複数のフォーマット
出力形式は WAV、MP3、OGG、FLAC です。サンプルレートとビット深さを選択できます。リアルタイムアプリケーション用のストリーミングオーディオサポート
開発者統合のためのベストモデル
あなたのアプリケーションの速度、品質、コスト要求に合ったモデルを選択
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
適応する: 最速モデル - サブ秒の遅延時間で、リアルタイムアプリケーションやチャットボットに理想的
試してみる Kokoro
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
適応する: 音声アシスタントアプリケーションのための音声クローンとストリーミングTTS
試してみる CosyVoice 2
Sesame CSM
Premium
Conversational speech model generating natural dialogue with appropriate timing and emotion.
適応する: チャットボットとアシスタント音声の自然なタイミングを持つ会話型AI
試してみる Sesame CSM
Piper
Free
A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.
適応する: 無料で、コストゼロで大容量アプリケーションを実現するCPU専用モデル
試してみる Piper
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
適応する: クリエイティブ・エンターテインメントアプリケーションのための音響効果付きオーディオ生成
試してみる BarkTTS API の統合方法
登録から最初の API 呼び出しまで5分以内
API キーを取得
無料で登録し、アカウントのダッシュボードから API キーを生成します。15,000文字が含まれています。
メイク・ユア・ファースト・コール
テキスト、モデル、音声で /v1/tts に POST します。 オーディオバイトを取得します。 5行のコードで。
モデルを選択
ユースケースに合った異なるモデルをテストします。速度、品質、および世代ごとのコストを比較します。
生産から発注
利用分の料金でスケールアップ。有料プランには料金制限はありません。ダッシュボードで使用状況をモニタリングできます。
クイックスタートコードの例
REST API で TTS.ai を任意の言語で統合
import requests
response = requests.post(
"https://api.tts.ai/v1/tts",
json={
"text": "Hello from my app!",
"model": "kokoro",
"voice": "af_heart",
"format": "mp3"
},
headers={
"Authorization": "Bearer sk-tts-xxx"
}
)
with open("output.mp3", "wb") as f:
f.write(response.content)
const response = await fetch(
"https://api.tts.ai/v1/tts",
{
method: "POST",
headers: {
"Content-Type": "application/json",
"Authorization": "Bearer sk-tts-xxx"
},
body: JSON.stringify({
text: "Hello from my app!",
model: "kokoro",
voice: "af_heart",
format: "mp3"
})
}
);
const audio = await response.blob();
curl -X POST https://api.tts.ai/v1/tts \
-H "Authorization: Bearer sk-tts-xxx" \
-H "Content-Type: application/json" \
-d '{
"text": "Hello from my app!",
"model": "kokoro",
"voice": "af_heart",
"format": "mp3"
}' \
--output output.mp3
# Works with OpenAI client library
from openai import OpenAI
client = OpenAI(
api_key="sk-tts-xxx",
base_url="https://api.tts.ai/v1"
)
response = client.audio.speech.create(
model="kokoro",
voice="af_heart",
input="Hello from my app!"
)
response.stream_to_file("output.mp3")
TTS.aiで開発者が作るもの
一般的な積分パターンと応用
チャットボット
チャットボットやAIアシスタントに音声出力を追加します。音声認識インターフェースのために TTS を通して LLM 応答を送信します。Kokoro はリアルタイム会話にサブ秒の遅延を提供します。Sesame CSM は自然なタイミングで会話音声を生成します。
- 音声パイプラインへのLLM応答
- 子供のためのサブ秒遅延
- 会話スピーチ
- ストリーミング音声出力
音声アプリケーション
音声をサポートするモバイルアプリケーション、アクセシビリティツール、読書アプリケーション、言語学習プラットフォームを作成します。REST API はどんなモバイルフレームワークでも動作します。オーディオファイルをダウンロードしたり、クライアントに直接ストリーミングしたりできます。
- React Native、Flutter、Swift、Kotlin
- アクセシビリティアプリケーション
- 言語学習プラットフォーム
- オーディオコンテンツ生成
SaaS製品
SaaS 製品のホワイトラベル音声機能。TTS、STT、音声クローン、オーディオ処理をプラットフォームの機能として追加。GPU インフラストラクチャを管理することなく、私たちの API を音声バックエンドとして使用してください。
- ホワイトラベル音声機能
- GPUインフラが必要ない
- 利用料金
- ユーザーに提供する20以上のモデル
自動化パイプライン
音声生成をCI/CDパイプライン,コンテンツ自動化,バッチ処理ワークフローに統合。スプレッドシートデータから数千のオーディオファイルを生成し,ポッドキャスト生成を自動化し,コンテンツの地域化パイプラインを構築する。
- APIを介したバッチ処理
- コンテンツ現地化パイプライン
- CI/CD統合
- 音声自動化用スプレッドシート
よくある質問
TTS.ai開発者APIに関するよくある質問
改善点は何ですか?フィードバックは問題を解決するのに役立ちます。