API キーはどうやって入手しますか？

無料のTTS.aiアカウントに登録し、アカウントのダッシュボードに移動して「API キーを生成」をクリックします。キーには sk-tts- が付けられ、すぐに使用できます。無料のアカウントは15,000文字まで使用できます。

ＡＰＩはOpenAIのフォーマットと互換性があるか？

はい、我々の API は OpenAI 互換の要求と応答フォーマットに従います。 OpenAI の TTS API を使用する既存のコードがあれば、ベース URL と API キーを変更することで、コードの変更が少ないだけで TTS.ai に切り替えることもできます。

どのプログラミング言語がサポートされていますか？

REST APIはHTTP要求を行うことができる言語で動作します。 Python、JavaScript（Node.jsとブラウザ）、cURLなどのコード例を提供しています。HTTPクライアントライブラリを持つ言語（Go、Ruby、Java、C#、PHPなど）はすべてAPIを使用できます。

API速度制限は何ですか？

無料アカウントは1時間あたり3件のリクエストに制限されています。有料プランはサブスクリプションレベルによって制限が高くなります。Starter (60件/時間)、Professional (300件/時間)、Enterprise (無制限)です。レート制限ヘッダはすべての API 応答に含まれます。

APIプライシングはどのように機能するのか。

モデルのレベルとテキストの長さに基づいて、API の使用に必要な文字数を決めます。フリーモデルは0文字、標準モデルは2x文字、プレミアムモデルは4x文字を使用します。文字はすべての有料プランに含まれ、文字パックとして別途購入することもできます。

どのエンドポイントが利用可能ですか？

ＡＰＩはテキストから音声（ＰＯＳＴ／ｖ１／ｔｔｓ／），音声からテキスト（ＰＯＳＴ／ｖ１／ｔｒａｎｓｃｒｉｐｅ／），音声クローン（ＰＯＳＴ／ｖ１／ｖｏｉｃｅ‐ｃｌｏｎｅ／），音声変換（ＰＯＳＴ／ｖ１／ｖｏｉｃｅ‐ｃｏｎｖｅｒｔ／），音声翻訳（ＰＯＳＴ／ｖ１／ｓｐｅｅｃｈ‐ｔｒａｎｓｌａｔｅ／），音声強化（ＰＯＳＴ／ｖ１／ａｕｄｉｏ‐ｅｎｈａｎｃｅ／），音声除去，ステム分割，キーとＢＰＭ解析などのエンドポイントを提供する。

API はどのオーディオフォーマットを返しますか？

API はデフォルトで WAV フォーマットのオーディオを返します。出力フォーマット (mp3, wav, ogg, flac) は response_format パラメータを使って指定できます。ウェブアプリケーションでは MP3 を、さらなるオーディオ処理には WAV を推奨します。

リアルタイムのＴＴＳのためのストリーミングＡＰＩはありますか？

はい、非同期 API は結果をポールするジョブ UUID を返します。Kokoro のようなサポートされているモデルでは、オーディオ生成はリアルタイムに近いアプリケーションに十分速い。ポールエンドポイントは処理が完了したときにオーディオ URL を返します。

API のエラーをどうやって扱うのですか？

これは、HTTP の HTTP ステータスコードを返すための API で、HTTP の HTTP ステータスコードを返すための JSON エラーメッセージを返します。

商用アプリケーションにAPIを使用できますか？

はい、APIは商用のために設計されています。APIを通して生成されたオーディオは、あなたの製品、アプリケーション、サービスに使用できます。すべてのモデルはオープンソースライセンスを使用し、生成されたオーディオに付加的なロイヤリティはありません。

サンドボックスやテスト環境はありますか？

無料のモデル (Kokoro, Piper, VITS, MeloTTS) は素晴らしいサンドボックスとして機能します。文字を使わず、すべてのアカウントで利用できます。プロダクション用にプレミアムモデルに切り替える前に、無料のモデルとの統合をテストしてください。

API を通じて利用可能な音声とモデルをどのようにリストしますか？

GET /v1/voices を使って、フィルタリングオプション (モデル、言語、性別) を含むすべての音声をリストします。GET /v1/models を使って、すべての TTS モデルとその機能とレベル情報をリストします。両方のエンドポイントは JSON 応答を返します。

バグ/機能要求を報告

APIドキュメント

Q: API のエラーをどうやって扱うのですか？

これは、HTTP の HTTP ステータス コードを返すための API で、HTTP の HTTP ステータス コードを返すための JSON エラー メッセージを返します。

REST APIを使ってTTS.aiをアプリケーションに統合。OpenAI互換のフォーマットで簡単に移行できる。

REST API OpenAI 互換 JSON 応答ストリーミングサポート

概要

The TTS.ai API provides programmatic access to all platform features: text-to-speech synthesis, speech-to-text transcription, voice cloning, audio enhancement, and more. The API uses standard REST conventions with JSON request/response bodies.

API キー

ここから API キーを取得アカウントの設定. プロプランとエンタープライズプランで利用可能。

ベース URL

https://api.tts.ai/v1/

認証

ベイヤー・トークン・バイア Authorization ヘッダ

認証

自由階級 - 鍵が必要ない。 匿名の POST は /v1/tts/ 認証なしでIPごとに 1日5,000文字まで無料のモデルを使って (piper, vits, melotts, kokoro). 無料アカウントに登録して 15,000のボーナスキャラクターとプレミアムモデルを利用して

プライムモデルと高速制限の場合は、プロセスの中でベアトークンで認証します。 Authorization ヘッダ.

HTTPヘッダ

Authorization: Bearer sk-tts-your-api-key-here

API キーを秘密にしてください。 クライアント側のコード、公開リポジトリ、ログで共有しないでください。アカウントの設定からキーを定期的に交換してください。

SDK

TTS.aiをアプリケーションに簡単に統合する公式SDKがあります。両方ともオープンソースで、GitHubで利用できます。

Python

pip install ttsai

from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")
audio = client.generate(
    text="Hello world!",
    model="kokoro"
)
client.save(audio, "output.wav")

GitHub

JavaScript / Node.js

npm install @ttsainpm/ttsai

const { TTSClient } = require('@ttsainpm/ttsai');

const client = new TTSClient({
  apiKey: 'sk-tts-...'
});
const audio = await client.generate({
  input: 'Hello world!',
  model: 'kokoro'
});
await client.saveToFile(audio, 'output.wav');

GitHub

ベース URL

ベース URL: https://api.tts.ai/v1/

すべてのエンドポイントはこのベース URL に対して相対的です。例えば、TTS エンドポイントは:

POST https://api.tts.ai/v1/tts/

レート制限

API速度制限はプランによって異なります。

プラン	リクエスト/分	コンカレント	最大テキスト長
自由	10	2	500文字
スター	30	3	100万文字
プロ	60	5	100万文字
エンタープライズ	300	20	5万字

レート制限ヘッダはすべての応答に含まれます: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

クレジットコスト

サービス	コスト	単位
ＴＴＳ（フリーモデル：パイパー、ＶＩＴＳ、メロＴＴＳ）	千字	1000文字あたり
TTS（標準モデル：Kokoro、CosyVoice2など）	2000文字	1000文字あたり
TTS（プレミアムモデル：Tortoise、Chatterboxなど）	4000文字	1000文字あたり
音声からテキストへ	2000文字	1分間の音声を
音声クローン	4000文字	1000文字あたり
ボイスチェンジャー	3クレジット	1分間の音声を
オーディオエンハンスメント	2000文字	1分間の音声を
声部除去/ステム分割	3000～4000文字	1分間の音声を
音声翻訳	5000文字	1分間の音声を
ボイスチャット	3クレジット	ターンごとに
キー&BPM ファインダー	自由	--
オーディオコンバータ	自由	--

テキストを音声に変換

POST /v1/tts/

テキストを音声に変換します。要求されたフォーマットのオーディオファイルを返します。

リクエストの本文

パラメータ	タイプ	必須	説明
model	string	いや	モデル ID (例えば `kokoro`、 `chatterbox`、 `piper`)。省略すると、要求された `言語`をサポートするモデルを自動的に選択します。en/ja/zh/ko/fr/de/it/pt/es/hi/ruの場合は `kokoro`、その他の言語 (ar/pl/nl/cs/da/fi/el/hu/tr/uk/vi/etc.) の場合は `piper` です。
text	string	はい	音声に変換するテキスト。要求当たりの上限: 500 文字 (匿名)、5,000 文字 (無料アカウント)、1,000,000 文字 (有料プラン)。長い入力はサーバ側で自動的にチャンクされます。
voice	string	はい	音声 ID (利用可能な音声をリストするには `/v1/voices/` を使用)
format	string	いや	出力フォーマット: `mp3` (デフォルト), `wav`, `flac`, `ogg`
speed	float	いや	話し方の速度倍率。デフォルトは `1.0`。範囲は `0.5` から `2.0` まで。
language	string	いや	言語コード (例: `en`, `es`)。省略すると自動検出されます。
instructions	string	いや	演奏/配信キュー (≤500文字)。例えば `\`
pronunciations	object \| array	いや	要求ごとの発音は上書きされます。 `{\\`
stream	boolean	いや	ストリーミング応答を有効にします。デフォルト: `false`

例の要求

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

SSML タグ

数字、日付、通貨、電話番号、略語を


                    
                        
                            解釈する インプット 話す言葉
                        
                        
                            cardinal 1234 one thousand two hundred thirty-four
                            ordinal 21 twenty-first
                            date 1999-12-31 1999年12月31日
                            time 14:30 two thirty PM
                            telephone +1-555-867-5309 plus one five five five eight six seven…
                            currency $1,234.56 one thousand two hundred thirty-four dollars and fifty-six cents
                            spell-out NASA N A S A

解釈する	インプット	話す言葉
`cardinal`	`1234`	one thousand two hundred thirty-four
`ordinal`	`21`	twenty-first
`date`	`1999-12-31`	1999年12月31日
`time`	`14:30`	two thirty PM
`telephone`	`+1-555-867-5309`	plus one five five five eight six seven…
`currency`	`$1,234.56`	one thousand two hundred thirty-four dollars and fifty-six cents
`spell-out`	`NASA`	N A S A


                日付フォーマットは英語では mdy 、他の言語では dmy にデフォルトで設定されます。 format=\ で上書きできます。

                
                    
                        例
                        
                    
{
  "model": "kokoro",
  "voice": "af_bella",
  "text": "Your appointment is on <say-as interpret-as=\"date\">2026-04-26</say-as> at <say-as interpret-as=\"time\">14:30</say-as>. Please call <say-as interpret-as=\"telephone\">+1-555-867-5309</say-as> if you need to reschedule."
}
                

                応答
                The TTS endpoint queues your request and returns a JSON response with a job UUID. You then poll for the result.

                Step 1: Submit request
                
                    
                        Response (JSON)
                    
{
  "uuid": "77b71db532874ce98e84a69a2d740d4c",
  "job_id": "f21316bb-aefa-480d-8523-701d1e3184ce",
  "status": "queued",
  "credits_used": 11,
  "credits_remaining": 15000
}
                

                Step 2: Poll for result
                
                    GET /v1/speech/results/?uuid=<job_uuid>
                
                Poll this endpoint every 1-2 seconds until status is completed or failed.
                
                    
                        Polling response (completed)
                    
{
  "status": "completed",
  "result_url": "https://api.tts.ai/static/downloads/77b71db5.../output.mp3"
}
                
                
                    
                        Polling response (still processing)
                    
{
  "status": "processing"
}
                

                Step 3: Download audio
                Fetch the result_url from the completed response to download the audio file.

                完全例
                
                    
                        Python
                        
                    
import requests, time

API_KEY = "sk-tts-your-key"
BASE = "https://api.tts.ai"

# 1. Submit TTS request
resp = requests.post(f"{BASE}/v1/tts/", json={
    "model": "kokoro",
    "text": "Hello from TTS.ai!",
    "voice": "af_bella"
}, headers={"Authorization": f"Bearer {API_KEY}"})
data = resp.json()
uuid = data["uuid"]

# 2. Poll for result
while True:
    result = requests.get(f"{BASE}/v1/speech/results/",
        params={"uuid": uuid}).json()
    if result["status"] == "completed":
        # 3. Download audio
        audio = requests.get(result["result_url"])
        with open("output.mp3", "wb") as f:
            f.write(audio.content)
        break
    elif result["status"] == "failed":
        raise Exception(result.get("error", "Generation failed"))
    time.sleep(1.5)
                

                Streaming alternative: For supported models (Kokoro, MeloTTS), use POST /v1/tts/stream/ for real-time Server-Sent Events (SSE) streaming — no polling needed.



            
            
                音声からテキストへ
                
                    POST /v1/stt/
                
                音声をテキストに変換します。自動検出で99の言語をサポートします。

                リクエストの本文 (multipart/form-data)
                
                    
                        
                            パラメータ タイプ 必須 説明
                        
                        
                            
                                file
                                file
                                はい
                                オーディオファイル (MP3, WAV, FLAC, OGG, M4A, MP4, WebM)。最大 100MB。
                            
                            
                                model
                                string
                                いや
                                STT モデル: whisper (デフォルト), faster-whisper, sensevoice
                            
                            
                                language
                                string
                                いや
                                言語コード。自動検出のための auto（デフォルト）。
                            
                            
                                timestamps
                                boolean
                                いや
                                ワードレベルのタイムスタンプを含む。デフォルト: false
                            
                            
                                diarize
                                boolean
                                いや
                                スピーカーダイアリゼーションを有効にします。デフォルト: false
                            
                        
                    
                

                応答
                
                    
                        JSON 応答
                    
{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}
                
            

            
            
                音声クローン
                
                    POST /v1/tts/clone/
                
                クローン音声で音声を生成します。参照音声とテキストをアップロードします。

                リクエストの本文 (multipart/form-data)
                
                    
                        
                            パラメータ タイプ 必須 説明
                        
                        
                            
                                reference_audio
                                file
                                はい
                                参考音声オーディオ (10-30 秒推奨)。最大 20MB。
                            
                            
                                text
                                string
                                はい
                                クローンされた音声で話すテキスト。
                            
                            
                                model
                                string
                                いや
                                クローンモデル: chatterbox (デフォルト), cosyvoice2, gpt-sovits
                            
                            
                                format
                                string
                                いや
                                出力フォーマット: mp3 (デフォルト), wav, flac
                            
                            
                                language
                                string
                                いや
                                ターゲット言語コード。選択したモデルでサポートされている必要があります。
                            
                        
                    
                

                応答
                音声ファイルをバイナリデータとして返します。TTSエンドポイントと同じです。
            

            
            
                ボイスチェンジャー
                
                    POST /v1/voice-convert/
                
                オーディオを別の音声に変換します。ソースオーディオをアップロードし、ターゲット音声を選択します。

                リクエストの本文 (multipart/form-data)
                
                    
                        
                            パラメータ タイプ 必須 説明
                        
                        
                            
                                file
                                file
                                はい
                                ソースオーディオファイル (MP3、WAV、FLAC)。最大 50MB。
                            
                            
                                target_voice
                                string
                                はい
                                変換するターゲットボイス ID (利用可能なボイスをリストするには /v1/voices/ を使用)
                            
                            
                                model
                                string
                                いや
                                音声変換モデル: openvoice (デフォルト), knn-vc
                            
                            
                                format
                                string
                                いや
                                出力フォーマット: wav (デフォルト), mp3, flac
                            
                        
                    
                

                例の要求
                
                    
                        cURL
                        
                    
curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav
                

                応答
                変換したオーディオファイルをバイナリデータとして返します。
            

            
            
                音声翻訳
                
                    POST /v1/speech-translate/
                
                音声を他の言語に翻訳します。音声からテキスト、翻訳、テキストから音声を一つの通話で結合します。

                リクエストの本文 (multipart/form-data)
                
                    
                        
                            パラメータ タイプ 必須 説明
                        
                        
                            
                                file
                                file
                                はい
                                ソース音声ファイルのオリジナル言語。最大 100MB。
                            
                            
                                target_language
                                string
                                はい
                                ターゲット言語コード (例: es, fr, de, ja)
                            
                            
                                voice
                                string
                                いや
                                翻訳出力の音声。省略すると自動選択されます。
                            
                            
                                preserve_voice
                                boolean
                                いや
                                元のスピーカーの音声特性を保持しようとします。デフォルト: false
                            
                        
                    
                

                応答
                
                    JSON 応答
{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}
                
            

            
            
                スピーチツースピーチ
                
                    POST /v1/speech-to-speech/
                
                内容を保持しながら話し方、感情、または伝達を変更します。音調、ペース、表現力を調整するのに役立ちます。

                リクエストの本文 (multipart/form-data)
                
                    
                        
                            パラメータ タイプ 必須 説明
                        
                        
                            
                                file
                                file
                                はい
                                ソース音声ファイル。最大 50MB。
                            
                            
                                voice
                                string
                                はい
                                出力音声のターゲットボイス ID
                            
                            
                                model
                                string
                                いや
                                モデル: openvoice (デフォルト), chatterbox
                            
                            
                                emotion
                                string
                                いや
                                ターゲット感情: 中立, 幸せ, 悲しみ, 怒り, 興奮
                            
                            
                                speed
                                float
                                いや
                                速度調整。デフォルトは 1.0。範囲は 0.5 から 2.0 までです。
                            
                        
                    
                

                応答
                変換されたオーディオファイルをバイナリデータとして返します。
            

            
            
                オーディオツール
                音声処理エンドポイントは，音声強調，音声除去，ステムスプリッティングなどである。

                
                
                    
                        
                            POST /v1/audio/enhance/
                        
                        音質向上：ノイズ除去，明瞭度向上，超高解像度。
                        
                            
                                
                                    file file 拡張するオーディオファイル
                                    denoise boolean 雑音除去を有効にする (デフォルト: true)
                                    enhance_clarity boolean 音声の明瞭度を向上させる (デフォルト: true)
                                    super_resolution boolean オーディオ品質をアップスケール (デフォルト: false)
                                    strength integer 1-3 (軽い、中、強い)。デフォルト: 2
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/separate/
                        
                        声部を楽器部から分離（声部除去）するか、ステムに分割する。
                        
                            
                                
                                    file file 分離するオーディオファイル
                                    model string demucs (デフォルト) それとも spleeter
                                    stems integer ステムの数: 2, 4, 5, 6 (デフォルト: 2)
                                    format string 出力フォーマット: wav, mp3, flac
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/dereverb/
                        
                        オーディオ録音からエコーとリバーブを削除します。
                        
                            
                                
                                    file file 処理するオーディオファイル
                                    type string echo or reverb (default: both)
                                    intensity integer 1-5 (default: 3)
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/analyze/
                            フリー
                        
                        音声を分析してキー、BPM、拍子を検出します。
                        
                            
                                
                                    file file 解析するオーディオファイル
                                
                            
                        
                        
                            応答
{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/convert/
                            フリー
                        
                        フォーマット間のオーディオを変換します。
                        
                            
                                
                                    file file 変換するオーディオファイル
                                    format string ターゲットフォーマット: mp3, wav, flac, ogg, m4a, aac
                                    bitrate integer 出力ビットレート (kbps): 64, 128, 192, 256, 320
                                    sample_rate integer サンプリングレート：22050、44100、48000
                                    channels string mono それとも stereo
                                
                            
                        
                    
                
            

            
            
                ボイスチャット
                
                    POST /v1/voice-chat/
                
                音声やテキストを送信し，合成音声でＡＩ応答を受け取る。

                リクエストの本文 (multipart/form-data それとも JSON)
                
                    
                        
                            パラメータ タイプ 必須 説明
                        
                        
                            
                                audio
                                file
                                いや*
                                オーディオ入力 (audio または text が必要)
                            
                            
                                text
                                string
                                いや*
                                テキスト入力 (audio または text が必要)
                            
                            
                                voice
                                string
                                いや
                                AI 応答のための音声。標準: af_bella
                            
                            
                                tts_model
                                string
                                いや
                                応答のための TTS モデル。デフォルト: kokoro
                            
                            
                                system_prompt
                                string
                                いや
                                AI のカスタムシステムプロンプト
                            
                            
                                conversation_id
                                string
                                いや
                                既存の会話を続ける
                            
                        
                    
                

                応答
                
                    JSON 応答
{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}
                
            

            
            
                バッチTTS
                
                    POST /v1/tts/batch/
                
                複数のテキストを並列 TTS 生成に送信します。すべてのジョブが完了したら webhook のコールバックを受け取るオプションがあります。

                パラメータ
                
                    パラメータ タイプ 説明
                    
                        texts array Array of objects: {text, model, voice}. Max 50 items.
                        webhook_url string バッチが完了したときの POST 結果の URL を選択します。
                    
                

                応答
                
                    JSON 応答
{
  "batch_id": "abc123",
  "total": 3,
  "completed": 0,
  "status": "processing"
}
                
                GET /v1/tts/batch/result/?batch_id=abc123 でポールの進行を調べます。
            

            
            
                ボイスエンベディング
                
                    POST /v1/voice-embed/
                
                参照オーディオから音声埋め込みを予め計算します。 後続の音声クローン要求に返された embed_id を使用して、ほぼ即座に生成します。

                パラメータ
                
                    パラメータ タイプ 説明
                    
                        file file Reference audio file (WAV, MP3, FLAC).
                        model string Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.
                    
                

                応答
                
                    JSON 応答
{
  "embed_id": "emb_abc123",
  "model": "chatterbox",
  "duration_ms": 450
}
                
            

            
            
                ヘルスチェック
                
                    GET /v1/health/
                
                GPU サーバの状態、ロードされたモデル、キューのサイズをチェックします。認証は不要です。30 秒間キャッシュされます。

                応答
                
                    JSON 応答
{
  "status": "online",
  "latency_ms": 45,
  "queue_size": 3,
  "models_loaded": ["kokoro", "chatterbox", "cosyvoice2"]
}
                
            

            
            
                モデルのリスト
                
                    GET /v1/models/
                
                利用可能なすべてのモデルとその機能のリストを返します。

                応答
                
                    JSON 応答
{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}
                
            

            
            
                リストボイス
                
                    GET /v1/voices/
                
                使用可能な全ての音声のリストを返します。モデルまたは言語でフィルタリングすることもできます。

                クエリパラメータ
                
                    
                        
                            パラメータ タイプ 説明
                        
                        
                            
                                model
                                string
                                モデル ID でフィルタ (例: kokoro)
                            
                            
                                language
                                string
                                言語コードでフィルタリング (例: en)
                            
                            
                                gender
                                string
                                性別によるフィルタリング: male, female, neutral
                            
                        
                    
                

                応答
                
                    JSON 応答
{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}
                
            

            
            
                字幕 新しい
                
                    GET /v1/speech/subtitles/?uuid=<job_uuid>&format=srt|vtt&download=1
                
                完了した TTS ジョブに同期字幕を生成します。音声上で Whisper 配列を実行し、SRT または WebVTT を返します。結果はディスクにキャッシュされます。同じ uid で二度目のコールはディスク読み込みとなります。
                クエリパラメータ
                
                    
                        パラメータ 必須 説明
                        
                            uuid はい /v1/tts/ または /v1/voice-clone/ が返すジョブ UUID。
                            format いや サーバ (デフォルト) または ヴッターああ　そうだ
                            download いや これは、ブラウザが表示する代わりに保存するために Content-Disposition: attachment を送信するための 1 です。
                            language いや 配列モデルのヒント (省略された場合は自動検出)
                        
                    
                
                
                    cURL
curl "https://api.tts.ai/v1/speech/subtitles/?uuid=$UUID&format=srt&download=1" -o subtitles.srt
                
            

            
            
                発音辞典 新しい
                
                    GET
                    POST
                    DELETE
                    /api/v1/pronunciations/
                
                特定の単語の発音を TTS エンジンに指示します。保存されたエントリは、あなたが作成した TTS 要求に自動的に適用されます。一つのアカウントにつき 200 エントリまで。
                リクエストの本文 (POST)
                
                    
                        パラメータ タイプ 説明
                        
                            word string 上書きする単語 (例: GIF, Anthropic)。単語境界に一致しました。
                            replacement string モデルのスペル（例えば jiff、 ann THROP ick）
                            language string 選択可能な ISO コード。空白 = すべての言語に適用されます。
                            case_sensitive boolean 標準 false。 true のときは大文字と小文字を一致させます。
                        
                    
                
                
                    cURL
# Save an entry
curl -X POST https://tts.ai/api/v1/pronunciations/ \
  -H "Authorization: Bearer sk-tts-..." \
  -H "Content-Type: application/json" \
  -d '{"word": "GIF", "replacement": "jiff"}'

# List your entries
curl https://tts.ai/api/v1/pronunciations/ -H "Authorization: Bearer sk-tts-..."

# Delete entry by id
curl -X DELETE "https://tts.ai/api/v1/pronunciations/?id=42" -H "Authorization: Bearer sk-tts-..."
                
                また、要求ごとのオバーライドを保存せずに通すこともできます。 /v1/tts/ のコールに pronunciations をオブジェクトまたはアレイとして含めます。
            

            
            
                記事ナレーター 新しい
                記事ページに

パラメータ	タイプ	必須	説明
file	file	はい	オーディオファイル (MP3, WAV, FLAC, OGG, M4A, MP4, WebM)。最大 100MB。
model	string	いや	STT モデル: `whisper` (デフォルト), `faster-whisper`, `sensevoice`
language	string	いや	言語コード。自動検出のための `auto`（デフォルト）。
timestamps	boolean	いや	ワードレベルのタイムスタンプを含む。デフォルト: `false`
diarize	boolean	いや	スピーカーダイアリゼーションを有効にします。デフォルト: `false`

パラメータ	タイプ	必須	説明
reference_audio	file	はい	参考音声オーディオ (10-30 秒推奨)。最大 20MB。
text	string	はい	クローンされた音声で話すテキスト。
model	string	いや	クローンモデル: `chatterbox` (デフォルト), `cosyvoice2`, `gpt-sovits`
format	string	いや	出力フォーマット: `mp3` (デフォルト), `wav`, `flac`
language	string	いや	ターゲット言語コード。選択したモデルでサポートされている必要があります。

file file	拡張するオーディオファイル
denoise boolean	雑音除去を有効にする (デフォルト: true)
enhance_clarity boolean	音声の明瞭度を向上させる (デフォルト: true)
super_resolution boolean	オーディオ品質をアップスケール (デフォルト: false)
strength integer	1-3 (軽い、中、強い)。デフォルト: 2

file file	分離するオーディオファイル
model string	`demucs` (デフォルト) それとも `spleeter`
stems integer	ステムの数: 2, 4, 5, 6 (デフォルト: 2)
format string	出力フォーマット: `wav`, `mp3`, `flac`

file file	処理するオーディオファイル
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

file file	変換するオーディオファイル
format string	ターゲットフォーマット: `mp3`, `wav`, `flac`, `ogg`, `m4a`, `aac`
bitrate integer	出力ビットレート (kbps): 64, 128, 192, 256, 320
sample_rate integer	サンプリングレート：22050、44100、48000
channels string	`mono` それとも `stereo`

パラメータ	タイプ	必須	説明
audio	file	いや*	オーディオ入力 (`audio` または `text` が必要)
text	string	いや*	テキスト入力 (`audio` または `text` が必要)
voice	string	いや	AI 応答のための音声。標準: `af_bella`
tts_model	string	いや	応答のための TTS モデル。デフォルト: `kokoro`
system_prompt	string	いや	AI のカスタムシステムプロンプト
conversation_id	string	いや	既存の会話を続ける

パラメータ	タイプ	説明
texts	array	Array of objects: `{text, model, voice}`. Max 50 items.
webhook_url	string	バッチが完了したときの POST 結果の URL を選択します。

パラメータ	タイプ	説明
file	file	Reference audio file (WAV, MP3, FLAC).
model	string	Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.

パラメータ	タイプ	説明
model	string	モデル ID でフィルタ (例: `kokoro`)
language	string	言語コードでフィルタリング (例: `en`)
gender	string	性別によるフィルタリング: `male`, `female`, `neutral`

パラメータ	必須	説明
uuid	はい	/v1/tts/ または /v1/voice-clone/ が返すジョブ UUID。
format	いや	`サーバ` (デフォルト) または `ヴッター`ああ　そうだ
download	いや	これは、ブラウザが表示する代わりに保存するために `Content-Disposition: attachment` を送信するための `1` です。
language	いや	配列モデルのヒント (省略された場合は自動検出)

パラメータ	タイプ	説明
word	string	上書きする単語 (例: `GIF`, `Anthropic`)。単語境界に一致しました。
replacement	string	モデルのスペル（例えば `jiff`、 `ann THROP ick`）
language	string	選択可能な ISO コード。空白 = すべての言語に適用されます。
case_sensitive	boolean	標準 `false`。 `true` のときは大文字と小文字を一致させます。

APIドキュメント

概要

API キー

ベース URL

認証

認証

SDK

Python

JavaScript / Node.js

ベース URL

レート制限

クレジットコスト

テキストを音声に変換

リクエストの本文

例の要求

SSML タグ

応答

Step 1: Submit request

Step 2: Poll for result

Step 3: Download audio

完全例

音声からテキストへ

リクエストの本文 (multipart/form-data)

応答

音声クローン

リクエストの本文 (multipart/form-data)

応答

ボイスチェンジャー

リクエストの本文 (multipart/form-data)

例の要求

応答

音声翻訳

リクエストの本文 (multipart/form-data)

応答

スピーチツースピーチ

リクエストの本文 (multipart/form-data)

応答

オーディオツール

ボイスチャット

リクエストの本文 (multipart/form-data それとも JSON)

応答

バッチTTS

パラメータ

応答

ボイスエンベディング

パラメータ

応答

ヘルスチェック

応答

モデルのリスト

応答

リストボイス

クエリパラメータ

応答

字幕 新しい

クエリパラメータ

発音辞典 新しい

リクエストの本文 (POST)

記事ナレーター 新しい

字幕新しい

発音辞典新しい

記事ナレーター新しい