API मिसिलीकरण

हाम्रो REST API संग आफ्नो अनुप्रयोगहरूमा TTS.ai एकीकृत गर्नुहोस्। सजिलो माइग्रेसनको लागि OpenAI-संगत ढाँचा।

REST एपीआई OpenAI मिल्दोजुल्दो JSON प्रतिक्रिया स्ट्रिमिङ समर्थन

सारांश

TTS.ai एपीआईले सबै प्लेटफर्म सुविधाहरूमा प्रोग्रामेटिक पहुँच प्रदान गर्दछ: पाठ-देखि-भाषण संश्लेषण, भाषण-देखि-पाठ प्रतिलिपि, आवाज क्लोनिंग, अडियो सुधार, र अधिक। एपीआईले JSON अनुरोध / प्रतिक्रिया शरीरहरूको साथ मानक REST सम्मेलनहरू प्रयोग गर्दछ।

API कुञ्जी

यसबाट तपाईँको एपीआई कुञ्जी प्राप्त गर्नुहोस् खाता सेटिङ. प्रो र उद्यम योजनाहरूमा उपलब्ध।

आधार यूआरएल

https://api.tts.ai/v1/

प्रमाणीकरण गर्नुहोस्

बेयरर टोकन मार्फत Authorization हेडर

प्रमाणीकरण

यसको कुनै निश्चित समय सीमा छैन । बेनामी पोस्टहरू /v1/tts/ कुनै पनि auth बिना काम, सम्म 5,000 प्रति आईपी वर्ण / दिन, हाम्रो मुक्त मोडेल को कुनै पनि प्रयोग (piper, vits, melotts, kokoro). एक नि: शुल्क खाता प्राप्त गर्न साइन अप 15,000 बोनस वर्ण र प्रिमियम मोडेल पहुँच.

प्रिमियम मोडेल र उच्च दर सीमाहरूको लागि, मा एक बोक्ने टोकन संग प्रमाणित Authorization हेडर.

एचटीटीपी हेडर
Authorization: Bearer sk-tts-your-api-key-here
तपाईँको API कुञ्जी गोप्य राख्नुहोस् । यसलाई क्लाइन्ट-साइड कोड, सार्वजनिक भण्डार, वा लगमा साझेदारी नगर्नुहोस् । तपाईँको खाता सेटिङबाट नियमित रूपमा कुञ्जीहरू घुमाउनुहोस् ।

एसडीके

आधिकारिक एसडीकेहरूले TTS.ai लाई तपाईंको अनुप्रयोगमा एकीकृत गर्न सजिलो बनाउँछ। दुवै खुला स्रोत र GitHub मा उपलब्ध छन्।

Python

pip install ttsai
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")
audio = client.generate(
    text="Hello world!",
    model="kokoro"
)
client.save(audio, "output.wav")
GitHub

JavaScript / Node.js

npm install @ttsainpm/ttsai
const { TTSClient } = require('@ttsainpm/ttsai');

const client = new TTSClient({
  apiKey: 'sk-tts-...'
});
const audio = await client.generate({
  input: 'Hello world!',
  model: 'kokoro'
});
await client.saveToFile(audio, 'output.wav');
GitHub

आधार यूआरएल

आधार यूआरएल: https://api.tts.ai/v1/

सबै अन्त्यबिन्दुहरू यो आधार URL सँग सम्बन्धित छन् । उदाहरणका लागि, TTS अन्त्यबिन्दु:

POST https://api.tts.ai/v1/tts/

दर सीमा

API दर सीमा योजना द्वारा भिन्न हुन्छ:

योजना अनुरोध/मिनेट एकै समयमा अधिकतम पाठ लम्बाइ
स्वतन्त्र 10 2 ५०० क्यारेक्टर
सुरुआतकर्ता 30 3 क्यारेक्टर
प्रो 60 5 क्यारेक्टर
उद्यम 300 20 ५०,००० क्यारेक्टर

दर सीमा हेडर प्रत्येक प्रतिक्रियामा समावेश गरिएको छ: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

ऋण लागत

सेवा लागत एकाइ
TTS (मुफ्त नमूनाहरू: पाइपर, VITS, MeloTTS) १००० क्यारेक्टर प्रति १००० क्यारेक्टर
TTS (मानक नमूना: Kokoro, CosyVoice2, आदि) २,००० क्यारेक्टर प्रति १००० क्यारेक्टर
TTS (प्रिमियम मोडेल: Tortoise, Chatterbox, आदि) ४,००० क्यारेक्टर प्रति १००० क्यारेक्टर
पाठमा भाषणName २,००० क्यारेक्टर प्रति मिनेट अडियो
आवाज क्लोनिङ ४,००० क्यारेक्टर प्रति १००० क्यारेक्टर
आवाज परिवर्तनकर्ताName ३ क्रेडिट प्रति मिनेट अडियो
अडियो सुधार २,००० क्यारेक्टर प्रति मिनेट अडियो
स्वर हटाउनुहोस् / आवाज विभाजन गर्नुहोस् ३,०००-४,००० क्यारेक्टर प्रति मिनेट अडियो
वक्तव्य अनुवाद ५,००० क्यारेक्टर प्रति मिनेट अडियो
आवाज कुराकानी ३ क्रेडिट प्रत्येक पालो
कुञ्जी र बीपीएम फेला पार्ने स्वतन्त्र --
अडियो रूपान्तरणकर्ताName स्वतन्त्र --

पाठ वाचकComment

POST /v1/tts/

पाठलाई बोल्ने अडियोमा रूपान्तरण गर्नुहोस् । अनुरोध गरिएको ढाँचामा अडियो फाइल फर्काउँछ ।

अनुरोध मुख्य भाग

परिमितिप्रकारआवश्यकवर्णन:
model string होइन नमूना आईडी (जस्तै, kokoro, chatterbox, piper) । यदि मेटिएको भएमा, हामीले अनुरोध गरिएको language समर्थन गर्ने नमूना स्वचालित रूपमा रोज्छौं — en/ja/zh/ko/fr/de/it/pt/es/hi/ru का लागि kokoro, अन्य समर्थित भाषाका लागि piper (ar/pl/nl/cs/da/fi/el/hu/tr/uk/vi/etc.) ।
text string हो पाठलाई भाषणमा रूपान्तरण गर्न । प्रति अनुरोध क्याप: ५०० क्यारेक्टर (बेनामी), ५,००० (मुफ्त खाता), १,०००,००० (भुक्तानी गरिएको योजना) । लामो आगतहरू सर्भर-साइडमा स्वत:-चङ्कित हुन्छन् ।
voice string हो आवाज आईडी (उपलब्ध आवाजहरू सूचीबद्ध गर्न /v1/voices/ प्रयोग गर्नुहोस्)
format string होइन निर्गत ढाँचा: mp3 (पूर्वनिर्धारित), wav, flac, ogg
speed float होइन बोल्ने गति गुणक । पूर्वनिर्धारित: 1.0 । दायरा: 0.5 देखि 2.0 सम्म
language string होइन भाषा सङ्केत (जस्तै, en, es) । यदि छोडियो भने स्वत: पत्ता लगाइन्छ ।
instructions string होइन कार्य / वितरण संकेत (≤500 अक्षरहरू)। उदाहरणका लागि < कोड>\
pronunciations object | array होइन प्रति-अनुरोध उच्चारण अधिलेखन गर्दछ । या त {\
stream boolean होइन स्ट्रिमिङ प्रतिक्रिया सक्षम पार्नुहोस् । पूर्वनिर्धारित: false

उदाहरण अनुरोध

cURL
curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

SSML ट्यागहरू

व्याख्या गर्नुहोस्आगतयस रूपमा बोलेको
cardinal1234one thousand two hundred thirty-four
ordinal21twenty-first
date1999-12-31December thirty-first, nineteen ninety-nine
time14:30two thirty PM
telephone+1-555-867-5309plus one five five five eight six seven…
currency$1,234.56one thousand two hundred thirty-four dollars and fifty-six cents
spell-outNASAN A S A

मिति ढाँचा पूर्वनिर्धारित mdy अङ्ग्रेजीका लागि र dmy अन्यत्र; format=\ सँग अधिलेखन गर्नुहोस्

उदाहरण
{
  "model": "kokoro",
  "voice": "af_bella",
  "text": "Your appointment is on <say-as interpret-as=\"date\">2026-04-26</say-as> at <say-as interpret-as=\"time\">14:30</say-as>. Please call <say-as interpret-as=\"telephone\">+1-555-867-5309</say-as> if you need to reschedule."
}

प्रतिक्रिया

The TTS endpoint queues your request and returns a JSON response with a job UUID. You then poll for the result.

Step 1: Submit request

Response (JSON)
{
  "uuid": "77b71db532874ce98e84a69a2d740d4c",
  "job_id": "f21316bb-aefa-480d-8523-701d1e3184ce",
  "status": "queued",
  "credits_used": 11,
  "credits_remaining": 15000
}

Step 2: Poll for result

GET /v1/speech/results/?uuid=<job_uuid>

Poll this endpoint every 1-2 seconds until status is completed or failed.

Polling response (completed)
{
  "status": "completed",
  "result_url": "https://api.tts.ai/static/downloads/77b71db5.../output.mp3"
}
Polling response (still processing)
{
  "status": "processing"
}

Step 3: Download audio

Fetch the result_url from the completed response to download the audio file.

Full example

Python
import requests, time

API_KEY = "sk-tts-your-key"
BASE = "https://api.tts.ai"

# 1. Submit TTS request
resp = requests.post(f"{BASE}/v1/tts/", json={
    "model": "kokoro",
    "text": "Hello from TTS.ai!",
    "voice": "af_bella"
}, headers={"Authorization": f"Bearer {API_KEY}"})
data = resp.json()
uuid = data["uuid"]

# 2. Poll for result
while True:
    result = requests.get(f"{BASE}/v1/speech/results/",
        params={"uuid": uuid}).json()
    if result["status"] == "completed":
        # 3. Download audio
        audio = requests.get(result["result_url"])
        with open("output.mp3", "wb") as f:
            f.write(audio.content)
        break
    elif result["status"] == "failed":
        raise Exception(result.get("error", "Generation failed"))
    time.sleep(1.5)

Streaming alternative: For supported models (Kokoro, MeloTTS), use POST /v1/tts/stream/ for real-time Server-Sent Events (SSE) streaming — no polling needed.

पाठमा भाषणName

POST /v1/stt/

पाठमा अडियो प्रतिलिपि गर्नुहोस् । स्वचालित पत्ता लगाउनेसँग ९९ भाषाहरू समर्थन गर्दछ ।

अनुरोध मुख्य भाग (multipart/form-data)

परिमितिप्रकारआवश्यकवर्णन:
file file हो अडियो फाइल (MP3, WAV, FLAC, OGG, M4A, MP4, WebM) । अधिकतम १०० मेगाबाइट ।
model string होइन STT नमूना: whisper (पूर्वनिर्धारित), faster-whisper, sensevoice
language string होइन भाषा कोड । auto स्वचालित पत्ता लगाउनका लागि (पूर्वनिर्धारित) ।
timestamps boolean होइन शब्द-स्तर टाइमस्ट्याम्प समावेश गर्नुहोस् । पूर्वनिर्धारित: false
diarize boolean होइन वक्ता डायरिजेसन सक्षम पार्नुहोस् । पूर्वनिर्धारित: false

प्रतिक्रिया

JSON प्रतिक्रिया
{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}

आवाज क्लोनिङ

POST /v1/tts/clone/

क्लोन गरिएको आवाजमा भाषण सिर्जना गर्नुहोस् । सन्दर्भ अडियो र पाठ अपलोड गर्नुहोस् ।

अनुरोध मुख्य भाग (multipart/form-data)

परिमितिप्रकारआवश्यकवर्णन:
reference_audio file हो सन्दर्भ आवाज अडियो (१०-३० सेकेन्ड सिफारिस गरिएको) । अधिकतम २० मेगाबाइट ।
text string हो क्लोन गरिएको आवाजमा बोल्ने पाठ ।
model string होइन क्लोन नमूना: chatterbox (पूर्वनिर्धारित), cosyvoice2, gpt-sovits
format string होइन निर्गत ढाँचा: mp3 (पूर्वनिर्धारित), wav, flac
language string होइन लक्षित भाषा सङ्केत । चयन गरिएको नमूनाद्वारा समर्थित हुनुपर्छ ।

प्रतिक्रिया

TTS अन्त्यबिन्दु जस्तै, बाइनरी डेटाको रूपमा अडियो फाइल फर्काउँछ ।

आवाज परिवर्तनकर्ताName

POST /v1/voice-convert/

अडियोलाई फरक आवाज जस्तै ध्वनिमा रूपान्तरण गर्नुहोस् । स्रोत अडियो अपलोड गर्नुहोस् र लक्षित आवाज रोज्नुहोस् ।

अनुरोध मुख्य भाग (multipart/form-data)

परिमितिप्रकारआवश्यकवर्णन:
file file हो स्रोत अडियो फाइल (MP3, WAV, FLAC) । अधिकतम ५० मेगाबाइट ।
target_voice string हो यसमा रूपान्तरण गर्न लक्षित आवाज आईडी (उपलब्ध आवाजहरू सूचीबद्ध गर्न /v1/voices/ प्रयोग गर्नुहोस्)
model string होइन आवाज रूपान्तरण नमूना: openvoice (पूर्वनिर्धारित), knn-vc
format string होइन निर्गत ढाँचा: wav (पूर्वनिर्धारित), mp3, flac

उदाहरण अनुरोध

cURL
curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav

प्रतिक्रिया

बाइनरी डेटाको रूपमा रूपान्तरित अडियो फाइल फर्काउँछ ।

वक्तव्य अनुवाद

POST /v1/speech-translate/

अर्को भाषामा एक भाषाबाट बोलेको अडियो अनुवाद गर्नुहोस्। एकल कलमा भाषण-देखि-पाठ, अनुवाद, र पाठ-देखि-भाषण संयोजन गर्दछ।

अनुरोध मुख्य भाग (multipart/form-data)

परिमितिप्रकारआवश्यकवर्णन:
file file हो मौलिक भाषामा स्रोत अडियो फाइल । अधिकतम १०० मेगाबाइट ।
target_language string हो लक्षित भाषा कोड (जस्तै, es, fr, de, ja)
voice string होइन अनुवादित निर्गतका लागि आवाज । यदि छोडियो भने स्वत: चयन गरिन्छ ।
preserve_voice boolean होइन मौलिक वक्ताको आवाज विशेषताहरू बचत गर्ने प्रयास गर्नुहोस् । पूर्वनिर्धारित: false

प्रतिक्रिया

JSON प्रतिक्रिया
{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}

बोल्नलाई बोल्नुहोस्

POST /v1/speech-to-speech/

सामग्री राख्दा भाषण शैली, भावना, वा वितरण परिवर्तन गर्नुहोस् । टोन, पेसिङ र अभिव्यक्ति समायोजन गर्न उपयोगी ।

अनुरोध मुख्य भाग (multipart/form-data)

परिमितिप्रकारआवश्यकवर्णन:
file file हो स्रोत भाषण अडियो फाइल । अधिकतम ५० मेगाबाइट ।
voice string हो निर्गत भाषणका लागि लक्षित आवाज आईडी
model string होइन नमूना: openvoice (पूर्वनिर्धारित), chatterbox
emotion string होइन लक्षित भावना: neutral, happy, sad, angry, excited
speed float होइन गति समायोजन । पूर्वनिर्धारित: 1.0 । दायरा: 0.5 देखि 2.0 सम्म

प्रतिक्रिया

बाइनरी डेटाको रूपमा रूपान्तरित अडियो फाइल फर्काउँछ ।

अडियो उपकरणName

अडियो प्रोसेसिंग अन्त बिन्दुहरू बढावा, स्वर हटाउन, जरा विभाजन, र अधिक लागि।

POST /v1/audio/enhance/

अडियो गुणस्तर बढाउनुहोस्: denoise, स्पष्टता सुधार, सुपर रिजोल्युसन।

file fileबढाउनका लागि अडियो फाइल
denoise booleanध्वनि हटाउने सक्षम पार्नुहोस् (पूर्वनिर्धारित: ठीक)
enhance_clarity booleanभाषण स्पष्टता बढाउनुहोस् (पूर्वनिर्धारित: सही)
super_resolution booleanअडियो गुणस्तर बढाउनुहोस् (पूर्वनिर्धारित: गलत)
strength integer१-३ (लामो, मध्यम, सानो) । पूर्वनिर्धारित: २
POST /v1/audio/separate/

यसले वायुमण्डलमा रहेका हानिकारक तत्वहरू (विषाक्त पदार्थहरू)लाई बाहिर निकाल्छ।

file fileविभाजन गर्नका लागि अडियो फाइल
model stringdemucs (पूर्वनिर्धारित) वा spleeter
stems integerस्टेमहरूको सङ्ख्या: २, ४, ५, वा ६ (पूर्वनिर्धारित: २)
format stringनिर्गत ढाँचा: wav, mp3, flac
POST /v1/audio/dereverb/

अडियो रेकर्डिङबाट प्रतिध्वनि र प्रतिध्वनि हटाउनुहोस् ।

file fileप्रक्रिया गर्नका लागि अडियो फाइल
type stringecho or reverb (default: both)
intensity integer1-5 (default: 3)
POST /v1/audio/analyze/ स्वतन्त्र

कुञ्जी, BPM, र समय हस्ताक्षर पत्ता लगाउन अडियो विश्लेषण गर्नुहोस् ।

file fileविश्लेषण गर्नका लागि अडियो फाइल
प्रतिक्रिया
{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}
POST /v1/audio/convert/ स्वतन्त्र

ढाँचा बीच अडियो रूपान्तरण गर्नुहोस् ।

file fileरूपान्तरण गर्नका लागि अडियो फाइल
format stringलक्ष्य ढाँचा: mp3, wav, flac, ogg, m4a, aac
bitrate integerकेबीपीएसमा निर्गत बिटरेट: ६४, १२८, १९२, २५६, ३२०
sample_rate integerनमूना दर: 22050, 44100, 48000
channels stringmono वा stereo

आवाज कुराकानी

POST /v1/voice-chat/

अडियो वा पाठ पठाउनुहोस् र सिन्थेसाइज गरिएको भाषणसँग एआई प्रतिक्रिया प्राप्त गर्नुहोस्।

अनुरोध मुख्य भाग (multipart/form-data वा JSON)

परिमितिप्रकारआवश्यकवर्णन:
audio file होइन* अडियो आगत (या त audio वा text आवश्यक हुन्छ)
text string होइन* पाठ आगत (या त audio वा text आवश्यक हुन्छ)
voice string होइन AI प्रतिक्रियाका लागि आवाज । पूर्वनिर्धारित: af_bella
tts_model string होइन प्रतिक्रियाका लागि TTS नमूना । पूर्वनिर्धारित: kokoro
system_prompt string होइन AI का लागि अनुकूल प्रणाली प्रिमियम
conversation_id string होइन अवस्थित वार्तालाप जारी राख्नुहोस्

प्रतिक्रिया

JSON प्रतिक्रिया
{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}

TTS ब्याच

POST /v1/tts/batch/

समानान्तर TTS सिर्जनाका लागि बहुविध पाठहरू पेश गर्नुहोस् । सबै काम पूरा हुँदा वैकल्पिक रूपमा वेबहुक कलब्याक प्राप्त गर्नुहोस् ।

परिमिति

परिमितिप्रकार:वर्णन
textsarrayArray of objects: {text, model, voice}. Max 50 items.
webhook_urlstringOptional URL to POST results when batch completes.

प्रतिक्रिया

JSON प्रतिक्रिया
{
  "batch_id": "abc123",
  "total": 3,
  "completed": 0,
  "status": "processing"
}

GET /v1/tts/batch/result/?batch_id=abc123 संग जनमत प्रगति

आवाज सम्मिलन

POST /v1/voice-embed/

सन्दर्भ अडियोबाट एउटा आवाज सम्मिलन पूर्व-गणना गर्नुहोस् । निकट-तुरुन्तै सिर्जनाका लागि पछिल्लो आवाज क्लोनिङ अनुरोधमा फर्किएको embed_id प्रयोग गर्नुहोस् ।

परिमिति

परिमितिप्रकार:वर्णन
filefileReference audio file (WAV, MP3, FLAC).
modelstringCloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.

प्रतिक्रिया

JSON प्रतिक्रिया
{
  "embed_id": "emb_abc123",
  "model": "chatterbox",
  "duration_ms": 450
}

स्वास्थ्य जाँच

GET /v1/health/

GPU सर्भर स्थिति, लोड गरिएको नमूना, र लाम साइज जाँच गर्नुहोस् । प्रमाणीकरण आवश्यक छैन । ३० सेकेन्डका लागि क्यास गरिएको ।

प्रतिक्रिया

JSON प्रतिक्रिया
{
  "status": "online",
  "latency_ms": 45,
  "queue_size": 3,
  "models_loaded": ["kokoro", "chatterbox", "cosyvoice2"]
}

नमूना सूची

GET /v1/models/

तिनीहरूको क्षमतासँग सबै उपलब्ध नमूनाहरूको सूची फर्काउँछ ।

प्रतिक्रिया

JSON प्रतिक्रिया
{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}

आवाजहरू सूचीबद्ध गर्नुहोस्

GET /v1/voices/

सबै उपलब्ध आवाजको सूची फर्काउँछ, वैकल्पिक रूपमा नमूना वा भाषाद्वारा फिल्टर गरिएको ।

क्वेरी परिमिति

परिमितिप्रकारवर्णन:
model string नमूना आईडीद्वारा फिल्टर गर्नुहोस् (जस्तै, kokoro)
language string भाषा कोडद्वारा फिल्टर गर्नुहोस् (जस्तै, en)
gender string लिङ्गद्वारा फिल्टर गर्नुहोस्: male, female, neutral

प्रतिक्रिया

JSON प्रतिक्रिया
{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}

उपशीर्षक (SRT / VTT) नयाँ

GET /v1/speech/subtitles/?uuid=<job_uuid>&format=srt|vtt&download=1

कुनै पनि पूरा भएको TTS कामका लागि समक्रमण उपशीर्षकहरू उत्पन्न गर्नुहोस् । अडियोमा Whisper पङ्क्तिबद्धता चलाउँछ र SRT वा WebVTT फर्काउँछ । परिणाम डिस्कमा क्यास गरिएको छ त्यसैले उही uuid का लागि दोस्रो कल डिस्क पढाइ हो ।

क्वेरी परिमिति

परिमितिआवश्यकवर्णन:
uuidहो/v1/tts/ वा /v1/voice-clone/ द्वारा फर्काइएको काम UUID ।
formatहोइनsrt (पूर्वनिर्धारित) वा vtt
downloadहोइन1 Content-Disposition: attachment पठाउन ताकि ब्राउजरले प्रदर्शनको सट्टा बचत गर्दछ ।
languageहोइनपङ्क्तिबद्धता नमूना (यदि छोडियो भने स्वत: पत्ता लगाइएको) को लागि सङ्केत ।
cURL
curl "https://api.tts.ai/v1/speech/subtitles/?uuid=$UUID&format=srt&download=1" -o subtitles.srt

उच्चारण शब्दकोश नयाँ

GET POST DELETE /api/v1/pronunciations/

TTS इन्जिनलाई कसरी निर्दिष्ट शब्दहरू उच्चारण गर्ने भनेर भन्नुहोस् । बचत गरिएको प्रविष्टिहरू तपाईँले गर्ने हरेक TTS अनुरोधमा स्वत: लागू हुन्छ । प्रति खाता २०० प्रविष्टि सीमा ।

अनुरोध मुख्य भाग (POST)

परिमितिप्रकारवर्णन:
wordstringअधिलेखन गर्न शब्द (जस्तै GIF, Anthropic) । शब्द-सीमा मिल्यो ।
replacementstringयसमा यसको प्रयोग निम्न प्रकारले हुन्छ: jiff ann THROP ick
languagestringवैकल्पिक ISO कोड । खाली = सबै भाषामा लागू हुन्छ ।
case_sensitivebooleanपूर्वनिर्धारित falsetrue मा केस ठीकसँग मिलाउनुहोस् ।
cURL
# Save an entry
curl -X POST https://tts.ai/api/v1/pronunciations/ \
  -H "Authorization: Bearer sk-tts-..." \
  -H "Content-Type: application/json" \
  -d '{"word": "GIF", "replacement": "jiff"}'

# List your entries
curl https://tts.ai/api/v1/pronunciations/ -H "Authorization: Bearer sk-tts-..."

# Delete entry by id
curl -X DELETE "https://tts.ai/api/v1/pronunciations/?id=42" -H "Authorization: Bearer sk-tts-..."

तपाईँले तिनीहरूलाई बचत नगरी प्रति-अनुरोध अधिलेखन पास गर्न सक्नुहुन्छ - कुनै पनि /v1/tts/ कलमा pronunciations वस्तु वा एरेको रूपमा समावेश गर्नुहोस् (TTS अन्त बिन्दु params हेर्नुहोस्)।

लेख वाचक नयाँ

कुनै पनि लेख पृष्ठमा एकल