म कसरी एक API कुञ्जी प्राप्त?

एक नि: शुल्क TTS.ai खाताको लागि साइन अप गर्नुहोस्, त्यसपछि आफ्नो खाता डैशबोर्डमा नेभिगेट गर्नुहोस् र "एपीआई कुञ्जी उत्पन्न गर्नुहोस्" क्लिक गर्नुहोस्। तपाईको कुञ्जी sk-tts- सँग उपसर्ग हुनेछ र तत्काल प्रयोग गर्न सकिन्छ। नि: शुल्क खाताहरू सुरु गर्न 15,000 क्यारेक्टरहरू प्राप्त गर्दछ।

यो API OpenAI को ढाँचा संग संगत छ?

हो, हाम्रो एपीआई OpenAI-संगत अनुरोध र प्रतिक्रिया ढाँचा पालना. तपाईं OpenAI गरेको TTS एपीआई प्रयोग गर्ने अवस्थित कोड छ भने, तपाईं न्यूनतम कोड परिवर्तन संग आधार यूआरएल र एपीआई कुञ्जी परिवर्तन गरेर TTS.ai स्विच गर्न सक्नुहुन्छ.

के प्रोग्रामिंग भाषाहरू समर्थित छन्?

यो REST एपीआई HTTP अनुरोध गर्न सक्छ कि कुनै पनि भाषा संग काम गर्दछ। हामी पाइथन कोड उदाहरण प्रदान, जाभास्क्रिप्ट (Node.js र ब्राउजर), cURL, र अधिक। एक HTTP क्लाइन्ट लाइब्रेरी संग कुनै पनि भाषा (जानुहोस्, रूबी, जाभा, C #, PHP, आदि) एपीआई प्रयोग गर्न सक्नुहुन्छ।

एपीआई दर सीमा के हुन्?

नि: शुल्क खाताहरू3प्रति घण्टा अनुरोधहरूमा सीमित छन्। भुक्तानी योजनाहरू तपाईंको सदस्यता तहमा आधारित उच्च सीमाहरू छन्: सुरु (60 / घण्टा), व्यावसायिक (300 / घण्टा), उद्यम (असीमित)। दर सीमा हेडरहरू प्रत्येक एपीआई प्रतिक्रियामा समावेश छन्।

कसरी API मूल्य काम गर्छ?

एपीआई प्रयोग मोडेल तह र पाठ लम्बाइ मा आधारित क्यारेक्टर खपत. नि: शुल्क मोडेल प्रयोग0कार्ता, मानक मोडेल प्रयोग 2x क्यारेक्टर, र प्रिमियम मोडेल प्रयोग 4x क्यारेक्टर. क्यारेक्टर सबै भुक्तानी योजना समावेश छन् र पनि अलग रूपमा खरीद गर्न सकिन्छ क्यारेक्टर प्याक रूपमा.

कुन अन्त बिन्दुहरू उपलब्ध छन्?

यो एपीआईले पाठ-देखि-भाषण (POST /v1/tts/), भाषण-देखि-भाषण (POST /v1/transcribe/), आवाज क्लोनिंग (POST /v1/voice-clone/), आवाज रूपान्तरण (POST /v1/voice-convert/), भाषण अनुवाद (POST /v1/speech-translate/), अडियो सुधार (POST /v1/audio-enhance/), स्वर हटाउने, जरा विभाजन, कुञ्जी र बीपीएम विश्लेषण, र अधिकको लागि अन्त बिन्दुहरू प्रदान गर्दछ।

के अडियो ढाँचाहरू एपीआईले फर्काउँछ?

एपीआईले पूर्वनिर्धारित रूपमा WAV ढाँचामा अडियो फर्काउँछ । तपाईँले प्रतिक्रिया ढाँचा परिमिति प्रयोग गरेर निर्गत ढाँचा (mp3, wav, ogg, flac) निर्दिष्ट गर्न सक्नुहुन्छ । वेब अनुप्रयोगका लागि MP3 सिफारिस गरिन्छ, अडियो प्रक्रियाका लागि WAV ।

त्यहाँ वास्तविक समय TTS को लागि एक स्ट्रिमिंग API छ?

हो, हाम्रो असङ्कुचित एपीआईले तपाईँले नतिजाका लागि पोल गर्न सक्नुहुने काम UUID फर्काउँछ । कोकोरो जस्तै समर्थित नमूनाहरूका लागि, अडियो सिर्जना निकट-रियल-टाइम अनुप्रयोगहरूका लागि पर्याप्त छिटो छ । प्रक्रिया पूरा हुँदा पोलिंग अन्त बिन्दुले अडियो यूआरएल फर्काउँछ ।

म कसरी एपीआई मा त्रुटिहरू ह्यान्डल गर्छु?

एपीआई JSON त्रुटि सन्देशहरू संग मानक HTTP स्थिति कोडहरू फर्काउँछ (400 खराब अनुरोधहरूको लागि, 401 auth त्रुटिहरूको लागि, 429 दर सीमाहरूको लागि, 500 सर्भर त्रुटिहरूको लागि)। सधैं उचित त्रुटि ह्यान्डलिङको लागि प्रतिक्रियाहरूमा स्थिति कोड र त्रुटि फाँट जाँच गर्नुहोस्।

म व्यावसायिक अनुप्रयोगहरूको लागि एपीआई प्रयोग गर्न सक्छन्?

हो, एपीआई व्यावसायिक प्रयोगका लागि डिजाइन गरिएको छ। एपीआई मार्फत उत्पन्न अडियो तपाईंको उत्पादनहरू, अनुप्रयोगहरू र सेवाहरूमा प्रयोग गर्न सकिन्छ। सबै मोडेलहरू खुला स्रोत लाइसेन्सहरू प्रयोग गर्दछन्, र त्यहाँ उत्पन्न अडियोमा कुनै अतिरिक्त रॉयल्टीहरू छैनन्।

के त्यहाँ स्यान्डबक्स वा परीक्षण वातावरण छ?

नि: शुल्क-तह मोडेल (कोकोरो, पाइपर, VITS, MeloTTS) एक उत्कृष्ट स्यान्डबक्सको रूपमा सेवा गर्दछ - तिनीहरूले शून्य क्यारेक्टरहरू प्रयोग गर्दछन् र सबै खाताहरूमा उपलब्ध छन्। उत्पादन प्रयोगको लागि प्रिमियम मोडेलहरूमा स्विच गर्नु अघि नि: शुल्क मोडेलहरूसँग तपाईंको एकीकरण परीक्षण गर्नुहोस्।

म कसरी एपीआई मार्फत उपलब्ध आवाज र नमूनाहरू सूचीबद्ध गर्छु?

फिल्टरिङ विकल्पहरू (नमूना, भाषा, लिङ्ग) सहित सबै उपलब्ध आवाजहरू सूचीबद्ध गर्न GET /v1/voices प्रयोग गर्नुहोस् । तिनको क्षमताहरू र तह सूचनासँग सबै उपलब्ध TTS नमूनाहरू सूचीबद्ध गर्न GET /v1/models प्रयोग गर्नुहोस् । दुवै अन्त बिन्दुहरूले JSON प्रतिक्रियाहरू फर्काउँछन् ।

बग प्रतिवेदन गर्नुहोस् / विशेषता अनुरोध

API मिसिलीकरण

हाम्रो REST API संग आफ्नो अनुप्रयोगहरूमा TTS.ai एकीकृत गर्नुहोस्। सजिलो माइग्रेसनको लागि OpenAI-संगत ढाँचा।

REST एपीआई OpenAI मिल्दोजुल्दो JSON प्रतिक्रिया स्ट्रिमिङ समर्थन

सारांश

TTS.ai एपीआईले सबै प्लेटफर्म सुविधाहरूमा प्रोग्रामेटिक पहुँच प्रदान गर्दछ: पाठ-देखि-भाषण संश्लेषण, भाषण-देखि-पाठ प्रतिलिपि, आवाज क्लोनिंग, अडियो सुधार, र अधिक। एपीआईले JSON अनुरोध / प्रतिक्रिया शरीरहरूको साथ मानक REST सम्मेलनहरू प्रयोग गर्दछ।

API कुञ्जी

यसबाट तपाईँको एपीआई कुञ्जी प्राप्त गर्नुहोस् खाता सेटिङ. प्रो र उद्यम योजनाहरूमा उपलब्ध।

आधार यूआरएल

https://api.tts.ai/v1/

प्रमाणीकरण गर्नुहोस्

बेयरर टोकन मार्फत Authorization हेडर

प्रमाणीकरण

यसको कुनै निश्चित समय सीमा छैन । बेनामी पोस्टहरू /v1/tts/ कुनै पनि auth बिना काम, सम्म 5,000 प्रति आईपी वर्ण / दिन, हाम्रो मुक्त मोडेल को कुनै पनि प्रयोग (piper, vits, melotts, kokoro). एक नि: शुल्क खाता प्राप्त गर्न साइन अप 15,000 बोनस वर्ण र प्रिमियम मोडेल पहुँच.

प्रिमियम मोडेल र उच्च दर सीमाहरूको लागि, मा एक बोक्ने टोकन संग प्रमाणित Authorization हेडर.

एचटीटीपी हेडर

Authorization: Bearer sk-tts-your-api-key-here

तपाईँको API कुञ्जी गोप्य राख्नुहोस् । यसलाई क्लाइन्ट-साइड कोड, सार्वजनिक भण्डार, वा लगमा साझेदारी नगर्नुहोस् । तपाईँको खाता सेटिङबाट नियमित रूपमा कुञ्जीहरू घुमाउनुहोस् ।

एसडीके

आधिकारिक एसडीकेहरूले TTS.ai लाई तपाईंको अनुप्रयोगमा एकीकृत गर्न सजिलो बनाउँछ। दुवै खुला स्रोत र GitHub मा उपलब्ध छन्।

Python

pip install ttsai

from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")
audio = client.generate(
    text="Hello world!",
    model="kokoro"
)
client.save(audio, "output.wav")

GitHub

JavaScript / Node.js

npm install @ttsainpm/ttsai

const { TTSClient } = require('@ttsainpm/ttsai');

const client = new TTSClient({
  apiKey: 'sk-tts-...'
});
const audio = await client.generate({
  input: 'Hello world!',
  model: 'kokoro'
});
await client.saveToFile(audio, 'output.wav');

GitHub

आधार यूआरएल

आधार यूआरएल: https://api.tts.ai/v1/

सबै अन्त्यबिन्दुहरू यो आधार URL सँग सम्बन्धित छन् । उदाहरणका लागि, TTS अन्त्यबिन्दु:

POST https://api.tts.ai/v1/tts/

दर सीमा

API दर सीमा योजना द्वारा भिन्न हुन्छ:

योजना	अनुरोध/मिनेट	एकै समयमा	अधिकतम पाठ लम्बाइ
स्वतन्त्र	10	2	५०० क्यारेक्टर
सुरुआतकर्ता	30	3	क्यारेक्टर
प्रो	60	5	क्यारेक्टर
उद्यम	300	20	५०,००० क्यारेक्टर

दर सीमा हेडर प्रत्येक प्रतिक्रियामा समावेश गरिएको छ: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

ऋण लागत

सेवा	लागत	एकाइ
TTS (मुफ्त नमूनाहरू: पाइपर, VITS, MeloTTS)	१००० क्यारेक्टर	प्रति १००० क्यारेक्टर
TTS (मानक नमूना: Kokoro, CosyVoice2, आदि)	२,००० क्यारेक्टर	प्रति १००० क्यारेक्टर
TTS (प्रिमियम मोडेल: Tortoise, Chatterbox, आदि)	४,००० क्यारेक्टर	प्रति १००० क्यारेक्टर
पाठमा भाषणName	२,००० क्यारेक्टर	प्रति मिनेट अडियो
आवाज क्लोनिङ	४,००० क्यारेक्टर	प्रति १००० क्यारेक्टर
आवाज परिवर्तनकर्ताName	३ क्रेडिट	प्रति मिनेट अडियो
अडियो सुधार	२,००० क्यारेक्टर	प्रति मिनेट अडियो
स्वर हटाउनुहोस् / आवाज विभाजन गर्नुहोस्	३,०००-४,००० क्यारेक्टर	प्रति मिनेट अडियो
वक्तव्य अनुवाद	५,००० क्यारेक्टर	प्रति मिनेट अडियो
आवाज कुराकानी	३ क्रेडिट	प्रत्येक पालो
कुञ्जी र बीपीएम फेला पार्ने	स्वतन्त्र	--
अडियो रूपान्तरणकर्ताName	स्वतन्त्र	--

पाठ वाचकComment

POST /v1/tts/

पाठलाई बोल्ने अडियोमा रूपान्तरण गर्नुहोस् । अनुरोध गरिएको ढाँचामा अडियो फाइल फर्काउँछ ।

अनुरोध मुख्य भाग

परिमिति	प्रकार	आवश्यक	वर्णन:
model	string	होइन	नमूना आईडी (जस्तै, `kokoro`, `chatterbox`, `piper`) । यदि मेटिएको भएमा, हामीले अनुरोध गरिएको `language` समर्थन गर्ने नमूना स्वचालित रूपमा रोज्छौं — en/ja/zh/ko/fr/de/it/pt/es/hi/ru का लागि `kokoro`, अन्य समर्थित भाषाका लागि `piper` (ar/pl/nl/cs/da/fi/el/hu/tr/uk/vi/etc.) ।
text	string	हो	पाठलाई भाषणमा रूपान्तरण गर्न । प्रति अनुरोध क्याप: ५०० क्यारेक्टर (बेनामी), ५,००० (मुफ्त खाता), १,०००,००० (भुक्तानी गरिएको योजना) । लामो आगतहरू सर्भर-साइडमा स्वत:-चङ्कित हुन्छन् ।
voice	string	हो	आवाज आईडी (उपलब्ध आवाजहरू सूचीबद्ध गर्न `/v1/voices/` प्रयोग गर्नुहोस्)
format	string	होइन	निर्गत ढाँचा: `mp3` (पूर्वनिर्धारित), `wav`, `flac`, `ogg`
speed	float	होइन	बोल्ने गति गुणक । पूर्वनिर्धारित: `1.0` । दायरा: `0.5` देखि `2.0` सम्म
language	string	होइन	भाषा सङ्केत (जस्तै, `en`, `es`) । यदि छोडियो भने स्वत: पत्ता लगाइन्छ ।
instructions	string	होइन	कार्य / वितरण संकेत (≤500 अक्षरहरू)। उदाहरणका लागि < कोड>\
pronunciations	object \| array	होइन	प्रति-अनुरोध उच्चारण अधिलेखन गर्दछ । या त `{\`
stream	boolean	होइन	स्ट्रिमिङ प्रतिक्रिया सक्षम पार्नुहोस् । पूर्वनिर्धारित: `false`

उदाहरण अनुरोध

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

SSML ट्यागहरू


                    
                        
                            व्याख्या गर्नुहोस् आगत यस रूपमा बोलेको
                        
                        
                            cardinal 1234 one thousand two hundred thirty-four
                            ordinal 21 twenty-first
                            date 1999-12-31 डिसेम्बर एकतीस, उन्नीस उन्नीस- नौ
                            time 14:30 two thirty PM
                            telephone +1-555-867-5309 plus one five five five eight six seven…
                            currency $1,234.56 one thousand two hundred thirty-four dollars and fifty-six cents
                            spell-out NASA N A S A

व्याख्या गर्नुहोस्	आगत	यस रूपमा बोलेको
`cardinal`	`1234`	one thousand two hundred thirty-four
`ordinal`	`21`	twenty-first
`date`	`1999-12-31`	डिसेम्बर एकतीस, उन्नीस उन्नीस- नौ
`time`	`14:30`	two thirty PM
`telephone`	`+1-555-867-5309`	plus one five five five eight six seven…
`currency`	`$1,234.56`	one thousand two hundred thirty-four dollars and fifty-six cents
`spell-out`	`NASA`	N A S A


                मिति ढाँचा पूर्वनिर्धारित mdy अङ्ग्रेजीका लागि र dmy अन्यत्र; format=\ सँग अधिलेखन गर्नुहोस्

                
                    
                        उदाहरण
                        
                    
{
  "model": "kokoro",
  "voice": "af_bella",
  "text": "Your appointment is on <say-as interpret-as=\"date\">2026-04-26</say-as> at <say-as interpret-as=\"time\">14:30</say-as>. Please call <say-as interpret-as=\"telephone\">+1-555-867-5309</say-as> if you need to reschedule."
}
                

                प्रतिक्रिया
                The TTS endpoint queues your request and returns a JSON response with a job UUID. You then poll for the result.

                Step 1: Submit request
                
                    
                        Response (JSON)
                    
{
  "uuid": "77b71db532874ce98e84a69a2d740d4c",
  "job_id": "f21316bb-aefa-480d-8523-701d1e3184ce",
  "status": "queued",
  "credits_used": 11,
  "credits_remaining": 15000
}
                

                Step 2: Poll for result
                
                    GET /v1/speech/results/?uuid=<job_uuid>
                
                Poll this endpoint every 1-2 seconds until status is completed or failed.
                
                    
                        Polling response (completed)
                    
{
  "status": "completed",
  "result_url": "https://api.tts.ai/static/downloads/77b71db5.../output.mp3"
}
                
                
                    
                        Polling response (still processing)
                    
{
  "status": "processing"
}
                

                Step 3: Download audio
                Fetch the result_url from the completed response to download the audio file.

                पूरा उदाहरण
                
                    
                        Python
                        
                    
import requests, time

API_KEY = "sk-tts-your-key"
BASE = "https://api.tts.ai"

# 1. Submit TTS request
resp = requests.post(f"{BASE}/v1/tts/", json={
    "model": "kokoro",
    "text": "Hello from TTS.ai!",
    "voice": "af_bella"
}, headers={"Authorization": f"Bearer {API_KEY}"})
data = resp.json()
uuid = data["uuid"]

# 2. Poll for result
while True:
    result = requests.get(f"{BASE}/v1/speech/results/",
        params={"uuid": uuid}).json()
    if result["status"] == "completed":
        # 3. Download audio
        audio = requests.get(result["result_url"])
        with open("output.mp3", "wb") as f:
            f.write(audio.content)
        break
    elif result["status"] == "failed":
        raise Exception(result.get("error", "Generation failed"))
    time.sleep(1.5)
                

                Streaming alternative: For supported models (Kokoro, MeloTTS), use POST /v1/tts/stream/ for real-time Server-Sent Events (SSE) streaming — no polling needed.



            
            
                पाठमा भाषणName
                
                    POST /v1/stt/
                
                पाठमा अडियो प्रतिलिपि गर्नुहोस् । स्वचालित पत्ता लगाउनेसँग ९९ भाषाहरू समर्थन गर्दछ ।

                अनुरोध मुख्य भाग (multipart/form-data)
                
                    
                        
                            परिमिति प्रकार आवश्यक वर्णन:
                        
                        
                            
                                file
                                file
                                हो
                                अडियो फाइल (MP3, WAV, FLAC, OGG, M4A, MP4, WebM) । अधिकतम १०० मेगाबाइट ।
                            
                            
                                model
                                string
                                होइन
                                STT नमूना: whisper (पूर्वनिर्धारित), faster-whisper, sensevoice
                            
                            
                                language
                                string
                                होइन
                                भाषा कोड । auto स्वचालित पत्ता लगाउनका लागि (पूर्वनिर्धारित) ।
                            
                            
                                timestamps
                                boolean
                                होइन
                                शब्द-स्तर टाइमस्ट्याम्प समावेश गर्नुहोस् । पूर्वनिर्धारित: false
                            
                            
                                diarize
                                boolean
                                होइन
                                वक्ता डायरिजेसन सक्षम पार्नुहोस् । पूर्वनिर्धारित: false
                            
                        
                    
                

                प्रतिक्रिया
                
                    
                        JSON प्रतिक्रिया
                    
{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}
                
            

            
            
                आवाज क्लोनिङ
                
                    POST /v1/tts/clone/
                
                क्लोन गरिएको आवाजमा भाषण सिर्जना गर्नुहोस् । सन्दर्भ अडियो र पाठ अपलोड गर्नुहोस् ।

                अनुरोध मुख्य भाग (multipart/form-data)
                
                    
                        
                            परिमिति प्रकार आवश्यक वर्णन:
                        
                        
                            
                                reference_audio
                                file
                                हो
                                सन्दर्भ आवाज अडियो (१०-३० सेकेन्ड सिफारिस गरिएको) । अधिकतम २० मेगाबाइट ।
                            
                            
                                text
                                string
                                हो
                                क्लोन गरिएको आवाजमा बोल्ने पाठ ।
                            
                            
                                model
                                string
                                होइन
                                क्लोन नमूना: chatterbox (पूर्वनिर्धारित), cosyvoice2, gpt-sovits
                            
                            
                                format
                                string
                                होइन
                                निर्गत ढाँचा: mp3 (पूर्वनिर्धारित), wav, flac
                            
                            
                                language
                                string
                                होइन
                                लक्षित भाषा सङ्केत । चयन गरिएको नमूनाद्वारा समर्थित हुनुपर्छ ।
                            
                        
                    
                

                प्रतिक्रिया
                TTS अन्त्यबिन्दु जस्तै, बाइनरी डेटाको रूपमा अडियो फाइल फर्काउँछ ।
            

            
            
                आवाज परिवर्तनकर्ताName
                
                    POST /v1/voice-convert/
                
                अडियोलाई फरक आवाज जस्तै ध्वनिमा रूपान्तरण गर्नुहोस् । स्रोत अडियो अपलोड गर्नुहोस् र लक्षित आवाज रोज्नुहोस् ।

                अनुरोध मुख्य भाग (multipart/form-data)
                
                    
                        
                            परिमिति प्रकार आवश्यक वर्णन:
                        
                        
                            
                                file
                                file
                                हो
                                स्रोत अडियो फाइल (MP3, WAV, FLAC) । अधिकतम ५० मेगाबाइट ।
                            
                            
                                target_voice
                                string
                                हो
                                यसमा रूपान्तरण गर्न लक्षित आवाज आईडी (उपलब्ध आवाजहरू सूचीबद्ध गर्न /v1/voices/ प्रयोग गर्नुहोस्)
                            
                            
                                model
                                string
                                होइन
                                आवाज रूपान्तरण नमूना: openvoice (पूर्वनिर्धारित), knn-vc
                            
                            
                                format
                                string
                                होइन
                                निर्गत ढाँचा: wav (पूर्वनिर्धारित), mp3, flac
                            
                        
                    
                

                उदाहरण अनुरोध
                
                    
                        cURL
                        
                    
curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav
                

                प्रतिक्रिया
                बाइनरी डेटाको रूपमा रूपान्तरित अडियो फाइल फर्काउँछ ।
            

            
            
                वक्तव्य अनुवाद
                
                    POST /v1/speech-translate/
                
                अर्को भाषामा एक भाषाबाट बोलेको अडियो अनुवाद गर्नुहोस्। एकल कलमा भाषण-देखि-पाठ, अनुवाद, र पाठ-देखि-भाषण संयोजन गर्दछ।

                अनुरोध मुख्य भाग (multipart/form-data)
                
                    
                        
                            परिमिति प्रकार आवश्यक वर्णन:
                        
                        
                            
                                file
                                file
                                हो
                                मौलिक भाषामा स्रोत अडियो फाइल । अधिकतम १०० मेगाबाइट ।
                            
                            
                                target_language
                                string
                                हो
                                लक्षित भाषा कोड (जस्तै, es, fr, de, ja)
                            
                            
                                voice
                                string
                                होइन
                                अनुवादित निर्गतका लागि आवाज । यदि छोडियो भने स्वत: चयन गरिन्छ ।
                            
                            
                                preserve_voice
                                boolean
                                होइन
                                मौलिक वक्ताको आवाज विशेषताहरू बचत गर्ने प्रयास गर्नुहोस् । पूर्वनिर्धारित: false
                            
                        
                    
                

                प्रतिक्रिया
                
                    JSON प्रतिक्रिया
{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}
                
            

            
            
                बोल्नलाई बोल्नुहोस्
                
                    POST /v1/speech-to-speech/
                
                सामग्री राख्दा भाषण शैली, भावना, वा वितरण परिवर्तन गर्नुहोस् । टोन, पेसिङ र अभिव्यक्ति समायोजन गर्न उपयोगी ।

                अनुरोध मुख्य भाग (multipart/form-data)
                
                    
                        
                            परिमिति प्रकार आवश्यक वर्णन:
                        
                        
                            
                                file
                                file
                                हो
                                स्रोत भाषण अडियो फाइल । अधिकतम ५० मेगाबाइट ।
                            
                            
                                voice
                                string
                                हो
                                निर्गत भाषणका लागि लक्षित आवाज आईडी
                            
                            
                                model
                                string
                                होइन
                                नमूना: openvoice (पूर्वनिर्धारित), chatterbox
                            
                            
                                emotion
                                string
                                होइन
                                लक्षित भावना: neutral, happy, sad, angry, excited
                            
                            
                                speed
                                float
                                होइन
                                गति समायोजन । पूर्वनिर्धारित: 1.0 । दायरा: 0.5 देखि 2.0 सम्म
                            
                        
                    
                

                प्रतिक्रिया
                बाइनरी डेटाको रूपमा रूपान्तरित अडियो फाइल फर्काउँछ ।
            

            
            
                अडियो उपकरणName
                अडियो प्रोसेसिंग अन्त बिन्दुहरू बढावा, स्वर हटाउन, जरा विभाजन, र अधिक लागि।

                
                
                    
                        
                            POST /v1/audio/enhance/
                        
                        अडियो गुणस्तर बढाउनुहोस्: denoise, स्पष्टता सुधार, सुपर रिजोल्युसन।
                        
                            
                                
                                    file file बढाउनका लागि अडियो फाइल
                                    denoise boolean ध्वनि हटाउने सक्षम पार्नुहोस् (पूर्वनिर्धारित: ठीक)
                                    enhance_clarity boolean भाषण स्पष्टता बढाउनुहोस् (पूर्वनिर्धारित: सही)
                                    super_resolution boolean अडियो गुणस्तर बढाउनुहोस् (पूर्वनिर्धारित: गलत)
                                    strength integer १-३ (लामो, मध्यम, सानो) । पूर्वनिर्धारित: २
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/separate/
                        
                        यसले वायुमण्डलमा रहेका हानिकारक तत्वहरू (विषाक्त पदार्थहरू)लाई बाहिर निकाल्छ।
                        
                            
                                
                                    file file विभाजन गर्नका लागि अडियो फाइल
                                    model string demucs (पूर्वनिर्धारित) वा spleeter
                                    stems integer स्टेमहरूको सङ्ख्या: २, ४, ५, वा ६ (पूर्वनिर्धारित: २)
                                    format string निर्गत ढाँचा: wav, mp3, flac
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/dereverb/
                        
                        अडियो रेकर्डिङबाट प्रतिध्वनि र प्रतिध्वनि हटाउनुहोस् ।
                        
                            
                                
                                    file file प्रक्रिया गर्नका लागि अडियो फाइल
                                    type string echo or reverb (default: both)
                                    intensity integer 1-5 (default: 3)
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/analyze/
                            स्वतन्त्र
                        
                        कुञ्जी, BPM, र समय हस्ताक्षर पत्ता लगाउन अडियो विश्लेषण गर्नुहोस् ।
                        
                            
                                
                                    file file विश्लेषण गर्नका लागि अडियो फाइल
                                
                            
                        
                        
                            प्रतिक्रिया
{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/convert/
                            स्वतन्त्र
                        
                        ढाँचा बीच अडियो रूपान्तरण गर्नुहोस् ।
                        
                            
                                
                                    file file रूपान्तरण गर्नका लागि अडियो फाइल
                                    format string लक्ष्य ढाँचा: mp3, wav, flac, ogg, m4a, aac
                                    bitrate integer केबीपीएसमा निर्गत बिटरेट: ६४, १२८, १९२, २५६, ३२०
                                    sample_rate integer नमूना दर: 22050, 44100, 48000
                                    channels string mono वा stereo
                                
                            
                        
                    
                
            

            
            
                आवाज कुराकानी
                
                    POST /v1/voice-chat/
                
                अडियो वा पाठ पठाउनुहोस् र सिन्थेसाइज गरिएको भाषणसँग एआई प्रतिक्रिया प्राप्त गर्नुहोस्।

                अनुरोध मुख्य भाग (multipart/form-data वा JSON)
                
                    
                        
                            परिमिति प्रकार आवश्यक वर्णन:
                        
                        
                            
                                audio
                                file
                                होइन*
                                अडियो आगत (या त audio वा text आवश्यक हुन्छ)
                            
                            
                                text
                                string
                                होइन*
                                पाठ आगत (या त audio वा text आवश्यक हुन्छ)
                            
                            
                                voice
                                string
                                होइन
                                AI प्रतिक्रियाका लागि आवाज । पूर्वनिर्धारित: af_bella
                            
                            
                                tts_model
                                string
                                होइन
                                प्रतिक्रियाका लागि TTS नमूना । पूर्वनिर्धारित: kokoro
                            
                            
                                system_prompt
                                string
                                होइन
                                AI का लागि अनुकूल प्रणाली प्रिमियम
                            
                            
                                conversation_id
                                string
                                होइन
                                अवस्थित वार्तालाप जारी राख्नुहोस्
                            
                        
                    
                

                प्रतिक्रिया
                
                    JSON प्रतिक्रिया
{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}
                
            

            
            
                TTS ब्याच
                
                    POST /v1/tts/batch/
                
                समानान्तर TTS सिर्जनाका लागि बहुविध पाठहरू पेश गर्नुहोस् । सबै काम पूरा हुँदा वैकल्पिक रूपमा वेबहुक कलब्याक प्राप्त गर्नुहोस् ।

                परिमिति
                
                    परिमिति प्रकार: वर्णन
                    
                        texts array Array of objects: {text, model, voice}. Max 50 items.
                        webhook_url string ब्याच समाप्त हुँदा POST परिणामका लागि वैकल्पिक URL ।
                    
                

                प्रतिक्रिया
                
                    JSON प्रतिक्रिया
{
  "batch_id": "abc123",
  "total": 3,
  "completed": 0,
  "status": "processing"
}
                
                GET /v1/tts/batch/result/?batch_id=abc123 संग जनमत प्रगति
            

            
            
                आवाज सम्मिलन
                
                    POST /v1/voice-embed/
                
                सन्दर्भ अडियोबाट एउटा आवाज सम्मिलन पूर्व-गणना गर्नुहोस् । निकट-तुरुन्तै सिर्जनाका लागि पछिल्लो आवाज क्लोनिङ अनुरोधमा फर्किएको embed_id प्रयोग गर्नुहोस् ।

                परिमिति
                
                    परिमिति प्रकार: वर्णन
                    
                        file file Reference audio file (WAV, MP3, FLAC).
                        model string Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.
                    
                

                प्रतिक्रिया
                
                    JSON प्रतिक्रिया
{
  "embed_id": "emb_abc123",
  "model": "chatterbox",
  "duration_ms": 450
}
                
            

            
            
                स्वास्थ्य जाँच
                
                    GET /v1/health/
                
                GPU सर्भर स्थिति, लोड गरिएको नमूना, र लाम साइज जाँच गर्नुहोस् । प्रमाणीकरण आवश्यक छैन । ३० सेकेन्डका लागि क्यास गरिएको ।

                प्रतिक्रिया
                
                    JSON प्रतिक्रिया
{
  "status": "online",
  "latency_ms": 45,
  "queue_size": 3,
  "models_loaded": ["kokoro", "chatterbox", "cosyvoice2"]
}
                
            

            
            
                नमूना सूची
                
                    GET /v1/models/
                
                तिनीहरूको क्षमतासँग सबै उपलब्ध नमूनाहरूको सूची फर्काउँछ ।

                प्रतिक्रिया
                
                    JSON प्रतिक्रिया
{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}
                
            

            
            
                आवाजहरू सूचीबद्ध गर्नुहोस्
                
                    GET /v1/voices/
                
                सबै उपलब्ध आवाजको सूची फर्काउँछ, वैकल्पिक रूपमा नमूना वा भाषाद्वारा फिल्टर गरिएको ।

                क्वेरी परिमिति
                
                    
                        
                            परिमिति प्रकार वर्णन:
                        
                        
                            
                                model
                                string
                                नमूना आईडीद्वारा फिल्टर गर्नुहोस् (जस्तै, kokoro)
                            
                            
                                language
                                string
                                भाषा कोडद्वारा फिल्टर गर्नुहोस् (जस्तै, en)
                            
                            
                                gender
                                string
                                लिङ्गद्वारा फिल्टर गर्नुहोस्: male, female, neutral
                            
                        
                    
                

                प्रतिक्रिया
                
                    JSON प्रतिक्रिया
{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}
                
            

            
            
                उपशीर्षक (SRT / VTT) नयाँ
                
                    GET /v1/speech/subtitles/?uuid=<job_uuid>&format=srt|vtt&download=1
                
                कुनै पनि पूरा भएको TTS कामका लागि समक्रमण उपशीर्षकहरू उत्पन्न गर्नुहोस् । अडियोमा Whisper पङ्क्तिबद्धता चलाउँछ र SRT वा WebVTT फर्काउँछ । परिणाम डिस्कमा क्यास गरिएको छ त्यसैले उही uuid का लागि दोस्रो कल डिस्क पढाइ हो ।
                क्वेरी परिमिति
                
                    
                        परिमिति आवश्यक वर्णन:
                        
                            uuid हो /v1/tts/ वा /v1/voice-clone/ द्वारा फर्काइएको काम UUID ।
                            format होइन srt (पूर्वनिर्धारित) वा vtt ।
                            download होइन 1 Content-Disposition: attachment पठाउन  ताकि ब्राउजरले प्रदर्शनको सट्टा बचत गर्दछ ।
                            language होइन पङ्क्तिबद्धता नमूना (यदि छोडियो भने स्वत: पत्ता लगाइएको) को लागि सङ्केत ।
                        
                    
                
                
                    cURL
curl "https://api.tts.ai/v1/speech/subtitles/?uuid=$UUID&format=srt&download=1" -o subtitles.srt
                
            

            
            
                उच्चारण शब्दकोश नयाँ
                
                    GET
                    POST
                    DELETE
                    /api/v1/pronunciations/
                
                TTS इन्जिनलाई कसरी निर्दिष्ट शब्दहरू उच्चारण गर्ने भनेर भन्नुहोस् । बचत गरिएको प्रविष्टिहरू तपाईँले गर्ने हरेक TTS अनुरोधमा स्वत: लागू हुन्छ । प्रति खाता २०० प्रविष्टि सीमा ।
                अनुरोध मुख्य भाग (POST)
                
                    
                        परिमिति प्रकार वर्णन:
                        
                            word string अधिलेखन गर्न शब्द (जस्तै GIF, Anthropic) । शब्द-सीमा मिल्यो ।
                            replacement string यसमा यसको प्रयोग निम्न प्रकारले हुन्छ: jiff ann THROP ick।
                            language string वैकल्पिक ISO कोड । खाली = सबै भाषामा लागू हुन्छ ।
                            case_sensitive boolean पूर्वनिर्धारित false । true मा केस ठीकसँग मिलाउनुहोस् ।
                        
                    
                
                
                    cURL
# Save an entry
curl -X POST https://tts.ai/api/v1/pronunciations/ \
  -H "Authorization: Bearer sk-tts-..." \
  -H "Content-Type: application/json" \
  -d '{"word": "GIF", "replacement": "jiff"}'

# List your entries
curl https://tts.ai/api/v1/pronunciations/ -H "Authorization: Bearer sk-tts-..."

# Delete entry by id
curl -X DELETE "https://tts.ai/api/v1/pronunciations/?id=42" -H "Authorization: Bearer sk-tts-..."
                
                तपाईँले तिनीहरूलाई बचत नगरी प्रति-अनुरोध अधिलेखन पास गर्न सक्नुहुन्छ - कुनै पनि /v1/tts/ कलमा pronunciations वस्तु वा एरेको रूपमा समावेश गर्नुहोस् (TTS अन्त बिन्दु params हेर्नुहोस्)।
            

            
            
                लेख वाचक नयाँ
                कुनै पनि लेख पृष्ठमा एकल

परिमिति	प्रकार	आवश्यक	वर्णन:
file	file	हो	अडियो फाइल (MP3, WAV, FLAC, OGG, M4A, MP4, WebM) । अधिकतम १०० मेगाबाइट ।
model	string	होइन	STT नमूना: `whisper` (पूर्वनिर्धारित), `faster-whisper`, `sensevoice`
language	string	होइन	भाषा कोड । `auto` स्वचालित पत्ता लगाउनका लागि (पूर्वनिर्धारित) ।
timestamps	boolean	होइन	शब्द-स्तर टाइमस्ट्याम्प समावेश गर्नुहोस् । पूर्वनिर्धारित: `false`
diarize	boolean	होइन	वक्ता डायरिजेसन सक्षम पार्नुहोस् । पूर्वनिर्धारित: `false`

परिमिति	प्रकार	आवश्यक	वर्णन:
reference_audio	file	हो	सन्दर्भ आवाज अडियो (१०-३० सेकेन्ड सिफारिस गरिएको) । अधिकतम २० मेगाबाइट ।
text	string	हो	क्लोन गरिएको आवाजमा बोल्ने पाठ ।
model	string	होइन	क्लोन नमूना: `chatterbox` (पूर्वनिर्धारित), `cosyvoice2`, `gpt-sovits`
format	string	होइन	निर्गत ढाँचा: `mp3` (पूर्वनिर्धारित), `wav`, `flac`
language	string	होइन	लक्षित भाषा सङ्केत । चयन गरिएको नमूनाद्वारा समर्थित हुनुपर्छ ।

file file	बढाउनका लागि अडियो फाइल
denoise boolean	ध्वनि हटाउने सक्षम पार्नुहोस् (पूर्वनिर्धारित: ठीक)
enhance_clarity boolean	भाषण स्पष्टता बढाउनुहोस् (पूर्वनिर्धारित: सही)
super_resolution boolean	अडियो गुणस्तर बढाउनुहोस् (पूर्वनिर्धारित: गलत)
strength integer	१-३ (लामो, मध्यम, सानो) । पूर्वनिर्धारित: २

file file	विभाजन गर्नका लागि अडियो फाइल
model string	`demucs` (पूर्वनिर्धारित) वा `spleeter`
stems integer	स्टेमहरूको सङ्ख्या: २, ४, ५, वा ६ (पूर्वनिर्धारित: २)
format string	निर्गत ढाँचा: `wav`, `mp3`, `flac`

file file	प्रक्रिया गर्नका लागि अडियो फाइल
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

file file	रूपान्तरण गर्नका लागि अडियो फाइल
format string	लक्ष्य ढाँचा: `mp3`, `wav`, `flac`, `ogg`, `m4a`, `aac`
bitrate integer	केबीपीएसमा निर्गत बिटरेट: ६४, १२८, १९२, २५६, ३२०
sample_rate integer	नमूना दर: 22050, 44100, 48000
channels string	`mono` वा `stereo`

परिमिति	प्रकार	आवश्यक	वर्णन:
audio	file	होइन*	अडियो आगत (या त `audio` वा `text` आवश्यक हुन्छ)
text	string	होइन*	पाठ आगत (या त `audio` वा `text` आवश्यक हुन्छ)
voice	string	होइन	AI प्रतिक्रियाका लागि आवाज । पूर्वनिर्धारित: `af_bella`
tts_model	string	होइन	प्रतिक्रियाका लागि TTS नमूना । पूर्वनिर्धारित: `kokoro`
system_prompt	string	होइन	AI का लागि अनुकूल प्रणाली प्रिमियम
conversation_id	string	होइन	अवस्थित वार्तालाप जारी राख्नुहोस्

परिमिति	प्रकार:	वर्णन
texts	array	Array of objects: `{text, model, voice}`. Max 50 items.
webhook_url	string	ब्याच समाप्त हुँदा POST परिणामका लागि वैकल्पिक URL ।

परिमिति	प्रकार:	वर्णन
file	file	Reference audio file (WAV, MP3, FLAC).
model	string	Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.

परिमिति	प्रकार	वर्णन:
model	string	नमूना आईडीद्वारा फिल्टर गर्नुहोस् (जस्तै, `kokoro`)
language	string	भाषा कोडद्वारा फिल्टर गर्नुहोस् (जस्तै, `en`)
gender	string	लिङ्गद्वारा फिल्टर गर्नुहोस्: `male`, `female`, `neutral`

परिमिति	आवश्यक	वर्णन:
uuid	हो	/v1/tts/ वा /v1/voice-clone/ द्वारा फर्काइएको काम UUID ।
format	होइन	`srt` (पूर्वनिर्धारित) वा `vtt` ।
download	होइन	`1` `Content-Disposition: attachment` पठाउन `ताकि ब्राउजरले प्रदर्शनको सट्टा बचत गर्दछ ।`
language	होइन	पङ्क्तिबद्धता नमूना (यदि छोडियो भने स्वत: पत्ता लगाइएको) को लागि सङ्केत ।

परिमिति	प्रकार	वर्णन:
word	string	अधिलेखन गर्न शब्द (जस्तै `GIF`, `Anthropic`) । शब्द-सीमा मिल्यो ।
replacement	string	यसमा यसको प्रयोग निम्न प्रकारले हुन्छ: `jiff` `ann THROP ick`।
language	string	वैकल्पिक ISO कोड । खाली = सबै भाषामा लागू हुन्छ ।
case_sensitive	boolean	पूर्वनिर्धारित `false` । `true` मा केस ठीकसँग मिलाउनुहोस् ।