আমি কিভাবে একটি API কী পেতে পারি?

একটি বিনামূল্যে TTS.ai অ্যাকাউন্টের জন্য নিবন্ধন করুন, তারপর আপনার অ্যাকাউন্টের ড্যাশবোর্ডে যান এবং "এপিআই কী তৈরি করুন" ক্লিক করুন। আপনার কী sk-tts- দ্বারা উপসর্গযুক্ত হবে এবং তাৎক্ষণিকভাবে ব্যবহার করা যাবে। বিনামূল্যে অ্যাকাউন্ট শুরু করার জন্য ৫০ ক্রেডিট পাবেন।

এপিআই কি ওপেনএআই'র ফরম্যাটের সাথে সামঞ্জস্যপূর্ণ?

হ্যাঁ, আমাদের API OpenAI-র সাথে সামঞ্জস্যপূর্ণ অনুরোধ এবং প্রতিক্রিয়া ফরম্যাট অনুসরণ করে। যদি আপনার বর্তমান কোড OpenAI-র TTS API ব্যবহার করে, তাহলে আপনি TTS.ai-তে পরিবর্তিত করতে পারেন কম কোড পরিবর্তনের সাথে মূল ইউআরএল এবং API কী পরিবর্তন করে।

কোন প্রোগ্রামিং ভাষা সমর্থিত?

REST API যে কোন ভাষার সাথে কাজ করে যা HTTP অনুরোধ করতে পারে। আমরা পাইথন, জাভাস্ক্রিপ্ট (Node.js এবং ব্রাউজার), cURL, এবং আরও অনেক কিছুর কোড উদাহরণ প্রদান করি। HTTP ক্লায়েন্ট লাইব্রেরী সহ যে কোন ভাষা (Go, Ruby, Java, C#, PHP, ইত্যাদি) API ব্যবহার করতে পারে।

এপিআই-এর হারের সীমা কী?

বিনামূল্যে অ্যাকাউন্ট প্রতি ঘন্টায় ৩টি অনুরোধের জন্য সীমাবদ্ধ। আপনার সাবস্ক্রিপশন স্তরের উপর ভিত্তি করে পরিশোধিত পরিকল্পনার উচ্চতর সীমা রয়েছে: স্টার্টার (৬০/ঘন্টা), পেশাদার (৩০০/ঘন্টা), এন্টারপ্রাইজ (অসীম)। প্রতিটি API প্রতিক্রিয়ায় রেট লিমিট হেডার অন্তর্ভুক্ত করা হয়।

এপিআই-এর মূল্য নির্ধারণ কিভাবে হয়?

মডেল স্তর এবং টেক্সটের দৈর্ঘ্যের উপর ভিত্তি করে API ব্যবহার অক্ষর ব্যবহার করে। ফ্রি মডেল ০ অক্ষর ব্যবহার করে, স্ট্যান্ডার্ড মডেল ২x অক্ষর ব্যবহার করে, এবং প্রিমিয়াম মডেল ৪x অক্ষর ব্যবহার করে। অক্ষরগুলি সমস্ত পরিশোধিত পরিকল্পনার অন্তর্ভুক্ত এবং অক্ষর প্যাক হিসাবে পৃথকভাবে কিনতে পারে।

কি ধরনের এন্ডপয়েন্ট পাওয়া যাবে?

এপিআই টেক্সট-টু-স্পিচ (POST /v1/tts/), স্পীচ-টু-স্পিচ (POST /v1/transcribe/), ভয়েস ক্লোনিং (POST /v1/voice-clone/), ভয়েস কনভার্ট (POST /v1/voice-convert/), ভয়েস ট্রান্সলেট (POST /v1/speech-translate/), অডিও উন্নয়ন (POST /v1/audio-enhance/), ভয়েস অপসারণ, স্টেম স্প্লিটিং, কী এবং বিপিএম বিশ্লেষণ, এবং আরো অনেক কিছুর জন্য এন্ডপয়েন্ট প্রদান করে।

API কোন অডিও ফরম্যাট ফিরিয়ে দেবে?

ডিফল্টভাবে এই API অডিওকে WAV ফরম্যাটে ফিরিয়ে দেয়। আপনি response_format পরামিতি ব্যবহার করে আউটপুট ফরম্যাট (mp3, wav, ogg, flac) নির্ধারণ করতে পারেন। ওয়েব অ্যাপ্লিকেশনের জন্য MP3 সুপারিশ করা হয়, আরো অডিও প্রক্রিয়াকরণের জন্য WAV।

বাস্তব সময়ের TTS এর জন্য কোন স্ট্রিমিং API আছে কি?

হ্যাঁ, আমাদের async API একটি কাজ UUID ফিরিয়ে দেয় যা আপনি ফলাফল পোল করতে পারেন। সমর্থিত মডেলের জন্য যেমন Kokoro, অডিও উৎপাদন প্রায়-রিয়েল-টাইম অ্যাপ্লিকেশনের জন্য যথেষ্ট দ্রুত। প্রসেসিং শেষ হলে পোলিং এনডপয়েন্ট অডিও URL ফিরিয়ে দেয়।

API-তে ত্রুটি কিভাবে হ্যান্ডেল করা যায়?

API JSON ত্রুটি বার্তা সহযোগে প্রমিত HTTP স্ট্যাটাস কোড (ভাল অনুরোধের জন্য ৪০০, অনুমোদন ত্রুটি জন্য ৪০১, হার সীমার জন্য ৪২৯, সার্ভার ত্রুটি জন্য ৫০০) ফিরিয়ে দেয়। সঠিক ত্রুটি ব্যবস্থাপনার জন্য প্রতিক্রিয়াসমূহে সর্বদা স্ট্যাটাস কোড এবং ত্রুটি ক্ষেত্র পরীক্ষা করুন।

আমি কি বাণিজ্যিক অ্যাপ্লিকেশনের জন্য এপিআই ব্যবহার করতে পারি?

হ্যাঁ, API বাণিজ্যিক ব্যবহারের জন্য ডিজাইন করা হয়েছে। API-র মাধ্যমে উত্পাদিত অডিও আপনার পণ্য, অ্যাপ্লিকেশন এবং পরিষেবাগুলিতে ব্যবহার করা যেতে পারে। সব মডেল উন্মুক্ত-সোর্স লাইসেন্স ব্যবহার করে, এবং উত্পাদিত অডিওতে অতিরিক্ত কোন রাজস্ব নেই।

কোন স্যান্ডবক্স বা টেস্টিং এনভায়রনমেন্ট আছে কি?

ফ্রি-টিয়ার মডেল (Kokoro, Piper, VITS, MeloTTS) একটি চমৎকার স্যান্ডবক্স হিসেবে কাজ করে — তারা শূন্য অক্ষর ব্যবহার করে এবং সব অ্যাকাউন্টে উপলব্ধ। উৎপাদন ব্যবহারের জন্য প্রাইম মডেলে পরিবর্তন করার আগে ফ্রি মডেলগুলির সাথে আপনার সংযোগ পরীক্ষা করুন।

আমি কিভাবে API-র মাধ্যমে উপলব্ধ কণ্ঠস্বর এবং মডেল তালিকাভুক্ত করব?

পরিশোধক অপশন (মডেল, ভাষা, লিঙ্গ) সহ সমস্ত উপলব্ধ কন্ঠের তালিকা প্রদর্শনের জন্য GET /v1/voices ব্যবহার করুন। সমস্ত উপলব্ধ TTS মডেল এবং তাদের ক্ষমতা ও স্তরের তথ্যের তালিকা প্রদর্শনের জন্য GET /v1/models ব্যবহার করুন। উভয় শেষ বিন্দু JSON প্রতিক্রিয়া প্রদান করে।

বাগ / বৈশিষ্ট্য অনুরোধ প্রতিবেদন করো

API ডকুমেন্টেশন

আমাদের REST API এর সাথে আপনার অ্যাপ্লিকেশনে TTS.ai একীভূত করুন। সহজে মাইগ্রেশনের জন্য OpenAI-সমর্থিত ফরম্যাট।

REST API OpenAI সমর্থিত JSON প্রতিক্রিয়া স্ট্রিমিং সমর্থন

সারসংক্ষেপ

TTS.ai API সকল প্ল্যাটফর্ম বৈশিষ্ট্যসমূহের জন্য প্রোগ্রামিং অ্যাক্সেস প্রদান করে: টেক্সট-টু-স্পীচ সংশ্লেষণ, স্পীচ-টু-টেক্সট ট্রান্সক্রিপশন, ভয়েস ক্লোনিং, অডিও উন্নতি, এবং আরো। API JSON অনুরোধ/প্রতিক্রিয়া দেহের সাথে মানসম্মত REST কনভেনশন ব্যবহার করে।

API কী

এখানে থেকে আপনার API কী প্রাপ্ত করুন অ্যাকাউন্ট সেটিংস. প্রো এবং এন্টারপ্রাইজ প্ল্যানে উপলব্ধ।

ভিত্তি ইউ- আর- এল

https://api.tts.ai/v1/

অনুমোদন

বিয়ারার টোকেন Authorization শীর্ষচরণ

অনুমোদন

মুক্ত স্তর - কোন কী প্রয়োজন নেই। বেনামী পোস্ট /v1/tts/ কোন প্রমাণ ছাড়া কাজ করুন, প্রতি আইপিতে ৫,০০০ অক্ষর/দিন পর্যন্ত, আমাদের যে কোন ফ্রি মডেল ব্যবহার করে (piper, vits, melotts, kokoro). ১৫,০০০ বোনাস চরিত্র এবং প্রিমিয়াম মডেল ব্যবহারের জন্য একটি বিনামূল্যে অ্যাকাউন্টের জন্য নিবন্ধন করুন।

প্রাইম মডেল এবং উচ্চতর হার সীমার জন্য, প্রমাণীকরণ একটি বহনকারী টোকেন সঙ্গে Authorization শীর্ষচরণ.

HTTP হেডার

Authorization: Bearer sk-tts-your-api-key-here

আপনার API কী গোপন রাখুন। ক্লায়েন্ট-সাইড কোড, পাবলিক রিপোজিটরি অথবা লগ-এ এটি শেয়ার করবেন না। আপনার অ্যাকাউন্টের বৈশিষ্ট্য থেকে নিয়মিতভাবে কী পাল্টান।

এস- ডি- কে

সরকারি SDKs আপনার অ্যাপ্লিকেশনে TTS.ai একীভূত করতে সহজ করে তোলে। উভয়ই উন্মুক্ত উৎস এবং GitHub এ উপলব্ধ।

Python

pip install ttsai

from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")
audio = client.generate(
    text="Hello world!",
    model="kokoro"
)
client.save(audio, "output.wav")

GitHub

JavaScript / Node.js

npm install @ttsainpm/ttsai

const { TTSClient } = require('@ttsainpm/ttsai');

const client = new TTSClient({
  apiKey: 'sk-tts-...'
});
const audio = await client.generate({
  input: 'Hello world!',
  model: 'kokoro'
});
await client.saveToFile(audio, 'output.wav');

GitHub

ভিত্তি ইউ- আর- এল

ভিত্তি ইউ- আর- এল: https://api.tts.ai/v1/

সব এনড- বিন্দু এই মৌলিক ইউ- আর- এল- এর সাথে সম্পর্কিত। উদাহরণস্বরূপ, TTS এনড- বিন্দু হল:

POST https://api.tts.ai/v1/tts/

হারের সীমা

API হার সীমা পরিকল্পনা অনুযায়ী পরিবর্তিত হয়:

প্ল্যান	অনুরোধ/মিনিট	একই সময়ে	টেক্সটের সর্বোচ্চ দৈর্ঘ্য
মুক্ত	10	2	৫০০ অক্ষর
স্টার্টার	30	3	১,০০০,০০০ অক্ষর
প্রফেশনাল	60	5	১,০০০,০০০ অক্ষর
এন্টারপ্রাইজ	300	20	৫০,০০০ অক্ষর

প্রতিটি উত্তরে রেট লিমিট হেডার অন্তর্ভুক্ত করা হবে: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

ক্রেডিট খরচ

সার্ভিস	খরচ	একক
TTS (মুক্ত মডেল: পাইপার, VITS, MeloTTS)	১,০০০ অক্ষর	প্রতি ১০০০ অক্ষর
TTS (প্রমিত মডেল: Kokoro, CosyVoice ২, ইত্যাদি)	২,০০০ অক্ষর	প্রতি ১০০০ অক্ষর
TTS (প্রিমিয়াম মডেল: Tortoise, Chatterbox, ইত্যাদি)	৪,০০০ অক্ষর	প্রতি ১০০০ অক্ষর
বক্তৃতা থেকে লেখাName	২,০০০ অক্ষর	অডিও
ভয়েস ক্লোন	৪,০০০ অক্ষর	প্রতি ১০০০ অক্ষর
শব্দ পরিবর্তকName	৩টি ক্রেডিট	অডিও
অডিও উন্নতি	২,০০০ অক্ষর	অডিও
ভয়েসেল অপসারণ / স্টেম বিভাজন	৩,০০০-৪,০০০ অক্ষর	অডিও
ভাষণ অনুবাদName	৫,০০০ অক্ষর	অডিও
ভয়েস আড্ডা	৩টি ক্রেডিট	প্রতি পালা
কী (key) BPM অনুসন্ধানকারী	মুক্ত	--
অডিও রূপান্তরকারী	মুক্ত	--

টেক্সট- থেকে- কথাName

POST /v1/tts/

টেক্সটকে বক্তৃতার অডিওতে রূপান্তর করে । অনুরোধ করা ফরম্যাটে অডিও ফাইল ফিরিয়ে দেয় ।

অনুরোধের মূল অংশ

প্যারামিটার	ধরন	আবশ্যক	বর্ণনা
model	string	না	মডেল আইডি (যেমন, `kokoro`, `chatterbox`, `piper`)। যদি অপ্রয়োজনীয় হয়, তাহলে আমরা স্বয়ংক্রিয়ভাবে একটি মডেল বেছে নেব যা অনুরোধ করা `language` সমর্থন করে - en/ja/zh/ko/fr/de/it/pt/es/hi/ru-এর জন্য `kokoro`, অন্যান্য সমর্থিত ভাষার জন্য `piper` (ar/pl/nl/cs/da/fi/el/hu/tr/uk/vi/etc.)।
text	string	হ্যাঁ	যে টেক্সটটিকে কথায় রূপান্তর করা হবে। প্রতিটি অনুরোধের সর্বোচ্চ সংখ্যা: ৫০০ অক্ষর (অজ্ঞাত), ৫,০০০ (মুক্ত অ্যাকাউন্ট), ১,০০,০০০ (পেইড প্ল্যান)। সার্ভার-পাশে দীর্ঘ ইনপুট স্বয়ংক্রিয়ভাবে টুকরো করা হবে।
voice	string	হ্যাঁ	ভয়েস ID (প্রয়োজনীয় ভয়েস তালিকাভুক্ত করতে `/v1/voices/` ব্যবহার করুন)
format	string	না	আউটপুট ফরম্যাট: `mp3` (ডিফল্ট), `wav`, `flac`, `ogg`
speed	float	না	কথা বলার গতি বহুগুণক। ডিফল্ট: `১.০`। পরিসীমা: `০.৫` থেকে `২.০`
language	string	না	ভাষার কোড (যেমন, `en`, `es`)। অনুপস্থিত থাকলে স্বয়ংক্রিয়ভাবে সনাক্ত করা হবে।
instructions	string	না	কাজ/প্রদান চিহ্ন (≤৫০০ অক্ষর)। উদাহরণস্বরূপ `\`
pronunciations	object \| array	না	প্রতি-আবেদন উচ্চারণ অগ্রাহ্য করে। অথবা `{\`
stream	boolean	না	স্ট্রিমিং প্রতিক্রিয়া সক্রিয় করা হবে। ডিফল্ট: `false`

উদাহরণ অনুরোধ

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

SSML ট্যাগ


                    
                        
                            ব্যাখ্যা করো ইনপুট এই নামে বর্ণনা করা হয়েছে
                        
                        
                            cardinal 1234 one thousand two hundred thirty-four
                            ordinal 21 twenty-first
                            date 1999-12-31 ডিসেম্বর ৩১, ১৯৯৯
                            time 14:30 two thirty PM
                            telephone +1-555-867-5309 plus one five five five eight six seven…
                            currency $1,234.56 one thousand two hundred thirty-four dollars and fifty-six cents
                            spell-out NASA N A S A

ব্যাখ্যা করো	ইনপুট	এই নামে বর্ণনা করা হয়েছে
`cardinal`	`1234`	one thousand two hundred thirty-four
`ordinal`	`21`	twenty-first
`date`	`1999-12-31`	ডিসেম্বর ৩১, ১৯৯৯
`time`	`14:30`	two thirty PM
`telephone`	`+1-555-867-5309`	plus one five five five eight six seven…
`currency`	`$1,234.56`	one thousand two hundred thirty-four dollars and fifty-six cents
`spell-out`	`NASA`	N A S A


                তারিখের ফরম্যাট ডিফল্টভাবে mdy ইংরেজি এবং dmy অন্যত্র; format=\ দ্বারা অগ্রাহ্য করা হবে

                
                    
                        উদাহরণ
                        
                    
{
  "model": "kokoro",
  "voice": "af_bella",
  "text": "Your appointment is on <say-as interpret-as=\"date\">2026-04-26</say-as> at <say-as interpret-as=\"time\">14:30</say-as>. Please call <say-as interpret-as=\"telephone\">+1-555-867-5309</say-as> if you need to reschedule."
}
                

                প্রতিক্রিয়া
                The TTS endpoint queues your request and returns a JSON response with a job UUID. You then poll for the result.

                Step 1: Submit request
                
                    
                        Response (JSON)
                    
{
  "uuid": "77b71db532874ce98e84a69a2d740d4c",
  "job_id": "f21316bb-aefa-480d-8523-701d1e3184ce",
  "status": "queued",
  "credits_used": 11,
  "credits_remaining": 15000
}
                

                Step 2: Poll for result
                
                    GET /v1/speech/results/?uuid=<job_uuid>
                
                Poll this endpoint every 1-2 seconds until status is completed or failed.
                
                    
                        Polling response (completed)
                    
{
  "status": "completed",
  "result_url": "https://api.tts.ai/static/downloads/77b71db5.../output.mp3"
}
                
                
                    
                        Polling response (still processing)
                    
{
  "status": "processing"
}
                

                Step 3: Download audio
                Fetch the result_url from the completed response to download the audio file.

                পূর্ণ উদাহরণ
                
                    
                        Python
                        
                    
import requests, time

API_KEY = "sk-tts-your-key"
BASE = "https://api.tts.ai"

# 1. Submit TTS request
resp = requests.post(f"{BASE}/v1/tts/", json={
    "model": "kokoro",
    "text": "Hello from TTS.ai!",
    "voice": "af_bella"
}, headers={"Authorization": f"Bearer {API_KEY}"})
data = resp.json()
uuid = data["uuid"]

# 2. Poll for result
while True:
    result = requests.get(f"{BASE}/v1/speech/results/",
        params={"uuid": uuid}).json()
    if result["status"] == "completed":
        # 3. Download audio
        audio = requests.get(result["result_url"])
        with open("output.mp3", "wb") as f:
            f.write(audio.content)
        break
    elif result["status"] == "failed":
        raise Exception(result.get("error", "Generation failed"))
    time.sleep(1.5)
                

                Streaming alternative: For supported models (Kokoro, MeloTTS), use POST /v1/tts/stream/ for real-time Server-Sent Events (SSE) streaming — no polling needed.



            
            
                বক্তৃতা থেকে লেখাName
                
                    POST /v1/stt/
                
                অডিও থেকে টেক্সট অনুবাদ করুন। স্বয়ংক্রিয় সনাক্তকরণ সহ ৯৯টি ভাষা সমর্থন করে।

                অনুরোধের মূল অংশ (multipart/form-data)
                
                    
                        
                            প্যারামিটার ধরন আবশ্যক বর্ণনা
                        
                        
                            
                                file
                                file
                                হ্যাঁ
                                অডিও ফাইল (MP3, WAV, FLAC, OGG, M4A, MP4, WebM)। সর্বোচ্চ ১০০ মেগাবাইট।
                            
                            
                                model
                                string
                                না
                                STT মডেল: whisper (ডিফল্ট), faster-whisper, sensevoice
                            
                            
                                language
                                string
                                না
                                ভাষার কোড। স্বয়ংক্রিয় সনাক্তকরণের জন্য auto (ডিফল্ট)।
                            
                            
                                timestamps
                                boolean
                                না
                                শব্দ-স্তরের টাইমস্ট্যাম্প অন্তর্ভুক্ত করা হবে। ডিফল্ট: false
                            
                            
                                diarize
                                boolean
                                না
                                স্পিকার ডায়ারাইজেশন সক্রিয় করুন। ডিফল্ট: false
                            
                        
                    
                

                প্রতিক্রিয়া
                
                    
                        JSON প্রতিক্রিয়া
                    
{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}
                
            

            
            
                ভয়েস ক্লোন
                
                    POST /v1/tts/clone/
                
                ক্লোন করা কন্ঠে বাক্য তৈরি করুন। রেফারেন্স অডিও এবং টেক্সট আপলোড করুন।

                অনুরোধের মূল অংশ (multipart/form-data)
                
                    
                        
                            প্যারামিটার ধরন আবশ্যক বর্ণনা
                        
                        
                            
                                reference_audio
                                file
                                হ্যাঁ
                                রেফারেন্স ভয়েস অডিও (১০-৩০ সেকেন্ড সুপারিশ করা হয়)। সর্বোচ্চ ২০ মেগাবাইট।
                            
                            
                                text
                                string
                                হ্যাঁ
                                ক্লোন করা কন্ঠে বলার জন্য টেক্সট।
                            
                            
                                model
                                string
                                না
                                ক্লোন মডেল: chatterbox (ডিফল্ট), cosyvoice2, gpt-sovits
                            
                            
                                format
                                string
                                না
                                আউটপুট ফরম্যাট: mp3 (ডিফল্ট), wav, flac
                            
                            
                                language
                                string
                                না
                                লক্ষ্য ভাষার কোড । নির্বাচিত মডেল দ্বারা সমর্থিত হওয়া আবশ্যক ।
                            
                        
                    
                

                প্রতিক্রিয়া
                অডিও ফাইলটি বাইনারি তথ্য হিসেবে ফিরিয়ে আনে, TTS-এর শেষ বিন্দুর মতই।
            

            
            
                শব্দ পরিবর্তকName
                
                    POST /v1/voice-convert/
                
                অডিওকে অন্য একটি কন্ঠস্বরের মত শোনার জন্য রূপান্তর করুন। উৎস অডিও আপলোড করুন এবং লক্ষ্যস্বর নির্বাচন করুন।

                অনুরোধের মূল অংশ (multipart/form-data)
                
                    
                        
                            প্যারামিটার ধরন আবশ্যক বর্ণনা
                        
                        
                            
                                file
                                file
                                হ্যাঁ
                                উৎস অডিও ফাইল (MP3, WAV, FLAC)। সর্বাধিক ৫০ মেগাবাইট।
                            
                            
                                target_voice
                                string
                                হ্যাঁ
                                যে ভয়েস আইডিতে রূপান্তর করা হবে (প্রযোজ্য ভয়েস তালিকাভুক্ত করতে /v1/voices/ ব্যবহার করুন)
                            
                            
                                model
                                string
                                না
                                শব্দ রূপান্তর মডেল: openvoice (ডিফল্ট), knn-vc
                            
                            
                                format
                                string
                                না
                                আউটপুট ফরম্যাট: wav (ডিফল্ট), mp3, flac
                            
                        
                    
                

                উদাহরণ অনুরোধ
                
                    
                        cURL
                        
                    
curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav
                

                প্রতিক্রিয়া
                রূপান্তরিত অডিও ফাইলটি বাইনারি তথ্য হিসেবে ফিরিয়ে দেয়।
            

            
            
                ভাষণ অনুবাদName
                
                    POST /v1/speech-translate/
                
                একটি ভাষা থেকে অন্য ভাষায় অডিও অনুবাদ করুন। একটি কলের মধ্যে বাক্যের-থেকে-লেখ্য, অনুবাদ এবং বাক্যের-থেকে-লেখ্য একত্রিত করে।

                অনুরোধের মূল অংশ (multipart/form-data)
                
                    
                        
                            প্যারামিটার ধরন আবশ্যক বর্ণনা
                        
                        
                            
                                file
                                file
                                হ্যাঁ
                                মূল ভাষায় উৎস অডিও ফাইল। সর্বোচ্চ ১০০ মেগাবাইট।
                            
                            
                                target_language
                                string
                                হ্যাঁ
                                লক্ষ্য ভাষার কোড (যেমন, es, fr, de, ja)
                            
                            
                                voice
                                string
                                না
                                অনুবাদকৃত আউটপুট-এর জন্য শব্দ। অগ্রাহ্য করা হলে স্বয়ংক্রিয়ভাবে নির্বাচিত হবে।
                            
                            
                                preserve_voice
                                boolean
                                না
                                মূল স্পিকারের কন্ঠের বৈশিষ্ট্য সংরক্ষণের চেষ্টা করা হবে। ডিফল্ট: false
                            
                        
                    
                

                প্রতিক্রিয়া
                
                    JSON প্রতিক্রিয়া
{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}
                
            

            
            
                বক্তৃতা থেকে বক্তৃতা
                
                    POST /v1/speech-to-speech/
                
                বিষয়বস্তু সংরক্ষণ করে কথা বলার ধরন, আবেগ বা উপস্থাপনা পরিবর্তন করুন। টোন, গতি এবং অভিব্যক্তি সংশোধন করার জন্য ব্যবহারযোগ্য।

                অনুরোধের মূল অংশ (multipart/form-data)
                
                    
                        
                            প্যারামিটার ধরন আবশ্যক বর্ণনা
                        
                        
                            
                                file
                                file
                                হ্যাঁ
                                উৎস বাক্য অডিও ফাইল। সর্বোচ্চ ৫০ মেগাবাইট।
                            
                            
                                voice
                                string
                                হ্যাঁ
                                আউটপুট বাক্যাংশের জন্য লক্ষ্য ভয়েস আইডি
                            
                            
                                model
                                string
                                না
                                মডেল: openvoice (ডিফল্ট), chatterbox
                            
                            
                                emotion
                                string
                                না
                                লক্ষ্য আবেগ: neutral, happy, sad, angry, excited
                            
                            
                                speed
                                float
                                না
                                গতি সংশোধন। ডিফল্ট: ১.০। পরিধি: ০.৫ থেকে ২.০
                            
                        
                    
                

                প্রতিক্রিয়া
                রূপান্তরিত অডিও ফাইলটি বাইনারি তথ্য হিসেবে ফিরিয়ে দেয়।
            

            
            
                অডিও টুলName
                উন্নতির জন্য অডিও প্রসেসিং এন্ডপয়েন্ট, ভয়েস অপসারণ, স্টেম বিভাজন এবং আরও অনেক কিছু।

                
                
                    
                        
                            POST /v1/audio/enhance/
                        
                        অডিও গুণমান উন্নত করুন: ঝামেলা দূর করুন, সুস্পষ্টতা উন্নত করুন, সুপার রেজোলিউশন।
                        
                            
                                
                                    file file উন্নত করার জন্য অডিও ফাইল
                                    denoise boolean নিঃশব্দীকরণ সক্রিয় করো (ডিফল্ট: সত্য)
                                    enhance_clarity boolean বক্তৃতার স্পষ্টতা বাড়াও (ডিফল্ট: সত্য)
                                    super_resolution boolean অডিও গুণমান উন্নত করুন (ডিফল্ট: মিথ্যা)
                                    strength integer ১- ৩ (হালকা, মাঝারি, কঠিন) । ডিফল্ট: ২
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/separate/
                        
                        সঙ্গীতের সঙ্গীত থেকে ভয়েস আলাদা করুন (ভয়েস অপসারণ) অথবা স্টেম- এ বিভক্ত করুন।
                        
                            
                                
                                    file file যে অডিও ফাইলটি আলাদা করা হবে
                                    model string demucs (ডিফল্ট) অথবা spleeter
                                    stems integer স্টেম- এর সংখ্যা: ২, ৪, ৫, অথবা ৬ (ডিফল্ট: ২)
                                    format string আউটপুট ফরম্যাট: wav, mp3, flac
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/dereverb/
                        
                        অডিও রেকর্ড থেকে প্রতিধ্বনি এবং প্রতিধ্বনি অপসারণ করুন।
                        
                            
                                
                                    file file যে অডিও ফাইলটি প্রক্রিয়া করা হবে
                                    type string echo or reverb (default: both)
                                    intensity integer 1-5 (default: 3)
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/analyze/
                            মুক্ত
                        
                        কী, BPM এবং সময় চিহ্ন সনাক্ত করার জন্য অডিও বিশ্লেষণ করুন।
                        
                            
                                
                                    file file বিশ্লেষণের জন্য অডিও ফাইল
                                
                            
                        
                        
                            প্রতিক্রিয়া
{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/convert/
                            মুক্ত
                        
                        ফরম্যাটের মধ্যে অডিও রূপান্তর করুন।
                        
                            
                                
                                    file file যে অডিও ফাইল রূপান্তর করা হবে
                                    format string লক্ষ্য ফরম্যাট: mp3, wav, flac, ogg, m4a, aac
                                    bitrate integer আউটপুট বিটরেট (কেবিপিএস- এ): ৬৪, ১২৮, ১৯২, ২৫৬, ৩২০
                                    sample_rate integer নমুনা হার: 22050, 44100, 48000
                                    channels string mono অথবা stereo
                                
                            
                        
                    
                
            

            
            
                ভয়েস আড্ডা
                
                    POST /v1/voice-chat/
                
                অডিও অথবা টেক্সট পাঠান এবং সংশ্লেষিত বক্তব্যের সাথে একটি AI প্রতিক্রিয়া গ্রহণ করুন।

                অনুরোধের মূল অংশ (multipart/form-data অথবা JSON)
                
                    
                        
                            প্যারামিটার ধরন আবশ্যক বর্ণনা
                        
                        
                            
                                audio
                                file
                                না*
                                অডিও ইনপুট (audio অথবা text আবশ্যক)
                            
                            
                                text
                                string
                                না*
                                টেক্সট ইনপুট (audio অথবা text আবশ্যক)
                            
                            
                                voice
                                string
                                না
                                AI প্রতিক্রিয়ার জন্য শব্দ। ডিফল্ট: af_bella
                            
                            
                                tts_model
                                string
                                না
                                প্রতিক্রিয়ার জন্য TTS মডেল। ডিফল্ট: kokoro
                            
                            
                                system_prompt
                                string
                                না
                                AI-র জন্য স্বনির্বাচিত সিস্টেম প্রম্পট
                            
                            
                                conversation_id
                                string
                                না
                                একটি বিদ্যমান আলাপ চালিয়ে যান
                            
                        
                    
                

                প্রতিক্রিয়া
                
                    JSON প্রতিক্রিয়া
{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}
                
            

            
            
                ব্যাচ TTS
                
                    POST /v1/tts/batch/
                
                সমান্তরাল TTS উৎপাদনের জন্য একাধিক টেক্সট জমা দিন। সকল কাজ সম্পন্ন হলে ইচ্ছাকৃতভাবে একটি ওয়েবহুক কলব্যাক গ্রহণ করুন।

                পরামিতি
                
                    পরামিতি ধরন বর্ণনা
                    
                        texts array Array of objects: {text, model, voice}. Max 50 items.
                        webhook_url string ব্যাচ সম্পন্ন হলে POST ফলাফল প্রদর্শনের জন্য বৈকল্পিক URL।
                    
                

                প্রতিক্রিয়া
                
                    JSON প্রতিক্রিয়া
{
  "batch_id": "abc123",
  "total": 3,
  "completed": 0,
  "status": "processing"
}
                
                GET /v1/tts/batch/result/?batch_id=abc123 এর মাধ্যমে ভোট প্রক্রিয়া
            

            
            
                শব্দের অন্তর্ভুক্তকরণ
                
                    POST /v1/voice-embed/
                
                রেফারেন্স অডিও থেকে একটি ভয়েস ইম্বেডিং পূর্ব-গণনা করা হবে। পরবর্তী ভয়েস ক্লোন অনুরোধের ক্ষেত্রে প্রায়-অবিলম্বে উৎপাদনের জন্য ফিরিয়ে পাওয়া embed_id ব্যবহার করা হবে।

                পরামিতি
                
                    পরামিতি ধরন বর্ণনা
                    
                        file file Reference audio file (WAV, MP3, FLAC).
                        model string Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.
                    
                

                প্রতিক্রিয়া
                
                    JSON প্রতিক্রিয়া
{
  "embed_id": "emb_abc123",
  "model": "chatterbox",
  "duration_ms": 450
}
                
            

            
            
                স্বাস্থ্য পরীক্ষা
                
                    GET /v1/health/
                
                GPU সার্ভারের অবস্থা, লোডকৃত মডেল এবং লাইন আকার পরীক্ষা করুন। অনুমোদনের প্রয়োজন নেই। ৩০ সেকেন্ডের জন্য ক্যাশ করা হয়েছে।

                প্রতিক্রিয়া
                
                    JSON প্রতিক্রিয়া
{
  "status": "online",
  "latency_ms": 45,
  "queue_size": 3,
  "models_loaded": ["kokoro", "chatterbox", "cosyvoice2"]
}
                
            

            
            
                মডেলের তালিকা
                
                    GET /v1/models/
                
                সমস্ত উপলব্ধ মডেল এবং তাদের বৈশিষ্ট্যের একটি তালিকা প্রদান করে ।

                প্রতিক্রিয়া
                
                    JSON প্রতিক্রিয়া
{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}
                
            

            
            
                শব্দের তালিকা
                
                    GET /v1/voices/
                
                সমস্ত উপলব্ধ শব্দের একটি তালিকা প্রদান করে, ইচ্ছাকৃতভাবে মডেল অথবা ভাষা অনুসারে পরিশোধিত ।

                পরামিতি
                
                    
                        
                            প্যারামিটার ধরন বর্ণনা
                        
                        
                            
                                model
                                string
                                মডেল ID অনুযায়ী পরিশোধক (যেমন, kokoro)
                            
                            
                                language
                                string
                                ভাষা কোড অনুযায়ী পরিশোধক (যেমন, en)
                            
                            
                                gender
                                string
                                লিঙ্গ অনুযায়ী পরিশোধক: পুরুষ, মহিলা, নিরপেক্ষ
                            
                        
                    
                

                প্রতিক্রিয়া
                
                    JSON প্রতিক্রিয়া
{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}
                
            

            
            
                সাবটাইটেল (SRT / VTT) নতুন
                
                    GET /v1/speech/subtitles/?uuid=<job_uuid>&format=srt|vtt&download=1
                
                যেকোন সম্পন্ন TTS কাজের জন্য সমন্বিত সাবটাইটেল তৈরি করুন। অডিওতে Whisper alignment চালিয়ে SRT অথবা WebVTT ফিরিয়ে দিন। ফলাফল ডিস্কে ক্যাশ করা হয় যাতে একই uuid-এর জন্য দ্বিতীয় কলটি ডিস্ক পড়ার মতো হয়।
                পরামিতি
                
                    
                        প্যারামিটার আবশ্যক বর্ণনা
                        
                            uuid হ্যাঁ /v1/tts/ অথবা /v1/voice-clone/ দ্বারা প্রদত্ত কাজের UUID।
                            format না srt (ডিফল্ট) অথবা vtt।
                            download না 1 Content-Disposition: attachment প্রেরণ করতে, যাতে প্রদর্শনের পরিবর্তে ব্রাউজারের দ্বারা সংরক্ষণ করা হয়।
                            language না সংযোগ মডেলের জন্য ইঙ্গিত (অবহেলা করলে স্বয়ংক্রিয়ভাবে সনাক্ত করা হবে)।
                        
                    
                
                
                    cURL
curl "https://api.tts.ai/v1/speech/subtitles/?uuid=$UUID&format=srt&download=1" -o subtitles.srt
                
            

            
            
                উচ্চারণ অভিধান নতুন
                
                    GET
                    POST
                    DELETE
                    /api/v1/pronunciations/
                
                TTS ইঞ্জিনকে নির্দিষ্ট শব্দের উচ্চারণ সম্পর্কে জানান। সংরক্ষিত এন্ট্রিগুলি স্বয়ংক্রিয়ভাবে আপনার প্রতিটি TTS অনুরোধের ক্ষেত্রে প্রয়োগ করা হবে। প্রতি অ্যাকাউন্টে ২০০ এন্ট্রির সীমা।
                অনুরোধের মূল অংশ (POST)
                
                    
                        প্যারামিটার ধরন বর্ণনা
                        
                            word string অগ্রাহ্য করার জন্য শব্দ (যেমন GIF, Anthropic)। শব্দের সীমানা মিলেছে।
                            replacement string মডেলের জন্য এটি কীভাবে বানান হবে (যেমন jiff, ann THROP ick)।
                            language string বৈকল্পিক আই. এস. ও. কোড । ফাঁকা = সব ভাষায় প্রযোজ্য ।
                            case_sensitive boolean ডিফল্ট false। true হলে অক্ষরের বড়-ছোট আকার সঠিকভাবে মেলে।
                        
                    
                
                
                    cURL
# Save an entry
curl -X POST https://tts.ai/api/v1/pronunciations/ \
  -H "Authorization: Bearer sk-tts-..." \
  -H "Content-Type: application/json" \
  -d '{"word": "GIF", "replacement": "jiff"}'

# List your entries
curl https://tts.ai/api/v1/pronunciations/ -H "Authorization: Bearer sk-tts-..."

# Delete entry by id
curl -X DELETE "https://tts.ai/api/v1/pronunciations/?id=42" -H "Authorization: Bearer sk-tts-..."
                
                আপনি প্রতি-আবেদনে অগ্রাহ্য করতে পারেন তাদের সংরক্ষণ না করে — অন্তর্ভুক্ত করুন pronunciations যেকোন /v1/tts/ কল একটি বস্তু বা একটি এরে হিসাবে (TTS শেষ বিন্দু পরামিতি দেখুন)।
            

            
            
                বার্তা বর্ণনাকারী নতুন
                যে কোন প্রবন্ধ পৃষ্ঠায় একটি

প্যারামিটার	ধরন	আবশ্যক	বর্ণনা
file	file	হ্যাঁ	অডিও ফাইল (MP3, WAV, FLAC, OGG, M4A, MP4, WebM)। সর্বোচ্চ ১০০ মেগাবাইট।
model	string	না	STT মডেল: `whisper` (ডিফল্ট), `faster-whisper`, `sensevoice`
language	string	না	ভাষার কোড। স্বয়ংক্রিয় সনাক্তকরণের জন্য `auto` (ডিফল্ট)।
timestamps	boolean	না	শব্দ-স্তরের টাইমস্ট্যাম্প অন্তর্ভুক্ত করা হবে। ডিফল্ট: `false`
diarize	boolean	না	স্পিকার ডায়ারাইজেশন সক্রিয় করুন। ডিফল্ট: `false`

প্যারামিটার	ধরন	আবশ্যক	বর্ণনা
reference_audio	file	হ্যাঁ	রেফারেন্স ভয়েস অডিও (১০-৩০ সেকেন্ড সুপারিশ করা হয়)। সর্বোচ্চ ২০ মেগাবাইট।
text	string	হ্যাঁ	ক্লোন করা কন্ঠে বলার জন্য টেক্সট।
model	string	না	ক্লোন মডেল: `chatterbox` (ডিফল্ট), `cosyvoice2`, `gpt-sovits`
format	string	না	আউটপুট ফরম্যাট: `mp3` (ডিফল্ট), `wav`, `flac`
language	string	না	লক্ষ্য ভাষার কোড । নির্বাচিত মডেল দ্বারা সমর্থিত হওয়া আবশ্যক ।

file file	উন্নত করার জন্য অডিও ফাইল
denoise boolean	নিঃশব্দীকরণ সক্রিয় করো (ডিফল্ট: সত্য)
enhance_clarity boolean	বক্তৃতার স্পষ্টতা বাড়াও (ডিফল্ট: সত্য)
super_resolution boolean	অডিও গুণমান উন্নত করুন (ডিফল্ট: মিথ্যা)
strength integer	১- ৩ (হালকা, মাঝারি, কঠিন) । ডিফল্ট: ২

file file	যে অডিও ফাইলটি আলাদা করা হবে
model string	`demucs` (ডিফল্ট) অথবা `spleeter`
stems integer	স্টেম- এর সংখ্যা: ২, ৪, ৫, অথবা ৬ (ডিফল্ট: ২)
format string	আউটপুট ফরম্যাট: `wav`, `mp3`, `flac`

file file	যে অডিও ফাইলটি প্রক্রিয়া করা হবে
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

file file	যে অডিও ফাইল রূপান্তর করা হবে
format string	লক্ষ্য ফরম্যাট: `mp3`, `wav`, `flac`, `ogg`, `m4a`, `aac`
bitrate integer	আউটপুট বিটরেট (কেবিপিএস- এ): ৬৪, ১২৮, ১৯২, ২৫৬, ৩২০
sample_rate integer	নমুনা হার: 22050, 44100, 48000
channels string	`mono` অথবা `stereo`

প্যারামিটার	ধরন	আবশ্যক	বর্ণনা
audio	file	না*	অডিও ইনপুট (`audio` অথবা `text` আবশ্যক)
text	string	না*	টেক্সট ইনপুট (`audio` অথবা `text` আবশ্যক)
voice	string	না	AI প্রতিক্রিয়ার জন্য শব্দ। ডিফল্ট: `af_bella`
tts_model	string	না	প্রতিক্রিয়ার জন্য TTS মডেল। ডিফল্ট: `kokoro`
system_prompt	string	না	AI-র জন্য স্বনির্বাচিত সিস্টেম প্রম্পট
conversation_id	string	না	একটি বিদ্যমান আলাপ চালিয়ে যান

পরামিতি	ধরন	বর্ণনা
texts	array	Array of objects: `{text, model, voice}`. Max 50 items.
webhook_url	string	ব্যাচ সম্পন্ন হলে POST ফলাফল প্রদর্শনের জন্য বৈকল্পিক URL।

পরামিতি	ধরন	বর্ণনা
file	file	Reference audio file (WAV, MP3, FLAC).
model	string	Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.

প্যারামিটার	ধরন	বর্ণনা
model	string	মডেল ID অনুযায়ী পরিশোধক (যেমন, `kokoro`)
language	string	ভাষা কোড অনুযায়ী পরিশোধক (যেমন, `en`)
gender	string	লিঙ্গ অনুযায়ী পরিশোধক: `পুরুষ`, `মহিলা`, `নিরপেক্ষ`

প্যারামিটার	আবশ্যক	বর্ণনা
uuid	হ্যাঁ	/v1/tts/ অথবা /v1/voice-clone/ দ্বারা প্রদত্ত কাজের UUID।
format	না	`srt` (ডিফল্ট) অথবা `vtt`।
download	না	`1` `Content-Disposition: attachment` প্রেরণ করতে, যাতে প্রদর্শনের পরিবর্তে ব্রাউজারের দ্বারা সংরক্ষণ করা হয়।
language	না	সংযোগ মডেলের জন্য ইঙ্গিত (অবহেলা করলে স্বয়ংক্রিয়ভাবে সনাক্ত করা হবে)।

প্যারামিটার	ধরন	বর্ণনা
word	string	অগ্রাহ্য করার জন্য শব্দ (যেমন `GIF`, `Anthropic`)। শব্দের সীমানা মিলেছে।
replacement	string	মডেলের জন্য এটি কীভাবে বানান হবে (যেমন `jiff`, `ann THROP ick`)।
language	string	বৈকল্পিক আই. এস. ও. কোড । ফাঁকা = সব ভাষায় প্রযোজ্য ।
case_sensitive	boolean	ডিফল্ট `false`। `true` হলে অক্ষরের বড়-ছোট আকার সঠিকভাবে মেলে।