હું API કી કેવી રીતે મેળવી શકું?

મુક્ત TTS.ai ખાતા માટે નોંધણી કરો, પછી તમારા ખાતા ડેશબોર્ડ પર જાઓ અને "API કી બનાવો" પર ક્લિક કરો. તમારી કી sk-tts- સાથે પૂર્વગિત થશે અને તરત જ ઉપયોગ કરી શકાય છે. મુક્ત ખાતાઓ શરૂ કરવા માટે 15 ક્રેડિટ્સ મેળવે છે.

શું API OpenAI ના બંધારણ સાથે સુસંગત છે?

હા, અમારી API OpenAI-સુસંગત વિનંતી અને જવાબ બંધારણો અનુસરે છે. જો તમારી પાસે હાલનો કોડ હોય કે જે OpenAI નું TTS API વાપરે છે, તો તમે TTS.ai માં ન્યૂનતમ કોડ બદલાવો સાથે આધાર URL અને API કી બદલીને બદલી શકો છો.

કઈ પ્રોગ્રામિંગ ભાષાઓ આધારભૂત છે?

REST API એ કોઈપણ ભાષા સાથે કામ કરે છે કે જે HTTP વિનંતી કરી શકે છે. અમે Python, JavaScript (Node.js અને બ્રાઉઝર), cURL, અને વધુમાં કોડ ઉદાહરણો પૂરા પાડીએ છીએ. HTTP ક્લાયન્ટ લાઇબ્રેરી સાથે કોઈપણ ભાષા (Go, Ruby, Java, C#, PHP, વગેરે) API વાપરી શકે છે.

API દરની મર્યાદા શું છે?

મુક્ત ખાતાઓ દર કલાકે3સૂચનાઓ સુધી મર્યાદિત છે. ચૂકવણી કરેલ યોજનાઓ તમારી સબસ્ક્રાઇબ સ્તર પર આધારિત ઊંચી મર્યાદાઓ ધરાવે છે: શરૂઆત (60/કલાક), વ્યાવસાયિક (300/કલાક), ઉદ્યોગસાહસિક (અમર્યાદિત). દર મર્યાદા હેડરો દરેક API પ્રત્યુત્તરમાં સમાવેલ છે.

API પ્રાઇસિંગ કેવી રીતે કામ કરે છે?

API વપરાશ મોડેલ સ્તર અને લખાણ લંબાઈ પર આધારિત અક્ષરોનો વપરાશ કરે છે. મુક્ત મોડેલો0અક્ષરો વાપરે છે, પ્રમાણભૂત મોડેલો 2x અક્ષરો વાપરે છે, અને પ્રીમિયમ મોડેલો 4x અક્ષરો વાપરે છે. અક્ષરો બધા ચૂકવણી યોજનાઓમાં સમાવેલ છે અને અક્ષર પેક તરીકે અલગથી ખરીદી શકાય છે.

કયા અંતબિંદુ ઉપલબ્ધ છે?

API લખાણ-થી-ભાષણ (POST /v1/tts/), ભાષણ-થી-ભાષણ (POST /v1/transcribe/), અવાજ ક્લોનિંગ (POST /v1/voice-clone/), અવાજ પરિવર્તન (POST /v1/voice-convert/), ભાષણ અનુવાદ (POST /v1/speech-translate/), ઓડિયો વધારો (POST /v1/audio-enhance/), અવાજ દૂર કરવા, સ્ટેમ વિભાજન, કી અને BPM વિશ્લેષણ, અને વધુ માટે અંતબિંદુઓ પૂરા પાડે છે.

કયા ઓડિયો બંધારણો API પાછા આપે છે?

API મૂળભૂત રીતે WAV બંધારણમાં ઓડિયો પાછું આપે છે. તમે આઉટપુટ બંધારણ (mp3, wav, ogg, flac) જવાબ_બંધારણ પરિમાણની મદદથી સ્પષ્ટ કરી શકો છો. MP3 એ વેબ કાર્યક્રમો માટે ભલામણ કરેલ છે, WAV આગળ ઓડિયો પ્રક્રિયા માટે.

શું ત્યાં રિયલ-ટાઇમ TTS માટે સ્ટ્રીમિંગ API છે?

હા, અમારું અસુમેળ API કામ UUID ને પાછું આપે છે કે જે તમે પરિણામો માટે પોલ કરી શકો છો. કોકોરો જેવા આધારભૂત મોડેલો માટે, ઓડિયો ઉત્પન્ન નજીકના-સત્ય સમય કાર્યક્રમો માટે પૂરતી ઝડપી છે. પોલિંગ અંતબિંદુ ઓડિયો URL ને પાછું આપે છે જ્યારે પ્રક્રિયા સંપૂર્ણ થાય છે.

હું API માં ભૂલો કેવી રીતે સંભાળું?

API JSON ભૂલ સંદેશાઓ સાથે પ્રમાણભૂત HTTP સ્થિતિ કોડ (ખરાબ વિનંતી માટે 400, સત્તાધિકરણ ભૂલો માટે 401, દર મર્યાદાઓ માટે 429, સર્વર ભૂલો માટે 500) પરત કરે છે. યોગ્ય ભૂલ સંભાળવા માટે જવાબોમાં હંમેશા સ્થિતિ કોડ અને ભૂલ ક્ષેત્રને ચકાસો.

શું હું વ્યાવસાયિક કાર્યક્રમો માટે API નો ઉપયોગ કરી શકું?

હા, API વ્યાવસાયિક વપરાશ માટે ડિઝાઇન થયેલ છે. API દ્દારા ઉત્પન્ન થયેલ ઓડિયો તમારા ઉત્પાદનો, કાર્યક્રમો, અને સેવાઓમાં વપરાય શકે છે. બધા મોડેલો ઓપન-સોર્સ લાઇસન્સ વાપરે છે, અને ઉત્પન્ન થયેલ ઓડિયો પર વધારાની રીયલટી નથી.

શું ત્યાં સેન્ડબોક્સ અથવા ચકાસણી વાતાવરણ છે?

મુક્ત-સ્તર મોડેલો (Kokoro, Piper, VITS, MeloTTS) ઉત્તમ સેન્ડબોક્સ તરીકે સેવા આપે છે - તેઓ શૂન્ય ક્રેડિટ્સ વાપરે છે અને બધા ખાતાઓ માટે ઉપલબ્ધ છે. ઉત્પાદન વપરાશ માટે પ્રીમિયમ મોડેલોમાં બદલતા પહેલા મુક્ત મોડેલો સાથે તમારા એકીકરણને ચકાસો.

હું API મારફતે ઉપલબ્ધ અવાજો અને મોડેલોની યાદી કેવી રીતે બનાવું?

ગાળક વિકલ્પો (મોડેલ, ભાષા, લિંગ) સાથે બધા ઉપલબ્ધ અવાજોની યાદી કરવા માટે GET /v1/voices વાપરો. તેમની ક્ષમતા અને સ્તર જાણકારી સાથે બધા ઉપલબ્ધ TTS મોડેલોની યાદી કરવા માટે GET /v1/models વાપરો. બંને અંતબિંદુઓ JSON જવાબો પાછા આપે છે.

ક્ષતિનો અહેવાલ આપો / લક્ષણ વિનંતી

API દસ્તાવેજ

અમારા REST API સાથે તમારા કાર્યક્રમોમાં TTS.ai ને એકીકૃત કરો. સરળ સ્થળાંતર માટે OpenAI-સુસંગત બંધારણ.

REST API OpenAI સુસંગત JSON જવાબો સ્ટ્રીમિંગ આધાર

સમીક્ષા

TTS.ai API બધા પ્લેટફોર્મ લાક્ષણિકતાઓ માટે પ્રોગ્રામેટિક પ્રવેશ પૂરો પાડે છે: લખાણ-થી-ભાષણ સંયોજન, ભાષણ-થી-ભાષણ અનુવાદ, અવાજ ક્લોનિંગ, ઓડિયો વધારો, અને વધુ. API JSON વિનંતી/પ્રતિભાવ શરીરો સાથે પ્રમાણભૂત REST સંધિઓ વાપરે છે.

API કી

તમારી API કી અહીંથી મેળવો ખાતા સુયોજનો. Pro અને Enterprise યોજનાઓ પર ઉપલબ્ધ છે.

આધાર URL

https://api.tts.ai/v1/

સત્તાધિકરણ

વડે બેરીર ટોકન Authorization હેડર

સત્તાધિકરણ

મુક્ત સ્તર — કોઈ કી જરૂરી નથી. એનેમિક POSTs ને /v1/tts/ કોઈપણ સત્તા વગર કામ કરો, 5,000 અક્ષરો/દિવસ પ્રતિ IP સુધી, અમારા કોઈપણ મુક્ત મોડેલની મદદથી (piper, vits, melotts, kokoro). 15,000 બોનસ અક્ષરો અને પ્રીમિયમ મોડેલોની સુવિધા મેળવવા માટે મફત ખાતા માટે નોંધણી કરો.

પ્રીમિયમ મોડેલો અને ઉચ્ચ દરની મર્યાદાઓ માટે, નીચેનામાં બેરીયર ટોકન સાથે સત્તાધિકરણ કરો Authorization હેડર.

HTTP હેડર

Authorization: Bearer sk-tts-your-api-key-here

તમારી API કી ગુપ્ત રાખો. તેને ક્લાયન્ટ-સાઇડ કોડ, જાહેર રિપોઝીટરી, અથવા લોગમાં વહેંચશો નહિં. તમારા ખાતા સુયોજનોમાંથી કીઓ નિયમિત રીતે ફેરવો.

SDKs

સત્તાવાર SDKs એ તમારા કાર્યક્રમમાં TTS.ai ને એકીકૃત કરવા માટે સરળ બનાવે છે. બંને ઓપન સોર્સ છે અને GitHub પર ઉપલબ્ધ છે.

Python

pip install ttsai

from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")
audio = client.generate(
    text="Hello world!",
    model="kokoro"
)
client.save(audio, "output.wav")

GitHub

JavaScript / Node.js

npm install @ttsainpm/ttsai

const { TTSClient } = require('@ttsainpm/ttsai');

const client = new TTSClient({
  apiKey: 'sk-tts-...'
});
const audio = await client.generate({
  input: 'Hello world!',
  model: 'kokoro'
});
await client.saveToFile(audio, 'output.wav');

GitHub

આધાર URL

આધાર URL: https://api.tts.ai/v1/

બધા અંતબિંદુઓ આ આધાર URL ને સંબંધિત છે. ઉદાહરણ તરીકે, TTS અંતબિંદુ છે:

POST https://api.tts.ai/v1/tts/

દર મર્યાદાઓ

API દર મર્યાદા યોજના દ્વારા બદલાય છે:

પ્લાન	વિનંતીઓ/મિનિટ	એકસાથે	મહત્તમ લખાણ લંબાઈ
મુક્ત	10	2	500 અક્ષરો
શરુઆત કરનાર	30	3	૧,૦૦૦,૦૦૦ અક્ષરો
પ્રો	60	5	૧,૦૦૦,૦૦૦ અક્ષરો
એન્ટરપ્રાઇઝ	300	20	૫૦,૦૦૦ અક્ષરો

દર મર્યાદા હેડરો દરેક જવાબમાં સમાવેલ છે: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

ક્રેડિટ ખર્ચ

સેવા	ખર્ચ	એકમ
TTS (મુક્ત મોડેલો: Piper, VITS, MeloTTS)	૧,૦૦૦ અક્ષરો	પ્રતિ ૧,૦૦૦ અક્ષરો
TTS (મૂળભૂત મોડેલો: કોકોરો, કોસીવોઇસ ૨, વગેરે)	૨,૦૦૦ અક્ષરો	પ્રતિ ૧,૦૦૦ અક્ષરો
TTS (પ્રીમિયમ મોડેલો: Tortoise, Chatterbox, વગેરે)	૪ ક્રેડિટ્સ	પ્રતિ ૧,૦૦૦ અક્ષરો
બોલવાથી લખાણName	૨,૦૦૦ અક્ષરો	ઓડિયો મિનિટ પ્રતિ
અવાજ ક્લોનિંગ	૪ ક્રેડિટ્સ	પ્રતિ ૧,૦૦૦ અક્ષરો
અવાજ બદલનારName	૩,૦૦૦ અક્ષરો	ઓડિયો મિનિટ પ્રતિ
ઓડિયો સુધારો	૨,૦૦૦ અક્ષરો	ઓડિયો મિનિટ પ્રતિ
અવાજ દૂર કરવુ / અવાજ વિભાજિત કરવુ	૩,૦૦૦-૪,૦૦૦ અક્ષરો	ઓડિયો મિનિટ પ્રતિ
ભાષાંતર	૫,૦૦૦ અક્ષરો	ઓડિયો મિનિટ પ્રતિ
અવાજ સંવાદ	૩,૦૦૦ અક્ષરો	દર ફરતે
કી શોધનાર (BPM)	મુક્ત	--
ઓડિયો રૂપાંતરક	મુક્ત	--

લખાણને બોલવામાંName

POST /v1/tts/

લખાણને ભાષણ ઓડિયોમાં રૂપાંતરિત કરો. વિનંતી થયેલ બંધારણમાં ઓડિયો ફાઇલ પાછી આપે છે.

વિનંતી બોડી

પરિમાણો	પ્રકાર	જરૂરી	વર્ણન
model	string	નહિં	મોડેલ ID (દા.ત., `kokoro`, `chatterbox`, `piper`). જો કાઢી નાખવામાં આવે તો, અમે આપોઆપ મોડેલ પસંદ કરીએ છીએ કે જે વિનંતી થયેલ `language` ને આધાર આપે છે - en/ja/zh/ko/fr/de/it/pt/es/hi/ru માટે `kokoro`, અન્ય આધારભૂત ભાષાઓ માટે `piper` (ar/pl/nl/cs/da/fi/el/hu/tr/uk/vi/etc.).
text	string	હા	દ્રશ્યમાં ફેરવવા માટેનું લખાણ. પ્રતિ-અરજીઓ મર્યાદા: ૫૦૦ અક્ષરો (અનામી), ૫,૦૦૦ (મુક્ત ખાતું), ૧,૦૦૦,૦૦૦ (પૈસા ચૂકવેલ યોજના). લાંબા ઇનપુટ્સ સર્વર-બાજુએ આપોઆપ-ચંકી થયેલ છે.
voice	string	હા	અવાજ ID (ઉપલબ્ધ અવાજોની યાદી કરવા માટે `/v1/voices/` વાપરો)
format	string	નહિં	આઉટપુટ બંધારણ: `mp3` (મૂળભૂત), `wav`, `flac`, `ogg`
speed	float	નહિં	બોલવાની ઝડપનો ગુણક. મૂળભૂત: `1.0`. સીમા: `0.5` થી `2.0`
language	string	નહિં	ભાષા કોડ (દા.ત., `en`, `es`). આપોઆપ શોધાયેલ જો કાઢી નાખેલ હોય.
instructions	string	નહિં	કાર્ય કરતી વખતે / પ્રદાન કરતી વખતે ક્યુઝ (≤500 અક્ષરો). દા.ત. `\`
pronunciations	object \| array	નહિં	પર-વિનંતી ઉચ્ચારણ ઉપર લખે છે. અથવા `{\`
stream	boolean	નહિં	સ્ટ્રીમિંગ જવાબને સક્રિય કરો. મૂળભૂત: `false`

ઉદાહરણ વિનંતી

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

SSML ટેગો


                    
                        
                            વ્યાખ્યાયિત કરો ઇનપુટ આ રીતે બોલાયેલ
                        
                        
                            cardinal 1234 one thousand two hundred thirty-four
                            ordinal 21 twenty-first
                            date 1999-12-31 ડિસેમ્બર ત્રીસ- એક, નવસત્તર નવસત્તર- નવ
                            time 14:30 two thirty PM
                            telephone +1-555-867-5309 plus one five five five eight six seven…
                            currency $1,234.56 one thousand two hundred thirty-four dollars and fifty-six cents
                            spell-out NASA N A S A

વ્યાખ્યાયિત કરો	ઇનપુટ	આ રીતે બોલાયેલ
`cardinal`	`1234`	one thousand two hundred thirty-four
`ordinal`	`21`	twenty-first
`date`	`1999-12-31`	ડિસેમ્બર ત્રીસ- એક, નવસત્તર નવસત્તર- નવ
`time`	`14:30`	two thirty PM
`telephone`	`+1-555-867-5309`	plus one five five five eight six seven…
`currency`	`$1,234.56`	one thousand two hundred thirty-four dollars and fifty-six cents
`spell-out`	`NASA`	N A S A


                તારીખ બંધારણ મૂળભૂત રીતે mdy માટે અંગ્રેજી માટે અને dmy બીજા કોઈપણ સ્થાને; format=\ સાથે ફરીથી લખો

                
                    
                        ઉદાહરણ
                        
                    
{
  "model": "kokoro",
  "voice": "af_bella",
  "text": "Your appointment is on <say-as interpret-as=\"date\">2026-04-26</say-as> at <say-as interpret-as=\"time\">14:30</say-as>. Please call <say-as interpret-as=\"telephone\">+1-555-867-5309</say-as> if you need to reschedule."
}
                

                જવાબ
                The TTS endpoint queues your request and returns a JSON response with a job UUID. You then poll for the result.

                Step 1: Submit request
                
                    
                        Response (JSON)
                    
{
  "uuid": "77b71db532874ce98e84a69a2d740d4c",
  "job_id": "f21316bb-aefa-480d-8523-701d1e3184ce",
  "status": "queued",
  "credits_used": 11,
  "credits_remaining": 15000
}
                

                Step 2: Poll for result
                
                    GET /v1/speech/results/?uuid=<job_uuid>
                
                Poll this endpoint every 1-2 seconds until status is completed or failed.
                
                    
                        Polling response (completed)
                    
{
  "status": "completed",
  "result_url": "https://api.tts.ai/static/downloads/77b71db5.../output.mp3"
}
                
                
                    
                        Polling response (still processing)
                    
{
  "status": "processing"
}
                

                Step 3: Download audio
                Fetch the result_url from the completed response to download the audio file.

                સંપૂર્ણ ઉદાહરણ
                
                    
                        Python
                        
                    
import requests, time

API_KEY = "sk-tts-your-key"
BASE = "https://api.tts.ai"

# 1. Submit TTS request
resp = requests.post(f"{BASE}/v1/tts/", json={
    "model": "kokoro",
    "text": "Hello from TTS.ai!",
    "voice": "af_bella"
}, headers={"Authorization": f"Bearer {API_KEY}"})
data = resp.json()
uuid = data["uuid"]

# 2. Poll for result
while True:
    result = requests.get(f"{BASE}/v1/speech/results/",
        params={"uuid": uuid}).json()
    if result["status"] == "completed":
        # 3. Download audio
        audio = requests.get(result["result_url"])
        with open("output.mp3", "wb") as f:
            f.write(audio.content)
        break
    elif result["status"] == "failed":
        raise Exception(result.get("error", "Generation failed"))
    time.sleep(1.5)
                

                Streaming alternative: For supported models (Kokoro, MeloTTS), use POST /v1/tts/stream/ for real-time Server-Sent Events (SSE) streaming — no polling needed.



            
            
                બોલવાથી લખાણName
                
                    POST /v1/stt/
                
                ઓડિયોને લખાણમાં રૂપાંતરિત કરો. આપોઆપ શોધ સાથે ૯૯ ભાષાઓને આધાર આપે છે.

                વિનંતી બોડી (multipart/form-data)
                
                    
                        
                            પરિમાણો પ્રકાર જરૂરી વર્ણન
                        
                        
                            
                                file
                                file
                                હા
                                ઓડિયો ફાઈલ (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). મહત્તમ ૧૦૦MB.
                            
                            
                                model
                                string
                                નહિં
                                STT મોડેલ: whisper (મૂળભૂત), faster-whisper, sensevoice
                            
                            
                                language
                                string
                                નહિં
                                ભાષા કોડ. આપોઆપ શોધ માટે auto (મૂળભૂત).
                            
                            
                                timestamps
                                boolean
                                નહિં
                                શબ્દ-સ્તર સમયસમાપ્તિઓ સમાવે છે. મૂળભૂત: false
                            
                            
                                diarize
                                boolean
                                નહિં
                                સ્પીકર ડાયરીંગ સક્રિય કરો. મૂળભૂત: false
                            
                        
                    
                

                જવાબ
                
                    
                        JSON જવાબ
                    
{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}
                
            

            
            
                અવાજ ક્લોનિંગ
                
                    POST /v1/tts/clone/
                
                ક્લોન થયેલ અવાજમાં ભાષા પેદા કરો. સંદર્ભ ઓડિયો અને લખાણ અપલોડ કરો.

                વિનંતી બોડી (multipart/form-data)
                
                    
                        
                            પરિમાણો પ્રકાર જરૂરી વર્ણન
                        
                        
                            
                                reference_audio
                                file
                                હા
                                સંદર્ભ અવાજ ઓડિયો (10-30 સેકન્ડો સૂચવાયેલ છે). મહત્તમ ૨૦MB.
                            
                            
                                text
                                string
                                હા
                                ક્લોન થયેલ અવાજમાં બોલવા માટેનું લખાણ.
                            
                            
                                model
                                string
                                નહિં
                                ક્લોન મોડેલ: chatterbox (મૂળભૂત), cosyvoice2, gpt-sovits
                            
                            
                                format
                                string
                                નહિં
                                આઉટપુટ બંધારણ: mp3 (મૂળભૂત), wav, flac
                            
                            
                                language
                                string
                                નહિં
                                લક્ષ્ય ભાષા કોડ. પસંદ કરેલ મોડેલ દ્વારા આધારભૂત હોવું જ જોઇએ.
                            
                        
                    
                

                જવાબ
                ઓડિયો ફાઈલને બાઇનરી માહિતી તરીકે પાછી આપે છે, TTS અંતિમબિંદુ જેવું જ.
            

            
            
                અવાજ બદલનારName
                
                    POST /v1/voice-convert/
                
                ઓડિયોને અલગ અવાજની જેમ સાંભળવા માટે રૂપાંતરિત કરો. સ્ત્રોત ઓડિયો અપલોડ કરો અને લક્ષ્ય અવાજ પસંદ કરો.

                વિનંતી બોડી (multipart/form-data)
                
                    
                        
                            પરિમાણો પ્રકાર જરૂરી વર્ણન
                        
                        
                            
                                file
                                file
                                હા
                                સ્ત્રોત ઓડિયો ફાઈલ (MP3, WAV, FLAC). મહત્તમ ૫૦MB.
                            
                            
                                target_voice
                                string
                                હા
                                માં રૂપાંતરિત કરવા માટે લક્ષ્ય અવાજ ID (ઉપલબ્ધ અવાજોની યાદી કરવા માટે /v1/voices/ વાપરો)
                            
                            
                                model
                                string
                                નહિં
                                અવાજ રૂપાંતરણ મોડેલ: openvoice (મૂળભૂત), knn-vc
                            
                            
                                format
                                string
                                નહિં
                                આઉટપુટ બંધારણ: wav (મૂળભૂત), mp3, flac
                            
                        
                    
                

                ઉદાહરણ વિનંતી
                
                    
                        cURL
                        
                    
curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav
                

                જવાબ
                રૂપાંતરિત ઓડિયો ફાઈલને બાઇનરી માહિતી તરીકે પાછી આપે છે.
            

            
            
                ભાષાંતર
                
                    POST /v1/speech-translate/
                
                એક ભાષામાંથી બીજામાં બોલાયેલ ઓડિયોનું ભાષાંતર કરો. એક કોલમાં બોલવાથી લખાણ, ભાષાંતર અને લખાણથી બોલવાનું સંયોજિત કરે છે.

                વિનંતી બોડી (multipart/form-data)
                
                    
                        
                            પરિમાણો પ્રકાર જરૂરી વર્ણન
                        
                        
                            
                                file
                                file
                                હા
                                મૂળભૂત ભાષામાં સ્ત્રોત ઓડિયો ફાઈલ. મહત્તમ ૧૦૦MB.
                            
                            
                                target_language
                                string
                                હા
                                લક્ષ્ય ભાષા કોડ (દા.ત., es, fr, de, ja)
                            
                            
                                voice
                                string
                                નહિં
                                અનુવાદિત આઉટપુટ માટેનો અવાજ. જો છોડી દેવામાં આવે તો આપમેળે પસંદ થયેલ છે.
                            
                            
                                preserve_voice
                                boolean
                                નહિં
                                મૂળભૂત સ્પીકર અવાજ ગુણધર્મોને સંગ્રહવાનો પ્રયત્ન કરો. મૂળભૂત: false
                            
                        
                    
                

                જવાબ
                
                    JSON જવાબ
{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}
                
            

            
            
                ભાષાથી ભાષાName
                
                    POST /v1/speech-to-speech/
                
                સમાવિષ્ટો રાખતી વખતે ભાષાની શૈલી, લાગણી, અથવા પ્રદાનને બદલો. ટોન, પઝીશન, અને વ્યક્તીત્વને સુયોજિત કરવા માટે ઉપયોગી.

                વિનંતી બોડી (multipart/form-data)
                
                    
                        
                            પરિમાણો પ્રકાર જરૂરી વર્ણન
                        
                        
                            
                                file
                                file
                                હા
                                સ્ત્રોત બોલવાની ઓડિયો ફાઈલ. મહત્તમ ૫૦MB.
                            
                            
                                voice
                                string
                                હા
                                આઉટપુટ ભાષા માટે લક્ષ્ય અવાજ ID
                            
                            
                                model
                                string
                                નહિં
                                મોડેલ: openvoice (મૂળભૂત), chatterbox
                            
                            
                                emotion
                                string
                                નહિં
                                લક્ષ્ય લાગણી: neutral, happy, sad, angry, excited
                            
                            
                                speed
                                float
                                નહિં
                                ઝડપ સુયોજન. મૂળભૂત: 1.0. વિસ્તાર: 0.5 થી 2.0
                            
                        
                    
                

                જવાબ
                રૂપાંતરિત ઓડિયો ફાઈલને બાઇનરી માહિતી તરીકે પાછી આપે છે.
            

            
            
                ઓડિયો સાધનો
                વધારા માટે ઓડિયો પ્રક્રિયા અંતબિંદુઓ, અવાજ દૂર કરવા, સ્ટેમ વિભાજિત કરવા, અને વધુ.

                
                
                    
                        
                            POST /v1/audio/enhance/
                        
                        ઓડિયો ગુણવત્તા સુધારો: અવાજ દૂર કરો, સ્પષ્ટતા સુધારો, સુપર રીઝોલ્યુશન.
                        
                            
                                
                                    file file વધારવા માટેની ઓડિયો ફાઈલ
                                    denoise boolean અવાજ ઘટાડવાનું સક્રિય કરો (મૂળભૂત: સાચું)
                                    enhance_clarity boolean બોલવાની સ્પષ્ટતા વધારો (મૂળભૂત: સાચું)
                                    super_resolution boolean ઓડિયો ગુણવત્તાને ઉચ્ચ સ્તર પર લાવો (મૂળભૂત: ખોટો)
                                    strength integer ૧-૩ (આછું, મધ્યમ, મજબૂત). મૂળભૂત: ૨
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/separate/
                        
                        સંગીત સાધનોમાંથી વાક્યોને અલગ કરો (વાક્ય દૂર કરો) અથવા સ્ટેમ્સમાં વિભાજિત કરો.
                        
                            
                                
                                    file file અલગ કરવા માટે ઓડિયો ફાઈલ
                                    model string demucs (મૂળભૂત) અથવા spleeter
                                    stems integer સ્ટેમ્સની સંખ્યા: ૨, ૪, ૫, અથવા ૬ (મૂળભૂત: ૨)
                                    format string આઉટપુટ બંધારણ: wav, mp3, flac
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/dereverb/
                        
                        ઓડિયો રેકોર્ડિંગમાંથી પ્રતિધ્વનિ અને રિવર્બ દૂર કરો.
                        
                            
                                
                                    file file પ્રક્રિયા કરવા માટે ઓડિયો ફાઈલ
                                    type string echo or reverb (default: both)
                                    intensity integer 1-5 (default: 3)
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/analyze/
                            મુક્ત
                        
                        કી, BPM, અને સમય સહી શોધવા માટે ઓડિયોનું વિશ્લેષણ કરો.
                        
                            
                                
                                    file file વિશ્લેષણ કરવા માટે ઓડિયો ફાઈલ
                                
                            
                        
                        
                            જવાબ
{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/convert/
                            મુક્ત
                        
                        બંધારણો વચ્ચે ઓડિયો રૂપાંતરિત કરો.
                        
                            
                                
                                    file file રૂપાંતરિત કરવા માટેની ઓડિયો ફાઈલ
                                    format string લક્ષ્ય બંધારણ: mp3, wav, flac, ogg, m4a, aac
                                    bitrate integer આઉટપુટ બીટદર kbps માં: 64, 128, 192, 256, 320
                                    sample_rate integer નમૂના દર: ૨૨૦૫૦, ૪૪૧૦૦, ૪૮૦૦૦
                                    channels string mono અથવા stereo
                                
                            
                        
                    
                
            

            
            
                અવાજ સંવાદ
                
                    POST /v1/voice-chat/
                
                ઓડિયો અથવા લખાણ મોકલો અને સંયોજિત ભાષા સાથે AI જવાબ મેળવો.

                વિનંતી બોડી (multipart/form-data અથવા JSON)
                
                    
                        
                            પરિમાણો પ્રકાર જરૂરી વર્ણન
                        
                        
                            
                                audio
                                file
                                નહિં*
                                ઓડિયો ઇનપુટ (audio અથવા text જરૂરી છે)
                            
                            
                                text
                                string
                                નહિં*
                                લખાણ ઇનપુટ (audio અથવા text જરૂરી છે)
                            
                            
                                voice
                                string
                                નહિં
                                AI જવાબ માટે અવાજ. મૂળભૂત: af_bella
                            
                            
                                tts_model
                                string
                                નહિં
                                જવાબ માટે TTS મોડેલ. મૂળભૂત: kokoro
                            
                            
                                system_prompt
                                string
                                નહિં
                                AI માટે વૈવિધ્યપૂર્ણ સિસ્ટમ પ્રશ્ન
                            
                            
                                conversation_id
                                string
                                નહિં
                                વર્તમાન વાર્તાલાપને ચાલુ રાખો
                            
                        
                    
                

                જવાબ
                
                    JSON જવાબ
{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}
                
            

            
            
                TTS બેચ
                
                    POST /v1/tts/batch/
                
                સમકાલીન TTS ઉત્પન્ન કરવા માટે ઘણાબધા લખાણો રજૂ કરો. વૈકલ્પિક રીતે webhook callback ને પ્રાપ્ત કરો જ્યારે બધી કામગીરી સમાપ્ત થાય.

                પરિમાણો
                
                    પરિમાણો પ્રકાર વર્ણન
                    
                        texts array Array of objects: {text, model, voice}. Max 50 items.
                        webhook_url string જ્યારે બેચ સમાપ્ત થાય ત્યારે POST પરિણામો માટે વૈકલ્પિક URL.
                    
                

                જવાબ
                
                    JSON જવાબ
{
  "batch_id": "abc123",
  "total": 3,
  "completed": 0,
  "status": "processing"
}
                
                GET /v1/tts/batch/result/?batch_id=abc123 સાથે પોલ પ્રગતિ
            

            
            
                અવાજ જડિત
                
                    POST /v1/voice-embed/
                
                સંદર્ભ ઓડિયો માંથી અવાજ જડિત કરવાનું પહેલાથી ગણો. નજીક-તરત જ ઉત્પન્ન કરવા માટે પછીની અવાજ ક્લોનિંગ વિનંતીઓમાં પાછું મળેલ embed_id ને વાપરો.

                પરિમાણો
                
                    પરિમાણો પ્રકાર વર્ણન
                    
                        file file Reference audio file (WAV, MP3, FLAC).
                        model string Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.
                    
                

                જવાબ
                
                    JSON જવાબ
{
  "embed_id": "emb_abc123",
  "model": "chatterbox",
  "duration_ms": 450
}
                
            

            
            
                સ્વાસ્થ્ય ચકાસણી
                
                    GET /v1/health/
                
                GPU સર્વર સ્થિતિ, લાવવામાં આવેલ મોડેલો, અને કતાર માપ ચકાસો. સત્તાધિકરણની જરૂર નથી. ૩૦ સેકન્ડ માટે કેશ થયેલ છે.

                જવાબ
                
                    JSON જવાબ
{
  "status": "online",
  "latency_ms": 45,
  "queue_size": 3,
  "models_loaded": ["kokoro", "chatterbox", "cosyvoice2"]
}
                
            

            
            
                મોડેલોની યાદી
                
                    GET /v1/models/
                
                તેમની ક્ષમતા સાથે બધા ઉપલબ્ધ મોડેલોની યાદી પાછી આપે છે.

                જવાબ
                
                    JSON જવાબ
{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}
                
            

            
            
                અવાજોની યાદી
                
                    GET /v1/voices/
                
                બધા ઉપલબ્ધ અવાજોની યાદી પાછી આપે છે, વૈકલ્પિક રીતે મોડેલ અથવા ભાષા દ્વારા ગાળાયેલ છે.

                પ્રશ્ન પરિમાણો
                
                    
                        
                            પરિમાણો પ્રકાર વર્ણન
                        
                        
                            
                                model
                                string
                                મોડેલ ID દ્વારા ગાળો (દા.ત., kokoro)
                            
                            
                                language
                                string
                                ભાષા કોડ દ્વારા ગાળો (દા.ત., en)
                            
                            
                                gender
                                string
                                લિંગ દ્વારા ગાળક: male, female, neutral
                            
                        
                    
                

                જવાબ
                
                    JSON જવાબ
{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}
                
            

            
            
                ઉપશીર્ષકો (SRT / VTT) નવું
                
                    GET /v1/speech/subtitles/?uuid=<job_uuid>&format=srt|vtt&download=1
                
                કોઈપણ સમાપ્ત થયેલ TTS કામ માટે સુમેળ થયેલ ઉપશીર્ષકોને ઉત્પન્ન કરો. ઓડિયો ઉપર Whisper ગોઠવણી ચલાવે છે અને SRT અથવા WebVTT ને પાછું આપે છે. પરિણામ ડિસ્ક પર કેશ થયેલ છે તેથી તે જ uuid માટે બીજો કોલ ડિસ્ક વાંચન છે.
                પ્રશ્ન પરિમાણો
                
                    
                        પરિમાણો જરૂરી વર્ણન
                        
                            uuid હા /v1/tts/ અથવા /v1/voice-clone/ દ્દારા પાછો મળેલ કામ UUID.
                            format નહિં srt (મૂળભૂત) અથવા vtt.
                            download નહિં 1 Content-Disposition: જોડાણ મોકલવા માટે કે જેથી બ્રાઉઝર દર્શાવે છે તેની જગ્યાએ સંગ્રહ કરે.
                            language નહિં ગોઠવણી મોડેલ માટેની મદદ (જો છોડી દેવામાં આવે તો આપમેળે શોધાયેલ).
                        
                    
                
                
                    cURL
curl "https://api.tts.ai/v1/speech/subtitles/?uuid=$UUID&format=srt&download=1" -o subtitles.srt
                
            

            
            
                ઉચ્ચારણ શબ્દકોશ નવું
                
                    GET
                    POST
                    DELETE
                    /api/v1/pronunciations/
                
                TTS એન્જિનને જણાવો કે કેવી રીતે ચોક્કસ શબ્દો ઉચ્ચારવા. સંગ્રહાયેલ પ્રવેશ આપોઆપ તમે કરેલ દરેક TTS વિનંતી પર લાગુ પડે છે. ૨૦૦-પ્રવેશ પ્રતિ-ખાતું મર્યાદા.
                વિનંતી બોડી (POST)
                
                    
                        પરિમાણો પ્રકાર વર્ણન
                        
                            word string ઉપર લખવા માટે શબ્દ (દા.ત. GIF, Anthropic). શબ્દ-સીમા બંધબેસતી હતી.
                            replacement string મોડેલ માટે કેવી રીતે જોડણી કરવી (દા.ત. jiff, ann THROP ick).
                            language string વૈકલ્પિક ISO કોડ. ખાલી = બધી ભાષાઓ માટે લાગુ પડે છે.
                            case_sensitive boolean મૂળભૂત false. કેસ બરાબર બંધબેસે છે જ્યારે true.
                        
                    
                
                
                    cURL
# Save an entry
curl -X POST https://tts.ai/api/v1/pronunciations/ \
  -H "Authorization: Bearer sk-tts-..." \
  -H "Content-Type: application/json" \
  -d '{"word": "GIF", "replacement": "jiff"}'

# List your entries
curl https://tts.ai/api/v1/pronunciations/ -H "Authorization: Bearer sk-tts-..."

# Delete entry by id
curl -X DELETE "https://tts.ai/api/v1/pronunciations/?id=42" -H "Authorization: Bearer sk-tts-..."
                
                તમે તેમને સંગ્રહ કર્યા વગર પર-અરજીઓ ઉપર લખી શકો છો - કોઈપણ /v1/tts/ કોલ પર pronunciations ને કે તો વસ્તુ તરીકે અથવા એરે તરીકે સમાવે છે (TTS અંતબિંદુ પરિમાણો જુઓ).
            

            
            
                લેખ વાંચક નવું
                કોઈપણ લેખ પાના પર એક

પરિમાણો	પ્રકાર	જરૂરી	વર્ણન
file	file	હા	ઓડિયો ફાઈલ (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). મહત્તમ ૧૦૦MB.
model	string	નહિં	STT મોડેલ: `whisper` (મૂળભૂત), `faster-whisper`, `sensevoice`
language	string	નહિં	ભાષા કોડ. આપોઆપ શોધ માટે `auto` (મૂળભૂત).
timestamps	boolean	નહિં	શબ્દ-સ્તર સમયસમાપ્તિઓ સમાવે છે. મૂળભૂત: `false`
diarize	boolean	નહિં	સ્પીકર ડાયરીંગ સક્રિય કરો. મૂળભૂત: `false`

પરિમાણો	પ્રકાર	જરૂરી	વર્ણન
reference_audio	file	હા	સંદર્ભ અવાજ ઓડિયો (10-30 સેકન્ડો સૂચવાયેલ છે). મહત્તમ ૨૦MB.
text	string	હા	ક્લોન થયેલ અવાજમાં બોલવા માટેનું લખાણ.
model	string	નહિં	ક્લોન મોડેલ: `chatterbox` (મૂળભૂત), `cosyvoice2`, `gpt-sovits`
format	string	નહિં	આઉટપુટ બંધારણ: `mp3` (મૂળભૂત), `wav`, `flac`
language	string	નહિં	લક્ષ્ય ભાષા કોડ. પસંદ કરેલ મોડેલ દ્વારા આધારભૂત હોવું જ જોઇએ.

file file	વધારવા માટેની ઓડિયો ફાઈલ
denoise boolean	અવાજ ઘટાડવાનું સક્રિય કરો (મૂળભૂત: સાચું)
enhance_clarity boolean	બોલવાની સ્પષ્ટતા વધારો (મૂળભૂત: સાચું)
super_resolution boolean	ઓડિયો ગુણવત્તાને ઉચ્ચ સ્તર પર લાવો (મૂળભૂત: ખોટો)
strength integer	૧-૩ (આછું, મધ્યમ, મજબૂત). મૂળભૂત: ૨

file file	અલગ કરવા માટે ઓડિયો ફાઈલ
model string	`demucs` (મૂળભૂત) અથવા `spleeter`
stems integer	સ્ટેમ્સની સંખ્યા: ૨, ૪, ૫, અથવા ૬ (મૂળભૂત: ૨)
format string	આઉટપુટ બંધારણ: `wav`, `mp3`, `flac`

file file	પ્રક્રિયા કરવા માટે ઓડિયો ફાઈલ
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

file file	રૂપાંતરિત કરવા માટેની ઓડિયો ફાઈલ
format string	લક્ષ્ય બંધારણ: `mp3`, `wav`, `flac`, `ogg`, `m4a`, `aac`
bitrate integer	આઉટપુટ બીટદર kbps માં: 64, 128, 192, 256, 320
sample_rate integer	નમૂના દર: ૨૨૦૫૦, ૪૪૧૦૦, ૪૮૦૦૦
channels string	`mono` અથવા `stereo`

પરિમાણો	પ્રકાર	જરૂરી	વર્ણન
audio	file	નહિં*	ઓડિયો ઇનપુટ (`audio` અથવા `text` જરૂરી છે)
text	string	નહિં*	લખાણ ઇનપુટ (`audio` અથવા `text` જરૂરી છે)
voice	string	નહિં	AI જવાબ માટે અવાજ. મૂળભૂત: `af_bella`
tts_model	string	નહિં	જવાબ માટે TTS મોડેલ. મૂળભૂત: `kokoro`
system_prompt	string	નહિં	AI માટે વૈવિધ્યપૂર્ણ સિસ્ટમ પ્રશ્ન
conversation_id	string	નહિં	વર્તમાન વાર્તાલાપને ચાલુ રાખો

પરિમાણો	પ્રકાર	વર્ણન
texts	array	Array of objects: `{text, model, voice}`. Max 50 items.
webhook_url	string	જ્યારે બેચ સમાપ્ત થાય ત્યારે POST પરિણામો માટે વૈકલ્પિક URL.

પરિમાણો	પ્રકાર	વર્ણન
file	file	Reference audio file (WAV, MP3, FLAC).
model	string	Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.

પરિમાણો	પ્રકાર	વર્ણન
model	string	મોડેલ ID દ્વારા ગાળો (દા.ત., `kokoro`)
language	string	ભાષા કોડ દ્વારા ગાળો (દા.ત., `en`)
gender	string	લિંગ દ્વારા ગાળક: `male`, `female`, `neutral`

પરિમાણો	જરૂરી	વર્ણન
uuid	હા	/v1/tts/ અથવા /v1/voice-clone/ દ્દારા પાછો મળેલ કામ UUID.
format	નહિં	`srt` (મૂળભૂત) અથવા `vtt`.
download	નહિં	`1` `Content-Disposition: જોડાણ` મોકલવા માટે `કે જેથી બ્રાઉઝર દર્શાવે છે તેની જગ્યાએ સંગ્રહ કરે.`
language	નહિં	ગોઠવણી મોડેલ માટેની મદદ (જો છોડી દેવામાં આવે તો આપમેળે શોધાયેલ).

પરિમાણો	પ્રકાર	વર્ણન
word	string	ઉપર લખવા માટે શબ્દ (દા.ત. `GIF`, `Anthropic`). શબ્દ-સીમા બંધબેસતી હતી.
replacement	string	મોડેલ માટે કેવી રીતે જોડણી કરવી (દા.ત. `jiff`, `ann THROP ick`).
language	string	વૈકલ્પિક ISO કોડ. ખાલી = બધી ભાષાઓ માટે લાગુ પડે છે.
case_sensitive	boolean	મૂળભૂત `false`. કેસ બરાબર બંધબેસે છે જ્યારે `true`.