Πώς μπορώ να πάρω ένα κλειδί API;

Εγγραφείτε για ένα δωρεάν λογαριασμό TTS.ai, στη συνέχεια, πλοηγηθείτε στο ταμπλό του λογαριασμού σας και κάντε κλικ στο "Generate API Key." Το κλειδί σας θα είναι προκαθορισμένο με sk-tts- και μπορεί να χρησιμοποιηθεί άμεσα.

Είναι το API συμβατό με τη μορφή του OpenAI;

Ναι, API μας ακολουθεί OpenAI συμβατή μορφή αίτησης και απόκρισης. Αν έχετε τον υπάρχοντα κωδικό που χρησιμοποιεί TTS API του OpenAI, μπορείτε να μεταβείτε σε TTS.ai με την αλλαγή του πλήκτρου URL βάσης και API με ελάχιστες αλλαγές κώδικα.

Ποιες γλώσσες προγραμματισμού υποστηρίζονται;

Το REST API λειτουργεί με οποιαδήποτε γλώσσα που μπορεί να κάνει αιτήματα HTTP. Παρέχουμε παραδείγματα κώδικα σε Python, JavaScript (Node.js και browser), cURL, και πολλά άλλα. Οποιαδήποτε γλώσσα με μια βιβλιοθήκη πελατών HTTP (Go, Ruby, Java, C#, PHP, κλπ.) μπορεί να χρησιμοποιήσει το API.

Ποια είναι τα όρια του ποσοστού API;

Οι δωρεάν λογαριασμοί περιορίζονται σε 3 αιτήσεις ανά ώρα. Τα πληρωμένα σχέδια έχουν υψηλότερα όρια με βάση τη βαθμίδα της συνδρομής σας: Starter (60/ώρα), Professional (300/ώρα), Enterprise (απεριόριστα).

Πώς λειτουργεί η τιμολόγηση API;

Δωρεάν μοντέλα χρησιμοποιούν 0 χαρακτήρες, πρότυπα χρησιμοποιούν 2x χαρακτήρες, και premium μοντέλα χρησιμοποιούν 4x χαρακτήρες. Οι χαρακτήρες περιλαμβάνονται σε όλα τα πληρωμένα σχέδια και μπορούν επίσης να αγοραστούν ξεχωριστά ως πακέτα χαρακτήρων.

Ποια τελικά σημεία είναι διαθέσιμα;

The API provides endpoints for text-to-speech (POST /v1/tts/), speech-to-text (POST /v1/transcribe/), voice cloning (POST /v1/voice-clone/), voice conversion (POST /v1/voice-convert/), speech translation (POST /v1/speech-translate/), audio enhancement (POST /v1/audio-enhance/), vocal removal, stem splitting, key and BPM analysis, and more.

Ποιες μορφές ήχου επιστρέφει η API;

Το API επιστρέφει ήχου σε μορφή WAV από προεπιλογή. Μπορείτε να καθορίσετε τη μορφή εξόδου (mp3, wav, ogg, flac) χρησιμοποιώντας την παράμετρο απόκρισης_format. MP3 συνιστάται για web εφαρμογές, WAV για περαιτέρω επεξεργασία ήχου.

Υπάρχει ένα streaming API για σε πραγματικό χρόνο TTS;

Για υποστηριζόμενα μοντέλα όπως το Kokoro, η παραγωγή ήχου είναι αρκετά γρήγορη για εφαρμογές κοντά σε πραγματικό χρόνο. Το τελικό σημείο αναζήτησης επιστρέφει το URL ήχου όταν η επεξεργασία είναι πλήρης.

Πώς χειρίζομαι τα λάθη στο API;

Το API επιστρέφει τυποποιημένους κωδικούς κατάστασης HTTP (400 για κακές αιτήσεις, 401 για σφάλματα auth, 429 για όρια τιμών, 500 για σφάλματα διακομιστή) με μηνύματα σφάλματος JSON. Ελέγξτε πάντα τον κωδικό κατάστασης και το πεδίο σφάλματος στις απαντήσεις για τον κατάλληλο χειρισμό σφαλμάτων.

Μπορώ να χρησιμοποιήσω το API για εμπορικές εφαρμογές;

Ναι, το API είναι σχεδιασμένο για εμπορική χρήση. Ήχος που παράγεται μέσω του API μπορεί να χρησιμοποιηθεί στα προϊόντα, τις εφαρμογές και τις υπηρεσίες σας. Όλα τα μοντέλα χρησιμοποιούν άδειες ανοικτού κώδικα, και δεν υπάρχουν πρόσθετα δικαιώματα για την παραγωγή ήχου.

Υπάρχει κάποιο περιβάλλον με άμμο ή δοκιμή;

Free-tier μοντέλα (Kokoro, Piper, VITS, MeloTTS) λειτουργούν ως ένα εξαιρετικό sandbox

Πώς μπορώ να απαριθμήσω τις διαθέσιμες φωνές και τα μοντέλα μέσω του API;

Χρησιμοποιήστε το GET / v1/φωνές για να απαριθμήσετε όλες τις διαθέσιμες φωνές με επιλογές φιλτραρίσματος (μοντέλο, γλώσσα, φύλο). Χρησιμοποιήστε το GET / v1/μοντέλα για να καταγράψετε όλα τα διαθέσιμα μοντέλα TTS με τις δυνατότητες και τις κλιμακωτές πληροφορίες τους. Και τα δύο τελικά σημεία επιστρέφουν τις απαντήσεις JSON.

Αναφορά σφάλματος / αίτησης χαρακτηριστικών

Τεκμηρίωση API

Ενσωμάτωση TTS.ai στις εφαρμογές σας με REST API μας. OpenAI συμβατή μορφή για εύκολη μετανάστευση.

REST API OpenAI Συμβατό Ανταποκρίσεις JSON Streaming Support

Επισκόπηση

Το TTS.ai API παρέχει προγραμματική πρόσβαση σε όλα τα χαρακτηριστικά της πλατφόρμας: σύνθεση κειμένου προς ομιλία, μεταγραφή ομιλίας προς κείμενο, κλωνοποίηση φωνής, ενίσχυση ήχου, και πολλά άλλα.

Κλειδί API

Πάρτε το κλειδί API σας από Ρυθμίσεις λογαριασμού. Διαθέσιμο στα σχέδια Pro και Enterprise.

URL βάσηςName

https://api.tts.ai/v1/

Auth

Σημάδι Bearer μέσω Authorization κεφαλίδα

Ταυτοποίηση

Δεν απαιτείται κλειδί για την ελεύθερη βαθμίδα. Ανώνυμοι ΠΩΤΑΣ /v1/tts/ εργασία χωρίς κανένα auth, μέχρι 5.000 χαρακτήρες / ημέρα ανά IP, χρησιμοποιώντας οποιοδήποτε από τα δωρεάν μοντέλα μας (piper, vits, melotts, kokoro). Εγγραφείτε για ένα δωρεάν λογαριασμό για να πάρετε 15.000 χαρακτήρες μπόνους και την πρόσβαση σε μοντέλα premium.

Για premium μοντέλα και υψηλότερα όρια επιτοκίου, να πιστοποιήσετε με ένα Bearer μάρκο στο Authorization κεφαλίδα.

Κεφαλίδα HTTP

Authorization: Bearer sk-tts-your-api-key-here

Κρατήστε το κλειδί API σας μυστικό. Μην το μοιράζεστε σε κωδικό από την πλευρά του πελάτη, δημόσια αρχεία ή αρχεία καταγραφής. Περιστρέψτε τα πλήκτρα τακτικά από τις ρυθμίσεις του λογαριασμού σας.

SDKsunit synonyms for matching user input

Τα επίσημα SDK καθιστούν εύκολη την ενσωμάτωση TTS.ai στην εφαρμογή σας. Και οι δύο είναι ανοιχτές πηγές και διαθέσιμες στο GitHub.

Python

pip install ttsai

from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")
audio = client.generate(
    text="Hello world!",
    model="kokoro"
)
client.save(audio, "output.wav")

GitHub

JavaScript / Node.js

npm install @ttsainpm/ttsai

const { TTSClient } = require('@ttsainpm/ttsai');

const client = new TTSClient({
  apiKey: 'sk-tts-...'
});
const audio = await client.generate({
  input: 'Hello world!',
  model: 'kokoro'
});
await client.saveToFile(audio, 'output.wav');

GitHub

URL βάσηςName

URL βάσηςName: https://api.tts.ai/v1/

Όλα τα τελικά σημεία είναι σχετικά με αυτό το URL βάσης. Για παράδειγμα, το τελικό σημείο TTS είναι:

POST https://api.tts.ai/v1/tts/

Όρια ποσοστών

Τα όρια του ποσοστού API ποικίλλουν ανάλογα με το σχέδιο:

Σχέδιο	Αιτήσεις/λεπτό	Συγκρότημα	Μέγιστο μήκος κειμένου
Ατελώς	10	2	500 chars
Εκκίνηση	30	3	1.000.000 chars
Pro	60	5	1.000.000 chars
ΕντερπράιζCity name (optional, probably does not need a translation)	300	20	50,000 chars

Οι κεφαλίδες ορίου ταχύτητας περιλαμβάνονται σε κάθε απάντηση: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

Πιστωτικά έξοδα

Υπηρεσία	Κόστος	Μονάδα
TTS (Δωρεάν μοντέλα: Piper, VITS, MeloTTS)	1.000 χαρακτήρες	ανά 1.000 χαρακτήρες
TTS (τυπικά μοντέλα: Kokoro, CosyVoice 2, κ.λπ.)	2.000 χαρακτήρες	ανά 1.000 χαρακτήρες
TTS (Πremium μοντέλα: Tortoise, Chatterbox κ.λπ.)	4.000 χαρακτήρες	ανά 1.000 χαρακτήρες
Ομιλία προς κείμενο	2.000 χαρακτήρες	ανά λεπτό ήχου
Κλωνοποίηση φωνής	4.000 χαρακτήρες	ανά 1.000 χαρακτήρες
Αλλαγή φωνής	3.000 χαρακτήρες	ανά λεπτό ήχου
Ενίσχυση ήχου	2.000 χαρακτήρες	ανά λεπτό ήχου
Φωνητική αφαίρεση/Διαχωρισμός στέμματος	3.000-4.000 χαρακτήρες	ανά λεπτό ήχου
Μετάφραση λόγου	5.000 χαρακτήρες	ανά λεπτό ήχου
Φωνητική συνομιλία	3.000 χαρακτήρες	ανά στροφή
Κλειδί & BPM FinderName	Ατελώς	--
Μετατροπέας ήχουName	Ατελώς	--

Κείμενο σε λόγο

POST /v1/tts/

Μετατροπή κειμένου σε ομιλία ήχου. Επιστρέφει το αρχείο ήχου με την αιτούμενη μορφή.

Αιτούμενος φορέας

Παράμετρος	Τύπος	Απαιτείται	Περιγραφή εμπορευμάτων
model	string	Όχι.	Μοντέλο ID (π.χ., `kokoro`, `chatterbox`, `piper`).Αν παραλειφθεί, επιλέγουμε αυτόματα ένα μοντέλο που υποστηρίζει το ζητούμενο `language` `kokoro για en/ja/zh/ko/fr/de/it/pt/es/hi/ru, piper για άλλες υποστηριζόμενες γλώσσες (ar/pl/nl/cs/da/fi/el/hu/tr/uk/vi/etc.).`
text	string	Ναι.	Κείμενο για να μετατρέψετε σε ομιλία. Ανά αίτημα καπάκι: 500 chars (ανώνυμο), 5.000 (ελεύθερος λογαριασμός), 1.000.000 (πληρωμένο σχέδιο).
voice	string	Ναι.	Voice ID (use `/v1/voices/` to list available voices)
format	string	Όχι.	Μορφότυπος εξόδου: `mp3` (default), `wav`, `flac`, `ogg`
speed	float	Όχι.	Πολλαπλασιαστής ταχύτητας ομιλίας. Προκαθορισμένο: `1.0`. Εύρος: `0.5` to `2.0`
language	string	Όχι.	Κωδικός γλώσσας (π.χ., `en`, `es`).
instructions	string	Όχι.	Ενεργοποίηση / παράδοση νύχων (≤500 chars). π.χ. `\`
pronunciations	object \| array	Όχι.	Per-ζητήστε υπερχείλιση προφοράς. Είτε `{\`
stream	boolean	Όχι.	Ενεργοποίηση απόκρισης ροής. Προκαθορισμένο: `false`

Αίτηση παραδείγματος

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

SIML tags

Τυλίγονται αριθμοί, ημερομηνίες, νόμισμα, αριθμοί τηλεφώνου και ακρωνύμια στο


                    
                        
                            Διερμηνεία-ως Εισαγωγή Μίλησε ως
                        
                        
                            cardinal 1234 one thousand two hundred thirty-four
                            ordinal 21 twenty-first
                            date 1999-12-31 Τριάντα-πρώτα, δεκαεννέα-ενήντα-εννιά Δεκεμβρίου
                            time 14:30 two thirty PM
                            telephone +1-555-867-5309 plus one five five five eight six seven…
                            currency $1,234.56 one thousand two hundred thirty-four dollars and fifty-six cents
                            spell-out NASA N A S A

Διερμηνεία-ως	Εισαγωγή	Μίλησε ως
`cardinal`	`1234`	one thousand two hundred thirty-four
`ordinal`	`21`	twenty-first
`date`	`1999-12-31`	Τριάντα-πρώτα, δεκαεννέα-ενήντα-εννιά Δεκεμβρίου
`time`	`14:30`	two thirty PM
`telephone`	`+1-555-867-5309`	plus one five five five eight six seven…
`currency`	`$1,234.56`	one thousand two hundred thirty-four dollars and fifty-six cents
`spell-out`	`NASA`	N A S A


                Προεπιλεγμένες ημερομηνίες σε mdy για τα αγγλικά και dmy αλλού· παράκαμψη με format=\

                
                    
                        Παράδειγμα
                        
                    
{
  "model": "kokoro",
  "voice": "af_bella",
  "text": "Your appointment is on <say-as interpret-as=\"date\">2026-04-26</say-as> at <say-as interpret-as=\"time\">14:30</say-as>. Please call <say-as interpret-as=\"telephone\">+1-555-867-5309</say-as> if you need to reschedule."
}
                

                Απάντηση
                The TTS endpoint queues your request and returns a JSON response with a job UUID. You then poll for the result.

                Step 1: Submit request
                
                    
                        Response (JSON)
                    
{
  "uuid": "77b71db532874ce98e84a69a2d740d4c",
  "job_id": "f21316bb-aefa-480d-8523-701d1e3184ce",
  "status": "queued",
  "credits_used": 11,
  "credits_remaining": 15000
}
                

                Step 2: Poll for result
                
                    GET /v1/speech/results/?uuid=<job_uuid>
                
                Poll this endpoint every 1-2 seconds until status is completed or failed.
                
                    
                        Polling response (completed)
                    
{
  "status": "completed",
  "result_url": "https://api.tts.ai/static/downloads/77b71db5.../output.mp3"
}
                
                
                    
                        Polling response (still processing)
                    
{
  "status": "processing"
}
                

                Step 3: Download audio
                Fetch the result_url from the completed response to download the audio file.

                Πλήρες παράδειγμα
                
                    
                        Python
                        
                    
import requests, time

API_KEY = "sk-tts-your-key"
BASE = "https://api.tts.ai"

# 1. Submit TTS request
resp = requests.post(f"{BASE}/v1/tts/", json={
    "model": "kokoro",
    "text": "Hello from TTS.ai!",
    "voice": "af_bella"
}, headers={"Authorization": f"Bearer {API_KEY}"})
data = resp.json()
uuid = data["uuid"]

# 2. Poll for result
while True:
    result = requests.get(f"{BASE}/v1/speech/results/",
        params={"uuid": uuid}).json()
    if result["status"] == "completed":
        # 3. Download audio
        audio = requests.get(result["result_url"])
        with open("output.mp3", "wb") as f:
            f.write(audio.content)
        break
    elif result["status"] == "failed":
        raise Exception(result.get("error", "Generation failed"))
    time.sleep(1.5)
                

                Streaming alternative: For supported models (Kokoro, MeloTTS), use POST /v1/tts/stream/ for real-time Server-Sent Events (SSE) streaming — no polling needed.



            
            
                Ομιλία προς κείμενο
                
                    POST /v1/stt/
                
                Υποστηρίζει 99 γλώσσες με αυτόματη προστασία.

                Αιτούμενος φορέας (multipart/form-data)
                
                    
                        
                            Παράμετρος Τύπος Απαιτείται Περιγραφή εμπορευμάτων
                        
                        
                            
                                file
                                file
                                Ναι.
                                Αρχείο ήχου (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Max 100MB.
                            
                            
                                model
                                string
                                Όχι.
                                Μοντέλο STT: whisper (default), faster-wisper, sensevoice
                            
                            
                                language
                                string
                                Όχι.
                                Κωδικός γλώσσας. auto for auto-detection (default).
                            
                            
                                timestamps
                                boolean
                                Όχι.
                                Συμπεριλάβετε χρονοσφραγίσεις σε επίπεδο λέξεων. Προκαθορισμένο: false
                            
                            
                                diarize
                                boolean
                                Όχι.
                                Ενεργοποίηση διαχωρισμού ηχείων. Προκαθορισμένο: false
                            
                        
                    
                

                Απάντηση
                
                    
                        Απάντηση του JSON
                    
{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}
                
            

            
            
                Κλωνοποίηση φωνής
                
                    POST /v1/tts/clone/
                
                Δημιουργήστε λόγο σε μια κλωνοποιημένη φωνή. Ανεβάστε έναν ήχο αναφοράς και κείμενο.

                Αιτούμενος φορέας (multipart/form-data)
                
                    
                        
                            Παράμετρος Τύπος Απαιτείται Περιγραφή εμπορευμάτων
                        
                        
                            
                                reference_audio
                                file
                                Ναι.
                                Αναφορά ήχου φωνής (10-30 δευτερόλεπτα συνιστάται).
                            
                            
                                text
                                string
                                Ναι.
                                Μήνυμα για να μιλήσω με την κλωνοποιημένη φωνή.
                            
                            
                                model
                                string
                                Όχι.
                                Μοντέλο Clone: chatterbox (default), cosyvoice2, gpt-sovits
                            
                            
                                format
                                string
                                Όχι.
                                Μορφότυπος εξόδου: mp3 (default), wav, flac
                            
                            
                                language
                                string
                                Όχι.
                                Ο κωδικός γλώσσας-στόχου πρέπει να υποστηρίζεται από το επιλεγμένο μοντέλο.
                            
                        
                    
                

                Απάντηση
                Επιστρέφει το αρχείο ήχου ως δυαδικά δεδομένα, όπως το τελικό σημείο TTS.
            

            
            
                Αλλαγή φωνής
                
                    POST /v1/voice-convert/
                
                Μετατρέψτε τον ήχο για να ακούγεται σαν μια διαφορετική φωνή. Ανεβάστε τον ήχο πηγή και επιλέξτε μια φωνή στόχο.

                Αιτούμενος φορέας (multipart/form-data)
                
                    
                        
                            Παράμετρος Τύπος Απαιτείται Περιγραφή εμπορευμάτων
                        
                        
                            
                                file
                                file
                                Ναι.
                                Πηγή αρχείο ήχου (MP3, WAV, FLAC). Max 50MB.
                            
                            
                                target_voice
                                string
                                Ναι.
                                ID φωνής στόχου για μετατροπή σε (χρήση <κωδικοποιητή>/v1/φωνές/ στη λίστα διαθέσιμων φωνών)
                            
                            
                                model
                                string
                                Όχι.
                                Μοντέλο μετατροπής φωνής:  openvoice (default), knn-vc
                            
                            
                                format
                                string
                                Όχι.
                                Μορφότυπος εξόδου: wav (default), mp3, flac
                            
                        
                    
                

                Αίτηση παραδείγματος
                
                    
                        cURL
                        
                    
curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav
                

                Απάντηση
                Επιστρέφει το μετατρεπόμενο αρχείο ήχου ως δυαδικά δεδομένα.
            

            
            
                Μετάφραση λόγου
                
                    POST /v1/speech-translate/
                
                Συνδυάζει ομιλία-σε-κείμενο, μετάφραση, και κείμενο-σε- ομιλία σε μια ενιαία κλήση.

                Αιτούμενος φορέας (multipart/form-data)
                
                    
                        
                            Παράμετρος Τύπος Απαιτείται Περιγραφή εμπορευμάτων
                        
                        
                            
                                file
                                file
                                Ναι.
                                Πηγή αρχείο ήχου στην πρωτότυπη γλώσσα. Max 100MB.
                            
                            
                                target_language
                                string
                                Ναι.
                                Κωδικός γλώσσας-στόχου (π.χ., es, fr, de, ja)
                            
                            
                                voice
                                string
                                Όχι.
                                Φωνή για μεταφρασμένη έξοδο. Αυτόματη επιλογή αν παραλειφθεί.
                            
                            
                                preserve_voice
                                boolean
                                Όχι.
                                Προσπάθησε να διατηρήσεις τα χαρακτηριστικά φωνής του αρχικού ομιλητή. Προκαθορισμένο: false
                            
                        
                    
                

                Απάντηση
                
                    Απάντηση του JSON
{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}
                
            

            
            
                Ομιλία προς Λόγο
                
                    POST /v1/speech-to-speech/
                
                Χρήσιμο για να προσαρμόσετε τον τόνο, το βηματισμό και την εκφραστικότητα.

                Αιτούμενος φορέας (multipart/form-data)
                
                    
                        
                            Παράμετρος Τύπος Απαιτείται Περιγραφή εμπορευμάτων
                        
                        
                            
                                file
                                file
                                Ναι.
                                Αρχείο ήχου ομιλίας πηγής, Μαξ 50MB.
                            
                            
                                voice
                                string
                                Ναι.
                                ID φωνής στόχου για την ομιλία εξόδου
                            
                            
                                model
                                string
                                Όχι.
                                Υπόδειγμα:  openvoice (default), chatterbox
                            
                            
                                emotion
                                string
                                Όχι.
                                Συναίσθημα στόχου:  ουδέτερο ,  happy, sad, angry, excited
                            
                            
                                speed
                                float
                                Όχι.
                                Ρύθμιση ταχύτητας. Προκαθορισμένο: 1.0. Εύρος: 0.5 to 2.0
                            
                        
                    
                

                Απάντηση
                Επιστρέφει το μεταμορφωμένο αρχείο ήχου ως δυαδικά δεδομένα.
            

            
            
                Εργαλεία ήχου
                Τελικά σημεία επεξεργασίας ήχου για την ενίσχυση, τη φωνητική αφαίρεση, τον διαχωρισμό των στελεχών, και πολλά άλλα.

                
                
                    
                        
                            POST /v1/audio/enhance/
                        
                        Ενισχύστε την ποιότητα ήχου: denoise, βελτίωση της σαφήνειας, σούπερ ανάλυση.
                        
                            
                                
                                    file file Αρχείο ήχου για την ενίσχυση
                                    denoise boolean Ενεργοποίηση αποκωδικοποίησης (προεπιλογή: true)
                                    enhance_clarity boolean Ενίσχυση της σαφήνειας της ομιλίας (προκαθορισμένη: αληθής)
                                    super_resolution boolean Υψηλής ποιότητας ήχου (προκαθορισμένη: ψευδής)
                                    strength integer 1-3 (ελαφρύ, μεσαίο, δυνατό). Προκαθορισμένο: 2
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/separate/
                        
                        Ξεχωριστά φωνητικά από τα όργανα (φωνητική αφαίρεση) ή χωρισμένα σε στελέχη.
                        
                            
                                
                                    file file Αρχείο ήχου για διαχωρισμό
                                    model string demucs (προεπιλεγμένη) ή spleeter
                                    stems integer Αριθμός στελεχών: 2, 4, 5 ή 6 (προκαθορισμένο: 2)
                                    format string Μορφότυπος εξόδου: wav, mp3, flac
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/dereverb/
                        
                        Αφαίρεση ηχώ και reverb από ηχητικές ηχογραφήσεις.
                        
                            
                                
                                    file file Αρχείο ήχου προς επεξεργασία
                                    type string echo or reverb (default: both)
                                    intensity integer 1-5 (default: 3)
                                
                            
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/analyze/
                            Ατελώς
                        
                        Αναλύστε τον ήχο για να ανιχνεύσετε το κλειδί, BPM, και την υπογραφή του χρόνου.
                        
                            
                                
                                    file file Αρχείο ήχου για ανάλυση
                                
                            
                        
                        
                            Απάντηση
{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}
                        
                    
                

                
                
                    
                        
                            POST /v1/audio/convert/
                            Ατελώς
                        
                        Μετατροπή ήχου μεταξύ μορφοτύπων.
                        
                            
                                
                                    file file Αρχείο ήχου για να μετατρέψετε
                                    format string Μορφότυπος στόχος: mp3, wav, flac, ogg, m4a, aac
                                    bitrate integer bitrate εξόδου σε kbps: 64, 128, 192, 256, 320
                                    sample_rate integer Ποσοστό δείγματος: 22050, 44100, 48000
                                    channels string mono ή stereo
                                
                            
                        
                    
                
            

            
            
                Φωνητική συνομιλία
                
                    POST /v1/voice-chat/
                
                Στείλτε ήχο ή κείμενο και λάβετε μια απάντηση AI με συντεταγμένη ομιλία.

                Αιτούμενος φορέας (multipart/form-data ή JSON)
                
                    
                        
                            Παράμετρος Τύπος Απαιτείται Περιγραφή εμπορευμάτων
                        
                        
                            
                                audio
                                file
                                Όχι.*
                                Εισαγωγή ήχου (είτε audio είτε text required)
                            
                            
                                text
                                string
                                Όχι.*
                                Εισαγωγή κειμένου (είτε audio είτε text required)
                            
                            
                                voice
                                string
                                Όχι.
                                Φωνή για απόκριση AI. Προκαθορισμένο: af_bella
                            
                            
                                tts_model
                                string
                                Όχι.
                                Μοντέλο TTS για απόκριση. Προκαθορισμένο: kokoro
                            
                            
                                system_prompt
                                string
                                Όχι.
                                Προσαρμοσμένο σύστημα προτροπής για την AI
                            
                            
                                conversation_id
                                string
                                Όχι.
                                Συνεχίστε μια υπάρχουσα συζήτηση
                            
                        
                    
                

                Απάντηση
                
                    Απάντηση του JSON
{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}
                
            

            
            
                Παρτίδα TTS
                
                    POST /v1/tts/batch/
                
                Υποβάλετε πολλαπλά κείμενα για την παράλληλη γενιά TTS. Προαιρετικά λάβετε μια κλήση webhook όταν όλες οι εργασίες ολοκληρωθεί.

                Παράμετροι
                
                    Παράμετρος Τύπος Περιγραφή εμπορευμάτων
                    
                        texts array Array of objects: {text, model, voice}. Max 50 items.
                        webhook_url string Προαιρετικό URL για αποτελέσματα POST όταν ολοκληρώνεται η παρτίδα.
                    
                

                Απάντηση
                
                    Απάντηση του JSON
{
  "batch_id": "abc123",
  "total": 3,
  "completed": 0,
  "status": "processing"
}
                
                Πρόοδος στις δημοσκοπήσεις με το GET /v1/tts/batch/festival/?batch_id=abc123
            

            
            
                Ενσωμάτωση φωνής
                
                    POST /v1/voice-embed/
                
                Προ-compute μια φωνητική ενσωμάτωση από τον ήχο αναφοράς. Χρησιμοποιήστε το returned embed_id σε επόμενες αιτήσεις κλωνοποίησης φωνής για σχεδόν στιγμιαία γενιά.

                Παράμετροι
                
                    Παράμετρος Τύπος Περιγραφή εμπορευμάτων
                    
                        file file Reference audio file (WAV, MP3, FLAC).
                        model string Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.
                    
                

                Απάντηση
                
                    Απάντηση του JSON
{
  "embed_id": "emb_abc123",
  "model": "chatterbox",
  "duration_ms": 450
}
                
            

            
            
                Υγειονομικός έλεγχος
                
                    GET /v1/health/
                
                Ελέγξτε την κατάσταση του διακομιστή GPU, τα φορτωμένα μοντέλα και το μέγεθος της ουράς.

                Απάντηση
                
                    Απάντηση του JSON
{
  "status": "online",
  "latency_ms": 45,
  "queue_size": 3,
  "models_loaded": ["kokoro", "chatterbox", "cosyvoice2"]
}
                
            

            
            
                Μοντέλα λίστας
                
                    GET /v1/models/
                
                Επιστρέφει μια λίστα με όλα τα διαθέσιμα μοντέλα με τις δυνατότητές τους.

                Απάντηση
                
                    Απάντηση του JSON
{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}
                
            

            
            
                Φωνές λίσταςName
                
                    GET /v1/voices/
                
                Επιστρέφει μια λίστα με όλες τις διαθέσιμες φωνές, προαιρετικά φιλτραρισμένο από το μοντέλο ή τη γλώσσα.

                Παράμετροι ερωτήσεων
                
                    
                        
                            Παράμετρος Τύπος Περιγραφή εμπορευμάτων
                        
                        
                            
                                model
                                string
                                Φίλτρο με ID μοντέλου (π.χ., koro)
                            
                            
                                language
                                string
                                Φίλτρο με κωδικό γλώσσας (π.χ., en)
                            
                            
                                gender
                                string
                                Φίλτρο ανά φύλο: αρσενικό , θήλυ ,  ουδέτερο 
                            
                        
                    
                

                Απάντηση
                
                    Απάντηση του JSON
{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}
                
            

            
            
                Υπότιτλοι (SRT / VTT) νέα
                
                    GET /v1/speech/subtitles/?uuid=<job_uuid>&format=srt|vtt&download=1
                
                Δημιουργήστε συγχρονισμένους υπότιτλους για οποιαδήποτε ολοκληρωμένη εργασία TTS. Τρέχει Whisper ευθυγράμμιση πάνω από τον ήχο και επιστρέφει SRT ή WebVTT. Αποτέλεσμα είναι cached στο δίσκο έτσι μια δεύτερη κλήση για το ίδιο uuid είναι ένας δίσκος που διαβάζεται.
                Παράμετροι ερωτήσεων
                
                    
                        Παράμετρος Απαιτείται Περιγραφή εμπορευμάτων
                        
                            uuid Ναι. Job UUID returned by /v1/tts/ or /v1/voice-clone/.
                            format Όχι. srt (default) ή vtt.
                            download Όχι. 1 για την αποστολή Content-Disposition: attachment έτσι ο browser αποθηκεύει μάλλον παρά εμφανίζει.
                            language Όχι. Υπόδειξη στο μοντέλο ευθυγράμμισης (αυτόματη ανίχνευση αν παραλειφθεί).
                        
                    
                
                
                    cURL
curl "https://api.tts.ai/v1/speech/subtitles/?uuid=$UUID&format=srt&download=1" -o subtitles.srt
                
            

            
            
                Λεξικό προφοράς νέα
                
                    GET
                    POST
                    DELETE
                    /api/v1/pronunciations/
                
                Πείτε στον κινητήρα TTS πώς να προφέρετε συγκεκριμένες λέξεις. Αποθηκευμένες καταχωρήσεις αυτόματη εφαρμογή σε κάθε αίτημα TTS που κάνετε.
                Αιτούμενος φορέας (POST)
                
                    
                        Παράμετρος Τύπος Περιγραφή εμπορευμάτων
                        
                            word string Λέξη για παράκαμψη (π.χ. GIF, Anthropic).
                            replacement string Πώς να το συλλαβίσετε για το μοντέλο (π.χ. jiff, an Hynix ick).
                            language string Προαιρετικός κωδικός ISO. Κενός = ισχύει για όλες τις γλώσσες.
                            case_sensitive boolean Προκαθορισμένο false. Ματς ακριβώς όταν  true.
                        
                    
                
                
                    cURL
# Save an entry
curl -X POST https://tts.ai/api/v1/pronunciations/ \
  -H "Authorization: Bearer sk-tts-..." \
  -H "Content-Type: application/json" \
  -d '{"word": "GIF", "replacement": "jiff"}'

# List your entries
curl https://tts.ai/api/v1/pronunciations/ -H "Authorization: Bearer sk-tts-..."

# Delete entry by id
curl -X DELETE "https://tts.ai/api/v1/pronunciations/?id=42" -H "Authorization: Bearer sk-tts-..."
                
                Μπορείτε επίσης να περάσετε τις υπερβάσεις ανά αίτημα χωρίς να τις σώσετε περιλαμβάνουν  προφορές  σε οποιαδήποτε /v1/tts/ κλήση είτε ως αντικείμενο είτε ως διάταξη (δείτε τις παραστάσεις τελικού σημείου TTS).
            

            
            
                Άρθρο Αφηγητής νέα
                Πετάξτε ένα single

Παράμετρος	Τύπος	Απαιτείται	Περιγραφή εμπορευμάτων
file	file	Ναι.	Αρχείο ήχου (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Max 100MB.
model	string	Όχι.	Μοντέλο STT: `whisper` (default), `faster-wisper`, `sensevoice`
language	string	Όχι.	Κωδικός γλώσσας. `auto` for auto-detection (default).
timestamps	boolean	Όχι.	Συμπεριλάβετε χρονοσφραγίσεις σε επίπεδο λέξεων. Προκαθορισμένο: `false`
diarize	boolean	Όχι.	Ενεργοποίηση διαχωρισμού ηχείων. Προκαθορισμένο: `false`

Παράμετρος	Τύπος	Απαιτείται	Περιγραφή εμπορευμάτων
reference_audio	file	Ναι.	Αναφορά ήχου φωνής (10-30 δευτερόλεπτα συνιστάται).
text	string	Ναι.	Μήνυμα για να μιλήσω με την κλωνοποιημένη φωνή.
model	string	Όχι.	Μοντέλο Clone: `chatterbox` (default), `cosyvoice2`, `gpt-sovits`
format	string	Όχι.	Μορφότυπος εξόδου: `mp3` (default), `wav`, `flac`
language	string	Όχι.	Ο κωδικός γλώσσας-στόχου πρέπει να υποστηρίζεται από το επιλεγμένο μοντέλο.

file file	Αρχείο ήχου για την ενίσχυση
denoise boolean	Ενεργοποίηση αποκωδικοποίησης (προεπιλογή: true)
enhance_clarity boolean	Ενίσχυση της σαφήνειας της ομιλίας (προκαθορισμένη: αληθής)
super_resolution boolean	Υψηλής ποιότητας ήχου (προκαθορισμένη: ψευδής)
strength integer	1-3 (ελαφρύ, μεσαίο, δυνατό). Προκαθορισμένο: 2

file file	Αρχείο ήχου για διαχωρισμό
model string	`demucs` (προεπιλεγμένη) ή `spleeter`
stems integer	Αριθμός στελεχών: 2, 4, 5 ή 6 (προκαθορισμένο: 2)
format string	Μορφότυπος εξόδου: `wav`, `mp3`, `flac`

file file	Αρχείο ήχου προς επεξεργασία
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

file file	Αρχείο ήχου για να μετατρέψετε
format string	Μορφότυπος στόχος: `mp3`, `wav`, `flac`, `ogg`, `m4a`, `aac`
bitrate integer	bitrate εξόδου σε kbps: 64, 128, 192, 256, 320
sample_rate integer	Ποσοστό δείγματος: 22050, 44100, 48000
channels string	`mono` ή `stereo`

Παράμετρος	Τύπος	Απαιτείται	Περιγραφή εμπορευμάτων
audio	file	Όχι.*	Εισαγωγή ήχου (είτε `audio` είτε `text` required)
text	string	Όχι.*	Εισαγωγή κειμένου (είτε `audio` είτε `text` required)
voice	string	Όχι.	Φωνή για απόκριση AI. Προκαθορισμένο: `af_bella`
tts_model	string	Όχι.	Μοντέλο TTS για απόκριση. Προκαθορισμένο: `kokoro`
system_prompt	string	Όχι.	Προσαρμοσμένο σύστημα προτροπής για την AI
conversation_id	string	Όχι.	Συνεχίστε μια υπάρχουσα συζήτηση

Παράμετρος	Τύπος	Περιγραφή εμπορευμάτων
texts	array	Array of objects: `{text, model, voice}`. Max 50 items.
webhook_url	string	Προαιρετικό URL για αποτελέσματα POST όταν ολοκληρώνεται η παρτίδα.

Παράμετρος	Τύπος	Περιγραφή εμπορευμάτων
file	file	Reference audio file (WAV, MP3, FLAC).
model	string	Cloning model (default: chatterbox). Supported: chatterbox, cosyvoice2, openvoice, gpt-sovits, spark, indextts2, qwen3-tts.

Παράμετρος	Τύπος	Περιγραφή εμπορευμάτων
model	string	Φίλτρο με ID μοντέλου (π.χ., `koro`)
language	string	Φίλτρο με κωδικό γλώσσας (π.χ., `en`)
gender	string	Φίλτρο ανά φύλο: `αρσενικό` , `θήλυ` , `ουδέτερο`

Παράμετρος	Απαιτείται	Περιγραφή εμπορευμάτων
uuid	Ναι.	Job UUID returned by /v1/tts/ or /v1/voice-clone/.
format	Όχι.	`srt` (default) ή `vtt`.
download	Όχι.	`1` για την αποστολή `Content-Disposition: attachment` έτσι ο browser αποθηκεύει μάλλον παρά εμφανίζει.
language	Όχι.	Υπόδειξη στο μοντέλο ευθυγράμμισης (αυτόματη ανίχνευση αν παραλειφθεί).

Παράμετρος	Τύπος	Περιγραφή εμπορευμάτων
word	string	Λέξη για παράκαμψη (π.χ. `GIF`, `Anthropic`).
replacement	string	Πώς να το συλλαβίσετε για το μοντέλο (π.χ. `jiff`, `an Hynix ick`).
language	string	Προαιρετικός κωδικός ISO. Κενός = ισχύει για όλες τις γλώσσες.
case_sensitive	boolean	Προκαθορισμένο `false`. Ματς ακριβώς όταν `true`.