Κείμενο στο Λόγο API για τους προγραμματιστές

Φτιάξτε φωνητικές εφαρμογές με το REST API μας. Προσθέστε φυσικό κείμενο-to-speech, κλωνοποίηση φωνής, ομιλία-to-text, και επεξεργασία ήχου στις εφαρμογές σας, chatbots, βοηθούς φωνής, και SaaS προϊόντα. OpenAI συμβατή μορφή, 20+ μοντέλα, απλή ενσωμάτωση.

REST API ΤσάτμποτςCity name (optional, probably does not need a translation) Φωνητικές εφαρμογέςName Προϊόντα SaaS Αυτοματοποίηση

Δοκίμασέ το τώρα.

Δωρεάν με Kokoro, Piper, VITS, MeloTTS
Ο δημιουργημένος ήχος σου θα εμφανιστεί εδώ.
Δημιουργήθηκε
Λήψη
Αγάπη TTS.ai; Πες στους φίλους σου!

Χαρακτηριστικά API για τους προγραμματιστές

Όλα όσα χρειάζεστε για να δημιουργήσετε φωνητικές εφαρμογές

Απλή REST API

Ένα αίτημα POST για τη δημιουργία λόγου. JSON αίτημα, απάντηση ήχου. Λειτουργεί με οποιαδήποτε γλώσσα προγραμματισμού που υποστηρίζει HTTP.

OpenAI-Compatible

Ανταλλακτικό drop-in για OpenAI TTS API. Εναλλαγή βάσης_url και API κλειδί σας λειτουργεί άμεσα ο υφιστάμενος κώδικας.

24+ Μοντέλα Διαθέσιμα

Πρόσβαση σε κάθε μοντέλο μέσω ενός μόνο API. Διακόπτης μοντέλα με την αλλαγή μιας παραμέτρου. Συγκρίνετε την ποιότητα, την ταχύτητα και το κόστος.

Υποδευτεροβάθμια

Kokoro παράγει ήχου σε λιγότερο από 1 δευτερόλεπτο. Ιδανικό για πραγματικό χρόνο chatbots, βοηθούς φωνής, και διαδραστικές εφαρμογές.

Φωνητική κλωνοποίηση API

Κλώνε οποιαδήποτε φωνή από ένα σύντομο δείγμα ήχου μέσω του API. Χρησιμοποιήστε κλωνοποιημένες φωνές για όλες τις επόμενες γενιές.

Πολλαπλές μορφές

Έξοδος ως WAV, MP3, OGG, ή FLAC. Επιλέξτε ρυθμό δειγμάτων και bit βάθος.

Καλύτερα πρότυπα για την ενσωμάτωση των προγραμματιστών

Επιλέξτε το σωστό μοντέλο για τις απαιτήσεις ταχύτητας, ποιότητας και κόστους της εφαρμογής σας

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Καλύτερα για: Γρήγορο μοντέλο & second standency, ιδανικό για εφαρμογές σε πραγματικό χρόνο και chatbots

Δοκίμασε. Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Κλωνοποίηση φωνής

Καλύτερα για: Streaming TTS με φωνητική κλωνοποίηση για φωνητικές εφαρμογές βοηθού

Δοκίμασε. CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Καλύτερα για: Συνομιλία AI με φυσικό συγχρονισμό για chatbot και βοηθός φωνής

Δοκίμασε. Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Καλύτερα για: Δωρεάν, μοντέλο μόνο CPU για εφαρμογές μεγάλου όγκου με μηδενικό πιστωτικό κόστος

Δοκίμασε. Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Καλύτερα για: Ηχητική γενιά με ηχητικά εφέ για δημιουργικές και ψυχαγωγικές εφαρμογές

Δοκίμασε. Bark

Πώς να ολοκληρώσετε το TTS API

Από την εγγραφή στην πρώτη κλήση API σε λιγότερο από 5 λεπτά

1

Πάρτε το κλειδί API σας

Εγγραφείτε δωρεάν και δημιουργήστε ένα πλήκτρο API από το ταμπλό του λογαριασμού σας.

2

Κάντε την Πρώτη Σας Κλήση

POST να /v1/tts με κείμενο, μοντέλο, και τη φωνή. Αποκτήστε ήχου bytes πίσω. Κάτω από 5 γραμμές κώδικα.

3

Επιλέξτε το πρότυπό σας

Συγκρίνετε την ταχύτητα, την ποιότητα και το κόστος ανά γενιά.

4

Πλοίο προς Παραγωγή

Καθυστέρηση με pay-as-you-go χαρακτήρες. Δεν όρια τιμών για πληρωμένα σχέδια. Παρακολουθήστε τη χρήση στο ταμπλό σας.

Παραδείγματα κώδικα γρήγορης εκκίνησης

Ενσωμάτωση TTS.ai σε οποιαδήποτε γλώσσα με REST API μας

Python Δημοφιλή
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Καθολική
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI-Compatible Format Πέσε μέσα.
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Τι Κατασκευάζουν οι Προγραμματιστές με TTS.ai

Κοινά πρότυπα και εφαρμογές ενσωμάτωσης

AI Chatbots & Assistants

Προσθέστε την έξοδο φωνής στο chatbot σας ή βοηθό AI. Απαντήσεις σωλήνα LLM μέσω TTS για συνδέσεις φωνητικής ενεργοποίησης. Το Kokoro παρέχει υποδευτερόλεπτη καθυστέρηση για συνομιλίες σε πραγματικό χρόνο.

  • LLM απάντηση στον αγωγό ομιλίας
  • Υποδευτερόλεπτη καθυστέρηση με το Kokoro
  • Συνομιλία με το Consume CSM
  • Στροφή εξόδου ήχου

Κινητές και φωνητικές εφαρμογές

Κατασκευάστε εφαρμογές κινητής τηλεφωνίας, εργαλεία προσβασιμότητας, εφαρμογές ανάγνωσης και πλατφόρμες εκμάθησης γλωσσών. REST API μας λειτουργεί με οποιοδήποτε κινητό πλαίσιο. Κατεβάστε αρχεία ήχου ή stream απευθείας στον πελάτη.

  • React Native, Flutter, Swift, Kotlin
  • Εφαρμογές προσβασιμότητας και ανάγνωσης
  • Πλατφόρμες εκμάθησης γλωσσών
  • Παραγωγή ηχητικού περιεχομένου

Προϊόντα SaaS

Λευκές δυνατότητες φωνής στο προϊόν SaaS σας. Προσθέστε TTS, STT, κλωνοποίηση φωνής, και επεξεργασία ήχου ως χαρακτηριστικά στην πλατφόρμα σας. Χρησιμοποιήστε API μας ως φωνητικό backend σας χωρίς τη διαχείριση της υποδομής GPU.

  • Χαρακτηριστικά φωνής λευκού σήματος
  • Δεν απαιτείται υποδομή GPU
  • Τιμή πληρωμής ανά χρήση
  • 20+ μοντέλα για να προσφέρετε τους χρήστες σας

Αγωγοί αυτοματισμού

Ενσωμάτωση της παραγωγής φωνής σε αγωγούς CI / CD, αυτοματισμού περιεχομένου, και των ροών εργασίας επεξεργασίας παρτίδα. Δημιουργήστε χιλιάδες αρχεία ήχου από τα δεδομένα υπολογιστικών φύλλων, την παραγωγή automate podcast, ή να οικοδομήσουμε αγωγούς εντοπισμού περιεχομένου.

  • Επεξεργασία παρτίδας μέσω API
  • Αγωγοί εντοπισμού περιεχομένου
  • Ενσωμάτωση CI/CD
  • Υπολογιστικό φύλλο σε ακουστική αυτοματοποίηση

Προδιαγραφές API

Κατασκευασμένο για εφαρμογές παραγωγής

20+

Μοντέλα TTS

100+

Φωνές

30+

Γλώσσες

<1s

Latency (Kokoro)

Συχνές Ερωτήσεις

Κοινές ερωτήσεις σχετικά με τον TTS.ai προγραμματιστή API

Ναι. Το API μας ακολουθεί τη μορφή ομιλίας ήχου OpenAI. Αν χρησιμοποιείτε τη βιβλιοθήκη πελατών OpenAI Python ή JavaScript, μπορείτε να μεταβείτε σε TTS.ai αλλάζοντας τις παραμέτρους βάσης_url και api_key.

Το Kokoro παράγει ήχο σε λιγότερο από 1 δευτερόλεπτο για τυπικές προτάσεις. Η CosyVoice 2 υποστηρίζει τη ροή εξόδου για ακόμα χαμηλότερη αντιληπτή καθυστέρηση. Για chatbots και βοηθούς φωνής, ο συνολικός χρόνος ταξιδιού είναι συνήθως 1-3 δευτερόλεπτα ανάλογα με το μήκος κειμένου και την επιλογή μοντέλου.

Τα δωρεάν μοντέλα (Kokoro, Piper, VITS, MeloTTS) είναι εντελώς δωρεάν. Τα τυποποιημένα μοντέλα χρησιμοποιούν 2x χαρακτήρες ανά 1K του κειμένου. Τα Premium μοντέλα χρησιμοποιούν 4x χαρακτήρες ανά 1K του κειμένου. Εγγραφείτε δωρεάν με 15.000 χαρακτήρες.

Ναι. Ανεβάστε ένα δείγμα ήχου αναφοράς (5-30 δευτερόλεπτα) στο τελικό σημείο κλωνοποίησης φωνής, στη συνέχεια χρησιμοποιήστε το κλωνοποιημένο αναγνωριστικό φωνής σε επόμενες αιτήσεις TTS. Μοντέλα που υποστηρίζουν την κλωνοποίηση περιλαμβάνουν CosyVoice 2, Chatterbox, Fish Speech, και GPT-SoVITS.

Η ελεύθερη βαθμίδα έχει βασικό ποσοστό περιορισμού (3 αιτήσεις ανά ώρα χωρίς λογαριασμό).Τα πληρωμένα σχέδια έχουν γενναιόδωρα όρια επιτοκίου κατάλληλα για εφαρμογές παραγωγής.

WAV (μη συμπιεσμένα, υψηλότερης ποιότητας), MP3 (συμπιεσμένα, μικρότερα αρχεία), OGG (ανοιχτή μορφή), και FLAC (ανώφελη συμπίεση). Καθορίστε τη μορφή στο αίτημά σας. Προκαθορισμένο είναι WAV στο αρχικό ποσοστό δείγματος του μοντέλου.

Ναι. Συνδυάστε το TTS API μας με ένα μοντέλο ομιλίας προς κείμενο και ένα LLM για την κατασκευή ενός πλήρους αγωγού βοηθού φωνής. Το Kokoro παρέχει υποδευτερόλεπτη καθυστέρηση ιδανική για συζητήσεις σε πραγματικό χρόνο.

CosyVoice 2 και Kokoro υποστήριξη streaming έξοδο ήχου όπου τα κομμάτια ήχου παραδίδονται όπως παράγονται. Αυτό μειώνει το χρόνο-to-first-byte για εφαρμογές σε πραγματικό χρόνο, όπως βοηθοί φωνής και διαδραστικές εμπειρίες.

Η API επιστρέφει πρότυπους κωδικούς κατάστασης HTTP. Εφαρμογή εκθετικής backoff για 5xx σφάλματα και απόκριση ορίου ταχύτητας. Για εφαρμογές κρίσιμης αποστολής, προσθέστε μια ουρά με τη λογική retry. API μας έχει υψηλό uptime αλλά ανθεκτικό χειρισμό σφαλμάτων συνιστάται πάντα.

Ναι. Οι /v1/voices και /v1/models τελικά σημεία επιστρέφουν JSON λίστες όλων των διαθέσιμων φωνών και μοντέλων με τα μεταδεδομένα τους (language support, quality ratings, speed ratings, and priceing vieral).

Δωρεάν μοντέλα (Kokoro, Piper, VITS, MeloTTS) λειτουργούν ως ένα αποτελεσματικό sandbox δεδομένου ότι κοστίζει μηδέν πιστώσεις. Δοκιμάστε την ενσωμάτωση σας με δωρεάν μοντέλα, στη συνέχεια, μεταβείτε σε premium μοντέλα στην παραγωγή με την αλλαγή της παραμέτρου μοντέλου.

Τα περισσότερα από τα μοντέλα μας είναι ανοικτή πηγή και μπορούν να είναι αυτο-φιλοξενούμενα. Ωστόσο, η αυτο-φιλοξενούμενη απαιτεί σημαντικούς πόρους GPU (χρησιμοποιούμε 4x NVIDIA Tesla P40 με 96GB VRAM συνολικά).
5.0/5 (1)

Τι θα μπορούσαμε να βελτιώσουμε; Τα σχόλιά σας μάς βοηθούν να διορθώσουμε τα ζητήματα.

Έτοιμος να Φτιάξεις με Φωνητική Αλ;

Αποκτήστε το δωρεάν κλειδί API και ξεκινήστε την οικοδόμηση. 50 μονάδες για την εγγραφή, δωρεάν μοντέλα διαθέσιμα, περιεκτική τεκμηρίωση.