Αναφορά σφάλματος / αίτησης χαρακτηριστικών

Σε πραγματικό χρόνο TTS

Streaming text-to-Speech with sub-second first-audio lateency. Χτισμένο για φωνητικούς παράγοντες και ζωντανές εφαρμογές.

Εγγραφή δωρεάν

Κείμενο

Ροή

0/5,000 χαρακτήρες ~0.3s first audio

Ρυθμίσεις φωνής

Υπόδειγμα Μοντέλα Streaming-capiable μόνο.

Φωνή

Ταχύτητα 1.0x

Live Latency

—

Κάντε κλικ Stream για να μετρήσετε first-audio καθυστέρηση

Έξοδος

Τα κομμάτια ήχου θα παίξουν εδώ καθώς θα ρέουν.

Πώς λειτουργεί το Streaming TTS

1. Αποστολή κειμένου

POST κείμενο στο /v1/tts/stream/ ως αίτημα Server- Sent Events.

2. Μοντέλο δημιουργεί

Kokoro τεμαχίζει το κείμενο και παράγει ηχητικό δείγμα-κατά-δείγμα στην GPU.

3. Stream Chunks

Base64-κωδικοποιημένα κομμάτια WAV φτάνουν πάνω από SSE και να αρχίσει να παίζει αμέσως.

4. Ακούστε Ζωντανά

Ο χρήστης ακούει την έναρξη της πρότασης σε λιγότερο από ένα δευτερόλεπτο, ακόμη και σε μεγάλες εισροές.

Υpiοθέσει χρήση

Όπου η υποδευτερόλεπτη καθυστέρηση ξεκλειδώνει νέες εμπειρίες.

Φωνητικά Πράκτορες

Συνομιλία bots που ανταποκρίνονται τόσο γρήγορα όσο ένας άνθρωπος.

Live Dubbing

Μεταφράστε και dub ένα ρεύμα σε πραγματικό χρόνο χωρίς αναστολή παύση.

Παιχνίδια

Διάλογος NPC που αντιδρά σε επιλογές παικτών αμέσως, δεν προ-παραχωρήθηκε VO.

Προσβασιμότητα

Αναγνώστες οθόνης και βοηθητικά εργαλεία που αρχίζουν να μιλούν τη στιγμή που ένας χρήστης κάνει κλικ.

Σχέδια TTS σε πραγματικό χρόνο

Ξεκινήστε δωρεάν, αναβαθμίστε όταν χρειάζεστε περισσότερα

Ατελώς

Κόκορο streaming (ελεύθερο μοντέλο)
500 χαρακτήρες ανά γενιά
10 δωρεάν ροές/ημέρα ανά ανώνυμο χρήστη
Υποδευτερόλεπτη καθυστέρηση πρώτου ήχου
SSE streaming over HTTPS

Πιο Δημοφιλή

Δωρεάν Λογαριασμός

15.000 χαρακτήρες κατά την εγγραφή
5.000 chars ανά ρέμα
κλειδί API για την πρόσβαση σε προγράμματα
Ιστορικό γενεών
Δεν υπάρχει ημερήσιο καπάκι ροής

Εγγραφή δωρεάν

Pro

MOSS-TTS-Realtime (όταν ζεις)
100,000 chars ανά ρέμα
Σειρά προτεραιότητας GPU
Φωνητικός παράγοντας + ενσωμάτωση Twilio
Όρια υψηλότερων ποσοστών

Αναβάθμιση

Συχνές Ερωτήσεις

Realtime text-to-speech streams audio chounks as they are created, αντί να περιμένετε ολόκληρη την πρόταση να ολοκληρωθεί. Το πρώτο δείγμα ήχου φτάνει κάτω από ένα δευτερόλεπτο, καθιστώντας το κατάλληλο για ζωντανούς παράγοντες φωνής, dubbing, και διαδραστικές εφαρμογές όπου η καθυστέρηση έχει σημασία.

Τακτική TTS παράγει το πλήρες αρχείο ήχου πριν επιστρέψετε οτιδήποτε περιμένετε, τότε ακούστε ολόκληρη την πρόταση ταυτόχρονα. Σε πραγματικό χρόνο TTS χρησιμοποιεί Server-Sent Events (SSE) για να ρέει μικρά κομμάτια ήχου όπως το μοντέλο παράγει αυτά. Ο χρήστης ακούει την έναρξη της πρότασης σχεδόν αμέσως, ακόμη και σε μεγάλες εισροές.

Kokoro είναι η προεπιλεγμένη backend ~ δημιουργεί ήχου περίπου 100x γρηγορότερα από το πραγματικό χρόνο σε ένα σύγχρονο GPU. Είμαστε ενσωμάτωση MOSS-TTS-Realtime ως μια υψηλότερης ποιότητας εναλλακτική λύση; οι χρήστες θα είναι σε θέση να επιλέξουν ανά αίτημα μια φορά ότι τα πλοία.

Τυπική πρώτη-audio καθυστέρηση στο Kokoro είναι 300-800m πάνω από μια δημόσια σύνδεση. Δίκτυο στρογγυλό ταξίδι δεσπόζει μετά από αυτό. Η σελίδα επικαλύπτει το ζωντανό μετρούμενο χρόνο-to-first-audio στο UI, ώστε να μπορείτε να δείτε ακριβώς πόσο χρόνο κάθε αίτημα πήρε.

Πράκτορες φωνής που ανταποκρίνονται συνομιλητικά, live μετουσίωση για streaming media, διαδραστικά παιχνίδια NPCs, αναγνώστες προσβασιμότητας που αρχίζουν να μιλούν τη στιγμή που ένας χρήστης κάνει κλικ, και κάθε εφαρμογή όπου περιμένοντας δύο ή τρία δευτερόλεπτα για τον ήχο θα αισθάνεται αργή.

Ναι. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ finalitl. The response is an SSE stream of base64-encoded WAV chunks. The free scale supports 10 generes per an announic user? regulared users get the full per-account character allowance.

Το Kokoro χρησιμοποιεί προ-εκπαιδευμένες φωνές και δεν κλωνοποιείται. Το MOSS-TTS-Realtime (όταν είναι ενσωματωμένο) υποστηρίζει την μηδενική κλωνοποίηση φωνής από 3 δευτερόλεπτα αναφοράς. Για την πλήρη κλωνοποίηση φωνής σήμερα, χρησιμοποιήστε την τακτική / κείμενο-to-peech/ page με Chatterbox ή GPT-SoVITS, αυτές δεν είναι streaming-capiable αλλά παράγουν προσαρμοσμένες φωνές.

Το ίδιο κόστος χαρακτήρα με το κανονικό τελικό σημείο TTS. Το Kokoro είναι δωρεάν-tier (1x κόστος). Το MOSS-TTS-Realtime θα εκτελείται στην τυπική βαθμίδα (2x κόστος) όταν ενεργοποιηθεί.

Ναι, η πλατφόρμα φωνητικών πρακτόρων μας το κάνει ήδη αυτό για IVR και εκτός λειτουργίας. Τέλος-to-end καθυστέρηση σε ένα τηλεφώνημα είναι συνήθως 1-2 δευτερόλεπτα συμπεριλαμβανομένης της απάντησης STT και LLM.

Εάν το δίκτυό σας πέσει ένα κομμάτι κατά τη διέλευση, ο παίκτης ροής θα προσπεράσει αντί να καθυστερήσει. Για εφαρμογές που δεν μπορούν να ανεχτούν κενά, να πέσουν πίσω στο κανονικό τελικό σημείο χωρίς ρεύμα, ή ρυθμιστικό 500ms ήχου πριν από την έναρξη της αναπαραγωγής.

5.0/5 (1)

Stream Speam Speech in Real Time

Δωρεάν για τις πρώτες 10 γενιές την ημέρα. Εγγραφείτε για να ξεκλειδώσετε το πλήρες επίδομα χαρακτήρα και API πρόσβαση.

Εγγραφή δωρεάν Προβολή τιμής

Σε πραγματικό χρόνο TTS

Κείμενο

Ρυθμίσεις φωνής

Live Latency

Έξοδος

Πώς λειτουργεί το Streaming TTS

1. Αποστολή κειμένου

2. Μοντέλο δημιουργεί

3. Stream Chunks

4. Ακούστε Ζωντανά

Υpiοθέσει χρήση

Φωνητικά Πράκτορες

Live Dubbing

Παιχνίδια

Προσβασιμότητα

Σχέδια TTS σε πραγματικό χρόνο

Συχνές Ερωτήσεις

Τι είναι το TTS σε πραγματικό χρόνο;

Πώς είναι σε πραγματικό χρόνο TTS διαφορετική από την τακτική TTS;

Ποιο μοντέλο τροφοδοτεί τη σελίδα σε πραγματικό χρόνο;

Πόσο γρήγορα είναι το πρώτο ηχητικό άλμα;

Τι μπορώ να φτιάξω με πραγματικό χρόνο TTS;

Υπάρχει API για σε πραγματικό χρόνο TTS;

Υποστηρίζει την κλωνοποίηση φωνής;

Πόσο κοστίζει το TTS σε πραγματικό χρόνο;

Μπορώ να το χρησιμοποιήσω σε τηλεφωνήματα;

Γιατί ο ήχος κόβει τη μέση λέξη μερικές φορές;

Stream Speam Speech in Real Time