Σε πραγματικό χρόνο TTS

Streaming text-to-Speech with sub-second first-audio lateency. Χτισμένο για φωνητικούς παράγοντες και ζωντανές εφαρμογές.

Κείμενο

Ροή
0/5,000 χαρακτήρες ~0.3s first audio

Ρυθμίσεις φωνής

Μοντέλα Streaming-capiable μόνο.

Live Latency

Κάντε κλικ Stream για να μετρήσετε first-audio καθυστέρηση

Έξοδος

Τα κομμάτια ήχου θα παίξουν εδώ καθώς θα ρέουν.

0:00
Πρώτο κομμάτι:
Σύνολο κομματιών: 0
Συνολικός χρόνος:

Πώς λειτουργεί το Streaming TTS

1. Αποστολή κειμένου

POST κείμενο στο /v1/tts/stream/ ως αίτημα Server- Sent Events.

2. Μοντέλο δημιουργεί

Kokoro τεμαχίζει το κείμενο και παράγει ηχητικό δείγμα-κατά-δείγμα στην GPU.

3. Stream Chunks

Base64-κωδικοποιημένα κομμάτια WAV φτάνουν πάνω από SSE και να αρχίσει να παίζει αμέσως.

4. Ακούστε Ζωντανά

Ο χρήστης ακούει την έναρξη της πρότασης σε λιγότερο από ένα δευτερόλεπτο, ακόμη και σε μεγάλες εισροές.

Υpiοθέσει χρήση

Όπου η υποδευτερόλεπτη καθυστέρηση ξεκλειδώνει νέες εμπειρίες.

Φωνητικά Πράκτορες

Συνομιλία bots που ανταποκρίνονται τόσο γρήγορα όσο ένας άνθρωπος.

Live Dubbing

Μεταφράστε και dub ένα ρεύμα σε πραγματικό χρόνο χωρίς αναστολή παύση.

Παιχνίδια

Διάλογος NPC που αντιδρά σε επιλογές παικτών αμέσως, δεν προ-παραχωρήθηκε VO.

Προσβασιμότητα

Αναγνώστες οθόνης και βοηθητικά εργαλεία που αρχίζουν να μιλούν τη στιγμή που ένας χρήστης κάνει κλικ.

Σχέδια TTS σε πραγματικό χρόνο

Ξεκινήστε δωρεάν, αναβαθμίστε όταν χρειάζεστε περισσότερα

Ατελώς
  • Κόκορο streaming (ελεύθερο μοντέλο)
  • 500 χαρακτήρες ανά γενιά
  • 10 δωρεάν ροές/ημέρα ανά ανώνυμο χρήστη
  • Υποδευτερόλεπτη καθυστέρηση πρώτου ήχου
  • SSE streaming over HTTPS
Πιο Δημοφιλή
Δωρεάν Λογαριασμός
  • 15.000 χαρακτήρες κατά την εγγραφή
  • 5.000 chars ανά ρέμα
  • κλειδί API για την πρόσβαση σε προγράμματα
  • Ιστορικό γενεών
  • Δεν υπάρχει ημερήσιο καπάκι ροής
Εγγραφή δωρεάν
Pro
  • MOSS-TTS-Realtime (όταν ζεις)
  • 100,000 chars ανά ρέμα
  • Σειρά προτεραιότητας GPU
  • Φωνητικός παράγοντας + ενσωμάτωση Twilio
  • Όρια υψηλότερων ποσοστών
Αναβάθμιση

Συχνές Ερωτήσεις

Realtime text-to-speech streams audio chounks as they are created, αντί να περιμένετε ολόκληρη την πρόταση να ολοκληρωθεί. Το πρώτο δείγμα ήχου φτάνει κάτω από ένα δευτερόλεπτο, καθιστώντας το κατάλληλο για ζωντανούς παράγοντες φωνής, dubbing, και διαδραστικές εφαρμογές όπου η καθυστέρηση έχει σημασία.

Τακτική TTS παράγει το πλήρες αρχείο ήχου πριν επιστρέψετε οτιδήποτε περιμένετε, τότε ακούστε ολόκληρη την πρόταση ταυτόχρονα. Σε πραγματικό χρόνο TTS χρησιμοποιεί Server-Sent Events (SSE) για να ρέει μικρά κομμάτια ήχου όπως το μοντέλο παράγει αυτά. Ο χρήστης ακούει την έναρξη της πρότασης σχεδόν αμέσως, ακόμη και σε μεγάλες εισροές.

Kokoro είναι η προεπιλεγμένη backend ~ δημιουργεί ήχου περίπου 100x γρηγορότερα από το πραγματικό χρόνο σε ένα σύγχρονο GPU. Είμαστε ενσωμάτωση MOSS-TTS-Realtime ως μια υψηλότερης ποιότητας εναλλακτική λύση; οι χρήστες θα είναι σε θέση να επιλέξουν ανά αίτημα μια φορά ότι τα πλοία.

Τυπική πρώτη-audio καθυστέρηση στο Kokoro είναι 300-800m πάνω από μια δημόσια σύνδεση. Δίκτυο στρογγυλό ταξίδι δεσπόζει μετά από αυτό. Η σελίδα επικαλύπτει το ζωντανό μετρούμενο χρόνο-to-first-audio στο UI, ώστε να μπορείτε να δείτε ακριβώς πόσο χρόνο κάθε αίτημα πήρε.

Πράκτορες φωνής που ανταποκρίνονται συνομιλητικά, live μετουσίωση για streaming media, διαδραστικά παιχνίδια NPCs, αναγνώστες προσβασιμότητας που αρχίζουν να μιλούν τη στιγμή που ένας χρήστης κάνει κλικ, και κάθε εφαρμογή όπου περιμένοντας δύο ή τρία δευτερόλεπτα για τον ήχο θα αισθάνεται αργή.

Ναι. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ finalitl. The response is an SSE stream of base64-encoded WAV chunks. The free scale supports 10 generes per an announic user? regulared users get the full per-account character allowance.

Το Kokoro χρησιμοποιεί προ-εκπαιδευμένες φωνές και δεν κλωνοποιείται. Το MOSS-TTS-Realtime (όταν είναι ενσωματωμένο) υποστηρίζει την μηδενική κλωνοποίηση φωνής από 3 δευτερόλεπτα αναφοράς. Για την πλήρη κλωνοποίηση φωνής σήμερα, χρησιμοποιήστε την τακτική / κείμενο-to-peech/ page με Chatterbox ή GPT-SoVITS, αυτές δεν είναι streaming-capiable αλλά παράγουν προσαρμοσμένες φωνές.

Το ίδιο κόστος χαρακτήρα με το κανονικό τελικό σημείο TTS. Το Kokoro είναι δωρεάν-tier (1x κόστος). Το MOSS-TTS-Realtime θα εκτελείται στην τυπική βαθμίδα (2x κόστος) όταν ενεργοποιηθεί.

Ναι, η πλατφόρμα φωνητικών πρακτόρων μας το κάνει ήδη αυτό για IVR και εκτός λειτουργίας. Τέλος-to-end καθυστέρηση σε ένα τηλεφώνημα είναι συνήθως 1-2 δευτερόλεπτα συμπεριλαμβανομένης της απάντησης STT και LLM.

Εάν το δίκτυό σας πέσει ένα κομμάτι κατά τη διέλευση, ο παίκτης ροής θα προσπεράσει αντί να καθυστερήσει. Για εφαρμογές που δεν μπορούν να ανεχτούν κενά, να πέσουν πίσω στο κανονικό τελικό σημείο χωρίς ρεύμα, ή ρυθμιστικό 500ms ήχου πριν από την έναρξη της αναπαραγωγής.
5.0/5 (1)

Τι θα μπορούσαμε να βελτιώσουμε; Τα σχόλιά σας μάς βοηθούν να διορθώσουμε τα ζητήματα.

Stream Speam Speech in Real Time

Δωρεάν για τις πρώτες 10 γενιές την ημέρα. Εγγραφείτε για να ξεκλειδώσετε το πλήρες επίδομα χαρακτήρα και API πρόσβαση.