Δωρεάν AI Κείμενο σε λόγο
33+ μοντέλα ανοικτού κώδικα, 273+ φωνές, 33+ γλώσσες. Δεν απαιτείται λογαριασμός.
Όλα όσα χρειάζεστε για τη Φωνή ΑΙ
30+ εργαλεία που κινούνται με μοντέλα AI ανοικτού κώδικα
33+ Φωνητικά Μοντέλα AI
Η πιο ολοκληρωμένη συλλογή μοντέλων TTS ανοικτού κώδικα σε μία πλατφόρμα
Kokoro Ατελώς
Το Kokoro είναι ένα μοντέλο 82 εκατομμυρίων παραμέτρων κείμενο προς ομιλία που χτυπάει πολύ πάνω από την κατηγορία βάρους του. Παρά το μικρό του μέγεθος, παράγει αξιοσημείωτα φυσικό και εκφραστικό λόγο. Το Kokoro υποστηρίζει πολλές γλώσσες όπως αγγλικά, ιαπωνικά, κινεζικά και κορεάτικα με μια ποικιλία εκφραστικών φωνών.
Καλύτερα για: Υψηλής ποιότητας TTS με ελάχιστη καθυστέρηση, streaming εφαρμογές
Δοκιμάστε δωρεάν
Piper Ατελώς
Η Piper είναι μια ελαφριά μηχανή κειμένου προς ομιλία που αναπτύχθηκε από Rasspy που χρησιμοποιεί VITS και αρχιτεκτονική λάρυγγα. Λειτουργεί εξ ολοκλήρου σε CPU, καθιστώντας την ιδανική για συσκευές άκρη, αυτοματισμού σπίτι, και εφαρμογές που απαιτούν offline TTS. Με πάνω από 100 φωνές σε 30+ γλώσσες, Piper παρέχει φυσικό-ηχητικό λόγο σε ταχύτητες σε πραγματικό χρόνο ακόμη και σε ένα Raspberry Pi 4.
Καλύτερα για: Γρήγορες προεπισκοπήσεις, προσβασιμότητα και ενσωματωμένες εφαρμογές
Δοκιμάστε δωρεάν
VITS Ατελώς
Το VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) είναι μια παράλληλη μέθοδος end-to-end TTS που παράγει πιο φυσικό ήχο από τα τρέχοντα μοντέλα δύο σταδίων.
Καλύτερα για: text-to-speech γενικής χρήσης με φυσική προσθετικότητα
Δοκιμάστε δωρεάν
MeloTTS Ατελώς
MeloTTS by MyShell.ai είναι μια πολύγλωσση βιβλιοθήκη TTS που υποστηρίζει Αγγλικά (Αμερικάνικη, Βρετανική, Ινδική, Αυστραλιανή), Ισπανικά, Γαλλικά, Κινέζικα, Ιαπωνικά, και Κορεάτικα. Είναι εξαιρετικά γρήγορη, επεξεργασία κειμένου σε σχεδόν ταχύτητα σε πραγματικό χρόνο σε CPU μόνο.
Καλύτερα για: Εφαρμογές παραγωγής που χρειάζονται γρήγορη, πολύγλωσση TTS
Δοκιμάστε δωρεάν
Kani TTS 2 Ατελώς
Το Kani-TTS-2 από NineNineNineSix είναι ένα εξαιρετικά ελαφρύ μοντέλο παραμέτρων 400M ενσωματωμένο σε μια ραχοκοκαλιά Liquid AI LFM2 με NVIDIA NanoCodec. Τρέχει σε μόλις 3GB VRAM και παράγει ~10 δευτερόλεπτα ομιλίας σε ~2 δευτερόλεπτα σε A100 (RTF 0.2) Η τρέχουσα δημόσια κυκλοφορία πλοίων ένα αγγλικό μόνο σημείο ελέγχου και δεν εκθέτει το γάντζο ηχείων που απαιτείται για την κλωνοποίηση φωνής χρησιμοποιώντας Chatterbox / IndexTTS2 / F5-TTS για την κλωνοποίηση, ή Kokoro / MeloTTS για μη-αγγλικά.
Καλύτερα για: Γρήγορη αγγλική γενιά σε χαμηλό-VRAM υλικό, γρήγορη προεπισκόπηση
Δοκιμάστε δωρεάν
OuteTTS Ατελώς
Το OutetTS επεκτείνει τα μεγάλα γλωσσικά μοντέλα με δυνατότητες κειμένου σε ομιλία, διατηρώντας παράλληλα την αρχική αρχιτεκτονική. Υποστηρίζει πολλαπλά backends συμπεριλαμβανομένων των llama.ccp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, και ακόμη και το συμπέρασμα browser μέσω Transformers.js. Διαθέτει μηδενική-shot φωνητική κλωνοποίηση μέσω προφίλ ηχείων που αποθηκεύονται ως JSON.
Καλύτερα για: Edge ανάπτυξη, με βάση το πρόγραμμα περιήγησης TTS, περιβάλλοντα χαμηλής πηγής
Δοκιμάστε δωρεάν
Pocket TTS Ατελώς
Pocket TTS από Kyutai (δημιουργοί του Moshi) είναι ένα συμπαγές μοντέλο παραμέτρων 100M κείμενο προς ομιλία που χτυπάει πολύ πάνω από το βάρος του. Τρέχει αποτελεσματικά σε CPU, υποστηρίζει μηδενική κλωνοποίηση φωνής από ένα ενιαίο δείγμα ήχου, και παράγει φυσικό-ηχητικό λόγο.
Καλύτερα για: Ελαφριά ανάπτυξη, περιβάλλοντα μόνο για CPU, γρήγορη κλωνοποίηση φωνής
Δοκιμάστε δωρεάν
Kitten TTS Ατελώς
Το Kitten TTS by KittenML είναι ένα εξαιρετικά ελαφρύ μοντέλο κειμένου προς ομιλία χτισμένο στο ONNX. Με παραλλαγές από 15M έως 80M παραμέτρους (25-80 MB στο δίσκο), παρέχει υψηλής ποιότητας σύνθεση φωνής σε CPU χωρίς να απαιτείται GPU. Διαθέτει 8 ενσωματωμένη φωνή, ρυθμιζόμενη ταχύτητα ομιλίας και ενσωματωμένη προεπεξεργασία κειμένου για αριθμούς, νομίσματα και μονάδες.
Καλύτερα για: Γρήγορη ελαφριά TTS, ανάπτυξη άκρων, εφαρμογές χαμηλής βαρύτητας
Δοκιμάστε δωρεάν
Ming-Omni TTS Ατελώς
Ming-omni-tts-0.5B by includingAI είναι ένα συμπαγές μοντέλο omni-τροπικής ομιλίας που χτίστηκε στην πυκνή ραχοκοκαλιά BailingMM με ένα αποκωδικοποιητή ροής Patch-by-Patch. Παρέχει 44.1kHz εξόδου (κοντά στην ποιότητα CD), υποστηρίζει μηδενική-shot φωνή κλωνοποίησης από 3+ δεύτερη αναφορά, και περιλαμβάνει ενσωματωμένο συναίσθημα / διάλεκτο / έλεγχο GBM μέσω JSON οδηγίες. Εξαιρετική σταθερότητα.
Καλύτερα για: Υψηλή πιστότητα δίγλωσση αφήγηση, συναισθηματικά ελεγχόμενη φωνητική υποκριτική, κινέζικο περιεχόμενο ακουστικών βιβλίων
Δοκιμάστε δωρεάν
MOSS-TTS Nano Ατελώς
Το MOSS-TTS-Nano-100M είναι η συμπαγής παραλλαγή 100M-παράμετρος της οικογένειας MOSS-TTS, μοιράζοντας την αρχιτεκτονική του μετασχηματιστή καθυστέρησης. Ανταλλάζει την ποιότητα αιχμής του 8B μοντέλου για ~80x μικρότερα βάρη και δραματικά χαμηλότερα ανά αίτημα VRAM, καθιστώντας το κατάλληλο για εφαρμογές δωρεάν-tier και υψηλής-διαπερατότητας.
Καλύτερα για: Δωρεάν TTS, παραγωγή μεγάλου όγκου, διαλογική χρήση χαμηλής περιεκτικότητας
Δοκιμάστε δωρεάν
Bark Πρότυπο
Transformer-based text-to-audio μοντέλο που παράγει ρεαλιστική ομιλία, μουσική, και ηχητικά εφέ.
Προγραμματιστής: Suno · Άδεια: MIT
Δοκίμασέ το.
Bark Small Πρότυπο
Ελαφρύτερη έκδοση του Μπαρκ με γρηγορότερο συμπέρασμα και χαμηλότερη χρήση μνήμης.
Προγραμματιστής: Suno · Άδεια: MIT
Δοκίμασέ το.
CosyVoice 2 Πρότυπο
Αλίμπαμπα κλιμακωτή ροή TTS με τη φύση του ανθρώπου-παροικίας και σχεδόν μηδέν καθυστέρηση.
Προγραμματιστής: Alibaba (Tongyi Lab) · Άδεια: Apache 2.0
Δοκίμασέ το.
Dia TTS Πρότυπο
Multi-speaker μοντέλο γενεών διαλόγου που δημιουργεί φυσικές συνομιλίες μεταξύ των ηχείων.
Προγραμματιστής: Nari Labs · Άδεια: Apache 2.0
Δοκίμασέ το.
Parler TTS Πρότυπο
Περιγράψτε τη φωνή που θέλετε στη φυσική γλώσσα και Parler παράγει αντίστοιχη ομιλία.
Προγραμματιστής: Hugging Face · Άδεια: Apache 2.0
Δοκίμασέ το.
IndexTTS-2 Πρότυπο
Zero-shot TTS με λεπτό γρανίτη έλεγχο συναισθημάτων και υψηλή εκφραστικότητα.
Προγραμματιστής: Index Team · Άδεια: Bilibili Model License
Δοκίμασέ το.
Spark TTS Πρότυπο
Φωνή κλωνοποίησης TTS με ελεγχόμενο συναίσθημα και στυλ ομιλίας μέσω υποκινήσεων.
Προγραμματιστής: SparkAudio · Άδεια: CC BY-NC-SA 4.0
Δοκίμασέ το.
GPT-SoVITS Πρότυπο
Λίγη φωνή που κλωνοποιεί TTS που αναπαριστά οποιαδήποτε φωνή από μόλις 5 δευτερόλεπτα ήχου.
Προγραμματιστής: RVC-Boss · Άδεια: MIT
Δοκίμασέ το.
Orpheus Πρότυπο
Ανθρώπινο επίπεδο συναισθηματικό μοντέλο TTS εκπαιδευμένο σε δεδομένα ομιλίας 100K ώρες.
Προγραμματιστής: Canopy Labs · Άδεια: Llama 3.2 Community
Δοκίμασέ το.
Qwen3 TTS Πρότυπο
Το πολύγλωσσο TTS της Alibaba με προεπιλεγμένες φωνές και σχέδιο φωνής από το κείμενο.
Προγραμματιστής: Alibaba (Qwen) · Άδεια: Apache 2.0
Δοκίμασέ το.
VieNeu-TTS-v2 Πρότυπο
Βιετναμέζικα + Αγγλικά κωδικό-switching TTS με 7 προεπιλεγμένες φωνές και μηδέν-shot φωνητική κλωνοποίηση. CPU-μόνο, δεν απαιτείται GPU.
Προγραμματιστής: Phạm Nguyễn Ngọc Bảo · Άδεια: Apache 2.0
Δοκίμασέ το.
Chatterbox Turbo Πρότυπο
Γρήγορη Chatterbox με υπο-200ms καθυστέρηση και παραλγλωσσικές ετικέτες για γέλια, βήχα, και πολλά άλλα.
Προγραμματιστής: Resemble AI · Άδεια: MIT
Δοκίμασέ το.
VoxCPM Πρότυπο
Tokenizer-free TTS που παράγουν 44.1kHz ήχου με τη συνοχή παράγραφο πλαίσιο-aware.
Προγραμματιστής: OpenBMB · Άδεια: Apache 2.0
Δοκίμασέ το.
VibeVoice Πρότυπο
Microsoft μοντέλο για μεγάλο-μορφό πολυ-ηχητικό περιεχόμενο όπως podcasts και ακουστικά βιβλία.
Προγραμματιστής: Microsoft · Άδεια: MIT
Δοκίμασέ το.
CosyVoice3 Πρότυπο
Πολυγλωσσικό TTS επόμενης γενιάς με bi-streaming, συναισθηματικό έλεγχο, και μηδενική κλωνοποίηση φωνής.
Προγραμματιστής: Alibaba (FunAudioLLM) · Άδεια: Apache 2.0
Δοκίμασέ το.
NAMAA Saudi TTS Πρότυπο
Πρώτη ανοικτή σαουδαραβική TTS. Ιθαγενής Σαουδαραβική διάλεκτος με κλωνοποίηση φωνής ποιότητας Chatterbox.
Προγραμματιστής: NAMAA Space · Άδεια: MIT
Δοκίμασέ το.
Darwin TTS Πρότυπο
Παραλλαγή Cross-modal Qwen3-TTS με βάρη FFN αναμειγνύονται από το μοντέλο γλώσσας Qwen3-1.7B για πιο έντονη πολύγλωσση κλωνοποίηση.
Προγραμματιστής: FINAL-Bench · Άδεια: Apache 2.0
Δοκίμασέ το.
MOSS-TTSD Πρότυπο
Multi-speaker διάλογο συνέχιση μοντέλο ~ δημιουργούν podcast-style συνομιλίες με μέχρι 5 ηχεία και 60 λεπτά του συνεκτικού ήχου.
Προγραμματιστής: OpenMOSS · Άδεια: Apache 2.0
Δοκίμασέ το.
CosyVoice 2
Αλίμπαμπα κλιμακωτή ροή TTS με τη φύση του ανθρώπου-παροικίας και σχεδόν μηδέν καθυστέρηση.
Γλώσσες: en, zh, ja, ko, fr, de, it, es
Φωνή Κλώνου
IndexTTS-2
Zero-shot TTS με λεπτό γρανίτη έλεγχο συναισθημάτων και υψηλή εκφραστικότητα.
Γλώσσες: en, zh
Φωνή Κλώνου
Spark TTS
Φωνή κλωνοποίησης TTS με ελεγχόμενο συναίσθημα και στυλ ομιλίας μέσω υποκινήσεων.
Γλώσσες: en, zh
Φωνή Κλώνου
GPT-SoVITS
Λίγη φωνή που κλωνοποιεί TTS που αναπαριστά οποιαδήποτε φωνή από μόλις 5 δευτερόλεπτα ήχου.
Γλώσσες: en, zh, ja, ko
Φωνή Κλώνου
Chatterbox
Η τελευταία λέξη της τεχνολογίας είναι η μηδενική κλωνοποίηση φωνής με συναισθηματικό έλεγχο από το Resemble AI.
Γλώσσες: en
Φωνή Κλώνου
Tortoise TTS
Πολυφωνική κείμενο σε ομιλία επικεντρώθηκε στην ποιότητα με την αυτοκαταστροφική αρχιτεκτονική.
Γλώσσες: en
Φωνή Κλώνου
OpenVoice
Άμεση κλωνοποίηση φωνής με κοκκώδη έλεγχο πάνω στο στυλ, το συναίσθημα και την προφορά.
Γλώσσες: en, zh, ja, ko, fr, es
Φωνή Κλώνου
VieNeu-TTS-v2
Βιετναμέζικα + Αγγλικά κωδικό-switching TTS με 7 προεπιλεγμένες φωνές και μηδέν-shot φωνητική κλωνοποίηση. CPU-μόνο, δεν απαιτείται GPU.
Γλώσσες: vi, en
Φωνή Κλώνου
Chatterbox Turbo
Γρήγορη Chatterbox με υπο-200ms καθυστέρηση και παραλγλωσσικές ετικέτες για γέλια, βήχα, και πολλά άλλα.
Γλώσσες: en
Φωνή Κλώνου
VoxCPM
Tokenizer-free TTS που παράγουν 44.1kHz ήχου με τη συνοχή παράγραφο πλαίσιο-aware.
Γλώσσες: en, zh
Φωνή Κλώνου
OuteTTS
LLM-based TTS που τρέχει σε CPU, GPU, ή browser μέσω llama.ccp και Transformers.js.
Γλώσσες: en
Φωνή Κλώνου
Pocket TTS
Ελαφρύ μοντέλο παραμέτρου 100M από την Kyutai με κλωνοποίηση φωνής από ένα μόνο δείγμα.
Γλώσσες: en, fr
Φωνή Κλώνου
CosyVoice3
Πολυγλωσσικό TTS επόμενης γενιάς με bi-streaming, συναισθηματικό έλεγχο, και μηδενική κλωνοποίηση φωνής.
Γλώσσες: en, zh, ja, ko, de, es, fr, it, ru
Φωνή Κλώνου
NAMAA Saudi TTS
Πρώτη ανοικτή σαουδαραβική TTS. Ιθαγενής Σαουδαραβική διάλεκτος με κλωνοποίηση φωνής ποιότητας Chatterbox.
Γλώσσες: ar
Φωνή Κλώνου
Darwin TTS
Παραλλαγή Cross-modal Qwen3-TTS με βάρη FFN αναμειγνύονται από το μοντέλο γλώσσας Qwen3-1.7B για πιο έντονη πολύγλωσση κλωνοποίηση.
Γλώσσες: en, ko, ja, zh
Φωνή Κλώνου
MOSS-TTSD
Multi-speaker διάλογο συνέχιση μοντέλο ~ δημιουργούν podcast-style συνομιλίες με μέχρι 5 ηχεία και 60 λεπτά του συνεκτικού ήχου.
Γλώσσες: en, zh
Φωνή Κλώνου
Ming-Omni TTS
Compact 0.5B omni-modal μοντέλο ομιλίας από την ενσωμάτωσηAI με υψηλή πιστότητα 44.1kHz εξόδου και μηδενικής-shot φωνητική κλωνοποίηση.
Γλώσσες: en, zh
Φωνή Κλώνου
MOSS-TTS Nano
Μικροσκοπική έκδοση MOSS-TTS 100M, ίδια αρχιτεκτονική, 80x μικρότερη, ελεύθερη-tier καθυστέρηση.
Γλώσσες: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Φωνή ΚλώνουΠρογραμματιστής-Πρώτο API
OpenAI συμβατό REST API. Ένα τελικό σημείο, 22+ μοντέλα.
- Μορφότυπος συμβατός με το OpenAI
- Streaming TTS για εφαρμογές σε πραγματικό χρόνο
- Επεξεργασία παρτίδας για μεγάλες θέσεις εργασίας
- Γνωστοποιήσεις για το WebhookName
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Απλή, Διαφανής Τιμή
Ξεκινήστε ελεύθερα, όσο μεγαλώνετε.
Ατελώς
15.000 χαρακτήρες + 5.000/ημέρα
- 7 ελεύθερα μοντέλα συμπεριλαμβανομένου του Kokoro
- 5.000 chars ανά γενιά
- Συμπεριλαμβανομένης της πρόσβασης API
Εκκίνηση
500 πιστώσεις/μήνα
- Όλα τα μοντέλα 22+
- 100,000 chars ανά γενιά
- Κλωνοποίηση φωνής
Pro
2.000 πιστώσεις/μήνας
- Τα πάντα στο Starter
- Πρόσβαση API
- Επεξεργασία προτεραιότητας
Επιχειρήσεις
10,000 πιστώσεις/μήνας
- Τα πάντα σε Pro
- Μαζική API
- Σειρά προτεραιότητας
Προβολή όλων των σχεδίων συμπεριλαμβανομένων των πακέτων χαρακτήρων →
Συχνές Ερωτήσεις
Τι θα μπορούσαμε να βελτιώσουμε; Τα σχόλιά σας μάς βοηθούν να διορθώσουμε τα ζητήματα.
Ξεκίνα να χρησιμοποιείς τη φωνή της Αλ σήμερα.
Ενωθείτε δημιουργοί, προγραμματιστές και επιχειρήσεις χρησιμοποιώντας TTS.ai