Δωρεάν AI Κείμενο σε λόγο

Παράμετρος 82M Υπερβολικά γρήγορος Εκφραστικές φωνές Πολύγλωσσο Υποστήριξη streaming

Ελαφρύ μοντέλο παραμέτρου 82M παρέχει στούντιο-ποιότητα ομιλία με blazing-γρήγορο συμπέρασμα.

Γρήγορα. · 1.5GB VRAM Δοκίμασέ το.

Piper

Φιλικό προς ΚΜΕ Αποσύνδεση ικανή 100+ φωνές 35+ γλώσσες Υποστήριξη του ΕΕΜΛ

Ένα γρήγορο, τοπικό νευρωνικό κείμενο στο σύστημα ομιλίας βελτιστοποιημένο για Raspberry Pi και ενσωματωμένες συσκευές.

Γρήγορα. · 0 (CPU only) VRAM Δοκίμασέ το.

VITS

Σύνθεση τέλους έως τέλους Φυσική προσθετικότητα Γρήγορο συμπέρασμα Πολλαπλά ηχεία

Αυτόματος κωδικοποιητής υπό όρους με adversarial μάθηση για το τέλος-to-end κείμενο-to-Speech.

Γρήγορα. · 1GB VRAM Δοκίμασέ το.

MeloTTS

Βελτιστοποιημένη CPU Πολύγλωσσο Πολλαπλές προφορές Έτοιμη για την παραγωγή Χαμηλή καθυστέρηση

Υψηλής ποιότητας πολύγλωσσο κείμενο προς ομιλία που τρέχει σε CPU με ελάχιστη καθυστέρηση.

Γρήγορα. · 0.5GB (GPU optional) VRAM Δοκίμασέ το.

Bark

Ηχητικά εφέ Γελώντας/αναστενάζοντας Μουσική γενιά 100+ ομιλητές Πολύγλωσσο

Transformer-based text-to-audio μοντέλο που παράγει ρεαλιστική ομιλία, μουσική, και ηχητικά εφέ.

Αργά · 5GB VRAM Δοκίμασέ το.

Bark Small

Ελαφρύς Γρηγορότερα από τον γεμάτο Φλοιό Συναισθηματική ομιλία Πολύγλωσσο

Ελαφρύτερη έκδοση του Μπαρκ με γρηγορότερο συμπέρασμα και χαμηλότερη χρήση μνήμης.

Μεσαίο · 2GB VRAM Δοκίμασέ το.

CosyVoice 2

Ροή Μηδενική κλωνοποίηση Διαγώνια γλώσσα Έλεγχος συναισθημάτων Ανθρώπινα-φιλανθρωπία

Αλίμπαμπα κλιμακωτή ροή TTS με τη φύση του ανθρώπου-παροικίας και σχεδόν μηδέν καθυστέρηση.

Dia TTS

Πολυμέσα Παραγωγή διαλόγου Φυσική περιστροφή Συναισθηματική έκφραση 1.6B παράμετροι

Multi-speaker μοντέλο γενεών διαλόγου που δημιουργεί φυσικές συνομιλίες μεταξύ των ηχείων.

Parler TTS

Περιγραφή φωνής Φυσικό γλωσσικό έλεγχο Εύκαμπτη δημιουργία φωνής Δεν χρειάζονται προεπιλεγμένες φωνές

Περιγράψτε τη φωνή που θέλετε στη φυσική γλώσσα και Parler παράγει αντίστοιχη ομιλία.

Indic Parler TTS

11 Ινδικές γλώσσες Περιγραφή φωνής Φυσικό γλωσσικό έλεγχο Authentic Indic προφορά

Υψηλής ποιότητας ομιλία για 8+ ινδικές γλώσσες με φυσικό-γλωσσικό έλεγχο φωνής.

Αργά · 8GB VRAM Δοκίμασέ το.

KhanomTan TTS

Thai TTS Πολλαπλά ηχεία Αρχιτεκτονική YourTTS Εμπορική-ασφαλής άδεια

Ταϊλανδέζικο-πρώτο κείμενο-to-Speech με μια επιλογή ομιλητών φωνές.

Γρήγορα. · 2GB VRAM Δοκίμασέ το.

IndexTTS-2

Έλεγχος συναισθημάτων Μηδενικός πυροβολισμός Διάνυσμα συναισθημάτων Εκφραστικός λόγος Καλλιεργημένος έλεγχος

Zero-shot TTS με λεπτό γρανίτη έλεγχο συναισθημάτων και υψηλή εκφραστικότητα.

Spark TTS

Κλωνοποίηση φωνής Έλεγχος συναισθημάτων Έλεγχος στυλ Με βάση το Prompt 5 δευτερόλεπτα κλωνοποίησης

Φωνή κλωνοποίησης TTS με ελεγχόμενο συναίσθημα και στυλ ομιλίας μέσω υποκινήσεων.

GPT-SoVITS

5 δευτερόλεπτα κλωνοποίησης Τραγουδώντας φωνή Μαθήματα με λίγες στιγμές Υψηλή πιστότητα Διαγώνια γλώσσα

Λίγη φωνή που κλωνοποιεί TTS που αναπαριστά οποιαδήποτε φωνή από μόλις 5 δευτερόλεπτα ήχου.

Αργά · 6GB VRAM Δοκίμασέ το.

Orpheus

Συναίσθημα ανθρώπινου επιπέδου Εκπαίδευση 100K ωρών Φυσική έμφαση Εκφραστικός λόγος

Ανθρώπινο επίπεδο συναισθηματικό μοντέλο TTS εκπαιδευμένο σε δεδομένα ομιλίας 100K ώρες.

Chatterbox

Μηδενική κλωνοποίηση Έλεγχος συναισθημάτων Υψηλή πιστότητα Μεταφορά στυλ Κλωνοποίηση ενός δείγματος

Η τελευταία λέξη της τεχνολογίας είναι η μηδενική κλωνοποίηση φωνής με συναισθηματικό έλεγχο από το Resemble AI.

Tortoise TTS

Υψηλότερη ποιότητα Πολυφωνική DALL-E αρχιτεκτονική Κλωνοποίηση φωνής Αυτόματη οπισθοδρόμηση

Πολυφωνική κείμενο σε ομιλία επικεντρώθηκε στην ποιότητα με την αυτοκαταστροφική αρχιτεκτονική.

Αργά · 8GB VRAM Δοκίμασέ το.

StyleTTS 2

Ανθρώπινο επίπεδο Διάδοση στυλ Εκπαίδευση σε προσχολική βάση Φυσική διακύμανση Υψηλή πιστότητα

Ανθρώπινο επίπεδο κείμενο προς ομιλία μέσω της διάχυσης στυλ και αντιπερισπαστικής εκπαίδευσης.

OpenVoice

Άμεση κλωνοποίηση Μετατροπή φωνής Έλεγχος συναισθημάτων Έλεγχος προεξοχής Πολύγλωσσο

Άμεση κλωνοποίηση φωνής με κοκκώδη έλεγχο πάνω στο στυλ, το συναίσθημα και την προφορά.

Qwen3 TTS

9 προεπιλεγμένες φωνές Σχεδιασμός φωνής από το κείμενο Έλεγχος συναισθημάτων 10 γλώσσες

Το πολύγλωσσο TTS της Alibaba με προεπιλεγμένες φωνές και σχέδιο φωνής από το κείμενο.

Μεσαίο · 7GB VRAM Δοκίμασέ το.

VieNeu-TTS-v2

7 προεπιλεγμένες φωνές (Βόρειες + Νότιες προφορές) En-Vi code- switching Κλωνοποίηση φωνής ( αναφοράς3-5s) Υποστήριξη Podcast/multi-speaker Μόνο για CPU __

Βιετναμέζικα + Αγγλικά κωδικό-switching TTS με 7 προεπιλεγμένες φωνές και μηδέν-shot φωνητική κλωνοποίηση. CPU-μόνο, δεν απαιτείται GPU.

Γρήγορα. · CPU VRAM Δοκίμασέ το.

Sesame CSM

Συζήτηση Φυσικός συγχρονισμός Στροφή Αναδρομικό κανάλιName Παράμετρος 1B

Μοντέλο συζήτησης ομιλίας που δημιουργεί φυσικό διάλογο με κατάλληλο συγχρονισμό και συναίσθημα.

Αργά · 8GB VRAM Δοκίμασέ το.

Chatterbox Turbo

Υπο-200ms καθυστέρηση Παραγλωσσικές ετικέτες 6x σε πραγματικό χρόνο Κλωνοποίηση φωνής Υδατοδείκτης

Γρήγορη Chatterbox με υπο-200ms καθυστέρηση και παραλγλωσσικές ετικέτες για γέλια, βήχα, και πολλά άλλα.

Γρήγορα. · 2GB VRAM Δοκίμασέ το.

VoxCPM

44.1kHz ήχου Χωρίς τοκενοποιητή Διαγλωσσική κλωνοποίηση Εξειδίκευση πλαισίου@ info: whatsthis LORA fine-tuning

Tokenizer-free TTS που παράγουν 44.1kHz ήχου με τη συνοχή παράγραφο πλαίσιο-aware.

Γρήγορα. · 4GB VRAM Δοκίμασέ το.

Kani TTS 2

3GB VRAM Υπερβολικά γρήγορος Ελαφρύς NanoCodecName Ατελώς

Εξαιρετικά ελαφρύ 400M αγγλικό μοντέλο TTS τρέχει σε μόλις 3GB VRAM.

Γρήγορα. · 3GB VRAM Δοκίμασέ το.

OuteTTS

Επακόλουθα συμπεράσματα για την ΚΜΕ Συνέδρια προγράμματος περιήγησης Πολλαπλά συστήματα υποστήριξης Προφίλ ομιλητών

LLM-based TTS που τρέχει σε CPU, GPU, ή browser μέσω llama.ccp και Transformers.js.

Αργά · 2GB VRAM Δοκίμασέ το.

VibeVoice

Πολυμέσα Έως 90 λεπτά Παραγωγή Podcast Συνέπεια ομιλητή 200ms ροή

Microsoft μοντέλο για μεγάλο-μορφό πολυ-ηχητικό περιεχόμενο όπως podcasts και ακουστικά βιβλία.

Γρήγορα. · 4GB VRAM Δοκίμασέ το.

Pocket TTS

Παράμετρος 100M Επακόλουθα συμπεράσματα για την ΚΜΕ Κλωνοποίηση φωνής Κλωνοποίηση ενός δείγματος Έτοιμη η κόψη

Ελαφρύ μοντέλο παραμέτρου 100M από την Kyutai με κλωνοποίηση φωνής από ένα μόνο δείγμα.

Γρήγορα. · 1GB VRAM Δοκίμασέ το.

Kitten TTS

Συνέδρια μόνο για CPU Κάτω από 80MB μέγεθος μοντέλου 8 εντοιχισμένες φωνές Έλεγχος ταχύτητας Με βάση το ONNX 24kHz εξόδου

Εξαιρετικά ελαφρύ TTS κάτω από 80MB. Λειτουργεί σε CPU χωρίς GPU.

Γρήγορα. · 0GB VRAM Δοκίμασέ το.

CosyVoice3

Bi-streaming Έλεγχος συναισθημάτων Κλωνοποίηση φωνής Ταχύτητα/έλεγχος όγκου Οδηγίες που ακολουθούν

Πολυγλωσσικό TTS επόμενης γενιάς με bi-streaming, συναισθηματικό έλεγχο, και μηδενική κλωνοποίηση φωνής.

Γρήγορα. · 4GB VRAM Δοκίμασέ το.

NAMAA Saudi TTS

Σαουδαραβική διάλεκτος Σύγχρονα στάνταρ αραβικά Μηδενική κλωνοποίηση φωνής Έλεγχος συναισθημάτων Ιθαγενής προφορά

Πρώτη ανοικτή σαουδαραβική TTS. Ιθαγενής Σαουδαραβική διάλεκτος με κλωνοποίηση φωνής ποιότητας Chatterbox.

Μεσαίο · 6GB VRAM Δοκίμασέ το.

Darwin TTS

Κλωνοποίηση φωνής Διαγώνια γλώσσα FNN-blendedName 4 βασικές γλώσσες ραχοκοκαλιά Qwen3

Παραλλαγή Cross-modal Qwen3-TTS με βάρη FFN αναμειγνύονται από το μοντέλο γλώσσας Qwen3-1.7B για πιο έντονη πολύγλωσση κλωνοποίηση.

Μεσαίο · 7GB VRAM Δοκίμασέ το.

MOSS-TTSD

Πολυμέσα διάλογος Έως 5 ομιλητές 60 λεπτά συνεκτικός ήχος Κλωνοποίηση φωνής Βελτιστοποιημένο με Podcast

Multi-speaker διάλογο συνέχιση μοντέλο ~ δημιουργούν podcast-style συνομιλίες με μέχρι 5 ηχεία και 60 λεπτά του συνεκτικού ήχου.

Μεσαίο · 12GB VRAM Δοκίμασέ το.

Ming-Omni TTS

44.1kHz έξοδος Κλωνοποίηση φωνής Έλεγχος συναισθημάτων Έλεγχος διαλέκτων PGM γενεά Συμπαγές 0, 5B

Compact 0.5B omni-modal μοντέλο ομιλίας από την ενσωμάτωσηAI με υψηλή πιστότητα 44.1kHz εξόδου και μηδενικής-shot φωνητική κλωνοποίηση.

Μεσαίο · 3GB VRAM Δοκίμασέ το.

MOSS-TTS Nano