बग/ विशेषता निवेदन रिपोर्ट करें

एआई पाठ से वार्ताName

खोलने-source एआई मॉडलों के साथ स्वाभाविक पाठ में बदलें. बिना किसी खाता को प्रयोग करने के लिए मुक्त, कोई खाता आवश्यक नहीं.

मुक्त पर हस्ताक्षर करें

0/500 अक्षर · प्रति पीढ़ी के लिए ५,००० के लिए हस्ताक्षर करें →

ऊपर हस्ताक्षर करें 5,000 अक्षर सीमा के लिए

एसटीएमएल मोड (सही नियंत्रण के लिए स्पीच सिंथस मार्कअप लैंग्वेज)

अस्थायी नियंत्रण के लिए एसएसएमएल टैग में अपने पाठ को लपेटें:

<speak><prosody rate="slow">Slow speech</prosody></speak>

शानदार / शैली टैग्स

प्रभाव के लिए भावना चिह्न जोड़ें (अनाइव समर्थन अलग- अलग):

उच्चारण शब्दकोश

मनपसंद उच्चारण पारिभाषित करें (नाम = उच्चारण):

आड़ा (P) 0

-12 +12

एआई मॉडल

आवाज़

भाषा

आउटपुट फॉर्मेट

गति 1.0x

0.5x 2.0x

पाइप, VITS, मेरोच के साथ मुक्त

आपका उत्पन्न ऑडियो यहाँ प्रकट होगा. कोई मॉडल चुनें, पाठ भरें, और क्लिक करें.

मॉडल विवरण

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

डेवलेपर:	KittenML
लाइसेंस:	Apache 2.0
गति	Fast
विशेषताः
भाषाएँ	1 भाषा
वीरैम	0GB
आवाज कोलोन	समर्थित नहीं

विशेषताएँ:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

के लिए उत्तम:: Fast lightweight TTS, edge deployment, low-latency applications

अच्छे नतीजे पाने के लिए सुझाव

मौसम के हिसाब से अलग - अलग तरीके इस्तेमाल करें
सुस्पष्ट उच्चारण के लिए वर्तनी की संख्या तथा संक्षिप्त शब्दों को छोटा करें
वाक्यांशों के बीच छोटा ठहराव बनाने के लिए विरामचिह्न जोड़ें
दीर्घवृत का प्रयोग करें (...)
सबसे प्राकृतिक परिणामों के लिए कोकोरो या कोसFestivalVoiceName
मल्टी- स्पेसर संवाद तथा पोवरे सामग्री के लिए जाँच उपयोग करें

अक्षर उपयोग

टीयर	लागत प्रति 1K अक्षर
मुक्त	0 श्रेय (अनुप्रयोगित)
मानक	क्या आप जानते हैं कि परमेश्‍वर के वचन का सही - सही ज्ञान लेने में क्या शामिल है?
प्रीमियम	यहोवा के साक्षियों के शासी निकाय के सदस्य, 4 / 15

अधिक अक्षर प्राप्त करें

एआई पाठ को बोलने के लिए कैसे काम करता है

तीन सरल चरणों में पेशेवर आवाजों का निर्माण करें. कोई तकनीकी ज्ञान जरूरी नहीं है.

कदम 1

अपना पाठ दाखिल करें

टाइप करें, चिपकाएं या पाठ अपलोड करें जिसे आप बोलना चाहते हैं. लॉग किए गए उपयोक्ताओं के लिए प्रति ५,००० अक्षरों को समर्थित करता है. सादा पाठ या एसएमएल टैग इस्तेमाल करें जो विस्तृत नियंत्रण के लिए विकसित किया जा सकता है.

कदम 2

मॉडल आवाज चुनें (V)

तीन+ एआई मॉडलों के पार से चुनें. आपकी सामग्री से मेल खाती है कि एक आवाज चुनें, अपने लक्ष्य भाषा चुनें, 0. 5x से लेकर 2.5x तक की गति समायोजित करें, और अपने पसंदीदा आउटपुट फॉर्मेट को चुनें (एमपी3, DAC).

कदम 3

डाउनलोड बनाएँ (D)

क्लिक करें तथा आपका ऑडियो जन्म सेकण्ड में तैयार है. पूरे खिलाड़ी के साथ पूर्वावलोकन डाउनलोड करें, आपके चुने गए फ़ॉर्मेट में डाउनलोड करें या एक साझेदारी लिंक की नक़ल करें. अलग अलग होने के लिए एपीआई प्रयोग करें.

पाठ से वार्ता इस्तेमाल करें केस

एआई-से- वार्ता पाठ-से- वार्ता परिवर्तित कर रही है कि लोग कैसे बनाते हैं, खा सकते हैं, और दर्जनों उद्योगों पर ऑडियो सामग्री के साथ व्यवहार करते हैं.

ऑडियोबुक्स

सम्पूर्ण पुस्तक को स्वाभाविक रूप से ऑडियोबुक में परिवर्तित कर सकते हैं Wi- Cont- Case-s. बहु-S-SCK समर्थन के साथ अक्षर संवाद के लिए.

वीडियो आवाज चालू

यूट्यूब, टीकेक, इंस्टाग्राम रेज़, और छोटी आवाजें बनाएं. 100 या अपने स्वयं क्लोन के लिए पेशेवर आवाज बनाएं.

पिडकास्ट

बहुत से एआईएस आवाजों के साथ स्क्रिप्ट से UBLLPLLLP घटना उत्पन्न करें. स्वाभाविक दो बोलने वाली बातचीत के लिए डायलॉग का प्रयोग करें.

गैसिंग

एआई आवाज खेलों में, दृश्य उपन्यासों, और संवाद. NPC संवाद, कटौती आवाज, 30+ भाषाओं में कार्य करते हैं.

ई- रीडलिंग

कोर्स सामग्री, व्याख्यान, और ऑडियो में प्रशिक्षण सामग्री बदलें. वैश्विक प्लेटफ़ॉर्म के लिए मल्टी-लॉट समर्थन.

पहुँच

वेबसाइटों, दस्तावेज़ों, और ऐप आपके लिए उपयुक्त. स्क्रीन रीडर्स एकीकरण तथा आलेख-Tado परिवर्तन करें.

फोन तंत्र फिर से लिखें (O)

ऊर्जा मैं चैनल सिस्टमों, फोन मेन्यू, और ग्राहक सेवा प्राकृतिक एआई आवाजों के साथ. कॉल केंद्रों के लिए कम-शिक्षित धारा.

सामाजिक मीडिया

Tikiks, इनस्टाग्राम रील्स, ट्विटर/X टिप्पणी, यूट्यूब छोटे। जल्दी मॉडलों के साथ।

स्ट्रीमिंग

TIOCOST TACT TACOSE, गपशप- टेक, एआई co-ss, और डिस्क-rid बॉट्स. कम मात्रा में, 100+CHACHATANATANANATs.

सड़क

एडबिंग्स, पेश किए गए वीडियो, उत्पादों और बिक्री प्रस्तुतियों को समझाता है ।

खबलिंग तथा स्थानीयीकरण

आवाज़ के साथ 30+ भाषाओं में अनुवाद व Adb वीडियो को अनुवाद करें. स्वतः-taconMMM और स्पीकर का पता लगा सकते हैं.

मननशीलता (H)

मनन, नींद की कहानियाँ, साँस लेने का अभ्यास, और शांत, सांत्वनादायक एआई की आवाज़ से पुष्टि करते हैं ।

सभी केस औज़ार देखें (t)

सभी पाठ से मॉडलों को बोलने के लिए

प्रत्येक एआई मॉडल के लिए विस्तृत विशेषताएँ TTS.ai पर उपलब्ध हैं. गुणवत्ता, गति, भाषा समर्थन, और विशेषताएँ अपनी परियोजना के लिए परिपूर्ण मॉडल को खोजने के लिए।

Kokoro

Free

कोकोरो एक 82 लाख पैरामीटरी मॉडल है जो अपने वजन वर्ग के ऊपर बहुत ही अच्छे से पंच करता है. इसके छोटे आकार के बावजूद, यह बहुत ही प्राकृतिक और आकर्षक भाषा उत्पन्‍न करता है. कोकोरो अनेक भाषाओं में अंग्रेज़ी, जापानी, चीनी, और कोरियाई विविध प्रकार की ध्वनि के साथ. यह उल्लेखनीय रूप से ध्वनि को लगभग 100xx से अधिक तेजी से तैयार करता है.

डेवलेपर::
Hexgrad

लाइसेंस::
Apache 2.0

गति:
Fast

विशेषताः:

भाषाएँ:
en, ja, zh, fr, it, pt, es, hi

वीरैम:
1.5GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
मुक्त

82M पैरामीटर्स अत्यंत- तेज गोपनीय आवाज़ बहुमुखी स्ट्रीमिंग समर्थन

के लिए उत्तम:: न्यूनतम किये जाने वाले अनुप्रयोगों के साथ न्यूनतम तीव्रताटीटीटीएस, स्ट्रीमिंग अनुप्रयोग

कोशिश करें Kokoro

Piper

Free

पाइपर एक हल्का पाठ-से- वार्ता इंजन है जो Rssscsee और lunnnnns का उपयोग करता है। यह पूरी तरह से सीपीयू पर दौड़ता है, किनारे उपकरणों के लिए आदर्श बना, घर के उपकरण, और अनुप्रयोग के लिए की जरूरत। 30+Ces के साथ, पाइप scenter वास्तव में ध्वनि s पर प्राकृतिक ध्वनि sonphronting।

डेवलेपर::
Rhasspy

लाइसेंस::
MIT

गति:
Fast

विशेषताः:

भाषाएँ:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

वीरैम:
0 (CPU only)

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
मुक्त

सीपीयू- मित्रीय ऑफ़लाइन सक्षम 100+ आवाज 30+ भाषाएँ एसएसएमएल समर्थन

के लिए उत्तम:: क्विक पूर्वावलोकन, पहुंचनीयता, और अंतर्निर्मित अनुप्रयोगों

कोशिश करें Piper

VITS

Free

MEGTS (अवर्थरकार के लिए एक अंत-से- वार्ता पाठ-से- वार्ता) सीखने के लिए एक समानांतर अंत-T-TC-TC-टी तरीका है जो मौजूदा दो मंच मॉडलों से अधिक प्राकृतिक ध्वनि बनाता है। यह सामान्य प्रवाह और एक मौजूदा प्रवाह और एक स्वाभाविक विकास, विकसित करने के लिए एक महत्वपूर्ण प्रक्रिया बनाता है।

डेवलेपर::
Jaehyeon Kim et al.

लाइसेंस::
MIT

गति:
Fast

विशेषताः:

भाषाएँ:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

वीरैम:
1GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
मुक्त

अंत- से- पिन सिंथ स्वाभाविक रीति से तेज इंच बहुल स्पीकर

के लिए उत्तम:: सामान्य- से- वार्ता पाठ से प्राकृतिक अभ्यास के साथ

कोशिश करें VITS

MeloTTS

Free

Mint. oo एक अलग ही भाषा, ब्रिटिश, भारतीय, फ्रेंच, फ्रेंच, चीनी, जापानी, और कोरियाई समर्थन करती है. यह बहुत ही तेजी से सीपीयू पर सामग्री प्रयोग करने के लिए बनाया गया है. Mercut और दोनों सीपीयूों का उपयोग करने के लिए बनाया जाता है और वे दोनों के लिए उपयोग करने के लिए प्रयोग करने के लिए प्रयोग किया जाता है.

डेवलेपर::
MyShell.ai

लाइसेंस::
MIT

गति:
Fast

विशेषताः:

भाषाएँ:
en, es, fr, zh, ja, ko

वीरैम:
0.5GB (GPU optional)

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
मुक्त

सीपीयू- पूर्वी बहुमुखी बहुमुखी उच्चारण उत्पादीय- प्रसंग कम रिलीमेंट

के लिए उत्तम:: उत्पादों का अनुप्रयोग तेजी से, अलग - अलग भाषाओं में टीएस की जरूरत है

कोशिश करें MeloTTS

Bark

Standard

सूर्यो द्वारा बदली गई पाठ- आधारित मॉडल है जो कि बहुत ही यथार्थवादी, भाषा तथा अन्य ऑडियो संगीत, पृष्ठभूमि, शोर, और ध्वनि प्रभाव उत्पन्न कर सकता है. यह हंसना, सांस लेना, और रोनी के समान अस्वीय संचार उत्पन्‍न कर सकता है. बार बार-cents और 13+5 से अधिक भाषाओं का समर्थन करता है.

डेवलेपर::
Suno

लाइसेंस::
MIT

गति:
Slow

विशेषताः:

भाषाएँ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

वीरैम:
5GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
2x

ध्वनि प्रभाव हँसते/ क़ाबिलेचरिंग संगीत पीढ़ी 100+ स्पीकर बहुमुखी

के लिए उत्तम:: अंतर्निर्मित ऑडियो सामग्री, याद रखने के लिए ऑडियोबुक, ध्वनि प्रभावों के साथ

कोशिश करें Bark

Bark Small

Standard

बारके मॉडल का छोटा संस्करण है कि कुछ ऑडियो गुणवत्ता का व्यापार बहुत तेजी से तेजी से और कम स्मृति माँगों के लिए। यह बारक की क्षमता को बनाए रखता है भावनाओं, हँसी, और अनेक भाषाओं के साथ बातचीत करने की क्षमता।

डेवलेपर::
Suno

लाइसेंस::
MIT

गति:
Medium

विशेषताः:

भाषाएँ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

वीरैम:
2GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
2x

हल्के रंग पूर्ण पट्टीk से तेज भावात्मक बातचीत बहुमुखी

के लिए उत्तम:: जब पूरा बारk बहुत धीमा है तो डिजाइन ऑडियो त्वरित करें

कोशिश करें Bark Small

CosyVoice 2

Standard

Cassy Cialalli के लिए 2 Cargib द्वारा मानव- प्राकृतिक गुणवत्ता प्राप्त करता है, यह वास्तव में देर - समय अनुप्रयोगों के लिए आदर्श बनाने के लिए। यह धारा के लिए एक multacing के लिए जा रहा है और शून्य से विपरीत आवाज, क्रूस, बढ़िया भावना। यह व्यापार व्यवस्थाओं को नियंत्रित करता है।

डेवलेपर::
Alibaba (Tongyi Lab)

लाइसेंस::
Apache 2.0

गति:
Medium

विशेषताः:

भाषाएँ:
en, zh, ja, ko, fr, de, it, es

वीरैम:
4GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

स्ट्रीमिंग शून्य- स्नेपशॉट क्रास- ब्रेकिंग तेज नियंत्रण मानव-पारिटी

के लिए उत्तम:: रीयल टाइम अनुप्रयोग, स्ट्रीमिंग टीटी, आवाज सहायक

कोशिश करें CosyVoice 2

Dia TTS

Standard

Nababa द्वारा arbs पाठ-से- वार्ता मॉडल विशेष रूप से बहु- वार्ता संवाद बनाने के लिए बनाया गया है. यह दो स्पीकरों के बीच स्वाभाविक बातचीत उत्पन्‍न कर सकता है सही बारी बारी लेने, प्रोक्शन, और मानसिक भाव के साथ. डायलॉग सही ढंग से पैदा करने के लिए सिद्ध है, ऑडियोबुक, ऑडियोबुक, ऑडियोबुक, और दिलचस्प बातचीत.

डेवलेपर::
Nari Labs

लाइसेंस::
Apache 2.0

गति:
Medium

विशेषताः:

भाषाएँ:
en

वीरैम:
4GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
2x

मल्टी- स्पीकर संवाद पीढ़ी स्वाभाविक बारी-चक भावात्मक अभिव्यक्‍ति VARPB पैरामीटर्स

के लिए उत्तम:: पिडकास्ट, ऑडियोबुक संवाद, वार्तालाप सामग्री

कोशिश करें Dia TTS

Parler TTS

Standard

पारलर TTECT एक पाठ मॉडल है जो उत्पन्न की भाषा वर्णन को नियंत्रित करने के लिए प्रयोग करता है. पूर्व ध्वनि से चुनने के बजाय, आप आवाज़ का वर्णन करते हैं आप चाहते हैं (जैसे, "एक गर्म महिला आवाज) के साथ कम से कम ब्रिटिश व स्पष्ट रूप से बोलते हुए, और परलर वर्णन करता है कि यह विशिष्ट भाषा के लिए अद्वितीय कार्यक्रम बनाता है. यह अद्‌भुत रूप से शुद्ध है.

डेवलेपर::
Hugging Face

लाइसेंस::
Apache 2.0

गति:
Medium

विशेषताः:

भाषाएँ:
en

वीरैम:
4GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
2x

आवाज़ वर्णन स्वाभाविक भाषा नियंत्रण अंतर्निर्मित आवाज बनाने में असमर्थ कोई पूर्व- नियत ध्वनि आवश्यक नहीं

के लिए उत्तम:: अनुप्रयोग जहाँ आपको मनपसंद आवाज विशेषताओं की आवश्यकता है

कोशिश करें Parler TTS

GLM-TTS

Standard

Zuuuua द्वारा बनाया गया पाठ-से- वार्ता सिस्टम है जो मेल के साथ मेल खाती है. यह खुला स्रोत टीएस मॉडल के बीच कम से कम चरित्र की दर प्राप्त करता है, जिसका अर्थ है सबसे सही उच्चारण. GL-ट-ट-ट-ट-ट-ट-ट-टफ़्स और चीनी का समर्थन 310 के अन्य ऑडियो नमूने से करता है.

डेवलेपर::
Zhipu AI

लाइसेंस::
GLM-4 License

गति:
Medium

विशेषताः:

भाषाएँ:
en, zh

वीरैम:
4GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

निम्नतम त्रुटि दर आवाज कहीं नहीं प्रवाह स्वाभाविक रीति से

के लिए उत्तम:: अनुप्रयोग के लिए अधिकतम उच्चारण सटीकता आवश्यक थी

कोशिश करें GLM-TTS

IndexTTS-2

Standard

इंडेक्सटीएस 2 एक उन्नत पाठ-से- वार्ता सिस्टम है जो शून्य से कम आवाजी पर ठीक भावना नियंत्रण के साथ धीमी आवाज़. यह खुश, दुखी स्वरों के साथ बात की जा सकती है, क्रोध, या डर के बिना भावना के. आदर्श भावना का प्रयोग करता है शब्दों के भाव को नियंत्रित करने के लिए.

डेवलेपर::
Index Team

लाइसेंस::
Bilibili Model License

गति:
Medium

विशेषताः:

भाषाएँ:
en, zh

वीरैम:
4GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

तेज नियंत्रण शून्य- स्नेपशॉट एक्स- रेज़ वेक्टर्स मन लगाकर बात कीजिए बढ़िया- खराब नियंत्रण

के लिए उत्तम:: भावात्मक रूप से संवेदनशील सामग्री, ऑडियोबुक, आभासी सहायक

कोशिश करें IndexTTS-2

Spark TTS

Standard

स्प्लोक ऑडियोब्स द्वारा एक पाठ- से- वार्ता मॉडल है जो नियंत्रणशील भावनाओं और शैली से जोड़ता है. ऑडियो के बस 5 सेकंड का प्रयोग किया जा सकता है, यह एक आवाज का प्रयोग कर सकता है और फिर विभिन्न भावनाओं, गति, और शैली के साथ बात कर सकता है जब क्लोन की पहचान क़ायम है. scentcentcenti-s एक पाठ- से- वार्ता सिस्टम का प्रयोग करता है.

डेवलेपर::
SparkAudio

लाइसेंस::
CC BY-NC-SA 4.0

गति:
Medium

विशेषताः:

भाषाएँ:
en, zh

वीरैम:
4GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

आवाज कहीं नहीं तेज नियंत्रण शैली नियंत्रण संकेत आधारित 5-second-zone

के लिए उत्तम:: क्लोन ध्वनि तथा भावात्मक नियंत्रण के साथ बनाया जा रहा है

कोशिश करें Spark TTS

GPT-SoVITS

Standard

GEEGEGS GEGES GEGEGEGEGEGEEGEEGEGEGEGEEGEGEGEGEGEGEGEGEGEGEGEGEGEGEGEGEGEGEGENTEEEEEEGENTEGEGEGEGEGEGENTEGEGENTEN (ग्द्वेषण और प्रभावी आवाज और प्रभावी आवाजों के लिए आवाज के लिए आवाज और आवाज के माध्यम से आवाज के लिए आवाज के लिए आवाज के रूप में उपयोग कर रहा है।

डेवलेपर::
RVC-Boss

लाइसेंस::
MIT

गति:
Slow

विशेषताः:

भाषाएँ:
en, zh, ja, ko

वीरैम:
6GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

5-second-zone स्वर से गा रहे हैं बहुत कम सीखने के बाद उच्च वफ़ादारी क्रास- ब्रेकिंग

के लिए उत्तम:: आवाज करें, सिनेसन, सामग्री निर्माता आवाज फिर से सक्रिय करें

कोशिश करें GPT-SoVITS

Orpheus

Standard

ओर्टुस एक बड़े स्केल पाठ मॉडल है जो मानव स्तरीय मानसिक अभिव्यक्ति प्राप्त करता है. विविध भाषा डेटा के १,००,००० घंटे पर प्रशिक्षित, यह प्राकृतिक भावनाओं, ज़ोर देकर बोलने और बोलने में असमर्थ है. याफीस कि आम रूप से मानव रिकॉर्डिंग से बात कर सकते हैं.

डेवलेपर::
Canopy Labs

लाइसेंस::
Llama 3.2 Community

गति:
Medium

विशेषताः:

भाषाएँ:
en

वीरैम:
4GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
2x

मानव- लेवल भावना 100के घंटे प्रशिक्षण स्वाभाविक ज़ोर मन लगाकर बात कीजिए

के लिए उत्तम:: उच्च विशेषता भावात्मक भाषा, ऑडियोबुक, आवाज कार्य

कोशिश करें Orpheus

Chatterbox

Premium

Ragogogden-अंत्र से एक चीरी शून्य मॉडल है. यह एक एकल ध्वनि नमूना से किसी भी ध्वनि नमूना को फिर से स्थापित कर सकते हैं उल्लेखनीय यथार्थता के साथ, न सिर्फ tammoline, बल्कि बात की शैली और मानसिकता भी. चैट बॉक्स में अच्छी भावना नियंत्रण रखने की अनुमति देता है, आप से पैदा की भावना की भावना को विशिष्ट करने के लिए अनुमति देता है.

डेवलेपर::
Resemble AI

लाइसेंस::
MIT

गति:
Medium

विशेषताः:

भाषाएँ:
en

वीरैम:
4GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
4x

शून्य- स्नेपशॉट तेज नियंत्रण उच्च वफ़ादारी शैली हस्तांतरण एकल नमूना नमूना नमूना नमूनाGenericName

के लिए उत्तम:: मानसिक नियंत्रण, सामग्री सृष्टि के साथ व्यवहार

कोशिश करें Chatterbox

Tortoise TTS

Premium

TARTT एक स्वचालित बहु- ईमानवाले पाठ - से- वार्ता प्रणाली है जो कि ध्वनि गुणवत्ता से पहले ध्वनि गुणवत्ता का उपयोग करता है। यह DAEC-EC-EC- pree-Conn-Con बनावट का उपयोग करता है बेहतरीन जांच और स्पीकरों के साथ अति प्राकृतिक भाषा उत्पन्न करने के लिए। जबकि अनेक विकल्पों से धीमी है, COMONARERTCon, CONTCon, CONTConTCARTAC के कुछ सटीक भाषा को son, CONTACANACARTACANANATANANAS में उपलब्ध भाषा का उपयोग करने के लिए करता है।

डेवलेपर::
James Betker

लाइसेंस::
Apache 2.0

गति:
Slow

विशेषताः:

भाषाएँ:
en

वीरैम:
8GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
4x

सर्वोच्च गुणवत्ता बहु- प्रतिनिधि सभी- पूर्व रचना आवाज कहीं नहीं स्वतःग्रेसिव

के लिए उत्तम:: ऑडियोबुक्स, प्री- खण्ड सामग्री, विशेषता- प्रथम अनुप्रयोग

कोशिश करें Tortoise TTS

StyleTTS 2

Premium

स्टाइलटीएस 2 मानव स्तर की शैली का उपयोग करने वाले शैली के द्वारा मानव स्तर Tother Taseconconsyyyyyying बड़ी भाषा मॉडलों का उपयोग करने के द्वारा प्राप्त करता है। यह एक ही स्वर मॉडल के बीच सबसे स्वाभाविक भाषण बनाता है, विरोधी मानव रिकॉर्डिंग।

डेवलेपर::
Columbia University

लाइसेंस::
MIT

गति:
Medium

विशेषताः:

भाषाएँ:
en

वीरैम:
4GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
4x

मानव- लेवल शैली एवर्थल प्रशिक्षण स्वाभाविक परिवर्तन उच्च वफ़ादारी

के लिए उत्तम:: स्टूडेडिओ- कैंची एकल- सेकर, पेशेवर कहानी

कोशिश करें StyleTTS 2

OpenVoice

Premium

मेरी हेलेल द्वारा तत्काल आवाज कंट्रोल के साथ शुरू करता है आवाज शैली, भावना, स्वर, स्वर, स्वर, गति, गति, मापन, इत्यादि. यह एक छोटी सी ऑडियो क्लिप से ध्वनि क्लिप और भाषा में भाषण बनाता है जबकि वक्‍ता पहचान बनाए रखते हैं. एक आवाज परिवर्तन के रूप में भी खोलें कार्य, वास्तविक समय बदलने की अनुमति देता है.

डेवलेपर::
MyShell.ai / MIT

लाइसेंस::
MIT

गति:
Medium

विशेषताः:

भाषाएँ:
en, zh, ja, ko, fr, es

वीरैम:
4GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
4x

तत्काल जन्नती आवाज रूपांतरण तेज नियंत्रण एसेंट कंट्रोल बहुमुखी

के लिए उत्तम:: उत्तम एआरटीडी शैली नियंत्रण के साथ आवाज, आवाज रूपांतरण

कोशिश करें OpenVoice

Qwen3 TTS

Standard

Qdn3-टी3 केटीटीएस एक 1.7 अरब पैरामीटर मॉडल है Aligal'C की टीम से. यह तीन मोड के साथ ध्वनि समर्थन करता है: भावनाओं नियंत्रण के सिर्फ 3 सेकंड, ऑडियो के सिर्फ 3 सेकंडों से आवाज, और एक अद्वितीय आवाज मोड जहां आप स्वाभाविक भाषा में चाहते हैं. यह 10 उच्च भाषा में उच्च भाषा और स्वाभाविक भाषा में उच्च भाषा के साथ पैक करता है.

डेवलेपर::
Alibaba (Qwen)

लाइसेंस::
Apache 2.0

गति:
Medium

विशेषताः:

भाषाएँ:
en, zh, ja, ko, de, fr, ru, pt, es, it

वीरैम:
7GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

आवाज कहीं नहीं 9 पूर्व- नियत ध्वनि पाठ से आवाज डिजाइन तेज नियंत्रण 10 भाषाएँ

के लिए उत्तम:: आवाज दुआएँ या मनपसंद आवाज डिजाइन के साथ बहुमुखी सामग्री

कोशिश करें Qwen3 TTS

Sesame CSM

Premium

SEANTCAN (बात मॉडल) एक 1 अरब पैरामीटर विशेष रूप से वार्तालाप करने के लिए बनाया गया है। यह मानव वार्तालाप के प्राकृतिक पैटर्न हैं जिसमें समय पर परिवर्तन करने, वापस प्रतिक्रियाओं, भावात्मक प्रतिक्रिया, और वार्तालाप प्रवाह शामिल हैं। CACACACAN (CACACACAC मॉडल) के बजाय प्राकृतिक वार्तालाप की ध्वनि बनाता है।

डेवलेपर::
Sesame

लाइसेंस::
Apache 2.0

गति:
Slow

विशेषताः:

भाषाएँ:
en

वीरैम:
8GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
4x

वार्तालाप स्वाभाविक समय बारी- पलटो बैक- सेंटर 1B पैरामीटर्स

के लिए उत्तम:: एआई सहायक, चैटर्बोस, वार्तालापीय एआई अनुप्रयोगों

कोशिश करें Sesame CSM

Chatterbox Turbo

Standard

Rogox4+3M पैरामीटर गपशप- बक्से के लिए उन्नत है, 6x-200-200ms के साथ 6x समय की गति प्रदान करता है. यह पार करने वाले टैगों का समर्थन करता है [अंत्र] और सीधे पाठ में. parting सभी ध्वनि ट्रैक साबित करने के लिए जल मार्क शामिल करता है.

डेवलेपर::
Resemble AI

लाइसेंस::
MIT

गति:
Fast

विशेषताः:

भाषाएँ:
en

वीरैम:
2GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

सब- 2004- मीक्सेस पारलिंग एक्सपोजर टैग्सGenericName 6x वास्तविक समय आवाज कहीं नहीं वाटरमार्किंग

के लिए उत्तम:: वास्तविक समय आवाज एजेंट, प्राकृतिक ध्वनि के साथ गुप्त भाषण

कोशिश करें Chatterbox Turbo

VoxCPM

Standard

GexCPPOMP 1. 1 ओपनBMB द्वारा एक संक्षिप्त टोकन- फ्री-ट मॉडल है जो कि डिस्किट चिह्नों के बजाय निरंतर अंतरिक्ष में काम करता है। यह उच्च-पोजरी ऑडियो ४४. यह 310 सेकंड से शून्य का समर्थन करता है, और सुसंगत आवाजों के बीच सुसंगतता जारी रखने देता है। क्रॉस-अक्ष आप एक आवाज को एक आवाज लागू करने के लिए और चीनी भाषा को लागू करता है।

डेवलेपर::
OpenBMB

लाइसेंस::
Apache 2.0

गति:
Fast

विशेषताः:

भाषाएँ:
en, zh

वीरैम:
4GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

44.5HM ऑडियो प्राधिकृत- फ्री क्रास- कैरिकार्ड कॉन्टेक्स्ट- आनवेयर (n) लोरिया बढ़िया

के लिए उत्तम:: उच्च- कंट्रास्ट ऑडियो, ऑडियोबुक्स, आवाज संगतता के साथ लंबी-रूप सामग्री

कोशिश करें VoxCPM

Kani TTS 2

Free

Gaci-S-S-S2 द्वारा एक Sakyo-S-SCaci-S-Soles द्वारा बनाया गया 400CTM पैरामीटर मॉडल NVIINZE के साथ बनाया गया है. यह सिर्फ 3GBV2 सेकंड में चला जाता है और एक 0.10 सेकंड में बात करता है - 10 सेकंड में। वर्तमान में सिर्फ एक अंग्रेजी जहाजों को खोलने के लिए ही नहीं है, बल्कि सिर्फ एक अंग्रेजी भाषा के लिए नहीं है।

डेवलेपर::
NineNineSix

लाइसेंस::
Apache 2.0

गति:
Fast

विशेषताः:

भाषाएँ:
en

वीरैम:
3GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
मुक्त

3GB वीरैम अत्यंत- तेज हल्के रंग नेनो कोड मुक्त

के लिए उत्तम:: कम- वी-रैम हार्डवेयर पर तीव्र अंग्रेजी पीढ़ी, त्वरित पूर्वावलोकन

कोशिश करें Kani TTS 2

OuteTTS

Free

WERAGERS पाठ-से- वार्ता क्षमताओं के साथ बड़े भाषा मॉडलों को जारी करता है जब मूल संरचनाओं को बनाए. यह कई बैकएण्डों को समर्थन देता है.

डेवलेपर::
OuteAI

लाइसेंस::
Apache 2.0

गति:
Fast

विशेषताः:

भाषाएँ:
en

वीरैम:
2GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
मुक्त

सीपीयू इंच चुपके से ब्राउज़र आवाज कहीं नहीं बहुल बैकएण्ड्स स्पीकर

के लिए उत्तम:: किनारा तैनातमेंट, ब्राउज़र- आधारित टीएस, कम स्रोत वातावरण

कोशिश करें OuteTTS

VibeVoice

Standard

Gibegarig द्वारा दो प्रकारों में आता है: लंबी सामग्री के लिए एक 1.ByB मॉडल (या 90 मिनट के लिए) और वास्तविक समय मूल्य 0.5B मॉडल के लिए ~200s पहली देर के साथ स्ट्रीमिंग के लिए. 1. 1. 1. 1. 1. 1. 1. 1-bs और लंबे समय के द्वारा स्पीकर द्वारा दर्ज किया गया Gobs: MicrosoftS कोड हटा दिया गया और ऑडियो भंडारों से निर्मित ऑडियो संग्रह शामिल करता है.

डेवलेपर::
Microsoft

लाइसेंस::
MIT

गति:
Fast

विशेषताः:

भाषाएँ:
en, zh

वीरैम:
4GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
2x

मल्टी- स्पीकर 90 मि. पोडकास्ट बनाना (P) स्पीकर संगतता 0 मी (पानी)

के लिए उत्तम:: पिडबुक, ऑडियोबुक, लंबे- विस्तृत बहु- सरकशी सामग्री

कोशिश करें VibeVoice

Pocket TTS

Free

Cakt Tact Tuti ( मोशी के बढ़ने वाले) एक प्रतिज्ञा 100M पैरामीटर अपने वजन के ऊपर अच्छी तरह से वार करता है। यह सहज रूप से हवा से करता है, एक ही ऑडियो नमूना से शून्य आवाज के लिए समर्थन करता है, और स्वाभाविक मॉडल इसे स्वाभाविक रूप से और कम वातावरण के लिए आदर्श बनाता है।

डेवलेपर::
Kyutai

लाइसेंस::
MIT

गति:
Fast

विशेषताः:

भाषाएँ:
en, fr

वीरैम:
1GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
मुक्त

100M पैरामीटर्स सीपीयू इंच आवाज कहीं नहीं एकल- एम्पल मुलर किनारा- तैयार

के लिए उत्तम:: हल्के रंग की तैनाती, सीपीयू- सिर्फ वातावरण, त्वरित आवाजस्वाभाविक

कोशिश करें Pocket TTS

Kitten TTS

Free

किटटन टी.टीटीटीटी द्वारा एक प्रोटीटीटीटीटीटीटीटीटीसी मॉडल है जो एनएक्स पर बनाया गया है. 15 एमएम से 80M पैरामीटर (25- 8080) के साथ, यह बिना जीपीपीपीपीडी पर उच्च आवाज प्रदान करता है. 8 इंच विशेषताओं को समायोजित किया जा सकता है, भाषा, भाषा, भाषा, भाषा, भाषा, भाषा, और प्रयोग करने के लिए पाठ, और प्रोक्शन इकाई के लिए उपयोग किया जा रहा है.

डेवलेपर::
KittenML

लाइसेंस::
Apache 2.0

गति:
Fast

विशेषताः:

भाषाएँ:
en

वीरैम:
0GB

आवाज कोलोन:
नहीं

लागत प्रति 1K अक्षर:
मुक्त

सिर्फ सीपीयू 80MB मॉडल आकार में 8 निर्मित ध्वनि गति नियंत्रण ऑन- आधारित 24kHE आउटपुट

के लिए उत्तम:: तेज हल्का scces, किनारा व्यवस्था, कम विवेकी अनुप्रयोगों

कोशिश करें Kitten TTS

CosyVoice3

Standard

CassyF3 AlibalcacolM टीम से नवीनतम विकास है। यह ~150ms के साथ विस्तार, भावना/spocs के लिए आधारित नियंत्रण, और वक्ताओं की तुलना में सुधार किया जा रहा है शून्य के लिए। 9 भाषाओं में चीनी भाषा।

डेवलेपर::
Alibaba (FunAudioLLM)

लाइसेंस::
Apache 2.0

गति:
Fast

विशेषताः:

भाषाएँ:
en, zh, ja, ko, de, es, fr, it, ru

वीरैम:
4GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

बि- जाया जा रहा है तेज नियंत्रण आवाज कहीं नहीं गति/वोल्यूल नियंत्रण निम्न निर्देश

के लिए उत्तम:: बहुमुखी उत्पादन TTS, वास्तविक समय अनुप्रयोग, आवाज तमाम्स

कोशिश करें CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

डेवलेपर::
NAMAA Space

लाइसेंस::
MIT

गति:
Medium

विशेषताः:

भाषाएँ:
ar

वीरैम:
6GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

सऊदी अरबीName आधुनिक मानक अरबी शून्य-शॉट तेज नियंत्रण नेटिव उच्चारण

के लिए उत्तम:: सऊदी श्रोताओं के लिए अरबी सामग्री, एमएसएजीजीजी ध्वनि एजेंटों, अरबी ऑडियोबुक्स

कोशिश करें NAMAA Saudi TTS

Darwin TTS

Standard

WERS-BBC-BBBC-BBCPEN-BLAN-S-1. 7BAN(8.6%) जहां ८४ भाषण देनेवाले ८४ बातचीतरों (8.6%) के साथ मिश्रण कर रहे हैं QS से मेल खाते हैं। ध्यान दें और फिर से प्रयोग किया जा रहा है। Sn3-B-B-BCPRCPCKPERARCPERCKPERARCK, और अंग्रेजी भाषा के बिना फिर से फिर से बनाया जा रहा है।

डेवलेपर::
FINAL-Bench

लाइसेंस::
Apache 2.0

गति:
Medium

विशेषताः:

भाषाएँ:
en, ko, ja, zh

वीरैम:
7GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

आवाज कहीं नहीं क्रास- ब्रेकिंग FFN- बिन्ड 4 कोर भाषाएँ क्यूवेरियन

के लिए उत्तम:: एक ही संदर्भ आवाज के साथ अंग्रेजी / जापानी / जापानी भाषा के बीच क्रास- रचना

कोशिश करें Darwin TTS

MOSS-TTSD

Standard

GSSS-SSD vOS WBS से एक 7B-से- वार्ता संवाद मॉडल है जो एक छोटे से ऑडियो प्रायोगिक से बातचीत जारी है. समर्थन करता है 5 उप-संशंसकों के लिए [S1] टैग, 3102] ऑडियो से शून्य आवाज - और के 60 मिनट के लिए cose-SCOCONTCONTCOS संवाद के लिए.

डेवलेपर::
OpenMOSS

लाइसेंस::
Apache 2.0

गति:
Medium

विशेषताः:

भाषाएँ:
en, zh

वीरैम:
12GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
2x

मल्टी- स्पीकर संवाद 5 वक्‍त के गुज़रते 60 मिनट के लिए ऑडियो आवाज कहीं नहीं पोस्ट- आउट्‌प्ड

के लिए उत्तम:: पिडबुक, ऑडियोबुक, जिसे संवाद कहा गया है, अनेक आवाजों से वार्तालाप

कोशिश करें MOSS-TTSD

Ming-Omni TTS

Free

MERTACT- 0. 0. 0. 0. 0. 0.5B है Alanci-टीनी ध्वनि मॉडल एक पैच द्वारा बनाया गया एक पैच-हंक-हंक-क-क-क-क-क-हिंग ऑडियो ऐक्शनर के साथ बनाया गया है. 44.1HEPEPEPENTCHEEENTCHEN(x3), एक दूसरे संदर्भ के लिए समर्थित करता है, और भावना / 0.400CACTCACHACHACHACGEN/ 0.0CHERELACHACHACHENECGEGELACKCKENECACACACKELENENENENECKERELECKECHENECHECHECKECHECHECKCCKCK TECYECYECK TECYECPEACPCPECYEACPEACYPPEPEPEACYEACHEPEPEANANACYEACYEACKEACKEACKEACKEACKEACKECYPCKEACYEACKECKEACYPCYELACYECYECYECYECYECYECYECYECKECKECKECKECK TECYECCCYECKECKECCCCCCCYELACHELACHELCK TENACHACHACCCCHACHACCCHANCHANCHACHACECECKECTCTCTCTCTCTCHANANANEANEANANENELANENENELECTCTCCTCTCTCTCTCTC

डेवलेपर::
inclusionAI

लाइसेंस::
Apache 2.0

गति:
Medium

विशेषताः:

भाषाएँ:
en, zh

वीरैम:
3GB

आवाज कोलोन:
हाँ

लागत प्रति 1K अक्षर:
मुक्त

44.1kHz आउटपुट आवाज कहीं नहीं तेज नियंत्रण स्किल नियंत्रण BGM पीढ़ी सघन

के लिए उत्तम:: उच्च-तम वार्तालाप, भावनाओं द्वारा नियंत्रित आवाज, चीनी ऑडियोबुक सामग्री

कोशिश करें Ming-Omni TTS

Kokoro

मुक्त

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

डेवलेपर::
Hexgrad

लाइसेंस::
Apache 2.0

गति:
Fast

विशेषताः:

भाषाएँ: en, ja, zh, fr, it, pt, es, hi

के लिए उत्तम:: High-quality TTS with minimal latency, streaming applications

मुक्त कोशिश करें

Piper

मुक्त

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

डेवलेपर::
Rhasspy

लाइसेंस::
MIT

गति:
Fast

विशेषताः:

भाषाएँ: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

के लिए उत्तम:: Quick previews, accessibility, and embedded applications

मुक्त कोशिश करें

VITS

मुक्त

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

डेवलेपर::
Jaehyeon Kim et al.

लाइसेंस::
MIT

गति:
Fast

विशेषताः:

भाषाएँ: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

के लिए उत्तम:: General-purpose text-to-speech with natural prosody

मुक्त कोशिश करें

MeloTTS

मुक्त

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

डेवलेपर::
MyShell.ai

लाइसेंस::
MIT

गति:
Fast

विशेषताः:

भाषाएँ: en, es, fr, zh, ja, ko

के लिए उत्तम:: Production applications needing fast, multilingual TTS

मुक्त कोशिश करें

Kani TTS 2

मुक्त

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

डेवलेपर::
NineNineSix

लाइसेंस::
Apache 2.0

गति:
Fast

विशेषताः:

भाषाएँ: en

के लिए उत्तम:: Fast English generation on low-VRAM hardware, quick previews

मुक्त कोशिश करें

OuteTTS

मुक्त

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

डेवलेपर::
OuteAI

लाइसेंस::
Apache 2.0

गति:
Fast

विशेषताः:

भाषाएँ: en

के लिए उत्तम:: Edge deployment, browser-based TTS, low-resource environments

मुक्त कोशिश करें

Pocket TTS

मुक्त

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

डेवलेपर::
Kyutai

लाइसेंस::
MIT

गति:
Fast

विशेषताः:

भाषाएँ: en, fr

के लिए उत्तम:: Lightweight deployment, CPU-only environments, quick voice cloning

मुक्त कोशिश करें

Kitten TTS

मुक्त

डेवलेपर::
KittenML

लाइसेंस::
Apache 2.0

गति:
Fast

विशेषताः:

भाषाएँ: en

के लिए उत्तम:: Fast lightweight TTS, edge deployment, low-latency applications

मानक

डेवलेपर::
NAMAA Space

लाइसेंस::
MIT

गति:
Medium

विशेषताः:

भाषाएँ:
ar

आवाज कोलोन:
हाँ

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

के लिए उत्तम:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

कोशिश करें NAMAA Saudi TTS

Darwin TTS

मानक

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

डेवलेपर::
FINAL-Bench

लाइसेंस::
Apache 2.0

गति:
Medium

विशेषताः:

भाषाएँ:
en, ko, ja, zh

आवाज कोलोन:
हाँ

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

के लिए उत्तम:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

मॉडल	डेवलेपर:	टीयर	गति	भाषाएँ	वीरैम	लाइसेंस:	श्रेय
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	मुक्त	प्रयोक्ता
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	मुक्त	प्रयोक्ता
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	मुक्त	प्रयोक्ता
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	मुक्त	प्रयोक्ता
Bark	Suno	Standard	Slow	13	5GB	MIT	2	प्रयोक्ता
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	प्रयोक्ता
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	प्रयोक्ता
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	प्रयोक्ता
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	प्रयोक्ता
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	प्रयोक्ता
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	प्रयोक्ता
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	प्रयोक्ता
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	प्रयोक्ता
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	प्रयोक्ता
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	प्रयोक्ता
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	प्रयोक्ता
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	प्रयोक्ता
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	प्रयोक्ता
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	प्रयोक्ता
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	प्रयोक्ता
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	प्रयोक्ता
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	प्रयोक्ता
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	मुक्त	प्रयोक्ता
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	मुक्त	प्रयोक्ता
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	प्रयोक्ता
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	मुक्त	प्रयोक्ता
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	मुक्त	प्रयोक्ता
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	प्रयोक्ता
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	प्रयोक्ता
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	प्रयोक्ता
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	प्रयोक्ता
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	मुक्त	प्रयोक्ता

अधिकांश रीग्रेसिव एआई पाठ को बोलने के लिए सक्षम करेंGenericName

Why Choose TTS.ai for Text to Speech?

TTS.ai एक साथ दुनिया लाता है

प्रत्येक मॉडल एमटी के तहत, 2.0, या समान विजुअल लाइसेंस के तहत, निश्चित रूप से आप अपने परियोजना में उत्पन्न ऑडियो का उपयोग करने के लिए पूरा व्यावसायिक अधिकार है. क्या आप को तेजी से, वास्तव में समय के अनुप्रयोगों के लिए या प्रीपॉटेट आउटपुट की आवश्यकता है ऑडियोबुक और ट्रेप के लिए, TTS.ai सही मॉडल है हर मामले के लिए हर मामले का उपयोग करने के लिए.

फ्री मॉडल, कोई खाता आवश्यक नहीं

तीन मुफ्त मॉडलों के साथ तुरंत शुरू हो जाओ: पाइपर (प्रयोगात्मक, लाल, लाल, scloc), और Mclocs (moconti-mon). कोई साइन अप कार्ड नहीं है, कोई भी क्रेडिट कार्ड, पीढ़ियों पर कोई सीमा नहीं. मुक्त मॉडलों का समर्थन और अन्य कई अन्य भाषाओं के लिए उपयुक्त अनुप्रयोग.

Gपिपिपी- एज्केनेटेड प्रक्रिया

सभी TTS मॉडल तेज करने के लिए तैयार NVIDAGEAGERAGE के लिए चलाने पर चल रहे हैं। मुक्त मॉडल आमतौर पर 2 सेकंड में ऑडियो बनाता है। कोकोरोरो, और बार बार औसत 3-5 सेकंड। प्रधान मॉडल जो सबसे अधिक गुणवत्ता और चैट बॉक्स के साथ, जैसे कि Buecute और चैट बॉक्स में, 5 सेकंड के पाठ पर निर्भर करता है।

30+ भाषा समर्थित

30 से अधिक भाषाओं में अंग्रेज़ी, फ्रेंच, फ्रांसीसी, पुर्तगाली, पुर्तगाली, पुर्तगाली, जापानी, जापानी, रूसी, रूसी, रूसी, रूसी, और कई अन्य. बहुत से आदर्श क्रॉस समर्थन, मतलब आप एक भाषा में बोली पैदा कर सकते हैं जो मूल आवाज में कभी नहीं सीखा गया था. कोरस्टी 2 और जी.

डेवलपर पढ़ें

Integrate TTS.ai into your applications with our OpenAI-compatible REST API. One endpoint for all 20+ models. Python, JavaScript, cURL, and Go SDKs. Streaming support for real-time applications. Batch processing for large-scale content generation. Webhooks for async notifications. API access included on every plan including free.

बार बार पूछे जाने वाले प्रश्न

बोलने के लिए पाठ (टीटीएस) एक एआई तकनीक है जो मूल - बोली ध्वनि में पाठ को परिवर्तित करती है. आधुनिक तंत्रिका मॉडल कोकोरो, चैटर, और कोस्टी 2 गहरी सीखने के लिए प्रयोग करती है कि ध्वनि ध्वनि, प्राकृतिक पूर्वान, भावना, और तालियों के साथ।

यह आपकी ज़रूरतों पर निर्भर करता है. जल्दी से पूर्वावलोकन के लिए, पाइपर या मेलो (फ्री, तेज). उच्च गुणवत्ता के लिए, कोकोरोरो या कोज़ 2 (टीटीडी) के लिए कोशिश करें. आवाज के लिए, चैट बॉक्स या GBS (प्रेशन) का प्रयोग करें. संवाद के लिए, जाँच करें कि प्रत्येक व्यक्ति को बेहतर तरह से प्रयोग करें.

जी हाँ, TTS.ai को कोकोरो, पाइपो, और मेकर मॉडलों के साथ मुक्त पाठ प्रस्तुत करता है. कोई खाता इस समय 500 अक्षर और 3 पीढ़ियों के लिए जरूरी नहीं है. एक स्वतंत्र खाता के लिए 15 श्रेय और पहुँच के लिए हस्ताक्षर.

हमारे टीस मॉडलों में कुल मिलाकर 30+ भाषाएँ हैं, जिनमें अँग्रेज़ी, फ्रेंच, जर्मन, इतालवी, चीनी, चीनी, जापानी, जापानी, अरबी, रूसी, रूसी, और कई और भाषाओं का समर्थन किया जाता है ।

जी हाँ, TTS.ai से उत्पन्न किए गए ऑडियो को व्यावसायिक रूप से इस्तेमाल किया जा सकता है. हमारे सभी मॉडल खुले स्रोत लाइसेंस (एमटीटी, 2.0) का उपयोग विशिष्ट शर्तों के लिए करें. हम विशेष मॉडल के लाइसेंस की समीक्षा की सलाह देते हैं आप अपने परियोजना के लिए इस्तेमाल कर रहे हैं.

TTS.ai supports MP3, WAV, OGG, and FLAC output formats. MP3 is the default for web playback. WAV is recommended for further audio processing. You can convert between formats using our Audio Converter tool.

COWTECKS एक छोटे से ऑडियो नमूना से एक विशिष्ट आवाज फिर से बनाने के लिए एआई का उपयोग करता है (सामान्य रूप से 5-30 सेकण्ड). लक्ष्य आवाज का एक स्पष्ट रिकॉर्ड अपलोड, और मॉडल की तरह चैट-टीटीटीटीएस, जी-टीएसएसएसटीएस, या ओपनम्पाई उस आवाज में नया भाषण बनाता है. क्वालिटी शुद्ध, ऑडियो संदर्भ के साथ सुधार बनाता है.

उपलब्ध उपयोक्ता प्रति निवेदन के लिए 500 अक्षर तैयार कर सकते हैं. पंजीकृत उपयोक्ता प्रति निवेदन पर ५,००० अक्षर प्राप्त करें. अधिक पाठों के लिए, ऑडियो बनाया जाता है तथा स्वचलित रूप से एक साथ बनाया जाता है. एपीआई उपयोक्ता हर निवेदन पर १०,००० अक्षर तक कार्य कर सकते हैं.

एसएसटीएमएल (सेप्टीफ़ॉइड एक्स- रेफ़ाइड भाषा) मॉडल से भिन्न समर्थन करता है. पाइपर और कुछ अन्य मॉडलों का समर्थन आसान करने के लिए मूल SSएमएल टैग, ज़ोर देने, और उच्चारण नियंत्रण नियंत्रण के लिए. मॉडलों के लिए, आप स्वाभाविक गैरकानूनी का उपयोग कर सकते हैं और प्रभाव के प्रभाव के लिए लाइन का उपयोग कर सकते हैं.

जी हाँ, ज़्यादातर मॉडल गति 0. 5x से 0xx के लिए समायोजन. कुछ मॉडल बारक तथा परलर की तरह राके और शैली नियंत्रण भी अनुमति देता है. आप उन्नत सेटिंग पैनल में पैरामीटर निर्धारित कर सकते हैं या 0.5 गति पैरामीटर के माध्यम से.

हाँ, बैच प्रक्रिया हमारे एपीआई के माध्यम से उपलब्ध है. आप कई पाठ खण्ड को एक ही एपीआई कॉल या स्क्रिप्ट में स्वीकार कर सकते हैं, और प्रत्येक को अलग ऑडियो फ़ाइलों के रूप में प्रोसेस किया जाएगा. यह ऑडियोबुक अध्यायों के लिए एक आदर्श है, उदाहरण के लिए, ई- कार्ड संवाद स्क्रिप्ट के लिए.

आपके खाता बार से एपीआई कुंजी उत्पन्न करें, तब हमारे पाठ, मॉडल, और आवाज पैरामीटरों के साथ PoseideaxxERSESTE के लिए अनुरोध करता है. हम पायथन, जावास्क्रिप्ट, और COV में कोड उदाहरण प्रदान करते हैं. एपीआई में, तो मौजूदा परिवर्तनों के साथ काम करता है.

5.0/5 (4)

पाठ को बोलने से अब प्रारंभ करें

TTS.ai का उपयोग कर बनाने में शामिल हों. नए खाता के साथ 15 मुक्त श्रेय प्राप्त करें. बिना हस्ताक्षर के मुफ्त मॉडल उपलब्ध हैं.

मुक्त पर हस्ताक्षर करें विन्यास (S)

एआई पाठ से वार्ताName

अपने दोस्तों को बताइए!

मॉडल विवरण

Kitten TTS

अच्छे नतीजे पाने के लिए सुझाव

अक्षर उपयोग

एआई पाठ को बोलने के लिए कैसे काम करता है

अपना पाठ दाखिल करें

मॉडल आवाज चुनें (V)

डाउनलोड बनाएँ (D)

पाठ से वार्ता इस्तेमाल करें केस

ऑडियोबुक्स

वीडियो आवाज चालू

पिडकास्ट

गैसिंग

ई- रीडलिंग

पहुँच

फोन तंत्र फिर से लिखें (O)

सामाजिक मीडिया

स्ट्रीमिंग

सड़क

खबलिंग तथा स्थानीयीकरण

मननशीलता (H)

सभी पाठ से मॉडलों को बोलने के लिए

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3