Report Bug / Feature Request

AI पाठबाट बोल्नName

खुला स्रोत AI नमूनाहरूसँग प्राकृतिक-सुन्ने भाषणमा पाठ रूपान्तरण गर्नुहोस् । प्रयोग गर्न निःशुल्क, खाता आवश्यक छैन ।

निःशुल्क दर्ता गर्नुहोस्

0/500 क्यारेक्टर · Sign up for 5,000 per generation →

दर्ता गर्नुहोस् ५,००० क्यारेक्टर सीमाका लागि

SSML मोड (राम्रो नियन्त्रणका लागि वक्तव्य संश्लेषण मार्कअप भाषाName)

सटीक नियन्त्रणका लागि SSML ट्यागमा तपाईँको पाठ बेर्नुहोस्:

<speak><prosody rate="slow">Slow speech</prosody></speak>

भावना / शैली ट्याग

डेलिभरी प्रभाव गर्न भावना मार्कर थप्नुहोस् (नमूना समर्थन फरक):

उच्चारण शब्दकोश

अनुकूल उच्चारण परिभाषित गर्नुहोस् (शब्द = उच्चारण):

पिच 0

-12 +12

AI नमूना

आवाज

भाषा

निर्गत ढाँचा

गति 1.0x

0.5x 2.0x

पाइपर, VITS, MeloTTS सँग निःशुल्क

तपाईँको सिर्जना गरिएको अडियो यहाँ देखा पर्नेछ । नमूना रोज्नुहोस्, पाठ प्रविष्ट गर्नुहोस्, र सिर्जना गर्नुहोस् क्लिक गर्नुहोस् ।

नमूना विवरण

Pocket TTS

Free

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

विकासकर्ता:	Kyutai
इजाजतपत्र:	MIT
गति	Fast
गुणस्तर:
भाषाहरू	2 भाषाहरू
भिआरएम	1GB
आवाज क्लोनिङ	समर्थित

विशेषताहरू:

100M parameters CPU inference Voice cloning Single-sample cloning Edge-ready

यसका लागि उत्तम:: Lightweight deployment, CPU-only environments, quick voice cloning

राम्रो नतिजाका लागि सुझाव

प्राकृतिक विराम र स्वरका लागि उचित विराम चिन्ह प्रयोग गर्नुहोस्
स्पष्ट उच्चारणका लागि सङ्ख्याहरू र संक्षिप्तिकरणहरू हिज्जे गर्नुहोस्
वाक्यांश बीच छोटो विराम सिर्जना गर्न अल्पविराम थप्नुहोस्
लामो नाटकीय विरामका लागि ellipsis प्रयोग गर्नुहोस् (...)
सबैभन्दा प्राकृतिक परिणामको लागि Kokoro वा CosyVoice2को प्रयास गर्नुहोस्
बहु- वक्ता संवाद र पोडकास्ट सामाग्रीका लागि डाय प्रयोग गर्नुहोस्

क्रेडिट लागत

टर	प्रति १K क्यारेक्टर लागत
स्वतन्त्र	० क्रेडिट (असीमित)
पूर्वनिर्धारित	२ क्रेडिट / १K क्यारेक्टर
प्रिमियम	४ क्रेडिट / १K क्यारेक्टर

धेरै क्यारेक्टरहरू प्राप्त गर्नुहोस्

कसरी AI पाठ भाषण काम गर्दछ

तीन सरल चरणहरूमा व्यावसायिक-गुणस्तर आवाजहरू सिर्जना गर्नुहोस्। कुनै प्राविधिक ज्ञान आवश्यक छैन।

चरण १

तपाईँको पाठ प्रविष्ट गर्नुहोस्

तपाईँले भाषणमा रूपान्तरण गर्न चाहेको पाठ टाइप, टाँस्नुहोस् वा अपलोड गर्नुहोस् । लगइन प्रयोगकर्ताका लागि प्रति पुस्ता ५,००० क्यारेक्टरसम्म समर्थन गर्दछ । उच्चारण, विराम र जोडमा उन्नत नियन्त्रणका लागि सादा पाठ प्रयोग गर्नुहोस् वा SSML ट्याग थप्नुहोस् ।

चरण २

नमूना र आवाज रोज्नुहोस्

तीन तहहरूमा 20+ AI मोडेलहरूबाट चयन गर्नुहोस्। तपाईंको सामग्रीसँग मिल्ने आवाज चयन गर्नुहोस्, आफ्नो लक्षित भाषा चयन गर्नुहोस्, 0.5x देखि 2.0x सम्म प्लेब्याक गति समायोजन गर्नुहोस्, र आफ्नो प्राथमिकता निर्गत ढाँचा चयन गर्नुहोस् (MP3, WAV, OGG, वा FLAC)।

चरण ३

सिर्जना र डाउनलोड गर्नुहोस्

क्लिक सिर्जना र आफ्नो अडियो सेकेन्डमा तयार छ. built-in प्लेयर संग पूर्वावलोकन, आफ्नो रोजेको ढाँचामा डाउनलोड, वा एक साझेदारी लिङ्क प्रतिलिपि. आफ्नो कार्यप्रवाहमा ब्याच प्रक्रिया र एकीकरण लागि एपीआई प्रयोग गर्नुहोस्.

पाठ वाचक प्रयोग गर्नुहोस्

AI-powered text-to-speech कसरी मानिसहरू सिर्जना, उपभोग, र उद्योगहरूको दर्जनौं मार्फत अडियो सामग्री संग अन्तरक्रिया परिवर्तन छ।

अडियो पुस्तकहरू

स्टुडियो-गुणस्तरको कथासँग प्राकृतिक-सुन्ने अडियो पुस्तकहरूमा सम्पूर्ण पुस्तकहरू रूपान्तरण गर्नुहोस् । क्यारेक्टर संवादका लागि डायसँग बहु-स्पीकर समर्थन ।

भिडियो आवाज

यूट्यूब, TikTok, इन्स्टाग्राम रिल्स, र शॉर्ट्सको लागि व्यावसायिक आवाजहरू सिर्जना गर्नुहोस्। 100+ आवाजहरू वा आफ्नो क्लोन।

पोडकास्ट

बहुविध AI आवाजहरूसँग स्क्रिप्टहरूबाट पोडकास्ट एपिसोडहरू सिर्जना गर्नुहोस् । प्राकृतिक दुई वक्ता वार्तालापहरूका लागि Dia प्रयोग गर्नुहोस् ।

खेलकुद

एआई आवाज इन्डिया खेल लागि अभिनय, दृश्य उपन्यास, र अन्तरक्रियात्मक काल्पनिक। एनपीसी संवाद, cutscene आवाज, 30+ भाषाहरू।

ई-शिक्षा

पाठ्यक्रम सामाग्री, व्याख्यान, र अडियो मा प्रशिक्षण सामग्री रूपान्तरण। वैश्विक प्लेटफर्महरू लागि बहु-भाषा समर्थन।

पहुँचता

वेबसाईटहरू, कागजातहरू र अनुप्रयोगहरू पहुँचयोग्य बनाउनुहोस्। स्क्रिन रिडर एपीआई एकीकरण र लेख-देखि-अडियो रूपान्तरण।

IVR र फोन प्रणाली

प्राकृतिक AI आवाज संग पावर IVR प्रणाली, फोन मेनु, र ग्राहक सेवा। कल केन्द्र लागि कम-लाटेन्सी स्ट्रिमिङ।

सामाजिक मिडिया

TikTok कथाहरू, इन्स्टाग्राम रिल्स, ट्विटर / एक्स टिप्पणी, यूट्यूब शॉर्ट्स। नि: शुल्क मोडेलहरूको साथ छिटो पुस्ता।

स्ट्रिमिङ

ट्विच टीटीएस चेतावनी, च्याट-टु-अवरोध, एआई सह-होस्ट, र असहमति बोटहरू। कम लास्टेन्सी, 100+ आवाजहरू, StreamElements संगत।

मार्केटिङ

विज्ञापन voiceovers, व्याख्या भिडियो, उत्पादन डेमो, र बिक्री प्रस्तुति। अभियान मार्फत अडियो सामग्री उत्पादन मापन।

डुबिङ र स्थानीयकरण

अनुवाद र डब भिडियो 30+ भाषाहरूमा आवाज-मिलेको AI संग। स्वचालित-अनुवाद र वक्ता पत्ता लगाउन।

ध्यान र स्वास्थ्य

मार्गदर्शन ध्यान, निद्रा कथाहरू, श्वास अभ्यास, र शान्त साथ afirmations, soothing AI आवाज।

सबै प्रयोग केसहरू र उपकरणहरू हेर्नुहोस्

सबै पाठबाट वक्तव्यमा नमूना

TTS.ai मा उपलब्ध हरेक AI मोडेल लागि विस्तृत विनिर्देशों। गुणस्तर तुलना, गति, भाषा समर्थन, र सुविधाहरू आफ्नो परियोजना लागि सही मोडेल फेला पार्न।

Kokoro

Free

कोकोरो एक 82 मिलियन मापदण्ड पाठ-देखि-भाषण मोडेल छ कि यसको वजन वर्ग माथि राम्रो संग Punches. यसको सानो आकार बावजुद, यो उल्लेखनीय प्राकृतिक र अभिव्यक्तिशील भाषण उत्पादन. कोकोरो अंग्रेजी सहित बहु भाषाहरू समर्थन, जापानी, चिनियाँ, र कोरियाली अभिव्यक्तिपूर्ण आवाज को एक किसिम संग. यो अविश्वसनीय रूपमा छिटो चल्छ - GPU मा वास्तविक समय भन्दा लगभग 100x छिटो अडियो उत्पन्न.

विकासकर्ता::
Hexgrad

इजाजतपत्र::
Apache 2.0

गति:
Fast

गुणस्तर::

भाषाहरू:
en, ja, zh, fr, it, pt, es

भिआरएम:
1.5GB

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
स्वतन्त्र

८२ एम परिमिति अति- छिटो अभिव्यक्तिमूलक आवाज बहुभाषिक स्ट्रिमिङ समर्थन

यसका लागि उत्तम:: न्यूनतम लाटेन्सी, स्ट्रिमिङ अनुप्रयोगहरूसँग उच्च गुणस्तर TTS

प्रयास गर्नुहोस् Kokoro

Piper

Free

पाइपर एक हल्का पाठ-देखि-भाषण इन्जिन Rhasspy द्वारा विकसित छ जुन VITS र larynx वास्तुकला प्रयोग गर्दछ। यो सीपीयूमा पूर्ण रूपमा चल्छ, किनारा उपकरणहरू, घर स्वचालन र अफलाइन TTS आवश्यक अनुप्रयोगहरूको लागि आदर्श बनाउँछ। 100+ भाषाहरूमा 100+ आवाजहरूसँग, पाइपरले एक रास्पबेरी पाइ4मा पनि वास्तविक समय गतिमा प्राकृतिक-सुन्ने भाषण प्रदान गर्दछ।

विकासकर्ता::
Rhasspy

इजाजतपत्र::
MIT

गति:
Fast

गुणस्तर::

भाषाहरू:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

भिआरएम:
0 (CPU only)

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
स्वतन्त्र

CPU-friendly अफलाइन सक्षम १००+ आवाज 30+ भाषाहरू SSML समर्थन

यसका लागि उत्तम:: छिटो पूर्वावलोकन, पहुँचता, र सम्मिलित अनुप्रयोगहरू

प्रयास गर्नुहोस् Piper

VITS

Free

VITS (अन्त-सम्म-अन्त पाठ-देखि-भाषण लागि adversarial सिक्ने संग भिन्नता निष्कर्ष) एक समानान्तर अन्त-सम्म-अन्त TTS विधि छ कि वर्तमान दुई-चरण मोडेल भन्दा बढी प्राकृतिक ध्वनि अडियो उत्पन्न गर्दछ। यो सामान्यीकरण प्रवाह र एक adversarial प्रशिक्षण प्रक्रिया संग बढेको भिन्नता निष्कर्ष अपनाउँछ, प्राकृतिकता मा एक महत्वपूर्ण सुधार हासिल।

विकासकर्ता::
Jaehyeon Kim et al.

इजाजतपत्र::
MIT

गति:
Fast

गुणस्तर::

भाषाहरू:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

भिआरएम:
1GB

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
स्वतन्त्र

अन्त्य-देखि-अन्त संश्लेषण प्राकृतिक शब्दकोश छिटो निष्कर्ष बहुविध वक्ता

यसका लागि उत्तम:: प्राकृतिक शब्दसँग सामान्य- उद्देश्य पाठ-बाट-वाचन

प्रयास गर्नुहोस् VITS

MeloTTS

Free

MyShell.ai द्वारा MeloTTS अंग्रेजी समर्थन एक बहुभाषी TTS लाइब्रेरी छ (अमेरिकी, ब्रिटिश, भारतीय, अष्ट्रेलियन), स्पेनिश, फ्रान्सेली, चिनियाँ, जापानी, र कोरियाली. यो अत्यधिक छिटो छ, सीपीयू एक्लै मा नजिकै वास्तविक-समय गति मा पाठ प्रक्रिया. MeloTTS उत्पादन प्रयोगको लागि डिजाइन गरिएको छ र सीपीयू र जीपीयू दुवै अनुमान समर्थन गर्दछ.

विकासकर्ता::
MyShell.ai

इजाजतपत्र::
MIT

गति:
Fast

गुणस्तर::

भाषाहरू:
en, es, fr, zh, ja, ko

भिआरएम:
0.5GB (GPU optional)

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
स्वतन्त्र

CPU- अनुकूलित बहुभाषिक बहुविध उच्चारण उत्पादन-सज्जा न्यून लाटेन्सी

यसका लागि उत्तम:: उत्पादन अनुप्रयोगहरू छिटो, बहुभाषिक TTS आवश्यक

प्रयास गर्नुहोस् MeloTTS

Bark

Standard

सुनो द्वारा Bark एक ट्रान्सफर्मर आधारित पाठ-अडियो मोडेल उच्च यथार्थवादी उत्पन्न गर्न सक्छ, बहुभाषी भाषण साथै संगीत जस्तै अन्य अडियो, पृष्ठभूमि हल्ला, र ध्वनि प्रभाव छ। यो हाँस्दै जस्तै nonverbal सञ्चार उत्पादन गर्न सक्छ, सिँगान, र रोएको। Bark माथि समर्थन 100 वक्ता presets र 13+ भाषाहरू।

विकासकर्ता::
Suno

इजाजतपत्र::
MIT

गति:
Slow

गुणस्तर::

भाषाहरू:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

भिआरएम:
5GB

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
2x

ध्वनि प्रभाव हाँस्दै/सुसाउँदै सङ्गीत सिर्जना १००+ वक्ता बहुभाषिक

यसका लागि उत्तम:: रचनात्मक अडियो सामग्री, भावना, ध्वनि प्रभाव संग अडियो पुस्तकहरू

प्रयास गर्नुहोस् Bark

Bark Small

Standard

Bark सानो बार्क मोडेल को एक डिस्टिल गरिएको संस्करण छ कि व्यापार केही अडियो गुणस्तर लागि उल्लेखनीय रूपमा छिटो inferrence गति र कम स्मृति आवश्यकताहरु. यो बार्क को क्षमता भावना संग भाषण उत्पन्न गर्न राख्छ, हाँसो, र बहु भाषाहरु.

विकासकर्ता::
Suno

इजाजतपत्र::
MIT

गति:
Medium

गुणस्तर::

भाषाहरू:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

भिआरएम:
2GB

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
2x

हल्का पूर्ण बार्क भन्दा छिटो भावनात्मक भाषण बहुभाषिक

यसका लागि उत्तम:: पूर्ण बार्क धेरै ढिलो हुँदा छिटो रचनात्मक अडियो

प्रयास गर्नुहोस् Bark Small

CosyVoice 2

Standard

अलीबाबाको टोन्जी ल्याब द्वारा कोसीवोइस2अति कम लाटेन्सी संग मानव-समान भाषण गुणस्तर प्राप्त गर्दछ, यो वास्तविक-समय अनुप्रयोगहरूको लागि आदर्श बनाउँछ। यो स्ट्रिमिंग संश्लेषणको लागि एक सीमित स्केलर क्वान्टाइजेसन दृष्टिकोण प्रयोग गर्दछ र शून्य-शट आवाज क्लोनिंग, क्रस-भाषा संश्लेषण र राम्रो-ग्रेनेड भावना नियन्त्रण समर्थन गर्दछ। यो व्यक्तिपरक मूल्यांकनमा धेरै व्यावसायिक टीटीएस प्रणालीहरू बाहिर प्रदर्शन गर्दछ।

विकासकर्ता::
Alibaba (Tongyi Lab)

इजाजतपत्र::
Apache 2.0

गति:
Medium

गुणस्तर::

भाषाहरू:
en, zh, ja, ko, fr, de, it, es

भिआरएम:
4GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

स्ट्रिमिङ शून्य-शट क्लोनिङ क्रस-भाषा भावना नियन्त्रण मानव समानता

यसका लागि उत्तम:: वास्तविक समय अनुप्रयोग, स्ट्रिमिङ TTS, आवाज सहायक

प्रयास गर्नुहोस् CosyVoice 2

Dia TTS

Standard

नारी ल्याब्स द्वारा डाय एक 1.6B मापदण्ड पाठ-देखि-भाषण मोडेल विशेष रूपमा बहु-स्पीकर संवाद सिर्जना गर्न डिजाइन गरिएको छ। यो उपयुक्त टर्न-लिने, prosody, र भावनात्मक अभिव्यक्ति संग दुई वक्ताहरू बीच प्राकृतिक-सुन्दा कुराकानी उत्पादन गर्न सक्छ। डाय पोडकास्ट-शैली सामग्री सिर्जना गर्न लागि सही छ, अडियोबुक संवाद, र अन्तरक्रियात्मक संवादात्मक एआई।

विकासकर्ता::
Nari Labs

इजाजतपत्र::
Apache 2.0

गति:
Medium

गुणस्तर::

भाषाहरू:
en

भिआरएम:
4GB

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
2x

बहु- वक्ता संवाद सिर्जना प्राकृतिक घुमाइ भावनात्मक अभिव्यक्ति १.६ बी परिमितिहरू

यसका लागि उत्तम:: पोडकास्ट, अडियो पुस्तक संवाद, कुराकानी सामग्री

प्रयास गर्नुहोस् Dia TTS

Parler TTS

Standard

पार्लर TTS एउटा पाठ-बाट-भाषण मोडेल हो जसले उत्पन्न गरिएको भाषण नियन्त्रण गर्न प्राकृतिक भाषा आवाज वर्णन प्रयोग गर्दछ । पूर्वसेट गरिएको आवाजबाट चयन गर्नुको सट्टा, तपाईँले चाहेको आवाज वर्णन गर्नुहोस् (जस्तै, "सानो ब्रिटिश उच्चारण भएको एक न्यानो महिला आवाज, ढिलो र स्पष्ट रूपमा बोल्दै") र पार्लरले त्यो वर्णन मिल्ने भाषण उत्पन्न गर्दछ । यसले रचनात्मक अनुप्रयोगका लागि यसलाई अद्वितीय लचिलो बनाउँछ ।

विकासकर्ता::
Hugging Face

इजाजतपत्र::
Apache 2.0

गति:
Medium

गुणस्तर::

भाषाहरू:
en

भिआरएम:
4GB

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
2x

आवाज वर्णन प्राकृतिक भाषा नियन्त्रण लचिलो आवाज सिर्जना पूर्वनिर्धारित आवाजहरू आवश्यक छैन

यसका लागि उत्तम:: रचनात्मक अनुप्रयोग जहाँ तपाईँलाई अनुकूल आवाज विशेषताहरू आवश्यक पर्दछ

प्रयास गर्नुहोस् Parler TTS

GLM-TTS

Standard

Zhipu AI द्वारा GLM-TTS प्रवाह मिल्दो संग लामा वास्तुकला मा निर्मित एक पाठ-देखि-भाषण प्रणाली छ। यो खुला स्रोत TTS मोडेल बीच कम वर्ण त्रुटि दर प्राप्त, यसको अर्थ यो सबैभन्दा सटीक उच्चारण उत्पादन। GLM-TTS 3-10 सेकेन्ड अडियो नमूना देखि आवाज क्लोनिंग संग अंग्रेजी र चिनियाँ समर्थन गर्दछ।

विकासकर्ता::
Zhipu AI

इजाजतपत्र::
GLM-4 License

गति:
Medium

गुणस्तर::

भाषाहरू:
en, zh

भिआरएम:
4GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

न्यूनतम त्रुटि दर आवाज क्लोनिङ प्रवाह मिलाउनुहोस् प्राकृतिक शब्दकोश

यसका लागि उत्तम:: अधिकतम उच्चारण शुद्धता आवश्यक पर्ने अनुप्रयोगName

प्रयास गर्नुहोस् GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 एक उन्नत पाठ-देखि-भाषण प्रणाली छ कि राम्रो-ग्रेनेड भावना नियन्त्रण संग शून्य-शट आवाज संश्लेषण मा excels। यो भावना-विशिष्ट प्रशिक्षण डाटा आवश्यक बिना खुशी, दुःखी, रिसाएको, वा डरलाग्दो जस्तै विशिष्ट भावनात्मक टोन संग भाषण उत्पन्न गर्न सक्नुहुन्छ। मोडेल उत्पन्न भाषण को भावनात्मक अभिव्यक्ति सटीक नियन्त्रण गर्न भावना भेक्टर प्रयोग गर्दछ।

विकासकर्ता::
Index Team

इजाजतपत्र::
Bilibili Model License

गति:
Medium

गुणस्तर::

भाषाहरू:
en, zh

भिआरएम:
4GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

भावना नियन्त्रण शून्य-छाट भावना भेक्टरहरू अभिव्यक्तिमूलक भाषण फाइन-ग्रेनेड नियन्त्रण

यसका लागि उत्तम:: भावनात्मक अभिव्यक्ति सामग्री, अडियो पुस्तकहरू, अवास्तविक सहायकहरू

प्रयास गर्नुहोस् IndexTTS-2

Spark TTS

Standard

स्पार्क TTS स्पार्कअडियो द्वारा एक पाठ-देखि-भाषण मोडेल छ जुन नियन्त्रणयोग्य भावना र बोल्ने शैलीको साथ आवाज क्लोनिंग संयोजन गर्दछ। सन्दर्भ अडियोको केवल5सेकेन्ड प्रयोग गरेर, यसले आवाज क्लोन गर्न सक्छ र त्यसपछि क्लोन गरिएको आवाज पहिचान कायम राख्दै विभिन्न भावना, गति र शैलीहरूको साथ भाषण उत्पन्न गर्न सक्छ। स्पार्क TTS एक प्रोम्प्ट-आधारित नियन्त्रण प्रणाली प्रयोग गर्दछ।

विकासकर्ता::
SparkAudio

इजाजतपत्र::
CC BY-NC-SA 4.0

गति:
Medium

गुणस्तर::

भाषाहरू:
en, zh

भिआरएम:
4GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

आवाज क्लोनिङ भावना नियन्त्रण शैली नियन्त्रण प्रोम्ट-आधारित ५-सेकेन्ड क्लोनिङ

यसका लागि उत्तम:: क्लोन गरिएको आवाज र भावनात्मक नियन्त्रणसँग सामाग्री सिर्जना

प्रयास गर्नुहोस् Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS ले GPT-शैली भाषा मोडेलिङलाई SoVITS (अनुवाद र संश्लेषण मार्फत बोल्ने आवाजको अनुमान) सँग शक्तिशाली केही-शट आवाज क्लोनिङको लागि संयोजन गर्दछ। सन्दर्भ अडियोको5सेकेन्ड जति कमसँग, यसले सही तरिकाले आवाज क्लोन गर्न र वक्ताको अद्वितीय विशेषताहरू संरक्षण गर्दा नयाँ भाषण उत्पन्न गर्न सक्छ। यो दुवै बोल्ने र बोल्ने आवाज संश्लेषणमा उत्कृष्ट छ।

विकासकर्ता::
RVC-Boss

इजाजतपत्र::
MIT

गति:
Slow

गुणस्तर::

भाषाहरू:
en, zh, ja, ko

भिआरएम:
6GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

५-सेकेन्ड क्लोनिङ गीत गाउने आवाज केही-छाट सिक्ने उच्च विश्वासिलो क्रस-भाषा

यसका लागि उत्तम:: आवाज क्लोनिङ, गीत संश्लेषण, सामग्री निर्माता आवाज प्रतिकृति

प्रयास गर्नुहोस् GPT-SoVITS

Orpheus

Standard

Orpheus मानव-स्तर भावनात्मक अभिव्यक्ति प्राप्त गर्दछ कि एक ठूलो-स्केल पाठ-to-भाषण मोडेल छ। विभिन्न भाषण डाटा को 100,000 घण्टा भन्दा बढी प्रशिक्षित, यो प्राकृतिक भावनाहरु, जोड, र बोल्ने शैलीहरु संग भाषण उत्पन्न मा excels। Orpheus मानव रेकर्ड देखि लगभग indistinguishable छ कि भाषण उत्पादन गर्न सक्नुहुन्छ।

विकासकर्ता::
Canopy Labs

इजाजतपत्र::
Llama 3.2 Community

गति:
Medium

गुणस्तर::

भाषाहरू:
en

भिआरएम:
4GB

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
2x

मानव-स्तरको भावना 100K घण्टा प्रशिक्षण प्राकृतिक जोड अभिव्यक्तिमूलक भाषण

यसका लागि उत्तम:: उच्च-गुणवत्ता भावनात्मक भाषण, अडियो पुस्तकहरू, आवाज अभिनय

प्रयास गर्नुहोस् Orpheus

Chatterbox

Premium

Resemble AI द्वारा Chatterbox एक cutting-edge शून्य-शट आवाज क्लोनिंग मोडेल छ। यो उल्लेखनीय सटीकता संग एकल अडियो नमूना देखि कुनै पनि आवाज प्रतिलिपि गर्न सक्छ, मात्र timbre तर पनि बोल्ने शैली र भावनात्मक nuances कैद। Chatterbox पनि राम्रो-ग्रेनेड भावना नियन्त्रण सुविधाहरू, तपाईं आवाज पहिचान देखि स्वतन्त्र रूपमा उत्पन्न भाषण को भावनात्मक टोन समायोजन गर्न अनुमति दिन्छ।

विकासकर्ता::
Resemble AI

इजाजतपत्र::
MIT

गति:
Medium

गुणस्तर::

भाषाहरू:
en

भिआरएम:
4GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
4x

शून्य-छाट क्लोनिङ भावना नियन्त्रण उच्च विश्वासिलो शैली स्थानान्तरण एकल नमूना क्लोनिङ

यसका लागि उत्तम:: भावनात्मक नियन्त्रण, सामग्री सिर्जना संग व्यावसायिक आवाज क्लोनिंग

प्रयास गर्नुहोस् Chatterbox

Tortoise TTS

Premium

Tortoise TTS एक autoregressive बहु- आवाज पाठ- देखि- भाषण प्रणाली छ जसले गति भन्दा अडियो गुणस्तर प्राथमिकता दिन्छ । यसले उत्कृष्ट prosody र वक्ता समानता संग अत्यधिक प्राकृतिक भाषण उत्पन्न गर्न DALL- E- प्रेरित वास्तुकला प्रयोग गर्दछ । धेरै विकल्प भन्दा ढिलो हुँदा, Tortoise खुला स्रोत इकोसिस्टममा उपलब्ध सबैभन्दा यथार्थवादी सिंथेटिक भाषण को केही उत्पादन गर्दछ ।

विकासकर्ता::
James Betker

इजाजतपत्र::
Apache 2.0

गति:
Slow

गुणस्तर::

भाषाहरू:
en

भिआरएम:
8GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
4x

उच्च गुणस्तर बहु- आवाज DALL-E वास्तुकला आवाज क्लोनिङ स्वत: पुनरावृत्तिक

यसका लागि उत्तम:: अडियो पुस्तकहरू, प्रिमियम सामग्री, गुणस्तर-पहिलो अनुप्रयोगहरू

प्रयास गर्नुहोस् Tortoise TTS

StyleTTS 2

Premium

StyleTTS2ले ठूलो भाषण भाषा मोडेल प्रयोग गरेर प्रतिस्पर्धात्मक प्रशिक्षणसँग शैली फैलावट संयोजन गरेर मानव-स्तर TTS संश्लेषण प्राप्त गर्दछ। यो एकल वक्ता मोडेलहरू बीच सबैभन्दा प्राकृतिक ध्वनि भाषण उत्पन्न गर्दछ, मानव रेकर्डहरू प्रतिस्पर्धा गर्दै। StyleTTS2ले मानव भाषण भिन्नताको पूर्ण दायरा रेकर्ड गर्न फैलाव-आधारित शैली मोडेलिङ प्रयोग गर्दछ।

विकासकर्ता::
Columbia University

इजाजतपत्र::
MIT

गति:
Medium

गुणस्तर::

भाषाहरू:
en

भिआरएम:
4GB

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
4x

मानव-स्तर शैली फैलावट प्रतिस्पर्धात्मक प्रशिक्षण प्राकृतिक भिन्नता उच्च विश्वासिलो

यसका लागि उत्तम:: स्टुडियो-गुणस्तर एकल वक्ता संश्लेषण, व्यावसायिक कथा

प्रयास गर्नुहोस् StyleTTS 2

OpenVoice

Premium

MyShell.ai द्वारा OpenVoice आवाज शैली, भावना, अभिव्यक्ति, लय, विराम र intonation मा ग्रेनलर नियन्त्रण संग तत्काल आवाज क्लोनिंग सक्षम. यो एक छोटो अडियो क्लिप देखि एक आवाज क्लोन गर्न सक्छ र वक्ता पहिचान कायम गर्दा बहु भाषामा भाषण उत्पन्न. OpenVoice पनि एक आवाज परिवर्तक रूपमा कार्य, वास्तविक-समय आवाज रूपान्तरण अनुमति.

विकासकर्ता::
MyShell.ai / MIT

इजाजतपत्र::
MIT

गति:
Medium

गुणस्तर::

भाषाहरू:
en, zh, ja, ko, fr, de, es, it

भिआरएम:
4GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
4x

तत्काल क्लोनिङ आवाज रूपान्तरण भावना नियन्त्रण उच्चारण नियन्त्रण बहुभाषिक

यसका लागि उत्तम:: राम्रो- ग्रेनेड शैली नियन्त्रण, आवाज रूपान्तरणसँग आवाज क्लोनिङ

प्रयास गर्नुहोस् OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS Alibaba को Qwen टोली देखि एक 1.7 अरब मापदण्ड पाठ-देखि-भाषण मोडेल छ। यो तीन मोड समर्थन गर्दछ: भावना नियन्त्रण संग पूर्व-सेट आवाज (9 वक्ताहरू), आवाज मात्र3सेकेन्ड अडियो देखि क्लोनिंग, र एक अद्वितीय आवाज डिजाइन मोड जहाँ तपाईं प्राकृतिक भाषामा चाहनुहुन्छ आवाज वर्णन। यो उच्च अभिव्यक्ति र प्राकृतिक prosody संग 10 भाषाहरू कवर गर्दछ।

विकासकर्ता::
Alibaba (Qwen)

इजाजतपत्र::
Apache 2.0

गति:
Medium

गुणस्तर::

भाषाहरू:
en, zh, ja, ko, de, fr, ru, pt, es, it

भिआरएम:
7GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

आवाज क्लोनिङ ९ पूर्वसेट आवाज पाठबाट आवाज डिजाइन भावना नियन्त्रण भाषाहरू

यसका लागि उत्तम:: आवाज क्लोनिङ वा अनुकूल आवाज डिजाइनसँग बहुभाषिक सामग्री

प्रयास गर्नुहोस् Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) एक 1 अरब मापदण्ड मोडेल विशेष रूपमा संवादात्मक भाषण सिर्जना लागि डिजाइन गरिएको छ। यो मोड-लिई समय, backchannel प्रतिक्रिया, भावनात्मक प्रतिक्रिया, र संवादात्मक प्रवाह सहित मानव संवाद को प्राकृतिक ढाँचाको मोडेल। CSM सिंथेटिक भाषण भन्दा प्राकृतिक मानव संवाद जस्तै आवाज कि अडियो उत्पन्न गर्दछ।

विकासकर्ता::
Sesame

इजाजतपत्र::
Apache 2.0

गति:
Slow

गुणस्तर::

भाषाहरू:
en

भिआरएम:
8GB

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
4x

संवादात्मक प्राकृतिक समय पालो लिने ब्याकचानल १B परिमितिहरू

यसका लागि उत्तम:: एआई सहायक, च्याटबोट, संवादात्मक एआई अनुप्रयोगहरू

प्रयास गर्नुहोस् Sesame CSM

Chatterbox Turbo

Standard

Resemble AI द्वारा Chatterbox टर्बो Chatterbox मा एक 350M मापदण्ड अपग्रेड हो, उप-200ms latency संग 6x वास्तविक समय गति सम्म वितरण. यो [हस्ने], [खाँकी], र [चिच्याउने] जस्तै paralinguistic ट्याग समर्थन गर्दछ पाठमा सीधा. provenance ट्र्याकिङको लागि सबै उत्पन्न अडियोमा पर्थ वाटरमार्किंग समावेश गर्दछ।

विकासकर्ता::
Resemble AI

इजाजतपत्र::
MIT

गति:
Fast

गुणस्तर::

भाषाहरू:
en

भिआरएम:
2GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

Sub-२००ms लाटेन्सी ट्याग ६x वास्तविक समय आवाज क्लोनिङ वाटरमार्किङ

यसका लागि उत्तम:: वास्तविक-समय आवाज एजेन्ट, प्राकृतिक ध्वनि संग अभिव्यक्तिशील भाषण

प्रयास गर्नुहोस् Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 OpenBMB द्वारा एक उपन्यास tokenizer-मुक्त TTS मोडेल छ जो निरपेक्ष टोकन भन्दा निरन्तर ठाउँमा सञ्चालन गर्दछ। यो उच्च-विश्वासी 44.1kHz अडियो उत्पादन, 3-10 सेकेन्ड देखि शून्य-छाट आवाज क्लोनिंग समर्थन, र अनुच्छेदहरू मार्फत स्थिरता कायम राख्छ। क्रस-भाषा क्लोनिंग तपाईंलाई चिनियाँ भाषणमा अंग्रेजी आवाज लागू गर्न र vice versa दिन्छ।

विकासकर्ता::
OpenBMB

इजाजतपत्र::
Apache 2.0

गति:
Fast

गुणस्तर::

भाषाहरू:
en, zh

भिआरएम:
4GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

४४.१ kHz अडियो टोकेनिजर-मुक्त क्रस-भाषा क्लोनिङ प्रसङ्ग-सचेत LoRA फाइन-ट्युनिङ

यसका लागि उत्तम:: उच्च-विश्वास अडियो, अडियो पुस्तकहरू, आवाज स्थिरतासँग लामो-रूप सामग्रीहरू

प्रयास गर्नुहोस् VoxCPM

Kani TTS 2

Free

Kani-TTS-2 NineNineSix द्वारा एक अल्ट्रा-लाइटवेट 400M पैरामीटर मोडेल हो जुन Nvidia NanoCodec संग LiquidAI LFM2 ब्याकबोन मा बनाइएको छ। यो केवल 3GB VRAM मा चल्छ र ~2सेकेन्डमा भाषणको 10 सेकेन्ड (RTF 0.2) मा प्राप्त गर्दछ। स्पीकर एम्बेडिंगहरू मार्फत शून्य-शट आवाज क्लोनिंग समर्थन गर्दछ।

विकासकर्ता::
NineNineSix

इजाजतपत्र::
Apache 2.0

गति:
Fast

गुणस्तर::

भाषाहरू:
en, pt, es

भिआरएम:
3GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
स्वतन्त्र

३GB VRAM अति- छिटो आवाज क्लोनिङ हल्का नानोकोडेक

यसका लागि उत्तम:: छिटो सिर्जना, कम- संसाधन परिवेश, छिटो पूर्वावलोकन

प्रयास गर्नुहोस् Kani TTS 2

OuteTTS

Free

OuteTTS मूल वास्तुकला संरक्षण गर्दा पाठ-देखि-भाषण क्षमताहरू संग ठूलो भाषा मोडेल विस्तार गर्दछ। यो llama.cpp (CPU / GPU), Hugging अनुहार Transformers, ExLlamaV2, VLLM, र पनि Transformers.js मार्फत ब्राउजर inference सहित बहु backends समर्थन गर्दछ। विशेषताहरू शून्य-शट स्पीकर प्रोफाइलहरू मार्फत आवाज क्लोनिंग JSON रूपमा बचत।

विकासकर्ता::
OuteAI

इजाजतपत्र::
Apache 2.0

गति:
Fast

गुणस्तर::

भाषाहरू:
en

भिआरएम:
2GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
स्वतन्त्र

CPU निष्कर्ष ब्राउजर निष्कर्ष आवाज क्लोनिङ बहुविध ब्याकइन्ड वक्ता प्रोफाइल

यसका लागि उत्तम:: किनारा वितरण, ब्राउजर आधारित TTS, कम-संसाधन वातावरण

प्रयास गर्नुहोस् OuteTTS

VibeVoice

Standard

माइक्रोसफ्ट द्वारा VibeVoice दुई प्रकार्यमा आउँछ: लामो-रूप सामग्री लागि एक 1.5B मोडेल (90 मिनेट सम्म,4स्पीकर) र ~ 200ms पहिलो अडियो latency संग स्ट्रिमिंग लागि एक वास्तविक समय 0.5B मोडेल. 1.5B प्रकार्य लामो passages माथि स्पीकर स्थिरता संग पोडकास्ट र अडियो पुस्तकहरू मा उत्कृष्ट. नोट: माइक्रोसफ्टले भण्डारबाट TTS कोड हटायो र उत्पन्न अडियोमा सुनिन्छ AI disclaimers समावेश.

विकासकर्ता::
Microsoft

इजाजतपत्र::
MIT

गति:
Fast

गुणस्तर::

भाषाहरू:
en, zh

भिआरएम:
4GB

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
2x

बहु- वक्ता ९० मिनेट सम्म पोडकास्ट सिर्जना वक्ता एकरूपता २००ms स्ट्रिमिङ

यसका लागि उत्तम:: पोडकास्ट, अडियो पुस्तक, लामो-रूप बहु-स्पीकर सामग्री

प्रयास गर्नुहोस् VibeVoice

Pocket TTS

Free

Kyutai द्वारा पोके TTS (Moshi को निर्माता) एक कम्प्याक्ट 100M मापदण्ड पाठ-देखि-भाषण मोडेल छ कि यसको वजन माथि राम्रो Punches. यो सीपीयू मा कुशलतापूर्वक चल्छ, एकल अडियो नमूना देखि शून्य-शट आवाज क्लोनिंग समर्थन, र प्राकृतिक-सुन्ने भाषण उत्पादन. सानो मोडेल साइज यो किनारा तैनात र कम-संसाधन वातावरण लागि आदर्श बनाउँछ।

विकासकर्ता::
Kyutai

इजाजतपत्र::
MIT

गति:
Fast

गुणस्तर::

भाषाहरू:
en, fr

भिआरएम:
1GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
स्वतन्त्र

१००M परिमिति CPU निष्कर्ष आवाज क्लोनिङ एकल नमूना क्लोनिङ किनारा-सज्जित

यसका लागि उत्तम:: हल्का वितरण, सीपीयू- मात्र वातावरण, छिटो आवाज क्लोनिङ

प्रयास गर्नुहोस् Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

विकासकर्ता::
KittenML

इजाजतपत्र::
Apache 2.0

गति:
Fast

गुणस्तर::

भाषाहरू:
en

भिआरएम:
0GB

आवाज क्लोनिङ:
होइन

प्रति १K क्यारेक्टर लागत:
स्वतन्त्र

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

यसका लागि उत्तम:: Fast lightweight TTS, edge deployment, low-latency applications

प्रयास गर्नुहोस् Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

विकासकर्ता::
Alibaba (FunAudioLLM)

इजाजतपत्र::
Apache 2.0

गति:
Fast

गुणस्तर::

भाषाहरू:
en, zh, ja, ko, de, es, fr, it, ru

भिआरएम:
4GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

यसका लागि उत्तम:: Multilingual production TTS, real-time applications, voice cloning

प्रयास गर्नुहोस् CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

विकासकर्ता::
NAMAA Space

इजाजतपत्र::
MIT

गति:
Medium

गुणस्तर::

भाषाहरू:
ar

भिआरएम:
6GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

Saudi Arabic dialect Modern Standard Arabic Zero-shot voice cloning Emotion control Native pronunciation

यसका लागि उत्तम:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

प्रयास गर्नुहोस् NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

विकासकर्ता::
FINAL-Bench

इजाजतपत्र::
Apache 2.0

गति:
Medium

गुणस्तर::

भाषाहरू:
en, ko, ja, zh, de, fr, ru, pt, es, it

भिआरएम:
7GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

Voice cloning Cross-lingual FFN-blended 10 languages Qwen3 backbone

यसका लागि उत्तम:: Cross-lingual voice cloning, multilingual narration with a single reference voice

प्रयास गर्नुहोस् Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 from OpenMOSS is a 7B dialogue text-to-speech model that continues conversations from a short audio prompt. Supports up to 5 simultaneous speakers via [S1]/[S2] tags, zero-shot voice cloning from 3-10s reference audio, and up to 60 minutes of coherent multi-turn dialogue across 20 languages. Distinct from MOSS-TTS — TTSD is specialized for podcast/audiobook/dubbing workflows.

विकासकर्ता::
OpenMOSS

इजाजतपत्र::
Apache 2.0

गति:
Medium

गुणस्तर::

भाषाहरू:
en, zh, de, es, fr, ja, it, ko, ru, ar, pl, pt, cs, da, sv, el, tr, hu, fa, he

भिआरएम:
12GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
2x

Multi-speaker dialogue Up to 5 speakers 60min coherent audio Voice cloning 20 languages Podcast-optimised

यसका लागि उत्तम:: Podcasts, audiobooks, dubbed dialogue, conversational content with multiple voices

प्रयास गर्नुहोस् MOSS-TTSD

Ming-Omni TTS

Free

Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.

विकासकर्ता::
inclusionAI

इजाजतपत्र::
Apache 2.0

गति:
Medium

गुणस्तर::

भाषाहरू:
en, zh

भिआरएम:
3GB

आवाज क्लोनिङ:
हो

प्रति १K क्यारेक्टर लागत:
स्वतन्त्र

44.1kHz output Voice cloning Emotion control Dialect control BGM generation Compact 0.5B

यसका लागि उत्तम:: High-fidelity bilingual narration, emotion-controlled voice acting, Chinese audiobook content

प्रयास गर्नुहोस् Ming-Omni TTS

Kokoro

स्वतन्त्र

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

विकासकर्ता::
Hexgrad

इजाजतपत्र::
Apache 2.0

गति:
Fast

गुणस्तर::

भाषाहरू: en, ja, zh, fr, it, pt, es

यसका लागि उत्तम:: High-quality TTS with minimal latency, streaming applications

निःशुल्क प्रयास गर्नुहोस्

Piper

स्वतन्त्र

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

विकासकर्ता::
Rhasspy

इजाजतपत्र::
MIT

गति:
Fast

गुणस्तर::

भाषाहरू: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

यसका लागि उत्तम:: Quick previews, accessibility, and embedded applications

निःशुल्क प्रयास गर्नुहोस्

VITS

स्वतन्त्र

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

विकासकर्ता::
Jaehyeon Kim et al.

इजाजतपत्र::
MIT

गति:
Fast

गुणस्तर::

भाषाहरू: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

यसका लागि उत्तम:: General-purpose text-to-speech with natural prosody

निःशुल्क प्रयास गर्नुहोस्

MeloTTS

स्वतन्त्र

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

विकासकर्ता::
MyShell.ai

इजाजतपत्र::
MIT

गति:
Fast

गुणस्तर::

भाषाहरू: en, es, fr, zh, ja, ko

यसका लागि उत्तम:: Production applications needing fast, multilingual TTS

निःशुल्क प्रयास गर्नुहोस्

Kani TTS 2

स्वतन्त्र

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on LiquidAI LFM2 backbone with Nvidia NanoCodec. It runs in just 3GB VRAM and achieves 10 seconds of speech in ~2 seconds (RTF 0.2). Supports zero-shot voice cloning via speaker embeddings.

विकासकर्ता::
NineNineSix

इजाजतपत्र::
Apache 2.0

गति:
Fast

गुणस्तर::

भाषाहरू: en, pt, es

यसका लागि उत्तम:: Fast generation, low-resource environments, quick previews

निःशुल्क प्रयास गर्नुहोस्

OuteTTS

स्वतन्त्र

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

विकासकर्ता::
OuteAI

इजाजतपत्र::
Apache 2.0

गति:
Fast

गुणस्तर::

भाषाहरू: en

यसका लागि उत्तम:: Edge deployment, browser-based TTS, low-resource environments

निःशुल्क प्रयास गर्नुहोस्

Pocket TTS

स्वतन्त्र

विकासकर्ता::
Kyutai

इजाजतपत्र::
MIT

गति:
Fast

गुणस्तर::

भाषाहरू: en, fr

यसका लागि उत्तम:: Lightweight deployment, CPU-only environments, quick voice cloning

निःशुल्क प्रयास गर्नुहोस्

Kitten TTS

स्वतन्त्र

विकासकर्ता::
KittenML

इजाजतपत्र::
Apache 2.0

गति:
Fast

गुणस्तर::

भाषाहरू: en

पूर्वनिर्धारित

विकासकर्ता::
Alibaba (FunAudioLLM)

इजाजतपत्र::
Apache 2.0

गति:
Fast

गुणस्तर::

भाषाहरू:
en, zh, ja, ko, de, es, fr, it, ru

आवाज क्लोनिङ:
हो

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

यसका लागि उत्तम:: Multilingual production TTS, real-time applications, voice cloning

प्रयास गर्नुहोस् CosyVoice3

NAMAA Saudi TTS

पूर्वनिर्धारित

विकासकर्ता::
NAMAA Space

इजाजतपत्र::
MIT

गति:
Medium

गुणस्तर::

भाषाहरू:
ar

आवाज क्लोनिङ:
हो

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

यसका लागि उत्तम:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

प्रयास गर्नुहोस् NAMAA Saudi TTS

Darwin TTS

पूर्वनिर्धारित

विकासकर्ता::
FINAL-Bench

इजाजतपत्र::
Apache 2.0

गति:
Medium

गुणस्तर::

भाषाहरू:
en, ko, ja, zh, de, fr, ru, pt, es, it

आवाज क्लोनिङ:
हो

Voice cloningCross-lingualFFN-blended10 languagesQwen3 backbone

नमूना	विकासकर्ता:	टर	गति	भाषाहरू	भिआरएम	इजाजतपत्र:	क्रेडिटहरू
Kokoro	Hexgrad	Free	Fast	7	1.5GB	Apache 2.0	स्वतन्त्र	प्रयोग
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	स्वतन्त्र	प्रयोग
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	स्वतन्त्र	प्रयोग
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	स्वतन्त्र	प्रयोग
Bark	Suno	Standard	Slow	13	5GB	MIT	2	प्रयोग
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	प्रयोग
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	प्रयोग
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	प्रयोग
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	प्रयोग
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	प्रयोग
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	प्रयोग
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	प्रयोग
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	प्रयोग
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	प्रयोग
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	प्रयोग
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	प्रयोग
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	प्रयोग
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	प्रयोग
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	प्रयोग
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	प्रयोग
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	प्रयोग
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	प्रयोग
Kani TTS 2	NineNineSix	Free	Fast	3	3GB	Apache 2.0	स्वतन्त्र	प्रयोग
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	स्वतन्त्र	प्रयोग
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	प्रयोग
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	स्वतन्त्र	प्रयोग
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	स्वतन्त्र	प्रयोग
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	प्रयोग
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	प्रयोग
Darwin TTS	FINAL-Bench	Standard	Medium	10	7GB	Apache 2.0	2	प्रयोग
MOSS-TTSD	OpenMOSS	Standard	Medium	20	12GB	Apache 2.0	2	प्रयोग
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	स्वतन्त्र	प्रयोग

सबैभन्दा व्यापक AI पाठ भाषण प्लेटफर्म

किन पाठ भाषण लागि TTS.ai चयन?

TTS.ai एक एकल, प्रयोग गर्न सजिलो प्लेटफर्ममा विश्वको सर्वश्रेष्ठ खुला स्रोत पाठ-देखि-भाषण मोडेलहरू एकैसाथ ल्याउँछ। एकल आवाज इन्जिनमा तपाईंलाई ताल्चा लगाउने स्वामित्व सेवाहरूको विपरीत, TTS.ai ले तपाईंलाई Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University, र अधिक सहित अग्रणी अनुसन्धान प्रयोगशालाहरूबाट 20+ मोडेलहरूमा पहुँच दिन्छ।

प्रत्येक मोडेल एमआईटी, अपाचे 2.0, वा यस्तै permissive लाइसेन्स अन्तर्गत खुला स्रोत छ, सुनिश्चित तपाईं आफ्नो परियोजनाहरूमा उत्पन्न अडियो प्रयोग गर्न पूर्ण व्यावसायिक अधिकार छ। चाहे तपाईं द्रुत आवश्यक, वास्तविक समय अनुप्रयोगहरू वा अडियोबुक र पोडकास्ट लागि प्रिमियम स्टुडियो-गुणस्तर निर्गत लागि हल्का संश्लेषण, TTS.ai हरेक प्रयोगको मामला लागि सही मोडेल छ।

नि: शुल्क मोडेल, कुनै खाता आवश्यक

तीन नि: शुल्क TTS मोडेल संग तुरुन्तै सुरु गर्नुहोस्: पाइपर (अति-द्रुत, हल्का), VITS (उच्च-गुणवत्ता तंत्रिका संश्लेषण), र MeloTTS (बहु-भाषा समर्थन). कुनै साइन-अप, कुनै क्रेडिट कार्ड, पुस्ता मा कुनै सीमा. नि: शुल्क मोडेल अंग्रेजी समर्थन र प्राकृतिक-सउन्ड आउटपुट संग धेरै अन्य भाषाहरू धेरै अनुप्रयोगहरूको लागि उपयुक्त.

GPU- त्वरित प्रक्रिया

सबै TTS मोडेलहरू छिटो, स्थिर उत्पादन समयका लागि समर्पित NVIDIA GPUs मा चल्छन्। नि: शुल्क मोडेलहरूले सामान्यतया2सेकेन्डमा अडियो उत्पन्न गर्दछ। कोकोरो, कोसीवोइस2जस्ता मानक मोडेलहरू, र बार्क औसत 3-5 सेकेन्ड। उच्चतम गुणस्तरको साथ प्रिमियम मोडेलहरू, जस्तै टर्टोइज र च्याटरबक्स, पाठ लम्बाइमा निर्भर 5-15 सेकेन्डमा प्रक्रिया गर्दछ।

30+ भाषाहरू समर्थित

30 भाषाहरूमा भाषण उत्पन्न गर्नुहोस्, जस्तै अंग्रेजी, स्पेनिश, फ्रान्सेली, जर्मन, इटालियन, पोर्चुगिज, चिनियाँ, जापानी, कोरियाली, अरबी, हिन्दी, रूसी, र धेरै। धेरै मोडेलहरूले क्रस-भाषा संश्लेषण समर्थन गर्दछन्, यसको अर्थ तपाईंले मूल आवाज कहिल्यै प्रशिक्षित गरिएको थिएन भन्ने भाषामा भाषण उत्पन्न गर्न सक्नुहुन्छ। CosyVoice2र GPT-SoVITS क्रस-भाषा आवाज क्लोनिंगमा उत्कृष्ट छन्।

विकासकर्ता- तयार एपीआई

हाम्रो OpenAI-संगत REST API संग TTS.ai लाई तपाईंको अनुप्रयोगहरूमा एकीकृत गर्नुहोस्। सबै 20+ मोडेलहरूको लागि एक अन्त बिन्दु। पाइथन, जाभास्क्रिप्ट, cURL, र जानुहोस् एसडीके। वास्तविक समय अनुप्रयोगहरूको लागि स्ट्रिमिंग समर्थन। ठूलो मात्रामा सामग्री उत्पादनको लागि ब्याच प्रोसेसिंग। असीमित सूचनाहरूको लागि वेबहुक। प्रो र उद्यम योजनाहरूमा उपलब्ध।

प्राय सोधिने प्रश्नहरू

को कोकोरो जस्तै आधुनिक तंत्रिका TTS मोडेल, Chatterbox, र CosyVoice2प्रकृति prosody संग, भावना, र लय संग उल्लेखनीय मानव आवाज कि भाषण उत्पादन गर्न गहिरो सिक्ने प्रयोग।

यो तपाईँको आवश्यकतामा निर्भर गर्दछ । छिटो पूर्वावलोकनका लागि, पाइपर वा मेलोटीटीएस (निःशुल्क, छिटो) प्रयोग गर्नुहोस् । उच्च गुणस्तरका लागि, कोकोरो वा कोसीभाइज २ (मानक तह) प्रयोग गर्नुहोस् । आवाज क्लोनिङका लागि, च्याटरबक्स वा जीपीटी-सोभिट्स (प्रिमियम) प्रयोग गर्नुहोस् । संवाद/पोडकास्ट सामग्रीका लागि, डाय टीटीएस प्रयोग गर्नुहोस् । प्रत्येक नमूनामा फरक शक्तिहरू छन् — उत्तम फिट फेला पार्न प्रयोग गर्नुहोस् ।

हो! TTS.ai कोकोरो, पाइपर, VITS, र MeloTTS मोडेल संग निःशुल्क पाठ-देखि-भाषण प्रस्ताव गर्दछ। 500 अक्षरहरू र3प्रति घण्टा पुस्ताहरूको लागि आवश्यक खाता छैन। 15 क्रेडिटहरू प्राप्त गर्न र सबै मोडेलहरू पहुँच गर्न निःशुल्क खाताको लागि साइन अप गर्नुहोस्।

हाम्रो TTS मोडेल सामूहिक समर्थन 30+ अंग्रेजी सहित भाषाहरू, स्पेनिश, फ्रान्सेली, जर्मन, इटालियन, पोर्चुगिज, चिनियाँ, जापानी, कोरियाली, अरबी, रूसी, हिन्दी, र धेरै. भाषा उपलब्धता मोडेल द्वारा भिन्न हुन्छ।

हो, TTS.ai मार्फत उत्पन्न अडियो व्यावसायिक रूपमा प्रयोग गर्न सकिन्छ। हाम्रो सबै नमूनाहरू खुला स्रोत लाइसेन्सहरू प्रयोग गर्दछन् (MIT, Apache 2.0)। विशिष्ट शर्तहरूका लागि व्यक्तिगत नमूना लाइसेन्सहरू जाँच गर्नुहोस्। हामी तपाईँको परियोजनाका लागि प्रयोग गर्ने विशिष्ट नमूनाको लाइसेन्स समीक्षा गर्न सिफारिस गर्दछौं।

TTS.ai MP3, WAV, OGG, र FLAC निर्गत ढाँचा समर्थन गर्दछ। MP3 वेब प्लेब्याक लागि पूर्वनिर्धारित छ। WAV थप अडियो प्रक्रिया लागि सिफारिस गरिएको छ। तपाईं हाम्रो अडियो रूपान्तरण उपकरण प्रयोग गरेर ढाँचा बीचमा रूपान्तरण गर्न सक्नुहुन्छ।

आवाज क्लोनिङले छोटो अडियो नमूना (सामान्यतया 5-30 सेकेन्ड) बाट विशिष्ट आवाज प्रतिलिपि गर्न एआई प्रयोग गर्दछ। लक्षित आवाजको स्पष्ट रेकर्ड अपलोड गर्नुहोस्, र च्याटरबक्स, GPT-SoVITS, वा ओपनभाइज जस्ता मोडेलले त्यो आवाजमा नयाँ भाषण उत्पन्न गर्नेछ। गुणस्तर सफा, लामो सन्दर्भ अडियोसँग सुधार हुन्छ।

निःशुल्क प्रयोगकर्ताहरू प्रति अनुरोध 500 अक्षरहरू उत्पन्न गर्न सक्छन्। दर्ता भएका प्रयोगकर्ताहरूले प्रति अनुरोध 5,000 अक्षरहरू प्राप्त गर्न सक्छन्। लामो पाठहरूको लागि, अडियो टुक्राहरूमा उत्पन्न हुन्छ र स्वचालित रूपमा सँगै stitched हुन्छ। एपीआई प्रयोगकर्ताहरूले प्रति अनुरोध 10,000 अक्षरहरूसम्म प्रक्रिया गर्न सक्छन्।

SSML (भाषण संश्लेषण मार्कअप भाषा) समर्थन नमूना अनुसार फरक हुन्छ । पाइपर र केही अन्य नमूनाहरूले विराम, जोड, र उच्चारण नियन्त्रणका लागि आधारभूत SSML ट्यागहरू समर्थन गर्दछन् । मौलिक SSML समर्थन बिनाका नमूनाहरूका लागि, तपाईँले प्राकृतिक विराम चिन्ह र लाइन ब्रेक प्रयोग गरेर प्रोसोडी प्रभाव पार्न सक्नुहुन्छ ।

हो, धेरै मोडेल 0.5x देखि 2.0x मा गति समायोजन समर्थन। केही मोडेल जस्तै Bark र Parler पनि पिच र शैली नियन्त्रण अनुमति दिन्छ। तपाईं उन्नत सेटिङ प्यानल वा एपीआई गति मापदण्ड मार्फत गति मापदण्ड सेट गर्न सक्नुहुन्छ।

हो, ब्याच प्रक्रिया हाम्रो एपीआई मार्फत उपलब्ध छ. तपाईं एकल एपीआई कल वा स्क्रिप्ट मा धेरै पाठ खण्डहरू पेश गर्न सक्नुहुन्छ, र प्रत्येक प्रक्रिया र अलग अडियो फाइलहरू रूपमा फिर्ता हुनेछ. यो अडियोबुक अध्याय लागि आदर्श छ, ई-शिक्षा मोड्युल, वा खेल संवाद स्क्रिप्ट.

तपाईंको खाता डैशबोर्डबाट एपीआई कुञ्जी उत्पन्न गर्नुहोस्, त्यसपछि तपाईंको पाठ, मोडेल र आवाज मापदण्डहरूको साथ हाम्रो REST एपीआई अन्त बिन्दुमा पोस्ट अनुरोधहरू पठाउनुहोस्। हामी पाइथन, जाभास्क्रिप्ट र cURL मा कोड उदाहरणहरू प्रदान गर्दछौं। एपीआई ओपनएआई-संगत छ, त्यसैले अवस्थित एकीकरणहरू न्यूनतम परिवर्तनहरूसँग काम गर्दछ।

5.0/5 (3)

अहिले पाठलाई भाषणमा रूपान्तरण गर्न सुरु गर्नुहोस्

TTS.ai प्रयोग गरेर निर्माता हजारौं सामेल। एक नयाँ खाता संग 15,000 निःशुल्क क्यारेक्टरहरू प्राप्त गर्नुहोस्। नि: शुल्क मोडेल साइन अप बिना उपलब्ध।

निःशुल्क दर्ता गर्नुहोस् मूल्याङ्कन हेर्नुहोस्

AI पाठबाट बोल्नName

TTS.ai प्रेम? आफ्नो साथीहरूलाई भन्नुहोस्!

नमूना विवरण

Pocket TTS

राम्रो नतिजाका लागि सुझाव

क्रेडिट लागत

कसरी AI पाठ भाषण काम गर्दछ

तपाईँको पाठ प्रविष्ट गर्नुहोस्

नमूना र आवाज रोज्नुहोस्

सिर्जना र डाउनलोड गर्नुहोस्

पाठ वाचक प्रयोग गर्नुहोस्

अडियो पुस्तकहरू

भिडियो आवाज

पोडकास्ट

खेलकुद

ई-शिक्षा

पहुँचता

IVR र फोन प्रणाली

सामाजिक मिडिया

स्ट्रिमिङ

मार्केटिङ

डुबिङ र स्थानीयकरण

ध्यान र स्वास्थ्य

सबै पाठबाट वक्तव्यमा नमूना

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3