स्वतन्त्र एआई पाठ वाचकComment

८२ एम परिमिति अति- छिटो अभिव्यक्तिमूलक आवाज बहुभाषिक स्ट्रिमिङ समर्थन

२०६२/६३ को जनआन्दोलनमा सक्रिय सहभागिता जनाउदै हतियार उठाएर आन्दोलनमा होमिएका थिए ।

स्थिर · 1.5GB VRAM यसलाई प्रयास गर्नुहोस्

Piper

CPU-friendly अफलाइन सक्षम १००+ आवाज 35+ भाषाहरू SSML समर्थन

यसको यसको द्रुत गतिको कारणले गर्दा यसलाई द्रुत गतिको यन्त्रहरूमा प्रयोग गर्न सकिन्छ ।

स्थिर · 0 (CPU only) VRAM यसलाई प्रयास गर्नुहोस्

VITS

अन्त्य-देखि-अन्त संश्लेषण प्राकृतिक शब्दकोश छिटो निष्कर्ष बहुविध वक्ता

यसले सञ्चारमाध्यमहरूको प्रभावकारिता र प्रभावकारीतामा सुधार गर्न मद्दत गर्दछ।

स्थिर · 1GB VRAM यसलाई प्रयास गर्नुहोस्

MeloTTS

CPU- अनुकूलित बहुभाषिक बहुविध उच्चारण उत्पादन-सज्जा न्यून लाटेन्सी

उच्च गुणस्तर बहुभाषिक पाठ-देखि-भाषण जुन न्यूनतम लाटेन्सी संग सीपीयू मा चल्छ।

स्थिर · 0.5GB (GPU optional) VRAM यसलाई प्रयास गर्नुहोस्

Bark

ध्वनि प्रभाव हाँस्दै/सुसाउँदै सङ्गीत सिर्जना १००+ वक्ता बहुभाषिक

ट्रान्सफर-आधारित पाठ-अडियो मोडेल जसले यथार्थवादी भाषण, संगीत, र ध्वनि प्रभावहरू उत्पन्न गर्दछ।

ढिलो · 5GB VRAM यसलाई प्रयास गर्नुहोस्

Bark Small

हल्का पूर्ण बार्क भन्दा छिटो भावनात्मक भाषण बहुभाषिक

यसले वायुमण्डलमा कार्बन डाइअक्साइडको मात्रा कम गर्न तथा वायुमण्डलको गुणस्तर सुधार गर्न मद्दत गर्दछ।

मध्यम · 2GB VRAM यसलाई प्रयास गर्नुहोस्

CosyVoice 2

स्ट्रिमिङ शून्य-शट क्लोनिङ क्रस-भाषा भावना नियन्त्रण मानव समानता

यसको प्राकृतिक वासस्थान नेपालको तराई तथा हिमाली क्षेत्रमा पाइन्छ।

Dia TTS

बहु- वक्ता संवाद सिर्जना प्राकृतिक घुमाइ भावनात्मक अभिव्यक्ति १.६ बी परिमितिहरू

यसले विभिन्न प्रकारका प्राकृतिक प्रकोपहरूको सामना गर्न सक्ने क्षमता राख्दछ।

Parler TTS

आवाज वर्णन प्राकृतिक भाषा नियन्त्रण लचिलो आवाज सिर्जना पूर्वनिर्धारित आवाजहरू आवश्यक छैन

तपाईँले प्राकृतिक भाषामा चाहनुभएको आवाज वर्णन गर्नुहोस् र Parler ले मिल्दो भाषण उत्पन्न गर्दछ ।

Indic Parler TTS

११ भारतीय भाषाहरू आवाज वर्णन प्राकृतिक भाषा नियन्त्रण प्रामाणिक भारतीय उच्चारण

8+ प्राकृतिक भाषा आवाज नियन्त्रण संग भारतीय भाषाहरू लागि उच्च-गुणवत्ता भाषण।

ढिलो · 8GB VRAM यसलाई प्रयास गर्नुहोस्

KhanomTan TTS

थाई TTS बहुविध वक्ता तपाईँको TTS वास्तुकला व्यावसायिक-सुरक्षित इजाजतपत्र

यसमा प्रथम शब्दको अर्थ हुन्छ- एक शब्दको अर्थ हो- एक शब्दको अर्थ हो।

स्थिर · 2GB VRAM यसलाई प्रयास गर्नुहोस्

IndexTTS-2

भावना नियन्त्रण शून्य-छाट भावना भेक्टरहरू अभिव्यक्तिमूलक भाषण फाइन-ग्रेनेड नियन्त्रण

यसले वायुमण्डलमा अक्सिजनको मात्रालाई नियन्त्रण तथा उच्च तापक्रमलाई नियन्त्रण गर्दछ।

Spark TTS

आवाज क्लोनिङ भावना नियन्त्रण शैली नियन्त्रण प्रोम्ट-आधारित ५-सेकेन्ड क्लोनिङ

आवाज क्लोनिंग TTS संग नियन्त्रित भावना र प्रोम्ट्स मार्फत बोल्ने शैली.

GPT-SoVITS

५-सेकेन्ड क्लोनिङ गीत गाउने आवाज केही-छाट सिक्ने उच्च विश्वासिलो क्रस-भाषा

केही-छाप आवाज क्लोनिंग TTS अडियो को केवल5सेकेन्ड देखि कुनै पनि आवाज प्रतिलिपि गर्दछ।

ढिलो · 6GB VRAM यसलाई प्रयास गर्नुहोस्

Orpheus

मानव-स्तरको भावना 100K घण्टा प्रशिक्षण प्राकृतिक जोड अभिव्यक्तिमूलक भाषण

यसले १०० भन्दा बढी भाषाहरूमा अनुवाद गरेको छ।

Chatterbox

शून्य-छाट क्लोनिङ भावना नियन्त्रण उच्च विश्वासिलो शैली स्थानान्तरण एकल नमूना क्लोनिङ

यसले वायुमण्डलमा रहेको अक्सिजनको मात्रालाई नियन्त्रणमा राख्न मद्दत गर्दछ।

Tortoise TTS

उच्च गुणस्तर बहु- आवाज DALL-E वास्तुकला आवाज क्लोनिङ स्वत: पुनरावृत्तिक

यसले बहु-भाषी शब्दकोष र बहु-भाषी शब्दकोषको विकासमा महत्वपूर्ण भूमिका खेलेको छ ।

ढिलो · 8GB VRAM यसलाई प्रयास गर्नुहोस्

StyleTTS 2

मानव-स्तर शैली फैलावट प्रतिस्पर्धात्मक प्रशिक्षण प्राकृतिक भिन्नता उच्च विश्वासिलो

मानव-स्तरको पाठ-देखि-भाषण शैली प्रसार तथा प्रतिस्पर्धात्मक प्रशिक्षण मार्फत।

OpenVoice

तत्काल क्लोनिङ आवाज रूपान्तरण भावना नियन्त्रण उच्चारण नियन्त्रण बहुभाषिक

शैली, भावना, र उच्चारण भन्दा ग्रेनलर नियन्त्रण संग तत्काल आवाज क्लोनिंग।

Qwen3 TTS

९ पूर्वसेट आवाज पाठबाट आवाज डिजाइन भावना नियन्त्रण भाषाहरू

अलीबाबाको बहुभाषी TTS पूर्वनिर्धारित आवाज र पाठ देखि आवाज डिजाइन संग।

मध्यम · 7GB VRAM यसलाई प्रयास गर्नुहोस्

VieNeu-TTS-v2

७ पूर्वनिर्धारित आवाज (उत्तर + दक्षिण उच्चारण) En-Vi कोड स्विचिङ आवाज क्लोनिङ (३-५ सेकेन्ड सन्दर्भ) पोडकास्ट / बहु- वक्ता समर्थन CPU-मात्र — GPU आवश्यक छैन

भिएतनाम + अंग्रेजी कोड-स्विचिंग TTS7प्रिसेट आवाज र शून्य-छाप आवाज क्लोनिंग संग। CPU-मात्र, कुनै GPU आवश्यक।

स्थिर · CPU VRAM यसलाई प्रयास गर्नुहोस्

Sesame CSM

संवादात्मक प्राकृतिक समय पालो लिने ब्याकचानल १B परिमितिहरू

यसले प्राकृतिक तथा सामाजिक जीवनमा सकारात्मक प्रभाव पार्ने गर्दछ ।

ढिलो · 8GB VRAM यसलाई प्रयास गर्नुहोस्

Chatterbox Turbo

Sub-२००ms लाटेन्सी ट्याग ६x वास्तविक समय आवाज क्लोनिङ वाटरमार्किङ

यसको वजन लगभग 200 ग्राम हुन्छ र यसमा 100 भन्दा बढी खाद्य पदार्थहरू, जस्तै फल, तरकारी, र माछाहरू पाइन्छन्।

स्थिर · 2GB VRAM यसलाई प्रयास गर्नुहोस्

VoxCPM

४४.१ kHz अडियो टोकेनिजर-मुक्त क्रस-भाषा क्लोनिङ प्रसङ्ग-सचेत LoRA फाइन-ट्युनिङ

यसको क्षेत्रफल ४४.१ वर्गकिलोमिटर रहेको छ ।

स्थिर · 4GB VRAM यसलाई प्रयास गर्नुहोस्

Kani TTS 2

३GB VRAM अति- छिटो हल्का नानोकोडेक स्वतन्त्र

यो पत्रिकाको प्रकाशक नेपाल प्रज्ञा प्रतिष्ठान हो।

स्थिर · 3GB VRAM यसलाई प्रयास गर्नुहोस्

OuteTTS

CPU निष्कर्ष ब्राउजर निष्कर्ष बहुविध ब्याकइन्ड वक्ता प्रोफाइल

यो पत्रिकाको प्रकाशक नेपाल पत्रकार महासंघ, नेपाल हो।

ढिलो · 2GB VRAM यसलाई प्रयास गर्नुहोस्

VibeVoice

बहु- वक्ता ९० मिनेट सम्म पोडकास्ट सिर्जना वक्ता एकरूपता २००ms स्ट्रिमिङ

माइक्रोसफ्ट मोडेल लामो फारम बहु-स्पीकर सामग्री जस्तै पोडकास्टहरू र अडियो पुस्तकहरूको लागि।

स्थिर · 4GB VRAM यसलाई प्रयास गर्नुहोस्

Pocket TTS

१००M परिमिति CPU निष्कर्ष आवाज क्लोनिङ एकल नमूना क्लोनिङ किनारा-सज्जित

यो पत्रिकाको प्रकाशक कमलपोखरीको प्रेस हो।

स्थिर · 1GB VRAM यसलाई प्रयास गर्नुहोस्

Kitten TTS

CPU- मात्र निष्कर्षण ८० मेगाबाइट भन्दा कम नमूना साइज 8 निर्माण गरिएको आवाजहरू गति नियन्त्रण ONNX- आधारित २४kHz निर्गत

80MB अन्तर्गत अत्यन्तै हल्का TTS। GPU बिना CPU मा चल्छ।

स्थिर · 0GB VRAM यसलाई प्रयास गर्नुहोस्

CosyVoice3

बाइ-स्ट्रिमिङ भावना नियन्त्रण आवाज क्लोनिङ गति/भोल्युम नियन्त्रण आदेश पछि

यसमा बहुभाषिक TTS, भावना नियन्त्रण, र शून्य-शट आवाज क्लोनिंग समावेश छ।

स्थिर · 4GB VRAM यसलाई प्रयास गर्नुहोस्

NAMAA Saudi TTS

साउदी अरबी बोली आधुनिक मानक अरबी शून्य-छाट आवाज क्लोनिङ भावना नियन्त्रण स्थानीय उच्चारण

पहिलो खुला सऊदी अरब-अरबी TTS। Chatterbox-गुणस्तर आवाज क्लोनिंग संग मूल सऊदी बोली।

मध्यम · 6GB VRAM यसलाई प्रयास गर्नुहोस्

Darwin TTS

आवाज क्लोनिङ क्रस-भाषा FFN-बन्डल गरिएको ४ कोर भाषाहरू Qwen3 ब्याकबोन

यसमा ३.७ मेगाहर्जको माइक्रोफोन र ३.७ मेगाहर्जको माइक्रोफोनको साथमा एक माइक्रोफोनको साथमा एक माइक्रोफोनको साथमा एक माइक्रोफोनको साथमा एक माइक्रोफोनको साथमा एक माइक्रोफोन छ।

मध्यम · 7GB VRAM यसलाई प्रयास गर्नुहोस्

MOSS-TTSD

बहु- वक्ता संवाद ५ स्पीकर सम्म 60min सुसंगत अडियो आवाज क्लोनिङ पोडकास्ट अनुकूलन

यसमा एक पटकमा ५ देखि १० जनासम्म सहभागी हुन सक्ने गरी कार्यक्रमको आयोजना गरिएको छ ।

मध्यम · 12GB VRAM यसलाई प्रयास गर्नुहोस्

Ming-Omni TTS

४४. १ kHz निर्गत आवाज क्लोनिङ भावना नियन्त्रण बोली नियन्त्रण BGM सिर्जना सङ्कुचित ०. ५B

यसको क्षेत्रफल ५४.४१ वर्ग किलोमिटर छ भने जनसङ्ख्या ४४,४४१ रहेको छ ।

मध्यम · 3GB VRAM यसलाई प्रयास गर्नुहोस्

MOSS-TTS Nano