AI টেক্সট-টু-স্পীচName

মুক্ত উৎসৰ AI মডেল ব্যৱহাৰ কৰি টেক্সটক স্বাভাৱিক স্বৰযুক্ত কথোপকথনত ৰূপান্তৰ কৰক। ব্যৱহাৰৰ বাবে বিনামূলীয়া, কোনো একাওন্টৰ প্ৰয়োজন নাই।

বিনামূল্যে নিবন্ধন কৰক

আমি আপোনাৰ কণ্ঠ বিক্ৰী কৰক

0/500 আখৰ · Sign up for 5,000 per generation →

নিবন্ধন কৰক ৫,০০০ আখৰৰ বাবে সীমা

SSML অৱস্থা (ভাল নিয়ন্ত্ৰণৰ বাবে শব্দ সংশ্লেষণ মাৰ্কআপ ভাষাName)

সঠিক নিয়ন্ত্ৰণৰ বাবে SSML টেগসমূহত আপোনাৰ টেক্সট আৱৰণ কৰক:

<speak><prosody rate="slow">Slow speech</prosody></speak>

অনুভূতি / শৈলী টেগসমূহ

বিতৰণ প্ৰভাবিত কৰিবলৈ ইমোচন চিহ্ন যোগ কৰক (মডেল সমৰ্থন বেলেগ বেলেগ):

উচ্চাৰণ অভিধান

স্বনিৰ্বাচিত উচ্চাৰণ নিৰ্ধাৰণ কৰক (শব্দ = উচ্চাৰণ):

পিচ 0

-12 +12

Dia ডাইলগ বিন্যাস: বিভিন্ন স্পিকার চিহ্নিত কৰিবলৈ [S1] আৰু [S2] টেগ ব্যৱহাৰ কৰক। উদাহৰণ:

[S1] হ্যালো! [S2] হাই, আপুনি কেনে আছে?



                
                
                    
                    
                        AI মডেল
                        
                    

                    
                    
                        কণ্ঠস্বৰ
                        
                    
                
                

                
                
                    
                    
                        ভাষা
                        
                    

                    
                    
                        আউটপুট বিন্যাস
                        
                    

                    
                    
                        
                            গতি
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        Piper, VITS, MeloTTS ৰ সৈতে মুক্ত



        
        
            
                আপোনাৰ নিৰ্মিত অডিঅ' ইয়াত প্ৰদৰ্শিত হ'ব। এটা মডেল বাছক, টেক্সট লিখক, আৰু নিৰ্মাণ কৰক ক্লিক কৰক।
            
            
            
                
                
                    সৃষ্টি কৰিবলে ব্যৰ্থ
                    
                
            
        

            
                
                    
                        সফলতাৰে অডিঅ' নিৰ্মাণ কৰা হৈছে
                        
                    
                    
                        


    
        
            
            
                
                    
                
                
            
        
    


                        
                            
                                অডিঅ' ডাউনল'ড কৰক
                            
                            
                            
                            ২৪ ঘন্টাত লিঙ্কৰ মেয়াদ উত্তীৰ্ণ হ'ব
                            
                                
                                    
                                    
                                    
                                    
                                    
                                
                            
                        
                    
                
            
        

        

    
        
            
                
                    TTS.ai ভাল পায়? আপোনাৰ বন্ধুসকলক কওক!



    
    
        
        
            
                আৰ্হিৰ বিৱৰণ
            
            
                
                
                    
                    Qwen3 TTS
                
                Standard
                Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
                
                    
                        
                            বিকাশক:
                            Alibaba (Qwen)
                        
                        
                            অনুমতি:
                            Apache 2.0
                        
                        
                            গতি
                            
                                Medium
                            
                        
                        
                            গুণ:
                            
                                
                            
                        
                        
                            ভাষাসমূহ
                            10 ভাষাসমূহ
                        
                        
                            VRAM
                            7GB
                        
                        
                            ধ্বনি ক্লোনিং
                             সমৰ্থিত
                        
                    
                
                
                
                    বৈশিষ্ট্য:
                    
                        
                        Voice cloning
                        
                        9 preset voices
                        
                        Voice design from text
                        
                        Emotion control
                        
                        10 languages
                        
                    
                
                
                
                সৰ্বোত্তম:: 
                Multilingual content with voice cloning or custom voice design
                
                
            
        

        
        
            
                ভাল ফলাফলৰ বাবে টিপস
            
            
                
                    স্বাভাৱিক স্থগিত আৰু উচ্চাৰণৰ বাবে সঠিক বিৰাম-চিহ্ন ব্যৱহাৰ কৰক
                    সুস্পষ্ট উচ্চাৰণৰ বাবে সংখ্যা আৰু সংক্ষিপ্তকৰণ বানান কৰক
                    বাক্যাংশৰ মাজত সংক্ষিপ্ত বিৰাম সৃষ্টি কৰিবলৈ কমা যোগ কৰক
                    দীৰ্ঘ নাটকীয় বিৰামৰ বাবে ellipsis (...) ব্যৱহাৰ কৰক
                    প্ৰাকৃতিক ফলাফলৰ বাবে Kokoro অথবা CosyVoice ২ চেষ্টা কৰক
                    মাল্টি-স্পীকাৰ ডাইলগ আৰু পোডকাস্ট সামগ্ৰীৰ বাবে Dia ব্যৱহাৰ কৰক
                
            
        

        
        
            
                ঋণ ব্যয়
            
            
                
                    
                        
                            টাইৰ
                            প্ৰতি ১K আখৰৰ মূল্য
                        
                    
                    
                        
                            মুক্ত
                            ০ ক্ৰেডিট (অসীম)
                        
                        
                            অবিকল্পিত
                            ২ ক্রেডিট / ১K আখৰ
                        
                        
                            প্ৰিমিয়াম
                            ৪ ক্রেডিট / ১K আখৰ
                        
                    
                
            
            
                অধিক ক্ৰেডিট প্ৰাপ্ত কৰক

টাইৰ	প্ৰতি ১K আখৰৰ মূল্য
মুক্ত	০ ক্ৰেডিট (অসীম)
অবিকল্পিত	২ ক্রেডিট / ১K আখৰ
প্ৰিমিয়াম	৪ ক্রেডিট / ১K আখৰ






    
        
            
                
                
                    
                    
    কোনো বিজ্ঞাপন নাই
    অসীমিত ব্যৱহাৰ
    অগ্ৰাধিকাৰ সমৰ্থন
    নতুন বৈশিষ্ট্যৰ বাবে প্ৰাৰম্ভিক প্ৰৱেশ


                
                

                
                    
                        অধিক ক্ৰেডিট প্ৰাপ্ত কৰক






    
        AI টেক্সট-টু-স্পীচ কিদৰে কাম কৰে
        তিনিটা সহজ পদক্ষেপে পেশাদাৰী-গুণমানৰ ভয়েসঅভাৰ নিৰ্মাণ কৰক। কোনো প্ৰযুক্তিগত জ্ঞানৰ প্ৰয়োজন নাই।
        
            
                
                    
                        
                            
                        
                        পদক্ষেপ ১
                        আপোনাৰ টেক্সট লিখক
                        আপুনি কথোপকথনত পৰিবৰ্তন কৰিব বিচৰা টেক্সট টাইপ কৰক, পেস্ট কৰক, অথবা আপলোড কৰক। প্ৰৱেশ কৰা ব্যৱহাৰকাৰীৰ বাবে প্ৰতি প্ৰজন্মত ৫,০০০ আখৰ সমৰ্থন কৰে। উচ্চাৰণ, বিৰাম আৰু গুৰুত্বৰ ওপৰত উন্নত নিয়ন্ত্ৰণৰ বাবে প্লেইন টেক্সট ব্যৱহাৰ কৰক অথবা SSML টেগ যোগ কৰক।
                    
                
            
            
                
                    
                        
                            
                        
                        পদক্ষেপ ২
                        আৰ্হি আৰু শব্দ নিৰ্বাচন কৰক
                        ৩টা স্তৰত ২০+ AI মডেল নিৰ্বাচন কৰক। আপোনাৰ বিষয়বস্তুৰ সৈতে মিল থকা এটা শব্দ নিৰ্বাচন কৰক, আপোনাৰ লক্ষ্য ভাষা নিৰ্বাচন কৰক, প্লেব্যাক গতি ০.৫x ৰ পৰা ২.০x লৈ পৰিবৰ্তন কৰক, আৰু আপোনাৰ পছন্দৰ আউটপুট বিন্যাস (MP3, WAV, OGG, অথবা FLAC) নিৰ্বাচন কৰক।
                    
                
            
            
                
                    
                        
                            
                        
                        পদক্ষেপ ৩
                        সৃষ্টি কৰক আৰু ডাউনল'ড কৰক
                        নিৰ্মাণ কৰক ক্লিক কৰক আৰু আপোনাৰ অডিঅ' ছেকেণ্ডসমূহত প্ৰস্তুত হ'ব। অভ্যন্তৰীণ প্লেয়াৰৰ সৈতে পূৰ্বপ্ৰদৰ্শন কৰক, আপোনাৰ নিৰ্বাচিত বিন্যাসত ডাউনল'ড কৰক, অথবা এটা অংশীদাৰী কৰিব পৰা লিঙ্ক কপি কৰক। ব্যাচ প্ৰক্ৰিয়াকৰণ আৰু আপোনাৰ কাৰ্য্যক্ৰমত একত্ৰিত কৰাৰ বাবে API ব্যৱহাৰ কৰক।
                    
                
            
        
    






    
        টেক্সট-টু-স্পিচ ব্যৱহাৰৰ ঘটনাসমূহ
        কৃত্ৰিম বুদ্ধিমত্তাৰ সহায়ত টেক্সট-টু-স্পীচ প্ৰযুক্তিৰ জৰিয়তে বহুতো উদ্যোগত মানুহে কিদৰে অডিঅ’ সামগ্ৰী সৃষ্টি কৰে, ব্যৱহাৰ কৰে আৰু ইয়াৰ সৈতে সম্পৰ্ক স্থাপন কৰে, সেয়া পৰিৱৰ্তিত হৈ পৰিছে।
        
            
                
                    
                        
                        অডিঅ'বই
                        সম্পূৰ্ণ কিতাপসমূহক স্টুডিঅ'-গুণমানৰ বৰ্ণনাৰ সৈতে প্ৰাকৃতিক-স্বৰযুক্ত অডিঅ' কিতাপসমূহলৈ পৰিবৰ্তন কৰক। আখৰ ডাইলগসমূহৰ বাবে Dia ৰ সৈতে বহু-স্পীকাৰ সমৰ্থন।
                    
                
            
            
                
                    
                        
                        ভিডিঅ' বক্তৃতা
                        YouTube, TikTok, Instagram Reels, আৰু Shorts ৰ বাবে পেশাদাৰী voiceovers সৃষ্টি কৰক। 100+ শব্দ অথবা আপোনাৰ নিজস্ব ক্লোন কৰক।
                    
                
            
            
                
                    
                        
                        পডকাস্ট
                        একাধিক AI কন্ঠ সহ স্ক্ৰিপ্টসমূহৰ পৰা পডকাস্ট এপিসোডসমূহ সৃষ্টি কৰক। Dia ব্যৱহাৰ কৰক প্ৰাকৃতিক দুটা স্পীকাৰ কথোপকথনৰ বাবে।
                    
                
            
            
                
                    
                        
                        গেমিং
                        ইন্ডি গেম, ভিজুৱেল নোভেল আৰু ইন্টাৰেক্টিভ ফিকচনৰ বাবে AI কণ্ঠ অভিনয়। NPC কথোপকথন, cutscene কথোপকথন, ৩০+ ভাষা।
                    
                
            
            
                
                    
                        
                        ই-লৰ্নিং
                        কোর্স সামগ্ৰী, বক্তৃতা, আৰু প্ৰশিক্ষণ সমলসমূহক অডিঅ'লৈ ৰূপান্তৰ কৰক। বিশ্বব্যাপী প্লেটফৰ্মসমূহৰ বাবে বহু-ভাষা সমৰ্থন।
                    
                
            
            
                
                    
                        
                        অভিগম্যতা
                        ৱেবছাইট, দস্তাবেজ, আৰু এপ্লিকেচনসমূহ অভিগম্য কৰক। স্ক্ৰিন ৰিডাৰ API একীভূতকৰণ আৰু প্ৰবন্ধ-ৰ পৰা অডিঅ' ৰূপান্তৰ।
                    
                
            
            
                
                    
                        
                        IVR আৰু ফোন ব্যৱস্থা
                        IVR প্ৰণালী, ফোন মেনু, আৰু গ্ৰাহক সেৱা প্ৰকৃতিৰ AI শব্দৰ সৈতে শক্তিশালী কৰক। কল কেন্দ্ৰৰ বাবে কম-লেটেন্সি ষ্ট্ৰীমিং।
                    
                
            
            
                
                    
                        
                        সামাজিক মিডিয়া
                        TikTok narrations, Instagram Reels, Twitter/X commentary, YouTube Shorts। বিনামূলীয়া মডেলৰ সৈতে দ্ৰুত উৎপাদন।
                    
                
            
            
                
                    
                        
                        স্ট্ৰিমিং
                        Twitch TTS সতৰ্কবাৰ্তা, চেট-টু-ৱাইচ, AI সহ-হোস্ট, আৰু Discord বটসমূহ। কম লেটেন্সী, ১০০+ ধ্বনি, StreamElements সংগতিপূৰ্ণ।
                    
                
            
            
                
                    
                        
                        বিপণন
                        Ad voiceovers, explaner videos, product demos, আৰু sales presentation। প্ৰচাৰ অভিযানসমূহত অডিঅ' সামগ্ৰীৰ উৎপাদন বৃদ্ধি কৰক।
                    
                
            
            
                
                    
                        
                        অনুবাদ আৰু স্থানীয়কৰণ
                        30+ ভাষাত ভিডিঅ' অনুবাদ আৰু ডাব কৰক। স্বয়ংক্ৰিয় অনুবাদ আৰু স্পিকার চিনাক্তকৰণ।
                    
                
            
            
                
                    
                        
                        মনোযোগ আৰু সুস্থতা
                        এআইৰ সহায়ত শান্ত, সুস্থিৰ কণ্ঠস্বৰৰ সহায়ত অনুপ্ৰেৰণামূলক ধ্যান, নিদ্ৰা কাহিনী, শ্বাস-প্ৰশ্বাসৰ অনুশীলন আৰু আশ্বাস প্ৰদান কৰা হৈছে।
                    
                
            
        
        
            সকলো Use Cases আৰু সঁজুলিসমূহ চাওক
        
    






    
        সকলো টেক্সট-টু-স্পিচ মডেল
        TTS.ai ত উপলব্ধ প্ৰতিটো AI মডেলৰ বিস্তাৰিত বিৱৰণ। আপোনাৰ প্ৰকল্পৰ বাবে সঠিক মডেল পোৱাৰ বাবে গুণমান, গতি, ভাষা সমৰ্থন আৰু বৈশিষ্ট্যসমূহৰ তুলনা কৰক।

        
        
            সকলো (32)
            মুক্ত (7)
            অবিকল্পিত (18)
            প্ৰিমিয়াম (7)
        

        
            
            
                
                    
                    
                        
                            
                                Kokoro
                                Free
                            
                            
                                Kokoro এটা ৮২ মিলিয়ন প্ৰাচলৰ টেক্সট-টু-স্পীচ মডেল যি ইয়াৰ ওজনৰ শ্ৰেণীৰ ওপৰত ভালদৰে কাম কৰে। ইয়াৰ ক্ষুদ্ৰ আকাৰ সত্ত্বেও, ই উল্লেখযোগ্যভাৱে প্ৰাকৃতিক আৰু অভিব্যক্তিমূলক ভাষা প্ৰস্তুত কৰে। Kokoro ইংৰাজী, জাপানী, চীনা আৰু কোৰীয় সহ বহুতো ভাষাক বিভিন্ন অভিব্যক্তিমূলক শব্দৰ সৈতে সমৰ্থন কৰে। ই অভূতপূৰ্বভাৱে দ্ৰুতভাৱে চলি থাকে - এটা GPU ত ৰিয়েল-টাইমৰ তুলনাত প্ৰায় ১০০x দ্ৰুতত অডিঅ' প্ৰস্তুত কৰে।

                                
                                    
                                        বিকাশক::

                                        Hexgrad
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, ja, zh, ko, fr, de, it, pt, es, hi, ru
                                    
                                    
                                        VRAM:

                                        1.5GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        মুক্ত
                                    
                                

                                
                                
                                    
                                        
                                        82M প্ৰাচলসমূহ
                                        
                                        অত্যাধিক দ্ৰুত
                                        
                                        অভিব্যক্তিমূলক শব্দ
                                        
                                        বহুভাষিক
                                        
                                        স্ট্ৰিমিং সমৰ্থন
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                সৰ্বনিম্ন লেটেন্সিৰ সৈতে উচ্চ-মানৰ TTS, স্ট্ৰিমিং এপ্লিকেচনসমূহ
                                
                            
                            
                                
                                    চেষ্টা কৰক Kokoro
                                
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Free
                            
                            
                                Piper এটা হালধীয়া টেক্সট-টু-স্পীচ ইঞ্জিন যি Rhasspy দ্বাৰা উন্নত কৰা হৈছে যি VITS আৰু larynx স্থাপত্যসমূহ ব্যৱহাৰ কৰে। ই সম্পূৰ্ণৰূপে CPU ত চলায়, ই ইয়াক এডজ ডিভাইচ, ঘৰ স্বচালিতকৰণ, আৰু অফলাইন TTS প্ৰয়োজন হোৱা এপ্লিকেচনসমূহৰ বাবে আদর্শ কৰি তোলে। 30+ ভাষাত 100 ৰ অধিক কন্ঠৰ সৈতে, Piper এ এটা Raspberry Pi 4 ৰ ওপৰতো প্ৰকৃত-সময়ৰ গতিৰে প্ৰাকৃতিক-স্বৰযুক্ত কথন প্ৰদান কৰে।

                                
                                    
                                        বিকাশক::

                                        Rhasspy
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                    
                                    
                                        VRAM:

                                        0 (CPU only)
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        মুক্ত
                                    
                                

                                
                                
                                    
                                        
                                        CPU-friendly
                                        
                                        অফলাইন সমৰ্থিত
                                        
                                        ১০০+ শব্দ
                                        
                                        ভাষাসমূহ
                                        
                                        SSML সমৰ্থন
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                দ্ৰুত পূৰ্বপ্ৰদৰ্শন, অভিগম্যতা আৰু অন্তৰ্ভুক্ত এপ্লিকেচনসমূহ
                                
                            
                            
                                
                                    চেষ্টা কৰক Piper
                                
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Free
                            
                            
                                VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) হৈছে এটা সমান্তৰাল end-to-end TTS পদ্ধতি যি বৰ্তমান দুটা স্তৰৰ মডেলৰ তুলনাত অধিক প্ৰাকৃতিক সুৰযুক্ত অডিঅ' প্ৰস্তুত কৰে। ই প্ৰাকৃতিকতাত উল্লেখযোগ্য উন্নতি সাধন কৰি স্বাভাৱিকীকৰণ প্ৰবাহ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণ প্ৰক্ৰিয়াৰ সৈতে বৃদ্ধি কৰা variational inference গ্ৰহণ কৰে।

                                
                                    
                                        বিকাশক::

                                        Jaehyeon Kim et al.
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        মুক্ত
                                    
                                

                                
                                
                                    
                                        
                                        এন্ড-টু-এন্ড সংশ্লেষণ
                                        
                                        প্ৰাকৃতিক প্ৰোসোডি
                                        
                                        দ্ৰুত অনুমান
                                        
                                        একাধিক স্পিকার
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                স্বাভাৱিক প্ৰোসোডিৰ সৈতে সাধাৰণ-উদ্দেশ্যৰ টেক্সট-টু-স্পীচ
                                
                            
                            
                                
                                    চেষ্টা কৰক VITS
                                
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Free
                            
                            
                                MyShell.ai দ্বাৰা MeloTTS এটা বহুভাষিক TTS লাইব্ৰেৰি যি ইংৰাজী (আমেৰিকান, ব্ৰিটিছ, ভাৰতীয়, অস্ট্ৰেলিয়ান), স্পেনিশ, ফৰাচী, চীনা, জাপানি আৰু কোৰীয় সমৰ্থন কৰে। ই অতি দ্রুত, কেৱল CPU ত প্ৰায় ৰিয়েল-টাইম গতিৰে টেক্সট প্ৰক্ৰিয়াকৰণ কৰে। MeloTTS উৎপাদন ব্যৱহাৰৰ বাবে নিৰ্মিত আৰু CPU আৰু GPU উভয়কে সমৰ্থন কৰে।

                                
                                    
                                        বিকাশক::

                                        MyShell.ai
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, es, fr, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        0.5GB (GPU optional)
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        মুক্ত
                                    
                                

                                
                                
                                    
                                        
                                        CPU-অনুকূলিত
                                        
                                        বহুভাষিক
                                        
                                        একাধিক উচ্চাৰণ
                                        
                                        উৎপাদন-সজ্জিত
                                        
                                        কম লেটেন্সী
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                দ্ৰুত, বহুভাষিক TTS প্ৰয়োজনীয় উৎপাদন এপ্লিকেচনসমূহ
                                
                            
                            
                                
                                    চেষ্টা কৰক MeloTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark
                                Standard
                            
                            
                                Suno ৰ Bark হৈছে এটা পৰিবৰ্তন-ভিত্তিক টেক্সট-টু-অডিঅ' মডেল যি অতি বাস্তববাদী, বহুভাষিক কথোপকথন লগতে সঙ্গীত, পটভূমিৰ শব্দ আৰু শব্দৰ প্ৰভাৱৰ দৰে অন্যান্য অডিঅ' সৃষ্টি কৰিব পাৰে। ই হাস্যৰস, চিঞৰ আৰু কান্দোনৰ দৰে অবাক্যগত যোগাযোগ সৃষ্টি কৰিব পাৰে। Bark এ ১০০ ৰো অধিক কথোপকথক প্ৰিসেট আৰু ১৩+ ভাষা সমৰ্থন কৰে।

                                
                                    
                                        বিকাশক::

                                        Suno
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Slow
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        5GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        শব্দৰ প্ৰভাৱসমূহ
                                        
                                        হাঁহি/চিঞৰ
                                        
                                        সঙ্গীত নিৰ্মাণ
                                        
                                        ১০০+ স্পিকার
                                        
                                        বহুভাষিক
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                সৃষ্টিশীল অডিঅ' বিষয়বস্তু, অনুভূতিসহ অডিঅ'বই, শব্দৰ প্ৰভাৱ
                                
                            
                            
                                
                                    চেষ্টা কৰক Bark
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Standard
                            
                            
                                Bark Small হ'ল Bark মডেলৰ এটা বিশুদ্ধ সংস্কৰণ যি কিছু অডিঅ' গুণমানক উল্লেখযোগ্যভাৱে দ্ৰুত অনুমান গতি আৰু কম মেমৰি প্ৰয়োজনৰ বাবে বিনিময় কৰে। ই Bark ৰ অনুভূতি, হাঁহি আৰু একাধিক ভাষাৰ সৈতে কথোপকথন সৃষ্টি কৰাৰ ক্ষমতা ৰক্ষা কৰে।

                                
                                    
                                        বিকাশক::

                                        Suno
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        হালধীয়া
                                        
                                        সম্পূৰ্ণ বাৰকৰ তুলনাত অধিক দ্রুত
                                        
                                        আবেগিক ভাষণ
                                        
                                        বহুভাষিক
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                সম্পূৰ্ণ Bark অতি ধীর হ'লে দ্রুত সৃষ্টিশীল অডিঅ'
                                
                            
                            
                                
                                    চেষ্টা কৰক Bark Small
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Standard
                            
                            
                                Alibaba's Tongyi Lab ৰ CosyVoice2এ অতি কম লেটেন্সিৰ সৈতে মানৱ-সদৃশ কথোপকথনৰ গুণমান লাভ কৰে, যাক ৰিয়েল-টাইম এপ্লিকেচনসমূহৰ বাবে আদর্শ কৰি তোলে। ই স্ট্ৰিমিং সংশ্লেষণৰ বাবে এটা সীমাবদ্ধ স্কেলাৰ কোয়ান্টাইজেশন প্ৰক্ৰিয়া ব্যৱহাৰ কৰে আৰু শূণ্য-শট কথোপকথন ক্লোনিং, ক্ৰচ-লিঙ্গুৱেজ সংশ্লেষণ, আৰু ভাল-গ্ৰেনেড অনুভূতি নিয়ন্ত্ৰণ সমৰ্থন কৰে। ই ব্যক্তিগত মূল্যায়নত বহুতো বাণিজ্যিক TTS ব্যৱস্থাক অতিক্ৰম কৰে।

                                
                                    
                                        বিকাশক::

                                        Alibaba (Tongyi Lab)
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh, ja, ko, fr, de, it, es
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        স্ট্ৰিমিং
                                        
                                        Zero-shot ক্লোনিং
                                        
                                        ক্ৰচ-লিঙ্গুইজ
                                        
                                        ইমোচন নিয়ন্ত্ৰণ
                                        
                                        হিউম্যান-পেৰিটি
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                ৰিয়েল-টাইম এপ্লিকেচন, ষ্ট্ৰীমিং TTS, শব্দ সহায়ক
                                
                            
                            
                                
                                    চেষ্টা কৰক CosyVoice 2
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Standard
                            
                            
                                Nari Labs ৰ Dia এটা 1.6B প্ৰাচল টেক্সট-টু-স্পীচ মডেল যি বিশেষকৈ বহু-ভাষক সংলাপ নিৰ্মাণৰ বাবে ডিজাইন কৰা হৈছে। ই দুটা ভাষাভাষীৰ মাজত প্ৰকৃত-স্বৰযুক্ত কথোপকথন প্ৰস্তুত কৰিব পাৰে যথাযথ টাৰ্ণ-টেকিং, প্ৰোসোডি, আৰু আবেগিক অভিব্যক্তিৰ সৈতে। Dia podcast-style সামগ্ৰী, অডিঅ'বুক সংলাপ, আৰু ইন্টাৰেক্টিভ কথোপকথন AI সৃষ্টি কৰাৰ বাবে সম্পূৰ্ণ।

                                
                                    
                                        বিকাশক::

                                        Nari Labs
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        বহু-স্পীকাৰ
                                        
                                        ডাইলগ সৃষ্টি কৰক
                                        
                                        স্বাভাৱিক টৰ্ন-টেকিং
                                        
                                        আবেগিক অভিব্যক্তি
                                        
                                        ১.৬B প্ৰাচলসমূহ
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                পডকাস্ট, অডিঅ'বুক ডায়ালগ, কথোপকথনৰ বিষয়বস্তু
                                
                            
                            
                                
                                    চেষ্টা কৰক Dia TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Standard
                            
                            
                                Parler TTS এটা টেক্সট-টু-স্পিচ মডেল যি সৃষ্টি কৰা কথন নিয়ন্ত্ৰণ কৰিবলৈ প্ৰাকৃতিক ভাষাৰ কথন বৰ্ণনা ব্যৱহাৰ কৰে। পূৰ্বনিৰ্ধাৰিত কথনসমূহৰ পৰা নিৰ্বাচন কৰাৰ পৰিবৰ্তে, আপুনি আপোনাৰ ইচ্ছাকৃত কথন বৰ্ণনা কৰে (উদাহৰণস্বৰূপ, "এক সৰু ব্রিটিশ উচ্চাৰণৰ সৈতে এটা উষ্ণ মহিলাৰ কথন, ধীৰে আৰু স্পষ্টভাৱে কথন কৰা") আৰু Parler এ সেই বৰ্ণনাৰ সৈতে মিল থকা কথন সৃষ্টি কৰে। ই ইয়াক সৃষ্টিশীল এপ্লিকেচনসমূহৰ বাবে অনন্যভাৱে নমনীয় কৰে।

                                
                                    
                                        বিকাশক::

                                        Hugging Face
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        শব্দৰ বৰ্ণনা
                                        
                                        স্বাভাৱিক ভাষা নিয়ন্ত্ৰণ
                                        
                                        নমনীয় কন্ঠ নিৰ্মাণ
                                        
                                        কোনো প্ৰি-সেট কৰা শব্দৰ প্ৰয়োজন নাই
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                সৃষ্টিশীল এপ্লিকেচন য'ত আপোনাৰ স্বনিৰ্বাচিত শব্দ বৈশিষ্ট্যসমূহৰ প্ৰয়োজন
                                
                            
                            
                                
                                    চেষ্টা কৰক Parler TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                Standard
                            
                            
                                Zhipu AI ৰ GLM-TTS এটা টেক্সট-টু-স্পীচ ব্যৱস্থা যাক flow matching ৰ সহায়ত Llama স্থাপত্যত নিৰ্মাণ কৰা হৈছে। ই মুক্ত উৎসৰ TTS মডেলসমূহৰ ভিতৰত সৰ্বনিম্ন অক্ষৰ ত্ৰুটিৰ হাৰ প্ৰাপ্ত কৰে, অৰ্থাৎ ই সৰ্বাধিক সঠিক উচ্চাৰণ প্ৰদান কৰে। GLM-TTS ইংৰাজী আৰু চীনাক ৩-১০ ছেকেণ্ডৰ অডিঅ' নমুনাসমূহৰ পৰা শব্দ ক্লোনিংৰ সৈতে সমৰ্থন কৰে।

                                
                                    
                                        বিকাশক::

                                        Zhipu AI
                                    
                                    
                                        অনুমতি::

                                        GLM-4 License
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        সৰ্বনিম্ন ত্ৰুটিৰ হাৰ
                                        
                                        শব্দ ক্লোনিং
                                        
                                        প্ৰবাহ মিলোৱা
                                        
                                        প্ৰাকৃতিক প্ৰোসোডি
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                সৰ্বাধিক উচ্চাৰণ সঠিকতাৰ প্ৰয়োজন হোৱা এপ্লিকেচনসমূহ
                                
                            
                            
                                
                                    চেষ্টা কৰক GLM-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Standard
                            
                            
                                IndexTTS-2 এটা উন্নত টেক্সট-টু-স্পিচ ব্যৱস্থা যাক শূণ্য-শট শব্দ সংশ্লেষণত উত্তম আৰু ভাল-গ্ৰেইনেড অনুভূতি নিয়ন্ত্ৰণৰ সৈতে। ই অনুভূতি-বিশেষ প্ৰশিক্ষণ তথ্যৰ প্ৰয়োজন নোহোৱাকৈ সুখী, দুখী, ক্ষুব্ধ অথবা ভয়ংকৰ দৰে নিৰ্দিষ্ট অনুভূতিমূলক টোনসমূহৰ সৈতে কথা সৃষ্টি কৰিব পাৰে। মডেলে সৃষ্টি কৰা কথাৰ অনুভূতিমূলক অভিব্যক্তি সঠিকভাৱে নিয়ন্ত্ৰণ কৰিবলৈ অনুভূতি ভেক্টৰসমূহ ব্যৱহাৰ কৰে।

                                
                                    
                                        বিকাশক::

                                        Index Team
                                    
                                    
                                        অনুমতি::

                                        Bilibili Model License
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        ইমোচন নিয়ন্ত্ৰণ
                                        
                                        জিৰো-শ্বট
                                        
                                        অনুভূতি ভেক্টৰসমূহ
                                        
                                        অভিব্যক্তিমূলক কথা
                                        
                                        সৰু সৰু অংশ বিশিষ্ট নিয়ন্ত্ৰণ
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                আবেগিকভাৱে অভিব্যক্তিমূলক বিষয়বস্তু, অডিঅ'বুক, ভাৰ্চুৱেল সহায়ক
                                
                            
                            
                                
                                    চেষ্টা কৰক IndexTTS-2
                                
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Standard
                            
                            
                                Spark TTS by SparkAudio এটা টেক্সট-টু-স্পীচ মডেল যি কন্ঠ ক্লোনিংক নিয়ন্ত্ৰণ কৰিব পৰা অনুভূতি আৰু কথোপকথনৰ শৈলীৰ সৈতে সংযুক্ত কৰে। কেৱল ৫ ছেকেণ্ডৰ রেফাৰেন্স অডিঅ' ব্যৱহাৰ কৰি, ই এটা কথোপকথন ক্লোন কৰিব পাৰে আৰু তাৰ পিছত বিভিন্ন অনুভূতি, গতি, আৰু শৈলীৰ সৈতে কথোপকথন সৃষ্টি কৰিব পাৰে। ক্লোন কৰা কথোপকথনৰ পৰিচয় বজাই ৰাখি। Spark TTS এ এটা প্ৰমপ-ভিত্তিক নিয়ন্ত্ৰণ ব্যৱস্থা ব্যৱহাৰ কৰে।

                                
                                    
                                        বিকাশক::

                                        SparkAudio
                                    
                                    
                                        অনুমতি::

                                        CC BY-NC-SA 4.0
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        শব্দ ক্লোনিং
                                        
                                        ইমোচন নিয়ন্ত্ৰণ
                                        
                                        শৈলী নিয়ন্ত্ৰণ
                                        
                                        প্ৰমপ্ট-ভিত্তিক
                                        
                                        ৫-ছেকেণ্ড ক্লোনিং
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                ক্লোন কৰা শব্দ আৰু আবেগিক নিয়ন্ত্ৰণৰ সৈতে বিষয়বস্তু সৃষ্টি কৰক
                                
                            
                            
                                
                                    চেষ্টা কৰক Spark TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Standard
                            
                            
                                GPT-SoVITS এ GPT-শৈলীৰ ভাষা মডেলিং আৰু SoVITS (Singing Voice Inference via Translation and Synthesis) ৰ সৈতে শক্তিশালী few-shot শব্দ ক্লোনিংৰ বাবে সংমিহলি কৰে। ৫ ছেকেণ্ডৰ পৰিচয়ৰ অডিঅ'ৰ সৈতে, ই সঠিকভাৱে এটা শব্দ ক্লোন কৰিব পাৰে আৰু স্পিকারৰ অনন্য বৈশিষ্ট্যসমূহ সংৰক্ষণ কৰি নতুন শব্দ উৎপন্ন কৰিব পাৰে। ই দুয়োটা কথা কোৱা আৰু গাই থকা শব্দ সংমিহলি কৰাত অসাধাৰণ।

                                
                                    
                                        বিকাশক::

                                        RVC-Boss
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Slow
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh, ja, ko
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        ৫-ছেকেণ্ড ক্লোনিং
                                        
                                        গাই থকা কণ্ঠ
                                        
                                        কেইবাটাও শ্বট শিকোৱা
                                        
                                        উচ্চ বিশ্বাসযোগ্যতা
                                        
                                        ক্ৰচ-লিঙ্গুইজ
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                ধ্বনি ক্লোনিং, গান সংমিশ্ৰণ, বিষয়বস্তু সৃষ্টিকাৰী ধ্বনি প্ৰতিলিপিকৰণ
                                
                            
                            
                                
                                    চেষ্টা কৰক GPT-SoVITS
                                
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Standard
                            
                            
                                Orpheus হৈছে এটা বৃহৎ পৰিমাণৰ টেক্সট-টু-স্পীচ মডেল যি মানৱ স্তৰৰ আবেগিক অভিব্যক্তি প্ৰাপ্ত কৰে। ১০০,০০০ ঘণ্টাৰ অধিক বিভিন্ন ভাষাৰ তথ্যত প্ৰশিক্ষিত, ই প্ৰাকৃতিক আবেগ, জোৰ, আৰু কথা ক'ব পৰা শৈলীৰ সৈতে কথা ক'বলৈ উৎকৃষ্ট। Orpheus মানৱ ৰেকৰ্ডৰ পৰা প্ৰকৃততে অবিভাজ্যভাৱে কথা ক'ব পাৰে।

                                
                                    
                                        বিকাশক::

                                        Canopy Labs
                                    
                                    
                                        অনুমতি::

                                        Llama 3.2 Community
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        মানৱ-স্তরৰ অনুভূতি
                                        
                                        ১০০K ঘন্টা প্ৰশিক্ষণ
                                        
                                        প্ৰাকৃতিক জোৰ
                                        
                                        অভিব্যক্তিমূলক কথা
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                উচ্চ-গুণমানৰ অনুভূতিমূলক কথোপকথন, অডিঅ'বই, কণ্ঠ অভিনয়
                                
                            
                            
                                
                                    চেষ্টা কৰক Orpheus
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Resemble AI ৰ Chatterbox হৈছে এটা cutting-edge zero-shot voice cloning মডেল। ই এটা অডিঅ' নমুনাৰ পৰা যিকোনো শব্দ উল্লেখযোগ্য সঠিকতাৰ সৈতে প্ৰতিলিপি কৰিব পাৰে, কেৱল টাইমৰে নহয় কিন্তু কথোপকথনৰ শৈলী আৰু আবেগিক নমনীয়তাও গ্ৰহণ কৰে। Chatterbox ৰ লগতে fine-grained emotion control ৰ বৈশিষ্ট্য আছে, যি আপুনি সৃষ্টি কৰা কথোপকথনৰ আবেগিক টোনক শব্দৰ পৰিচয়ৰ পৰা স্বাধীনভাৱে সলনি কৰিব পাৰিব।

                                
                                    
                                        বিকাশক::

                                        Resemble AI
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Zero-shot ক্লোনিং
                                        
                                        ইমোচন নিয়ন্ত্ৰণ
                                        
                                        উচ্চ বিশ্বাসযোগ্যতা
                                        
                                        বিন্যাস স্থানান্তৰ
                                        
                                        একক নমুনা ক্লোনিং
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                আবেগিক নিয়ন্ত্ৰণ, বিষয়বস্তু সৃষ্টিৰ সৈতে পেশাদাৰী শব্দ ক্লোনিং
                                
                            
                            
                                
                                    চেষ্টা কৰক Chatterbox
                                
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS এটা স্বয়ংক্ৰিয় মাল্টি-স্বৰ টেক্সট-টু-স্পীচ ব্যৱস্থা যাৰ গতিত অডিঅ'ৰ গুণমানৰ গুৰুত্ব আছে। ই DALL-E-প্ৰেৰণা লাভ কৰা স্থাপত্য ব্যৱহাৰ কৰে উচ্চ প্ৰাকৃতিক কথোপকথন উৎপাদন কৰিবলৈ উত্তম প্ৰোসোডি আৰু কথোপকথনৰ অনুৰূপতাৰে। বহু বিকল্পৰ তুলনাত ধীর হ'লেও, Tortoise এ মুক্ত উৎসৰ পৰিৱেশ ব্যৱস্থাত উপলব্ধ কিছু সৰ্বাধিক বাস্তবসম্মত সংশ্লেষিত কথোপকথন উৎপাদন কৰে।

                                
                                    
                                        বিকাশক::

                                        James Betker
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Slow
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        সৰ্বোচ্চ মান
                                        
                                        বহু-স্বৰ
                                        
                                        DALL-E স্থাপত্য
                                        
                                        শব্দ ক্লোনিং
                                        
                                        স্বয়ংক্ৰিয় ৰেগ্ৰেছন
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                অডিঅ'বই, প্ৰিমিয়াম বিষয়বস্তু, গুণমান-প্ৰথম এপ্লিকেচনসমূহ
                                
                            
                            
                                
                                    চেষ্টা কৰক Tortoise TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS2এ বড়ো বক্তৃতা ভাষাৰ মডেল ব্যৱহাৰ কৰি শৈলী প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণৰ সৈতে শৈলী প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণৰ সৈতে শৈলী প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণৰ সৈতে শৈলী প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণৰ সৈতে শৈলী প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণৰ সৈতে শৈলী প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰসাৰণ

                                
                                    
                                        বিকাশক::

                                        Columbia University
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        মানৱ-স্তর
                                        
                                        শৈলী বিকিৰণ
                                        
                                        প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণ
                                        
                                        প্ৰাকৃতিক পৰিবৰ্তন
                                        
                                        উচ্চ বিশ্বাসযোগ্যতা
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                স্টুডিঅ'-মানৰ একক-স্পীকাৰ সংশ্লেষণ, পেশাদাৰী বৰ্ণনা
                                
                            
                            
                                
                                    চেষ্টা কৰক StyleTTS 2
                                
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                MyShell.ai দ্বাৰা OpenVoice তৎক্ষণাত কন্ঠৰ ক্লোনিং সামৰ্থবান কৰে কন্ঠৰ শৈলী, অনুভূতি, উচ্চাৰণ, ৰীতি, স্থগিত, আৰু ইটোনেচনৰ ওপৰত দ্ৰুত নিয়ন্ত্ৰণৰ সৈতে। ই এটা সংক্ষিপ্ত অডিঅ' ক্লিপৰ পৰা এটা কন্ঠক ক্লোন কৰিব পাৰে আৰু কথোপকথনকাৰীৰ পৰিচয় বজাই ৰাখি একাধিক ভাষাত কথোপকথন সৃষ্টি কৰিব পাৰে। OpenVoice এটা কথোপকথন পৰিবৰ্তনকাৰী হিচাপেও কাম কৰে, ৰিয়েল-টাইম কথোপকথন পৰিবৰ্তনৰ অনুমতি দিয়ে।

                                
                                    
                                        বিকাশক::

                                        MyShell.ai / MIT
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh, ja, ko, fr, de, es, it
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        তাৎক্ষণিক ক্লোনিং
                                        
                                        শব্দ পৰিবৰ্তন
                                        
                                        ইমোচন নিয়ন্ত্ৰণ
                                        
                                        উচ্চাৰণ নিয়ন্ত্ৰণ
                                        
                                        বহুভাষিক
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                সুষম শৈলী নিয়ন্ত্ৰণৰ সৈতে শব্দ ক্লোনিং, শব্দ পৰিবৰ্তন
                                
                            
                            
                                
                                    চেষ্টা কৰক OpenVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Standard
                            
                            
                                Qwen3-TTS Alibaba ৰ Qwen দলৰ পৰা ১.৭ বিলিয়ন প্ৰাচল টেক্সট-টু-স্পীচ মডেল। ই তিনিটা অৱস্থা সমৰ্থন কৰে: অনুভূতি নিয়ন্ত্ৰণৰ সৈতে প্ৰি-সেট কৰা কন্ঠ (৯ জন কণ্ঠস্বৰ), কেৱল ৩ ছেকেণ্ডৰ অডিঅ'ৰ পৰা কণ্ঠস্বৰ ক্লোনিং, আৰু এটা অনন্য কণ্ঠস্বৰ ডিজাইন অৱস্থা য'ত আপুনি প্ৰাকৃতিক ভাষাত ইচ্ছা কৰা কণ্ঠস্বৰ বৰ্ণনা কৰিব পাৰে। ই উচ্চ অভিব্যক্তি আৰু প্ৰাকৃতিক প্ৰোসোডিৰ সৈতে ১০টা ভাষাক আৱৰি আছে।

                                
                                    
                                        বিকাশক::

                                        Alibaba (Qwen)
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh, ja, ko, de, fr, ru, pt, es, it
                                    
                                    
                                        VRAM:

                                        7GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        শব্দ ক্লোনিং
                                        
                                        ৯ প্ৰি-সেট ধ্বনি
                                        
                                        টেক্সটৰ পৰা শব্দ নিৰ্মাণ কৰক
                                        
                                        ইমোচন নিয়ন্ত্ৰণ
                                        
                                        ভাষাসমূহ
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                শব্দ ক্লোনিং অথবা স্বনিৰ্বাচিত শব্দ ডিজাইনৰ সৈতে বহুভাষিক সমল
                                
                            
                            
                                
                                    চেষ্টা কৰক Qwen3 TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM (Conversational Speech Model) হৈছে এটা ১ বিলিয়ন প্ৰাচলৰ মডেল যি বিশেষকৈ কথোপকথন সৃষ্টি কৰিবলৈ তৈয়াৰ কৰা হৈছে। ই মানৱ কথোপকথনৰ প্ৰাকৃতিক বিন্যাসসমূহ মডেল কৰে, য'ত turn-taking timing, backchannel responses, emotional reactions, আৰু কথোপকথন প্ৰবাহ অন্তৰ্ভুক্ত আছে। CSM এ সৃজনশীল কথোপকথনৰ পৰিবৰ্তে প্ৰাকৃতিক মানৱ কথোপকথনৰ দৰে শব্দ কৰা অডিঅ' সৃষ্টি কৰে।

                                
                                    
                                        বিকাশক::

                                        Sesame
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Slow
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        কথোপকথন
                                        
                                        প্ৰাকৃতিক সময়
                                        
                                        টৰ্ন টেকিং
                                        
                                        বেক-চেনেল
                                        
                                        ১বি প্ৰাচলসমূহ
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                AI সহায়ক, চেটবট, কথোপকথন AI এপ্লিকেচন
                                
                            
                            
                                
                                    চেষ্টা কৰক Sesame CSM
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Standard
                            
                            
                                Resemble AI ৰ Chatterbox Turbo হ'ল Chatterbox ৰ 350M প্ৰাচল উন্নয়ন, যি ৬x ৰিয়েল-টাইম গতি উপ-200ms latency ৰ সৈতে প্ৰদান কৰে। ই [laugh], [cough], আৰু [chuckle] ৰ দৰে paralinguistic টেগসমূহ প্ৰত্যক্ষভাৱে টেক্সটত সমৰ্থন কৰে। provenance tracking ৰ বাবে সকলো উত্পন্ন অডিঅ'ত Perth watermarking অন্তৰ্ভুক্ত কৰে।

                                
                                    
                                        বিকাশক::

                                        Resemble AI
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Sub-200ms লেটেন্সী
                                        
                                        Paralinguistic টেগসমূহ
                                        
                                        ৬x ৰিয়েল-টাইম
                                        
                                        শব্দ ক্লোনিং
                                        
                                        ওয়াটাৰমাৰ্কিং
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                ৰিয়েল-টাইম ভয়েস এজেন্ট, প্ৰাকৃতিক শব্দৰ সৈতে অভিব্যক্তিমূলক ভাষণ
                                
                            
                            
                                
                                    চেষ্টা কৰক Chatterbox Turbo
                                
                            
                        
                    
                    
                    
                        
                            
                                Zonos
                                Standard
                            
                            
                                Zyphra ৰ Zonos v0.1 এটা ১.৬ বিট প্ৰাচল মডেল যি সুখ, ক্ষোভ, দুঃখ, ভয় আৰু বিস্ময়ৰ বাবে স্লাইডাৰসমূহৰ সৈতে fine-grained অনুভূতি নিয়ন্ত্ৰণ প্ৰদৰ্শন কৰে। ই এটা Transformer আৰু এটা নতুন SSM (state-space model) বিন্যাস উভয়কে প্ৰদান কৰে। ১০-৩০ ছেকেণ্ডৰ রেফাৰেন্স অডিঅ'ৰ পৰা zero-shot voice cloning ৰ সৈতে ২০০K+ ঘণ্টাৰ বহুভাষী কথোপকথনৰ ওপৰত প্ৰশিক্ষিত।

                                
                                    
                                        বিকাশক::

                                        Zyphra
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, ja, zh, fr, de
                                    
                                    
                                        VRAM:

                                        6GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        ইমোচন নিয়ন্ত্ৰণ
                                        
                                        শব্দ ক্লোনিং
                                        
                                        SSM স্থাপত্য
                                        
                                        বহুভাষিক
                                        
                                        পিচ/ৰেট নিয়ন্ত্ৰণ
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                অনুভূতি নিয়ন্ত্ৰণৰ সৈতে অভিব্যক্তিমূলক ভাষণ, শব্দ নকশা স্টুডিঅ'
                                
                            
                            
                                
                                    চেষ্টা কৰক Zonos
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia 2
                                Standard
                            
                            
                                Nari Labs ৰ Dia2 হ'ল Dia ৰ ষ্ট্ৰিমিং-প্ৰথম উন্নয়ন, 1B আৰু 2B প্ৰাচল বৈচিত্রসমূহত উপলব্ধ। ই প্ৰথম কেইবাটাও টোকেনসমূহৰ পৰা অডিঅ' সংশ্লেষণ আৰম্ভ কৰে, ইয়াক ৰিয়েল-টাইম কন্ঠ এজেন্ট আৰু কথোপকথন-থেকে-কথোপকথন পাইপলাইনসমূহৰ বাবে আদর্শ কৰি তোলে। [S1]/[S2] টেগসমূহ আৰু (হাঁহি), (কাহ) ৰ দৰে পৰাভাষিক চিহ্নসমূহৰ সৈতে মাল্টি-স্পীকাৰ কথোপকথন সমৰ্থন কৰে।

                                
                                    
                                        বিকাশক::

                                        Nari Labs
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        স্ট্ৰিমিং আউটপুট
                                        
                                        বহু-স্পীকাৰ
                                        
                                        কম লেটেন্সী
                                        
                                        প্যাৰালিঙ্গুইস্টিক চিহ্ন
                                        
                                        ২ মিনিটলৈকে আউটপুট
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                ৰিয়েল-টাইম ভয়েস এজেন্ট, ডায়ালগ নিৰ্মাণ, ষ্ট্ৰীমিং এপ্লিকেচন
                                
                            
                            
                                
                                    চেষ্টা কৰক Dia 2
                                
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Standard
                            
                            
                                OpenBMB ৰ VoxCPM 1.5 এটা নতুন tokenizer-free TTS মডেল যি বিচ্ছিন্ন টোকেনৰ পৰিবৰ্তে অবিচ্ছিন্ন স্থানত কাম কৰে। ই উচ্চ-সত্যতা 44.1kHz অডিঅ' উৎপাদন কৰে, ৩-১০ ছেকেণ্ডৰ পৰা শূণ্য-শট শব্দ ক্লোনিং সমৰ্থন কৰে, আৰু অনুচ্ছেদসমূহত স্থায়িত্ব বজাই ৰাখে। ক্ৰচ-লেংগুৱেজ ক্লোনিংয়ে ইংৰাজী শব্দ চীনা ভাষালৈ প্ৰয়োগ কৰিব পাৰে আৰু বিপৰীত দিশত।

                                
                                    
                                        বিকাশক::

                                        OpenBMB
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        ৪৪.১kHz অডিঅ'
                                        
                                        টোকেনাইজাৰ-মুক্ত
                                        
                                        ক্ৰস-ভাষা ক্লোনিং
                                        
                                        প্ৰসঙ্গ-সচেতন
                                        
                                        LoRA ফাইন-টুনিং
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                উচ্চ-সত্যতা অডিঅ', অডিঅ'বই, ধ্বনি স্থিতিশীলতাৰ সৈতে লং-ফৰ্ম সমল
                                
                            
                            
                                
                                    চেষ্টা কৰক VoxCPM
                                
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Free
                            
                            
                                OuteTTS-এ মূল আৰ্হি সংৰক্ষণ কৰি টেক্সট-টু-স্পীচ ক্ষমতাৰ সৈতে ডাঙৰ ভাষা মডেলসমূহ বিস্তাৰ কৰে। ই llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, আৰু Transformers.js জৰিয়তে ব্ৰাউছাৰ ইনফৰমেচন সহ একাধিক বেকএন্ড সমৰ্থন কৰে। JSON হিচাপে সংৰক্ষিত স্পীকাৰ প্ৰোফাইলসমূহৰ দ্বাৰা zero-shot voice cloning বৈশিষ্ট্যসমূহ।

                                
                                    
                                        বিকাশক::

                                        OuteAI
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        2GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        মুক্ত
                                    
                                

                                
                                
                                    
                                        
                                        CPU অনুমান
                                        
                                        ব্ৰাউছাৰ অনুমান
                                        
                                        শব্দ ক্লোনিং
                                        
                                        একাধিক বেকএন্ড
                                        
                                        স্পিকারৰ আলেখ্য
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                প্ৰান্তিক প্ৰয়োগ, ব্ৰাউছাৰ-ভিত্তিক TTS, কম সম্পদ বিশিষ্ট পৰিৱেশ
                                
                            
                            
                                
                                    চেষ্টা কৰক OuteTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                TADA
                                Standard
                            
                            
                                Hume AI ৰ TADA (Text-Acoustic Dual Alignment) এটা অগ্ৰণী TTS মডেল যি Llama 3.2 ত নিৰ্মিত এক নতুন দ্বৈত alignment architectural ৰে হুলসিনাসমূহ আঁতৰাই দিয়ে। 1B (ইংৰাজী) আৰু 3B (বহুভাষী) বৈচিত্র্যত উপলব্ধ, TADA এ 0.09 ৰ RTF -5x ত তুলনামূলক LLM-ভিত্তিক TTS মডেলৰ তুলনাত দ্ৰুতভাৱে উপলব্ধ কৰে। ই ৭০০ ছেকেণ্ডৰ অডিঅ' পৰিপ্ৰেক্ষতিত সমৰ্থন কৰে আৰু প্ৰমিত বেঞ্চমাৰ্কত শূণ্য হুলসিনাসমূহৰ সৈতে আবেগিকভাৱে অভিব্যক্তিমূলক কথন প্ৰস্তুত কৰে।

                                
                                    
                                        বিকাশক::

                                        Hume AI
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        5GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        শূণ্য কল্পনা
                                        
                                        LLM TTS ৰ তুলনাত ৫x দ্ৰুত
                                        
                                        আবেগিক অভিব্যক্তি
                                        
                                        700s অডিঅ' প্ৰসঙ্গ
                                        
                                        দ্বৈত সংৰেখন
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                উচ্চমানৰ হ্যালুচিনেশন-ফ্ৰী কথন, আবেগিক অভিব্যক্তি, দ্ৰুত অনুমান
                                
                            
                            
                                
                                    চেষ্টা কৰক TADA
                                
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Standard
                            
                            
                                Microsoft ৰ VibeVoice দুটা বিন্যাসত পোৱা যায়: এটা 1.5B মডেল দীঘল ধৰণৰ বিষয়বস্তুৰ বাবে (৯০ মিনিটলৈকে, ৪ জন কণ্ঠস্বৰ) আৰু এটা ৰিয়েলটাইম 0.5B মডেল ~২০০ms প্ৰথম অডিঅ' লেটেঞ্চিৰ সৈতে ষ্ট্ৰীমিং কৰাৰ বাবে। 1.5B বিন্যাসটো পোডকাষ্ট আৰু অডিঅ'বুকত লম্বা অংশত কণ্ঠস্বৰ স্থিতিশীলতাৰ সৈতে উত্তম। টোকা: Microsoft এ TTS কোডক সংগ্ৰহস্থল থেকে অপসাৰণ কৰিছে আৰু উৎপাদিত অডিঅ'ত শ্রৱণযোগ্য AI disclaimers অন্তৰ্ভুক্ত আছে।

                                
                                    
                                        বিকাশক::

                                        Microsoft
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        বহু-স্পীকাৰ
                                        
                                        ৯০ মিনিট
                                        
                                        পডকাস্ট সৃষ্টি কৰক
                                        
                                        স্পিকারৰ স্থিতিশীলতা
                                        
                                        200ms স্ট্ৰিমিং
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                পডকাস্ট, অডিঅ'বই, লং-ফৰ্ম মাল্টি-স্পীকাৰ বিষয়বস্তু
                                
                            
                            
                                
                                    চেষ্টা কৰক VibeVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Free
                            
                            
                                Kyutai (Moshi ৰ সৃষ্টিকৰ্তা) ৰ Pocket TTS এটা কমপেক্ট ১০০M প্ৰাচল টেক্সট-টু-স্পীচ মডেল যি ইয়াৰ ওজনৰ ওপৰত ভালদৰে কাম কৰে। ই CPU ত সফলতাৰে চলাব পাৰে, এটা অডিঅ' নমুনা পৰা zero-shot voice cloning সমৰ্থন কৰে, আৰু স্বাভাৱিক-স্বৰযুক্ত কথা প্ৰস্তুত কৰে। সৰু মডেলৰ আকাৰ ই ইয়াক এড্‌জ ডিবেলপমেন্ট আৰু কম-সম্পদ পৰিৱেশৰ বাবে আদর্শ কৰে।

                                
                                    
                                        বিকাশক::

                                        Kyutai
                                    
                                    
                                        অনুমতি::

                                        MIT
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, fr
                                    
                                    
                                        VRAM:

                                        1GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        মুক্ত
                                    
                                

                                
                                
                                    
                                        
                                        100M প্ৰাচলসমূহ
                                        
                                        CPU অনুমান
                                        
                                        শব্দ ক্লোনিং
                                        
                                        একক-সামগ্ৰী ক্লোনিং
                                        
                                        প্ৰান্ত-সজ্জিত
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                হালধীয়া প্ৰয়োগ, কেৱল CPU পৰিৱেশ, দ্ৰুত শব্দ ক্লোনিং
                                
                            
                            
                                
                                    চেষ্টা কৰক Pocket TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Free
                            
                            
                                Kitten TTS by KittenML এটা অত্যাধিক হালধীয়া টেক্সট-টু-স্পীচ মডেল যি ONNX ত নিৰ্মিত। ১৫M ৰ পৰা ৮০M প্ৰাচলৰ (ডিস্কত ২৫-৮০ MB) সৈতে, ই GPU ৰ প্ৰয়োজন নোহোৱাকৈ CPU ত উচ্চ-মানৰ শব্দ সংমিশ্ৰণ প্ৰদান কৰে। ৮ টা অন্তৰ্ভুক্ত কৰা শব্দ, সলনি কৰিব পৰা কথাৰ গতি, আৰু সংখ্যা, মুদ্ৰা আৰু এককসমূহৰ বাবে অন্তৰ্ভুক্ত টেক্সট প্ৰিপ্ৰসেসিংৰ বৈশিষ্ট্য। এডিজ ডিবেলপমেন্ট আৰু কম-লেটেন্সি এপ্লিকেচনৰ বাবে আদর্শ।

                                
                                    
                                        বিকাশক::

                                        KittenML
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en
                                    
                                    
                                        VRAM:

                                        0GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         নহয়
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        মুক্ত
                                    
                                

                                
                                
                                    
                                        
                                        কেৱল CPU-ইঞ্চাৰন
                                        
                                        ৮০ মেগাবাইটৰ কম আকাৰ
                                        
                                        ৮ তৈৰিকৃত শব্দ
                                        
                                        গতি নিয়ন্ত্ৰণ
                                        
                                        ONNX-ভিত্তিক
                                        
                                        ২৪kHz আউটপুট
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                দ্ৰুত হালধীয়া TTS, প্ৰান্তিক বিকাশ, কম-লেটেন্সি এপ্লিকেচনসমূহ
                                
                            
                            
                                
                                    চেষ্টা কৰক Kitten TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Standard
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

                                
                                    
                                        বিকাশক::

                                        Alibaba (FunAudioLLM)
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Fast
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh, ja, ko, de, es, fr, it, ru
                                    
                                    
                                        VRAM:

                                        4GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Bi-streaming
                                        
                                        Emotion control
                                        
                                        Voice cloning
                                        
                                        Speed/volume control
                                        
                                        Instruction following
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                Multilingual production TTS, real-time applications, voice cloning
                                
                            
                            
                                
                                    চেষ্টা কৰক CosyVoice3
                                
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS
                                Premium
                            
                            
                                MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

                                
                                    
                                        বিকাশক::

                                        OpenMOSS
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Medium
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
                                    
                                    
                                        VRAM:

                                        16GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Ultra-long generation
                                        
                                        20 languages
                                        
                                        Voice cloning
                                        
                                        Duration control
                                        
                                        Pronunciation control
                                        
                                        Code-switching
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                Audiobooks, long-form content, multilingual production
                                
                            
                            
                                
                                    চেষ্টা কৰক MOSS-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                MegaTTS3
                                Premium
                            
                            
                                MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

                                
                                    
                                        বিকাশক::

                                        ByteDance
                                    
                                    
                                        অনুমতি::

                                        Apache 2.0
                                    
                                    
                                        গতি:

                                        Slow
                                    
                                    
                                        গুণ::

                                        
                                    
                                    
                                        ভাষাসমূহ:

                                        en, zh
                                    
                                    
                                        VRAM:

                                        8GB
                                    
                                    
                                        ধ্বনি ক্লোনিং:

                                         হ্যাঁ
                                    
                                    
                                        প্ৰতি ১K আখৰৰ মূল্য:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Voice cloning
                                        
                                        Adjustable similarity
                                        
                                        Cross-lingual
                                        
                                    
                                
                                

                                
                                সৰ্বোত্তম:: 
                                High-fidelity voice cloning
                                
                            
                            
                                
                                    চেষ্টা কৰক MegaTTS3
                                
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Kokoro
                                মুক্ত
                            
                            
                                Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
                                
                                    বিকাশক::
Hexgrad
                                    অনুমতি::
Apache 2.0
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
                                
                                সৰ্বোত্তম:: High-quality TTS with minimal latency, streaming applications
                            
                            
                                বিনামূল্যে চেষ্টা কৰক
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                মুক্ত
                            
                            
                                Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
                                
                                    বিকাশক::
Rhasspy
                                    অনুমতি::
MIT
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                
                                সৰ্বোত্তম:: Quick previews, accessibility, and embedded applications
                            
                            
                                বিনামূল্যে চেষ্টা কৰক
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                মুক্ত
                            
                            
                                VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
                                
                                    বিকাশক::
Jaehyeon Kim et al.
                                    অনুমতি::
MIT
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ: en, zh, ja, ko
                                
                                সৰ্বোত্তম:: General-purpose text-to-speech with natural prosody
                            
                            
                                বিনামূল্যে চেষ্টা কৰক
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                মুক্ত
                            
                            
                                MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
                                
                                    বিকাশক::
MyShell.ai
                                    অনুমতি::
MIT
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ: en, es, fr, zh, ja, ko
                                
                                সৰ্বোত্তম:: Production applications needing fast, multilingual TTS
                            
                            
                                বিনামূল্যে চেষ্টা কৰক
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                মুক্ত
                            
                            
                                OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
                                
                                    বিকাশক::
OuteAI
                                    অনুমতি::
Apache 2.0
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ: en
                                
                                সৰ্বোত্তম:: Edge deployment, browser-based TTS, low-resource environments
                            
                            
                                বিনামূল্যে চেষ্টা কৰক
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                মুক্ত
                            
                            
                                Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
                                
                                    বিকাশক::
Kyutai
                                    অনুমতি::
MIT
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ: en, fr
                                
                                সৰ্বোত্তম:: Lightweight deployment, CPU-only environments, quick voice cloning
                            
                            
                                বিনামূল্যে চেষ্টা কৰক
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                মুক্ত
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
                                
                                    বিকাশক::
KittenML
                                    অনুমতি::
Apache 2.0
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ: en
                                
                                সৰ্বোত্তম:: Fast lightweight TTS, edge deployment, low-latency applications
                            
                            
                                বিনামূল্যে চেষ্টা কৰক
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Bark
                                অবিকল্পিত
                            
                            
                                Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
                                
                                    বিকাশক::
Suno
                                    অনুমতি::
MIT
                                    গতি:
Slow
                                    গুণ::

                                    ভাষাসমূহ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    ধ্বনি ক্লোনিং:
 নহয়
                                
                                Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
                                সৰ্বোত্তম:: Creative audio content, audiobooks with emotion, sound effects
                            
                            
                                চেষ্টা কৰক Bark
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                অবিকল্পিত
                            
                            
                                Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
                                
                                    বিকাশক::
Suno
                                    অনুমতি::
MIT
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    ধ্বনি ক্লোনিং:
 নহয়
                                
                                LightweightFaster than full BarkEmotional speechMultilingual
                                সৰ্বোত্তম:: Quick creative audio when full Bark is too slow
                            
                            
                                চেষ্টা কৰক Bark Small
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                অবিকল্পিত
                            
                            
                                CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
                                
                                    বিকাশক::
Alibaba (Tongyi Lab)
                                    অনুমতি::
Apache 2.0
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en, zh, ja, ko, fr, de, it, es
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                
                                StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
                                সৰ্বোত্তম:: Real-time applications, streaming TTS, voice assistants
                            
                            
                                চেষ্টা কৰক CosyVoice 2
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                অবিকল্পিত
                            
                            
                                Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
                                
                                    বিকাশক::
Nari Labs
                                    অনুমতি::
Apache 2.0
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en
                                    ধ্বনি ক্লোনিং:
 নহয়
                                
                                Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
                                সৰ্বোত্তম:: Podcasts, audiobook dialogues, conversational content
                            
                            
                                চেষ্টা কৰক Dia TTS
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                অবিকল্পিত
                            
                            
                                Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
                                
                                    বিকাশক::
Hugging Face
                                    অনুমতি::
Apache 2.0
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en
                                    ধ্বনি ক্লোনিং:
 নহয়
                                
                                Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
                                সৰ্বোত্তম:: Creative applications where you need custom voice characteristics
                            
                            
                                চেষ্টা কৰক Parler TTS
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                অবিকল্পিত
                            
                            
                                GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
                                
                                    বিকাশক::
Zhipu AI
                                    অনুমতি::
GLM-4 License
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en, zh
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                
                                Lowest error rateVoice cloningFlow matchingNatural prosody
                                সৰ্বোত্তম:: Applications requiring maximum pronunciation accuracy
                            
                            
                                চেষ্টা কৰক GLM-TTS
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                অবিকল্পিত
                            
                            
                                IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
                                
                                    বিকাশক::
Index Team
                                    অনুমতি::
Bilibili Model License
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en, zh
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                
                                Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
                                সৰ্বোত্তম:: Emotionally expressive content, audiobooks, virtual assistants
                            
                            
                                চেষ্টা কৰক IndexTTS-2
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                অবিকল্পিত
                            
                            
                                Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
                                
                                    বিকাশক::
SparkAudio
                                    অনুমতি::
CC BY-NC-SA 4.0
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en, zh
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                
                                Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
                                সৰ্বোত্তম:: Content creation with cloned voices and emotional control
                            
                            
                                চেষ্টা কৰক Spark TTS
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                অবিকল্পিত
                            
                            
                                GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
                                
                                    বিকাশক::
RVC-Boss
                                    অনুমতি::
MIT
                                    গতি:
Slow
                                    গুণ::

                                    ভাষাসমূহ:
en, zh, ja, ko
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                
                                5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
                                সৰ্বোত্তম:: Voice cloning, singing synthesis, content creator voice replication
                            
                            
                                চেষ্টা কৰক GPT-SoVITS
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                অবিকল্পিত
                            
                            
                                Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
                                
                                    বিকাশক::
Canopy Labs
                                    অনুমতি::
Llama 3.2 Community
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en
                                    ধ্বনি ক্লোনিং:
 নহয়
                                
                                Human-level emotion100K hours trainingNatural emphasisExpressive speech
                                সৰ্বোত্তম:: High-quality emotional speech, audiobooks, voice acting
                            
                            
                                চেষ্টা কৰক Orpheus
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                অবিকল্পিত
                            
                            
                                Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
                                
                                    বিকাশক::
Alibaba (Qwen)
                                    অনুমতি::
Apache 2.0
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en, zh, ja, ko, de, fr, ru, pt, es, it
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                
                                Voice cloning9 preset voicesVoice design from textEmotion control10 languages
                                সৰ্বোত্তম:: Multilingual content with voice cloning or custom voice design
                            
                            
                                চেষ্টা কৰক Qwen3 TTS
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                অবিকল্পিত
                            
                            
                                Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
                                
                                    বিকাশক::
Resemble AI
                                    অনুমতি::
MIT
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ:
en
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                
                                Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
                                সৰ্বোত্তম:: Real-time voice agents, expressive speech with natural sounds
                            
                            
                                চেষ্টা কৰক Chatterbox Turbo
                            
                        
                    
                    
                    
                        
                            
                                Zonos
                                অবিকল্পিত
                            
                            
                                Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
                                
                                    বিকাশক::
Zyphra
                                    অনুমতি::
Apache 2.0
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en, ja, zh, fr, de
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                
                                Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control
                                সৰ্বোত্তম:: Expressive speech with emotion control, voice design studio
                            
                            
                                চেষ্টা কৰক Zonos
                            
                        
                    
                    
                    
                        
                            
                                Dia 2
                                অবিকল্পিত
                            
                            
                                Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
                                
                                    বিকাশক::
Nari Labs
                                    অনুমতি::
Apache 2.0
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ:
en
                                    ধ্বনি ক্লোনিং:
 নহয়
                                
                                Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output
                                সৰ্বোত্তম:: Real-time voice agents, dialogue generation, streaming applications
                            
                            
                                চেষ্টা কৰক Dia 2
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                অবিকল্পিত
                            
                            
                                VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
                                
                                    বিকাশক::
OpenBMB
                                    অনুমতি::
Apache 2.0
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ:
en, zh
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                
                                44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
                                সৰ্বোত্তম:: High-fidelity audio, audiobooks, long-form content with voice consistency
                            
                            
                                চেষ্টা কৰক VoxCPM
                            
                        
                    
                    
                    
                        
                            
                                TADA
                                অবিকল্পিত
                            
                            
                                TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
                                
                                    বিকাশক::
Hume AI
                                    অনুমতি::
MIT
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ:
en
                                    ধ্বনি ক্লোনিং:
 নহয়
                                
                                Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment
                                সৰ্বোত্তম:: High-quality hallucination-free speech, emotional expression, fast inference
                            
                            
                                চেষ্টা কৰক TADA
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                অবিকল্পিত
                            
                            
                                VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
                                
                                    বিকাশক::
Microsoft
                                    অনুমতি::
MIT
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ:
en, zh
                                    ধ্বনি ক্লোনিং:
 নহয়
                                
                                Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
                                সৰ্বোত্তম:: Podcasts, dialogues, long-form narration, multi-speaker content
                            
                            
                                চেষ্টা কৰক VibeVoice
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                অবিকল্পিত
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
                                
                                    বিকাশক::
Alibaba (FunAudioLLM)
                                    অনুমতি::
Apache 2.0
                                    গতি:
Fast
                                    গুণ::

                                    ভাষাসমূহ:
en, zh, ja, ko, de, es, fr, it, ru
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                
                                Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
                                সৰ্বোত্তম:: Multilingual production TTS, real-time applications, voice cloning
                            
                            
                                চেষ্টা কৰক CosyVoice3
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Chatterbox
                                প্ৰিমিয়াম
                            
                            
                                Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.
                                
                                    বিকাশক::
Resemble AI
                                    অনুমতি::
MIT
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                    VRAM:
4GB
                                    প্ৰতি ১K আখৰৰ মূল্য:
4x
                                
                                Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
                                সৰ্বোত্তম:: Professional voice cloning with emotional control, content creation
                            
                            
                                চেষ্টা কৰক Chatterbox
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                প্ৰিমিয়াম
                            
                            
                                Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.
                                
                                    বিকাশক::
James Betker
                                    অনুমতি::
Apache 2.0
                                    গতি:
Slow
                                    গুণ::

                                    ভাষাসমূহ:
en
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                    VRAM:
8GB
                                    প্ৰতি ১K আখৰৰ মূল্য:
4x
                                
                                Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
                                সৰ্বোত্তম:: Audiobooks, premium content, quality-first applications
                            
                            
                                চেষ্টা কৰক Tortoise TTS
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                প্ৰিমিয়াম
                            
                            
                                StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.
                                
                                    বিকাশক::
Columbia University
                                    অনুমতি::
MIT
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en
                                    ধ্বনি ক্লোনিং:
 নহয়
                                    VRAM:
4GB
                                    প্ৰতি ১K আখৰৰ মূল্য:
4x
                                
                                Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
                                সৰ্বোত্তম:: Studio-quality single-speaker synthesis, professional narration
                            
                            
                                চেষ্টা কৰক StyleTTS 2
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                প্ৰিমিয়াম
                            
                            
                                OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.
                                
                                    বিকাশক::
MyShell.ai / MIT
                                    অনুমতি::
MIT
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en, zh, ja, ko, fr, de, es, it
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                    VRAM:
4GB
                                    প্ৰতি ১K আখৰৰ মূল্য:
4x
                                
                                Instant cloningVoice conversionEmotion controlAccent controlMultilingual
                                সৰ্বোত্তম:: Voice cloning with fine-grained style control, voice conversion
                            
                            
                                চেষ্টা কৰক OpenVoice
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                প্ৰিমিয়াম
                            
                            
                                Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.
                                
                                    বিকাশক::
Sesame
                                    অনুমতি::
Apache 2.0
                                    গতি:
Slow
                                    গুণ::

                                    ভাষাসমূহ:
en
                                    ধ্বনি ক্লোনিং:
 নহয়
                                    VRAM:
8GB
                                    প্ৰতি ১K আখৰৰ মূল্য:
4x
                                
                                ConversationalNatural timingTurn-takingBackchannel1B parameters
                                সৰ্বোত্তম:: AI assistants, chatbots, conversational AI applications
                            
                            
                                চেষ্টা কৰক Sesame CSM
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS
                                প্ৰিমিয়াম
                            
                            
                                MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
                                
                                    বিকাশক::
OpenMOSS
                                    অনুমতি::
Apache 2.0
                                    গতি:
Medium
                                    গুণ::

                                    ভাষাসমূহ:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                    VRAM:
16GB
                                    প্ৰতি ১K আখৰৰ মূল্য:
4x
                                
                                Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching
                                সৰ্বোত্তম:: Audiobooks, long-form content, multilingual production
                            
                            
                                চেষ্টা কৰক MOSS-TTS
                            
                        
                    
                    
                    
                        
                            
                                MegaTTS3
                                প্ৰিমিয়াম
                            
                            
                                MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
                                
                                    বিকাশক::
ByteDance
                                    অনুমতি::
Apache 2.0
                                    গতি:
Slow
                                    গুণ::

                                    ভাষাসমূহ:
en, zh
                                    ধ্বনি ক্লোনিং:
 হ্যাঁ
                                    VRAM:
8GB
                                    প্ৰতি ১K আখৰৰ মূল্য:
4x
                                
                                Voice cloningAdjustable similarityCross-lingual
                                সৰ্বোত্তম:: High-fidelity voice cloning
                            
                            
                                চেষ্টা কৰক MegaTTS3
                            
                        
                    
                    
                
            
        

        
        
            আৰ্হি তুলনা টেবুল
            
                
                    
                        
                            আৰ্হি
                            বিকাশক:
                            টাইৰ
                            গুণ:
                            গতি
                            ভাষাসমূহ
                            ধ্বনি ক্লোনিং
                            VRAM
                            অনুমতি:
                            ক্ৰেডিটসমূহ
                            
                        
                    
                    
                        
                        
                            Kokoro
                            Hexgrad
                            Free
                            
                            Fast
                            11
                            
                            1.5GB
                            Apache 2.0
                            মুক্ত
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Piper
                            Rhasspy
                            Free
                            
                            Fast
                            31
                            
                            0 (CPU only)
                            MIT
                            মুক্ত
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            VITS
                            Jaehyeon Kim et al.
                            Free
                            
                            Fast
                            4
                            
                            1GB
                            MIT
                            মুক্ত
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            MeloTTS
                            MyShell.ai
                            Free
                            
                            Fast
                            6
                            
                            0.5GB (GPU optional)
                            MIT
                            মুক্ত
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Bark
                            Suno
                            Standard
                            
                            Slow
                            13
                            
                            5GB
                            MIT
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Bark Small
                            Suno
                            Standard
                            
                            Medium
                            13
                            
                            2GB
                            MIT
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            CosyVoice 2
                            Alibaba (Tongyi Lab)
                            Standard
                            
                            Medium
                            8
                            
                            4GB
                            Apache 2.0
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Dia TTS
                            Nari Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Parler TTS
                            Hugging Face
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            GLM-TTS
                            Zhipu AI
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            GLM-4 License
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            IndexTTS-2
                            Index Team
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            Bilibili Model License
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Spark TTS
                            SparkAudio
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            CC BY-NC-SA 4.0
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            GPT-SoVITS
                            RVC-Boss
                            Standard
                            
                            Slow
                            4
                            
                            6GB
                            MIT
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Orpheus
                            Canopy Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Llama 3.2 Community
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Chatterbox
                            Resemble AI
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Tortoise TTS
                            James Betker
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            StyleTTS 2
                            Columbia University
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            OpenVoice
                            MyShell.ai / MIT
                            Premium
                            
                            Medium
                            8
                            
                            4GB
                            MIT
                            4
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Qwen3 TTS
                            Alibaba (Qwen)
                            Standard
                            
                            Medium
                            10
                            
                            7GB
                            Apache 2.0
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Sesame CSM
                            Sesame
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Chatterbox Turbo
                            Resemble AI
                            Standard
                            
                            Fast
                            1
                            
                            2GB
                            MIT
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Zonos
                            Zyphra
                            Standard
                            
                            Medium
                            5
                            
                            6GB
                            Apache 2.0
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Dia 2
                            Nari Labs
                            Standard
                            
                            Fast
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            VoxCPM
                            OpenBMB
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            Apache 2.0
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            OuteTTS
                            OuteAI
                            Free
                            
                            Fast
                            1
                            
                            2GB
                            Apache 2.0
                            মুক্ত
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            TADA
                            Hume AI
                            Standard
                            
                            Fast
                            1
                            
                            5GB
                            MIT
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            VibeVoice
                            Microsoft
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            MIT
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Pocket TTS
                            Kyutai
                            Free
                            
                            Fast
                            2
                            
                            1GB
                            MIT
                            মুক্ত
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            Kitten TTS
                            KittenML
                            Free
                            
                            Fast
                            1
                            
                            0GB
                            Apache 2.0
                            মুক্ত
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            CosyVoice3
                            Alibaba (FunAudioLLM)
                            Standard
                            
                            Fast
                            9
                            
                            4GB
                            Apache 2.0
                            2
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            MOSS-TTS
                            OpenMOSS
                            Premium
                            
                            Medium
                            19
                            
                            16GB
                            Apache 2.0
                            4
                            ব্যৱহাৰ কৰক
                        
                        
                        
                            MegaTTS3
                            ByteDance
                            Premium
                            
                            Slow
                            2
                            
                            8GB
                            Apache 2.0
                            4
                            ব্যৱহাৰ কৰক
                        
                        
                    
                
            
        
    




    
        
            
                আটাইতকৈ বিস্তৃত AI টেক্সট-টু-স্পীচ প্লেটফৰ্ম

                
                    
                        টেক্সট-টু-স্পিকৰ বাবে কিয় TTS.ai নিৰ্বাচন কৰিব?
                        TTS.ai-এ বিশ্বক একত্ৰিত কৰিছে
                        প্ৰতিটো মডেল MIT, Apache 2.0, অথবা অনুৰূপ অনুমতিমূলক লাইচেঞ্চৰ অধীনত খোলা উৎস, আপোনাৰ প্ৰকল্পত উত্পন্ন অডিঅ' ব্যৱহাৰ কৰিবলৈ আপোনাৰ সম্পূৰ্ণ বাণিজ্যিক অধিকাৰ নিশ্চিত কৰে। আপুনি দ্ৰুত, হালধীয়া সংশ্লেষণৰ প্ৰয়োজন হওক বা অডিঅ'বুক আৰু পডকাষ্টৰ বাবে প্ৰিমিয়াম স্টুডিঅ'-গুণমানৰ আউটপুট হওক, TTS.ai ৰ প্ৰতিটো ব্যৱহাৰৰ ক্ষেত্ৰত সঠিক মডেল আছে।

                        বিনামূলীয়া মডেল, কোনো একাওন্টৰ প্ৰয়োজন নাই
                        তিনিটা বিনামূলীয়া TTS মডেলৰ সৈতে লগে লগে আৰম্ভ কৰক: Piper (অত্যাধিক দ্রুত, হালধীয়া), VITS (উচ্চমানৰ নিউৰাল সংশ্লেষণ), আৰু MeloTTS (বহু-ভাষা সমৰ্থন) । কোনো নিবন্ধন নাই, কোনো ক্ৰেডিট কাৰ্ড নাই, প্ৰজন্মসমূহত কোনো সীমা নাই । বিনামূলীয়া মডেলসমূহ ইংৰাজী আৰু বহুতো আন ভাষা সমৰ্থন কৰে প্ৰায়বোৰ এপ্লিকেচনৰ বাবে উপযুক্ত প্ৰাকৃতিক-স্বৰযুক্ত আউটপুটৰ সৈতে ।
                    
                    
                        GPU-accelerated প্ৰক্ৰিয়াকৰণ
                        সকলো TTS মডেল দ্ৰুত, স্থিতিশীল উৎপাদন সময়ৰ বাবে নিবেদিত NVIDIA GPUs ত চলোৱা হয়। বিনামূলীয়া মডেলসমূহ সাধাৰণতে ২ ছেকেণ্ডত অডিঅ' উৎপাদন কৰে। Kokoro, CosyVoice2এবং Bark ৰ দৰে প্ৰমিত মডেলসমূহ গড়ে ৩-৫ ছেকেণ্ডত। উচ্চমানৰ প্ৰিমিয়াম মডেলসমূহ, যেনে Tortoise আৰু Chatterbox, টেক্সটৰ দৈৰ্ঘ্যৰ ওপৰত নিৰ্ভৰ কৰি ৫-১৫ ছেকেণ্ডত প্ৰক্ৰিয়া কৰে।

                        30+ ভাষা সমৰ্থিত
                        ইংৰাজী, স্পেনিচ, ফৰাচী, জাৰ্মানী, ইতালিয়ান, পৰ্তুগিজ, চীনা, জাপানি, কোৰীয়, আৰবি, হিন্দী, ৰুচীয়, আৰু বহুতো ভাষাত ৩০ ৰো অধিক ভাষাত কথোপকথন সৃষ্টি কৰক। কেইবাটাও মডেলে ক্ৰচ-লেংগুৱেজ সংশ্লেষণ সমৰ্থন কৰে, অৰ্থাৎ আপুনি এটা ভাষাত কথোপকথন সৃষ্টি কৰিব পাৰে যি ভাষাত মূল কথোপকথন প্ৰশিক্ষণ দিয়া হোৱা নাছিল। CosyVoice2এবং GPT-SoVITS ক্ৰচ-লেংগুৱেজ কথোপকথন ক্লোনিংত শ্ৰেষ্ঠ।

                        বিকাশক-সজ্জিত API
                        আমাৰ OpenAI-সমৰ্থিত REST API সহযোগে আপোনাৰ এপ্লিকেচনসমূহত TTS.ai একত্ৰিত কৰক। সকলো 20+ মডেলৰ বাবে এটা শেষ বিন্দু। Python, JavaScript, cURL, আৰু Go SDKs। ৰিয়েল-টাইম এপ্লিকেচনসমূহৰ বাবে ষ্ট্ৰীমিং সমৰ্থন। বৃহৎ পৰিমাণৰ সামগ্ৰী নিৰ্মাণৰ বাবে ব্যাচ প্ৰক্ৰিয়াকৰণ। async অধিসূচনাৰ বাবে Webhooks। Pro আৰু Enterprise প্লানসমূহত উপলব্ধ।
                    
                
            
        
    









    



    
        
        
        অধিক জানক →
        
    










    
        সদায় সোধা প্ৰশ্নসমূহ
        
            
                
                    
                    
                        
                            
                        
                        
                            
                                টেক্সট-টু-স্পীচ (TTS) হৈছে এটা AI প্ৰযুক্তি যি লিখিত টেক্সটক প্ৰাকৃতিক-স্বৰযুক্ত কথোপকথনৰ অডিঅ'লৈ পৰিবৰ্তন কৰে। আধুনিক নিউৰাল TTS মডেলসমূহ যেনে Kokoro, Chatterbox, আৰু CosyVoice2এ গভীৰ শিক্ষা ব্যৱহাৰ কৰে উল্লেখযোগ্যভাৱে মানৱীয় শব্দ, প্ৰাকৃতিক prosody, emotions, আৰু rhythms ৰ সৈতে কথোপকথন প্ৰস্তুত কৰিবলৈ।
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                ই আপোনাৰ প্ৰয়োজনৰ ওপৰত নিৰ্ভৰ কৰে। দ্ৰুত পূৰ্বদৰ্শনৰ বাবে, Piper অথবা MeloTTS (মুক্ত, দ্ৰুত) ব্যৱহাৰ কৰক। উচ্চ মানৰ বাবে, Kokoro অথবা CosyVoice2(প্ৰমিত স্তৰ) চেষ্টা কৰক। ধ্বনি ক্লোন কৰাৰ বাবে, Chatterbox অথবা GPT-SoVITS (প্ৰিমিয়াম) ব্যৱহাৰ কৰক। ডায়ালগ/পডকাস্ট সামগ্ৰীৰ বাবে, Dia TTS চেষ্টা কৰক। প্ৰত্যেক মডেলৰ বিভিন্ন শক্তি আছে - সৰ্বোত্তম উপযুক্ত পোৱাৰ বাবে পৰীক্ষা কৰক।
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                হ্যাঁ! TTS.ai এ Kokoro, Piper, VITS, আৰু MeloTTS মডেলসমূহৰ সৈতে বিনামূলীয়া টেক্সট-টু-স্পীচ প্ৰদান কৰে। ৫০০ আখৰৰ বাবে আৰু প্ৰতি ঘণ্টাত ৩ প্ৰজন্মৰ বাবে কোনো একাওন্টৰ প্ৰয়োজন নাই। ৫০ ক্রেডিট লাভ কৰিবলৈ আৰু সকলো মডেল ব্যৱহাৰ কৰিবলৈ বিনামূলীয়া একাওন্টৰ বাবে নিবন্ধন কৰক।
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                আমাৰ TTS মডেলসমূহে ইংৰাজী, স্পেনিছ, ফৰাচী, জাৰ্মান, ইটালীয়, পৰ্তুগিজ, চীনা, জাপানিজ, কোৰীয়, আৰবী, ৰুচীয়, হিন্দী আৰু আন বহুতো ভাষা সমৰ্থন কৰে। ভাষাৰ উপলব্ধতা মডেল অনুসৰি ভিন্ন হয়।
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                হ্যাঁ, TTS.ai দ্বাৰা নিৰ্মিত অডিঅ' বাণিজ্যিকভাৱে ব্যৱহাৰ কৰা যাব। আমাৰ সকলো মডেল উন্মুক্ত উৎসৰ লাইচেঞ্চ ব্যৱহাৰ কৰে (MIT, Apache 2.0)। নিৰ্দিষ্ট শৰ্তাৱলীৰ বাবে ব্যক্তিগত মডেল লাইচেঞ্চসমূহ পৰীক্ষা কৰক। আমি আপোনাৰ প্ৰকল্পৰ বাবে ব্যৱহাৰ কৰা নিৰ্দিষ্ট মডেলৰ লাইচেঞ্চ পুনৰ পৰীক্ষা কৰাৰ পৰামৰ্শ দিওঁ।
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                TTS.ai এ MP3, WAV, OGG, আৰু FLAC আউটপুট বিন্যাস সমৰ্থন কৰে। ৱেব প্লেব্যাকৰ বাবে MP3 অবিকল্পিত। অডিঅ' প্ৰক্ৰিয়াকৰণৰ বাবে WAV সুপারিশ কৰা হয়। আপুনি আমাৰ অডিঅ' কনভাৰ্টার টুল ব্যৱহাৰ কৰি বিন্যাসসমূহৰ মাজত পৰিবৰ্তন কৰিব পাৰে।
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                শব্দ ক্লোনিংয়ে AI ব্যৱহাৰ কৰি এটা সংক্ষিপ্ত অডিঅ' নমুনা (সাধাৰণতে ৫-৩০ ছেকেণ্ড)ৰ পৰা এটা নিৰ্দিষ্ট শব্দ পুনৰ সৃষ্টি কৰে। লক্ষ্য শব্দৰ এটা সুস্পষ্ট ৰেকৰ্ড আপলোড কৰক, আৰু Chatterbox, GPT-SoVITS, অথবা OpenVoice ৰ দৰে মডেলে সেই শব্দত নতুন শব্দ সৃষ্টি কৰিব। স্বচ্ছ, দীঘল রেফাৰেন্স অডিঅ'ৰ সৈতে গুণমান উন্নত হয়।
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                বিনামূলীয়া ব্যৱহাৰকাৰীয়ে প্ৰতি অনুৰোধত ৫০০ আখৰ সৃষ্টি কৰিব পাৰে। নিবন্ধিত ব্যৱহাৰকাৰীয়ে প্ৰতি অনুৰোধত ৫,০০০ আখৰ লাভ কৰে। দীঘল টেক্সটৰ বাবে, অডিঅ'ক চঙ্কসমূহত সৃষ্টি কৰা হয় আৰু স্বয়ংক্ৰিয়ভাৱে একেলগে সংযুক্ত কৰা হয়। API ব্যৱহাৰকাৰীয়ে প্ৰতি অনুৰোধত ১০,০০০ আখৰ প্ৰক্ৰিয়া কৰিব পাৰে।
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                SSML (Speech Synthesis Markup Language) সমৰ্থন আৰ্হি অনুযায়ী ভিন্ন হয়। Piper আৰু কিছুমান অন্য আৰ্হি মৌলিক SSML টেগসমূহক স্থগিত, জোৰ দিয়া, আৰু উচ্চাৰণ নিয়ন্ত্ৰণৰ বাবে সমৰ্থন কৰে। নেটিভ SSML সমৰ্থন নোহোৱা আৰ্হিসমূহৰ বাবে, আপুনি স্বাভাৱিক বিৰাম-চিহ্ন আৰু শাৰী বিভাজন ব্যৱহাৰ কৰি প্ৰোসোডিক প্ৰভাৱ পেলাব পাৰিব।
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                হ্যাঁ, অধিকাংশ মডেলে 0.5x ৰ পৰা 2.0x লৈ গতি পৰিবৰ্তন সমৰ্থন কৰে। Bark আৰু Parler ৰ দৰে কিছুমান মডেলে পিচ আৰু ষ্টাইল নিয়ন্ত্ৰণও সমৰ্থন কৰে। আপুনি গতি প্ৰাচলসমূহ উন্নত সংহতি পেনেলত বা API গতি প্ৰাচলৰ দ্বাৰা সংহতি কৰিব পাৰে।
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                হ্যাঁ, ব্যাচ প্ৰক্ৰিয়াকৰণ আমাৰ APIৰ দ্বাৰা উপলব্ধ। আপুনি একক API কল অথবা স্ক্ৰিপ্টত একাধিক টেক্সট অংশ প্ৰেৰণ কৰিব পাৰে, আৰু প্ৰতিটো প্ৰক্ৰিয়াকৰণ কৰা হ'ব আৰু পৃথক অডিঅ' নথিপত্ৰ হিচাপে প্ৰেৰিত হ'ব। ই অডিঅ'বুক অধ্যায়, e-learning মডিউল, অথবা গেম ডায়ালগ স্ক্ৰিপ্টৰ বাবে আদর্শ।
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                আপোনাৰ একাওন্ট ড্যাশবোর্ডৰ পৰা এটা API চাবি নিৰ্মাণ কৰক, তাৰ পিছত আপোনাৰ টেক্সট, মডেল, আৰু শব্দ প্ৰাচলসমূহৰ সৈতে আমাৰ REST API এন্ডপয়েন্টলৈ POST অনুৰোধসমূহ প্ৰেৰণ কৰক। আমি Python, JavaScript, আৰু cURL ত কোড উদাহৰণসমূহ প্ৰদান কৰোঁ। APIটো OpenAI-সংগতিপূৰ্ণ, সেয়েহে বৰ্তমান একত্ৰীকৰণসমূহ সৰ্বনিম্ন পৰিবৰ্তনৰ সৈতে কাম কৰে।
                            
                        
                    
                    
                
            
        
    








    
        
            
                
                
                
                
                
                
                
                
                
                
                
                
                
            
            5.0/5 (3)
        
        
            আমি কি উন্নত কৰিব পাৰো? আপোনাৰ মতামত আমাক সমস্যা সমাধানত সহায় কৰে।
            
                
                
                
                
            
            
                
                
            
        
    







    
        টেক্সটক কথোপকথনে ৰূপান্তৰ কৰা এতিয়া আৰম্ভ কৰক
        TTS.ai ব্যৱহাৰ কৰি হাজাৰ হাজাৰ সৃষ্টিকৰ্তাৰ সৈতে যোগদান কৰক। নতুন একাওন্টৰ সৈতে 15,000 বিনামূলীয়া আখৰ লাভ কৰক। নিবন্ধন অবিহনে বিনামূলীয়া মডেল উপলব্ধ।
        
            
            বিনামূল্যে নিবন্ধন কৰক
            মূল্য দেখুৱাওক

বিকাশক:	Alibaba (Qwen)
অনুমতি:	Apache 2.0
গতি	Medium
গুণ:
ভাষাসমূহ	10 ভাষাসমূহ
VRAM	7GB
ধ্বনি ক্লোনিং	সমৰ্থিত

আৰ্হি	বিকাশক:	টাইৰ	গতি	ভাষাসমূহ	VRAM	অনুমতি:	ক্ৰেডিটসমূহ
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	মুক্ত	ব্যৱহাৰ কৰক
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	মুক্ত	ব্যৱহাৰ কৰক
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	মুক্ত	ব্যৱহাৰ কৰক
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	মুক্ত	ব্যৱহাৰ কৰক
Bark	Suno	Standard	Slow	13	5GB	MIT	2	ব্যৱহাৰ কৰক
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	ব্যৱহাৰ কৰক
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	ব্যৱহাৰ কৰক
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	ব্যৱহাৰ কৰক
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	ব্যৱহাৰ কৰক
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	ব্যৱহাৰ কৰক
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	ব্যৱহাৰ কৰক
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	ব্যৱহাৰ কৰক
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	ব্যৱহাৰ কৰক
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	ব্যৱহাৰ কৰক
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	ব্যৱহাৰ কৰক
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	ব্যৱহাৰ কৰক
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	ব্যৱহাৰ কৰক
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	ব্যৱহাৰ কৰক
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	ব্যৱহাৰ কৰক
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	ব্যৱহাৰ কৰক
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	ব্যৱহাৰ কৰক
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	ব্যৱহাৰ কৰক
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	ব্যৱহাৰ কৰক
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	ব্যৱহাৰ কৰক
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	মুক্ত	ব্যৱহাৰ কৰক
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	ব্যৱহাৰ কৰক
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	ব্যৱহাৰ কৰক
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	মুক্ত	ব্যৱহাৰ কৰক
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	মুক্ত	ব্যৱহাৰ কৰক
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	ব্যৱহাৰ কৰক
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	ব্যৱহাৰ কৰক
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	ব্যৱহাৰ কৰক