মুক্ত AI টেক্সট- থেকে- কথাName

৮২ এম পরামিতি অত্যাধিক দ্রুত অভিব্যক্তিমূলক আওয়াজ বহুভাষিক স্ট্রিমিং সমর্থন

হালকা 82M প্যারামিটার মডেল স্টুডিও-গুণমানের বক্তৃতা সঙ্গে অগ্নি-দ্রুত অনুমান সরবরাহ.

স্থায়ী · 1.5GB VRAM চেষ্টা করো

Piper

সিপিইউ- বন্ধুত্বপূর্ণ অফলাইন সক্ষম ১০০+ শব্দ ৩৫+ ভাষা SSML সমর্থন

রাসবেরি পাই এবং অন্তর্ভুক্ত ডিভাইসের জন্য একটি দ্রুত, স্থানীয় নিউরাল টেক্সট-টু-স্পিকার সিস্টেম অপ্টিমাইজ করা হয়েছে।

স্থায়ী · 0 (CPU only) VRAM চেষ্টা করো

VITS

শেষ-থেকে-শেষ সংশ্লেষণ প্রাকৃতিক প্রসোডি দ্রুত অনুমান একাধিক স্পিকার

শেষ-থেকে-শেষ টেক্সট-থেকে-ভাষা শেখার জন্য প্রতিদ্বন্দ্বী শিখতে সঙ্গে শর্তগত বৈচিত্র্যপূর্ণ অটোএনকোডার।

স্থায়ী · 1GB VRAM চেষ্টা করো

MeloTTS

সিপিইউ- অপটিমাইজড বহুভাষিক একাধিক উচ্চারণ উৎপাদন- প্রস্তুত কম লেটেন্সি

উচ্চমানের বহুভাষিক টেক্সট-টু-স্পীচ যা সিপিইউ-তে কমপক্ষে latency সহকারে চলছে।

স্থায়ী · 0.5GB (GPU optional) VRAM চেষ্টা করো

Bark

শব্দের প্রভাব হাসি/চিৎকার সঙ্গীত উৎপাদন ১০০+ স্পিকার বহুভাষিক

রূপান্তর-ভিত্তিক টেক্সট-টু-অডিও মডেল যা বাস্তববাদী বক্তৃতা, সঙ্গীত, এবং শব্দ প্রভাব উৎপাদন করে।

ধীর · 5GB VRAM চেষ্টা করো

Bark Small

হালকা সম্পূর্ণ বার্কের চেয়ে দ্রুততর আবেগময় বক্তৃতা বহুভাষিক

দ্রুততর অনুমান এবং কম মেমরি ব্যবহারের সাথে Bark এর হালকা সংস্করণ।

মধ্যম · 2GB VRAM চেষ্টা করো

CosyVoice 2

স্ট্রিমিং জিরো-শট ক্লোনিং ক্রস-লিঙ্গুইজ আবেগ নিয়ন্ত্রণ মানব-সমানতা

আলিবাবার মানব-সমান প্রাকৃতিকতা এবং শূন্যের কাছাকাছি ল্যাটেন্সি সহ স্কেলেবল স্ট্রিমিং টিটিএস।

Dia TTS

মাল্টি স্পিকার ডায়ালগ তৈরি করো স্বাভাবিক ধাক্কা নেওয়া আবেগপ্রবণ অভিব্যক্তি ১. ৬বি পরামিতি

মাল্টি-স্পিকার ডায়ালগ প্রজনন মডেল যা স্পিকারের মধ্যে প্রাকৃতিক কথোপকথন তৈরি করে।

Parler TTS

শব্দের বর্ণনা প্রাকৃতিক ভাষা নিয়ন্ত্রণ নমনীয় কন্ঠ নির্মাণ কোন পূর্বনির্ধারিত শব্দের প্রয়োজন নেই

প্রাকৃতিক ভাষায় আপনি যে শব্দটি চান তা বর্ণনা করুন এবং পালারের মাধ্যমে সেটিকে সঙ্গতিপূর্ণ শব্দে রূপান্তর করা হবে।

Indic Parler TTS

ভারতীয় ভাষাসমূহ শব্দের বর্ণনা প্রাকৃতিক ভাষা নিয়ন্ত্রণ প্রকৃত ইন্ডিয়ান উচ্চারণ

প্রাকৃতিক ভাষার ভয়েস কন্ট্রোল সহ ৮+ ভারতীয় ভাষার জন্য উচ্চমানের কথা।

ধীর · 8GB VRAM চেষ্টা করো

KhanomTan TTS

থাই TTS একাধিক স্পিকার YourTTS স্থাপত্য বাণিজ্যিক নিরাপদ লাইসেন্স

থাই ভাষায় প্রথম টেক্সট-টু-স্পিকার, যেখানে স্পিকারের কণ্ঠস্বর নির্বাচন করা যায়।

স্থায়ী · 2GB VRAM চেষ্টা করো

IndexTTS-2

আবেগ নিয়ন্ত্রণ শূন্য-শট আবেগ ভেক্টর অভিব্যক্তিমূলক কথাবার্তা ফিন- গ্রেনেড কন্ট্রোল

নিরপেক্ষ আবেগ নিয়ন্ত্রণ এবং উচ্চ অভিব্যক্তির সাথে জিরো-শট টিটিএস।

Spark TTS

শব্দের ক্লোন আবেগ নিয়ন্ত্রণ স্টাইল নিয়ন্ত্রণ প্রম্পট ভিত্তিক ৫ সেকেন্ডের ক্লোনিং

কন্ট্রোলযোগ্য আবেগ এবং অনুরোধের মাধ্যমে কথা বলার শৈলীর সাথে শব্দ ক্লোনিং TTS।

GPT-SoVITS

৫ সেকেন্ডের ক্লোনিং গানের আওয়াজ কয়েকটি গুলি শিখতে উচ্চ- বিশ্বাসযোগ্যতা ক্রস- লিঙ্গুইস্টিক

অডিও থেকে মাত্র ৫ সেকেন্ডের মধ্যে যে কোন শব্দ প্রতিলিপি করার জন্য কয়েকটি শব্দ ক্লোনিং TTS।

ধীর · 6GB VRAM চেষ্টা করো

Orpheus

মানব-স্তরের আবেগ ১০০K ঘন্টা প্রশিক্ষণ প্রাকৃতিক গুরুত্ব অভিব্যক্তিমূলক কথাবার্তা

মানব-স্তরের আবেগগত TTS মডেল ১০০K ঘন্টা বক্তৃতা তথ্য প্রশিক্ষণ।

Chatterbox

শূন্য-শট ক্লোনিং আবেগ নিয়ন্ত্রণ উচ্চ- বিশ্বাসযোগ্যতা স্টাইল স্থানান্তর একক নমুনা ক্লোনিং

রিসেম্বেল এআই থেকে আবেগ নিয়ন্ত্রণের সাথে অত্যাধুনিক জিরো-শট ভয়েস ক্লোনিং।

Tortoise TTS

সর্বোচ্চ গুণমান বহু-স্বর DALL-E স্থাপত্য শব্দের ক্লোন স্বয়ংক্রিয়ভাবে হ্রাস করা

স্ব-পশ্চাৎপসরণকারী স্থাপত্যের সাথে গুণগত মানকে কেন্দ্র করে বহু-স্বর টেক্সট-টু-স্পিকার।

ধীর · 8GB VRAM চেষ্টা করো

StyleTTS 2

মানব-স্তর স্টাইল ডিফ্যুশন প্রতিদ্বন্দ্বী প্রশিক্ষণ প্রাকৃতিক বৈচিত্র্য উচ্চ- বিশ্বাসযোগ্যতা

মানব-স্তরের টেক্সট-টু-স্পিকার স্টাইল ডিফেন্স এবং প্রতিদ্বন্দ্বী প্রশিক্ষণের মাধ্যমে।

OpenVoice

অবিলম্বে ক্লোন শব্দ রূপান্তর আবেগ নিয়ন্ত্রণ উচ্চারণ নিয়ন্ত্রণ বহুভাষিক

স্টাইল, আবেগ এবং উচ্চারণ উপর granular নিয়ন্ত্রণ সঙ্গে অবিলম্বে ভয়েস ক্লোনিং।

Qwen3 TTS

৯টি পূর্বনির্ধারিত শব্দ টেক্সট থেকে শব্দের নকশা আবেগ নিয়ন্ত্রণ ১০টি ভাষা

অলিবাবার বহুভাষী টিটিএস, প্রাক-নির্ধারিত কণ্ঠ এবং টেক্সট থেকে কণ্ঠের নকশা।

মধ্যম · 7GB VRAM চেষ্টা করো

VieNeu-TTS-v2

৭টি পূর্বনির্ধারিত শব্দ (উত্তর + দক্ষিণ উচ্চারণ) En-Vi কোড-স্যুইচিং ভয়েস ক্লোনিং (3-5s রেফারেন্স) পডকাস্ট / বহু-স্পিকার সমর্থন শুধুমাত্র CPU — GPU প্রয়োজন নেই

ভিয়েতনামি + ইংরেজি কোড-স্যুইচিং TTS, ৭টি পূর্বনির্ধারিত শব্দ এবং শূন্য-শট শব্দ ক্লোনিং সহ। শুধুমাত্র CPU, GPU প্রয়োজন নেই।

স্থায়ী · CPU VRAM চেষ্টা করো

Sesame CSM

কথাবার্তা প্রাকৃতিক সময় টুর্নামেন্ট বেক- চ্যানেল ১বি পরামিতি

সঙ্গীতের সাথে কথা বলার মডেল, যা প্রাকৃতিক ভাবেই কথা বলার অনুমতি দেয়।

ধীর · 8GB VRAM চেষ্টা করো

Chatterbox Turbo

সাব-২০০মি. সে. লেটেন্সী ট্যাগ ৬x রিয়েল-টাইম শব্দের ক্লোন ওয়াটারমার্ক

সাব-২০০মিলিসেকেন্ডের স্থগিত অবস্থা এবং হাসি, কাশি এবং আরও অনেক কিছুর জন্য প্যারালিঙ্গুইস্টিক ট্যাগ সহ দ্রুত চ্যাটবক্স।

স্থায়ী · 2GB VRAM চেষ্টা করো

VoxCPM

৪৪. ১kHz অডিও টোকেনাইজার-মুক্ত ক্রস- ভাষা ক্লোনিং প্রসঙ্গ-সচেতন LoRA ফিন-টুইনিং

Tokenizer-free TTS44.1kHz অডিও উৎপাদন করে প্রসঙ্গ-সচেতন অনুচ্ছেদ স্থিতিশীলতার সাথে।

স্থায়ী · 4GB VRAM চেষ্টা করো

Kani TTS 2

৩ জিবি ভি- র‌্যাম অত্যাধিক দ্রুত হালকা নানোকোডেক মুক্ত

অতি-হালকা ৪০০ এমবি ইংরেজি টিটিএস মডেল মাত্র ৩ জিবি ভিরামে চলছে।

স্থায়ী · 3GB VRAM চেষ্টা করো

OuteTTS

CPU অনুমান ব্রাউজার অনুমান একাধিক ব্যাক- এন্ড স্পিকার প্রোফাইল

LLM-ভিত্তিক TTS যা CPU, GPU, বা lama.cpp এবং Transformers.js এর মাধ্যমে ব্রাউজার চালায়।

ধীর · 2GB VRAM চেষ্টা করো

VibeVoice

মাল্টি স্পিকার সর্বোচ্চ ৯০ মিনিট পডকাস্ট উৎপাদন স্পিকারের স্থায়িত্ব ২০০মি. সে. স্ট্রিমিং

মাইক্রোসফট মডেল দীর্ঘ-ফর্ম মাল্টি-স্পিকার বিষয়বস্তু যেমন পডকাস্ট এবং অডিওবইয়ের জন্য।

স্থায়ী · 4GB VRAM চেষ্টা করো

Pocket TTS

১০০M পরামিতি CPU অনুমান শব্দের ক্লোন একক-সাম্পল ক্লোনিং প্রান্ত প্রস্তুত

একটি একক নমুনা থেকে শব্দ ক্লোনিং সঙ্গে হালকা ১০০M প্যারামিটার মডেল দ্বারা Kyutai.

স্থায়ী · 1GB VRAM চেষ্টা করো

Kitten TTS

CPU- কেবল অনুমান ৮০ মেগাবাইট- এর কম মডেল মাপ ৮টি অভ্যন্তরীণ শব্দ গতি নিয়ন্ত্রণ ONNX ভিত্তিক ২৪kHz আউটপুট

৮০ মেগাবাইট এর কম আউটলুক TTS। GPU ছাড়া CPU-এ চলবে।

স্থায়ী · 0GB VRAM চেষ্টা করো

CosyVoice3

দ্বৈত-স্ট্রিমিং আবেগ নিয়ন্ত্রণ শব্দের ক্লোন গতি/ভোলিউম নিয়ন্ত্রণ নির্দেশ অনুসরণ করা হচ্ছে

পরবর্তী প্রজন্মের বহুভাষিক TTS, দ্বি-স্ট্রিমিং, আবেগ নিয়ন্ত্রণ এবং শূন্য-শট ভয়েস ক্লোনিং সহ।

স্থায়ী · 4GB VRAM চেষ্টা করো

NAMAA Saudi TTS

সৌদি আরবি উপভাষা আধুনিক প্রমিত আরবি শূন্য-শট ভয়েস ক্লোনিং আবেগ নিয়ন্ত্রণ স্থানীয় উচ্চারণ

প্রথম উন্মুক্ত সৌদি আরবি TTS। চ্যাটবক্স-গুণমানের কণ্ঠ ক্লোনিং সহ স্থানীয় সৌদি উপভাষা।

মধ্যম · 6GB VRAM চেষ্টা করো

Darwin TTS

শব্দের ক্লোন ক্রস- লিঙ্গুইস্টিক FFN-ব্লিন্ডেড ৪টি মূল ভাষা Qwen3 ব্যাকবোন

Qwen3-1.7B ভাষা মডেল থেকে FFN ওজনের সাথে ক্রস-মোডাল Qwen3-TTS বৈচিত্র্যযুক্ত, যা আরও স্পষ্ট বহুভাষিক ক্লোনিংয়ের জন্য।

মধ্যম · 7GB VRAM চেষ্টা করো

MOSS-TTSD

মাল্টি- স্পিকার ডায়ালগ সর্বোচ্চ ৫টি স্পিকার ৬০ মিনিট সমন্বিত অডিও শব্দের ক্লোন পডকাস্ট অপটিমাইজেশন

মাল্টি স্পিকার ডায়ালগ কালচার মডেল - পডকাস্ট-শৈলীর কথাবার্তা তৈরি করুন ৫ জন স্পিকার এবং ৬০ মিনিটের সমন্বিত অডিও সহ।

মধ্যম · 12GB VRAM চেষ্টা করো

Ming-Omni TTS

৪৪. ১kHz আউটপুট শব্দের ক্লোন আবেগ নিয়ন্ত্রণ উপভাষা নিয়ন্ত্রণ BGM উৎপাদন কমপ্যাক্ট ০. ৫বি

inclusionAI থেকে উচ্চ-সত্যতা ৪৪.১kHz আউটপুট এবং শূন্য-শট ভয়েস ক্লোনিং সহ কমপ্যাক্ট ০.৫বি অমিনো-মোডাল স্পিকার মডেল।

মধ্যম · 3GB VRAM চেষ্টা করো

MOSS-TTS Nano