মুক্ত AI টেক্সট-টু-স্পীচName

82M প্ৰাচলসমূহ অত্যাধিক দ্ৰুত অভিব্যক্তিমূলক শব্দ বহুভাষিক স্ট্ৰিমিং সমৰ্থন

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference

স্থায়ী · 1.5GB VRAM চেষ্টা কৰক

Piper

CPU-friendly অফলাইন সমৰ্থিত ১০০+ শব্দ ভাষাসমূহ SSML সমৰ্থন

Raspberry Pi আৰু অন্তৰ্ভুক্ত ডিভাইচসমূহৰ বাবে অনুকূলিত এটা দ্ৰুত, স্থানীয় নিউৰাল টেক্সট-টু-স্পীচ ব্যৱস্থা ।

স্থায়ী · 0 (CPU only) VRAM চেষ্টা কৰক

VITS

এন্ড-টু-এন্ড সংশ্লেষণ প্ৰাকৃতিক প্ৰোসোডি দ্ৰুত অনুমান একাধিক স্পিকার

End-to-end text-to-speech ৰ বাবে adversarial learning ৰ সৈতে conditional variation autoencoder।

স্থায়ী · 1GB VRAM চেষ্টা কৰক

MeloTTS

CPU-অনুকূলিত বহুভাষিক একাধিক উচ্চাৰণ উৎপাদন-সজ্জিত কম লেটেন্সী

উচ্চমানৰ বহুভাষিক টেক্সট-টু-স্পীচ যি CPU ত সৰ্বনিম্ন লেটেন্সিৰ সৈতে চলায়।

স্থায়ী · 0.5GB (GPU optional) VRAM চেষ্টা কৰক

Bark

শব্দৰ প্ৰভাৱসমূহ হাঁহি/চিঞৰ সঙ্গীত নিৰ্মাণ ১০০+ স্পিকার বহুভাষিক

পৰিবৰ্তন-ভিত্তিক টেক্সট-টু-অডিঅ' মডেল যি বাস্তববাদী বক্তৃতা, সঙ্গীত, আৰু শব্দ প্ৰভাৱসমূহ সৃষ্টি কৰে।

ধীর · 5GB VRAM চেষ্টা কৰক

Bark Small

হালধীয়া সম্পূৰ্ণ বাৰকৰ তুলনাত অধিক দ্রুত আবেগিক ভাষণ বহুভাষিক

দ্ৰুত অনুমান আৰু কম মেমৰি ব্যৱহাৰৰ সৈতে Bark ৰ হালধীয়া সংস্কৰণ।

মধ্যম · 2GB VRAM চেষ্টা কৰক

CosyVoice 2

স্ট্ৰিমিং Zero-shot ক্লোনিং ক্ৰচ-লিঙ্গুইজ ইমোচন নিয়ন্ত্ৰণ হিউম্যান-পেৰিটি

Alibaba ৰ মানৱ-সমান প্ৰাকৃতিকতা আৰু নিকট-শূণ্য লেটেন্সিৰ সৈতে স্কেলেবল ষ্ট্ৰীমিং TTS।

Dia TTS

বহু-স্পীকাৰ ডাইলগ সৃষ্টি কৰক স্বাভাৱিক টৰ্ন-টেকিং আবেগিক অভিব্যক্তি ১.৬B প্ৰাচলসমূহ

মাল্টি-স্পীকাৰ ডাইলগ নিৰ্মাণ মডেল যি স্পীকাৰসমূহৰ মাজত প্ৰাকৃতিক কথোপকথন সৃষ্টি কৰে।

Parler TTS

শব্দৰ বৰ্ণনা স্বাভাৱিক ভাষা নিয়ন্ত্ৰণ নমনীয় কন্ঠ নিৰ্মাণ কোনো প্ৰি-সেট কৰা শব্দৰ প্ৰয়োজন নাই

প্ৰাকৃতিক ভাষাত আপুনি যি ধ্বনি বিচাৰে তাক বৰ্ণনা কৰক আৰু Parler এ মিল থকা ধ্বনি সৃষ্টি কৰিব।

Indic Parler TTS

ভাৰতীয় ভাষাসমূহ শব্দৰ বৰ্ণনা স্বাভাৱিক ভাষা নিয়ন্ত্ৰণ প্ৰকৃত ভাৰতীয় উচ্চাৰণ

প্ৰকৃতিৰ ভাষাৰ কন্ট্রোল সহ ৮+ ভাৰতীয় ভাষাৰ উচ্চমানৰ কথন।

ধীর · 8GB VRAM চেষ্টা কৰক

KhanomTan TTS

থাই TTS একাধিক স্পিকার YourTTS আৰ্হি বাণিজ্যিক-নিৰাপদ লাইচেঞ্চ

স্পিকারৰ শব্দৰ পছন্দৰ সৈতে থাই-প্ৰথম টেক্সট-টু-স্পিকিং।

স্থায়ী · 2GB VRAM চেষ্টা কৰক

IndexTTS-2

ইমোচন নিয়ন্ত্ৰণ জিৰো-শ্বট অনুভূতি ভেক্টৰসমূহ অভিব্যক্তিমূলক কথা সৰু সৰু অংশ বিশিষ্ট নিয়ন্ত্ৰণ

শূণ্য-শট TTS fine-grained অনুভূতি নিয়ন্ত্ৰণ আৰু উচ্চ অভিব্যক্তিৰ সৈতে।

Spark TTS

শব্দ ক্লোনিং ইমোচন নিয়ন্ত্ৰণ শৈলী নিয়ন্ত্ৰণ প্ৰমপ্ট-ভিত্তিক ৫-ছেকেণ্ড ক্লোনিং

কন্ট্ৰোল কৰিব পৰা অনুভূতি আৰু প্ৰমপ্টসমূহৰ দ্বাৰা কথোপকথনৰ শৈলীৰ সৈতে শব্দ ক্লোনিং TTS।

GPT-SoVITS

৫-ছেকেণ্ড ক্লোনিং গাই থকা কণ্ঠ কেইবাটাও শ্বট শিকোৱা উচ্চ বিশ্বাসযোগ্যতা ক্ৰচ-লিঙ্গুইজ

অডিঅ'ৰ কেৱল ৫ ছেকেণ্ডৰ পৰা যিকোনো শব্দৰ প্ৰতিলিপি প্ৰস্তুত কৰা TTS ক্লোনিং কয়েকটা শব্দৰ দ্বাৰা।

ধীর · 6GB VRAM চেষ্টা কৰক

Orpheus

মানৱ-স্তরৰ অনুভূতি ১০০K ঘন্টা প্ৰশিক্ষণ প্ৰাকৃতিক জোৰ অভিব্যক্তিমূলক কথা

১০০K ঘণ্টাৰ কথন তথ্যৰ ওপৰত প্ৰশিক্ষিত মানৱ-স্তরৰ আবেগিক TTS মডেল।

Chatterbox

Zero-shot ক্লোনিং ইমোচন নিয়ন্ত্ৰণ উচ্চ বিশ্বাসযোগ্যতা বিন্যাস স্থানান্তৰ একক নমুনা ক্লোনিং

Resemble AI ৰ পৰা আবেগ নিয়ন্ত্ৰণৰ সৈতে state-of-the-art zero-shot শব্দ ক্লোনিং।

Tortoise TTS

সৰ্বোচ্চ মান বহু-স্বৰ DALL-E স্থাপত্য শব্দ ক্লোনিং স্বয়ংক্ৰিয় ৰেগ্ৰেছন

বহু-ভাষা টেক্সট-টু-স্পীচ স্ব-পৰিবৰ্তনশীল স্থাপত্যৰ সৈতে গুণগত মানত গুৰুত্ব আৰোপ কৰা হৈছে।

ধীর · 8GB VRAM চেষ্টা কৰক

StyleTTS 2

মানৱ-স্তর শৈলী বিকিৰণ প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণ প্ৰাকৃতিক পৰিবৰ্তন উচ্চ বিশ্বাসযোগ্যতা

মানৱ স্তৰৰ টেক্সট-টু-স্পীচ ষ্টাইল প্ৰসাৰণ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণৰ জৰিয়তে।

OpenVoice

তাৎক্ষণিক ক্লোনিং শব্দ পৰিবৰ্তন ইমোচন নিয়ন্ত্ৰণ উচ্চাৰণ নিয়ন্ত্ৰণ বহুভাষিক

শৈলী, অনুভূতি, আৰু উচ্চাৰণৰ ওপৰত granular নিয়ন্ত্ৰণৰ সৈতে তাৎক্ষণিক শব্দ ক্লোনিং।

Qwen3 TTS

শব্দ ক্লোনিং ৯ প্ৰি-সেট ধ্বনি টেক্সটৰ পৰা শব্দ নিৰ্মাণ কৰক ইমোচন নিয়ন্ত্ৰণ

Alibaba ৰ বহুভাষী TTS, যিটোত শব্দ ক্লোনিং, প্ৰাক-নিৰ্ধাৰিত শব্দ, আৰু টেক্সটৰ পৰা শব্দৰ নকশা আছে।

মধ্যম · 7GB VRAM চেষ্টা কৰক

VieNeu-TTS-v2

৭ পূৰ্বদৰ্শিত শব্দ (উত্তৰ + দক্ষিণ উচ্চাৰণ) En-Vi কোড-শ্বিচিং শব্দ ক্লোনিং (৩-৫s সংযোগ) পডকাস্ট / বহু-স্পীকাৰ সমৰ্থন কেৱল CPU - GPU ৰ প্ৰয়োজন নাই

ভিয়েতনামী + ইংৰাজী কোড-শ্বিফিং TTS, ৭টা প্ৰি-সেট কৰা শব্দ আৰু শূণ্য-শট শব্দ ক্লোনিং সহ। কেৱল CPU, GPUৰ প্ৰয়োজন নাই।

স্থায়ী · CPU VRAM চেষ্টা কৰক

Sesame CSM

কথোপকথন প্ৰাকৃতিক সময় টৰ্ন টেকিং বেক-চেনেল ১বি প্ৰাচলসমূহ

উপযুক্ত সময় আৰু অনুভূতিৰ সৈতে প্ৰাকৃতিক বাৰ্তালাপৰ সৃষ্টি কৰা কথোপকথন মডেল।

ধীর · 8GB VRAM চেষ্টা কৰক

Chatterbox Turbo

Sub-200ms লেটেন্সী Paralinguistic টেগসমূহ ৬x ৰিয়েল-টাইম শব্দ ক্লোনিং ওয়াটাৰমাৰ্কিং

Sub-200ms latency ৰ সৈতে দ্ৰুত Chatterbox আৰু হাস্যৰ বাবে paralinguistic ট্যাগ, কাহ, আৰু অধিক।

স্থায়ী · 2GB VRAM চেষ্টা কৰক

VoxCPM

৪৪.১kHz অডিঅ' টোকেনাইজাৰ-মুক্ত ক্ৰস-ভাষা ক্লোনিং প্ৰসঙ্গ-সচেতন LoRA ফাইন-টুনিং

Tokenizer-free TTS প্ৰস্তুত কৰা 44.1kHz অডিঅ' প্ৰসঙ্গ-সচেতন অনুচ্ছেদ স্থিতিশীলতাৰ সৈতে।

স্থায়ী · 4GB VRAM চেষ্টা কৰক

Kani TTS 2

৩ জিবি VRAM অত্যাধিক দ্ৰুত শব্দ ক্লোনিং হালধীয়া NanoCodec

অত্যাধিক হালধীয়া 400M মডেল যি কেৱল 3GB VRAM ত চলিছে আৰু শব্দ ক্লোনিং সমৰ্থন কৰে।

স্থায়ী · 3GB VRAM চেষ্টা কৰক

OuteTTS

CPU অনুমান ব্ৰাউছাৰ অনুমান একাধিক বেকএন্ড স্পিকারৰ আলেখ্য

LLM-ভিত্তিক TTS যি CPU, GPU, অথবা llama.cpp আৰু Transformers.js ৰ দ্বাৰা ব্ৰাউছাৰত চলায়।

ধীর · 2GB VRAM চেষ্টা কৰক

VibeVoice

বহু-স্পীকাৰ ৯০ মিনিট পডকাস্ট সৃষ্টি কৰক স্পিকারৰ স্থিতিশীলতা 200ms স্ট্ৰিমিং

পোডকাস্ট আৰু অডিঅ'বুকৰ দৰে দীৰ্ঘ-আকৃতিৰ বহু-ভাষক সমলসমূহৰ বাবে Microsoft মডেল।

স্থায়ী · 4GB VRAM চেষ্টা কৰক

Pocket TTS

100M প্ৰাচলসমূহ CPU অনুমান শব্দ ক্লোনিং একক-সামগ্ৰী ক্লোনিং প্ৰান্ত-সজ্জিত

এটা একক নমুনাৰ পৰা শব্দ ক্লোনিংৰ সৈতে Kyutai ৰ দ্বাৰা হালধীয়া ১০০M প্ৰাচল মডেল।

স্থায়ী · 1GB VRAM চেষ্টা কৰক

Kitten TTS

কেৱল CPU-ইঞ্চাৰন ৮০ মেগাবাইটৰ কম আকাৰ ৮ তৈৰিকৃত শব্দ গতি নিয়ন্ত্ৰণ ONNX-ভিত্তিক ২৪kHz আউটপুট

80MB ৰ তলত অতি-হালকা TTS। GPU নথকা CPU ত চলাব পাৰি।

স্থায়ী · 0GB VRAM চেষ্টা কৰক

CosyVoice3

দ্বৈত-স্ট্ৰীমিং ইমোচন নিয়ন্ত্ৰণ শব্দ ক্লোনিং গতি/আলো নিয়ন্ত্ৰণ আদেশ অনুসৰণ কৰা হ'ব

দ্বৈত-প্ৰবাহ, অনুভূতি নিয়ন্ত্ৰণ আৰু শূণ্য-শট ভয়েস ক্লোনিং সহ পৰৱৰ্তী প্ৰজন্মৰ বহুভাষী TTS।

স্থায়ী · 4GB VRAM চেষ্টা কৰক

NAMAA Saudi TTS

ছৌদি আৰবীয় উপভাষা আধুনিক প্ৰমিত আৰবি শূণ্য-শট শব্দ ক্লোনিং ইমোচন নিয়ন্ত্ৰণ স্থানীয় উচ্চাৰণ

প্ৰথম খোলা ছৌদি-আৰবি TTS। চাটাৰবক্স-গুণমানৰ শব্দ ক্লোনিং সহ স্থানীয় ছৌদি উপভাষা।

মধ্যম · 6GB VRAM চেষ্টা কৰক

Darwin TTS

শব্দ ক্লোনিং ক্ৰচ-লিঙ্গুইজ FFN-ব্লিন্ডেড ৪টা মূল ভাষা Qwen3 বেকবোন

FFN ওজনৰ সৈতে Qwen3-1.7B ভাষাৰ আৰ্হিৰ পৰা তীক্ষ্ণ বহুভাষিক ক্লোনিংৰ বাবে ক্ৰচ-মোডাল Qwen3-TTS বিকল্প।

মধ্যম · 7GB VRAM চেষ্টা কৰক

MOSS-TTSD

বহু-স্পিকার ডাইলগ ৫ টা স্পিকার ৬০ মিনিটৰ সমন্বিত অডিঅ' শব্দ ক্লোনিং পডকাস্ট অনুকূলকৰণ

বহু-ভাষক সংলাপ অব্যাহত মডেল - ৫ জন স্পিকার আৰু ৬০ মিনিটৰ সমন্বিত অডিঅ'ৰ সৈতে পডকাস্ট-শৈলীৰ কথোপকথন সৃষ্টি কৰক।

মধ্যম · 12GB VRAM চেষ্টা কৰক

Ming-Omni TTS

৪৪.১kHz আউটপুট শব্দ ক্লোনিং ইমোচন নিয়ন্ত্ৰণ উপভাষা নিয়ন্ত্ৰণ BGM সৃষ্টি কৰক কমপ্ৰেছ ০.৫বি

inclusionAI ৰ পৰা উচ্চ-প্ৰতিষ্ঠাৰ ৪৪.১kHz আউটপুট আৰু জিৰো-শ্বট ভয়েস ক্লোনিং সহযোগে কমপেক্ট ০.৫বি অমিনি-মোডাল কথোপকথন মডেল।

মধ্যম · 3GB VRAM চেষ্টা কৰক

MOSS-TTS Nano