মুক্ত AI টেক্সট-টু-স্পীচName
31+ উন্মুক্ত উৎসৰ মডেল, 231+ শব্দ, 34+ ভাষাসমূহ। কোনো একাওন্টৰ প্ৰয়োজন নাই।
Voice AI ৰ বাবে আপোনাৰ প্ৰয়োজনীয় সকলো
উন্মুক্ত উৎস AI মডেল দ্বাৰা শক্তিশালী ৩০+ সঁজুলি
31+ AI শব্দ মডেলসমূহ
এটা প্লেটফৰ্মত মুক্ত উৎসৰ TTS মডেলৰ সৰ্বাধিক বিস্তৃত সংকলন
Kokoro মুক্ত
Kokoro এটা ৮২ মিলিয়ন প্ৰাচলৰ টেক্সট-টু-স্পীচ মডেল যি ইয়াৰ ওজনৰ শ্ৰেণীৰ ওপৰত ভালদৰে কাম কৰে। ইয়াৰ ক্ষুদ্ৰ আকাৰ সত্ত্বেও, ই উল্লেখযোগ্যভাৱে প্ৰাকৃতিক আৰু অভিব্যক্তিমূলক ভাষা প্ৰস্তুত কৰে। Kokoro ইংৰাজী, জাপানী, চীনা আৰু কোৰীয় সহ বহুতো ভাষাক বিভিন্ন অভিব্যক্তিমূলক শব্দৰ সৈতে সমৰ্থন কৰে। ই অভূতপূৰ্বভাৱে দ্ৰুতভাৱে চলি থাকে - এটা GPU ত ৰিয়েল-টাইমৰ তুলনাত প্ৰায় ১০০x দ্ৰুতত অডিঅ' প্ৰস্তুত কৰে।
সৰ্বোত্তম: সৰ্বনিম্ন লেটেন্সিৰ সৈতে উচ্চ-মানৰ TTS, স্ট্ৰিমিং এপ্লিকেচনসমূহ
বিনামূল্যে চেষ্টা কৰক
Piper মুক্ত
Piper এটা হালধীয়া টেক্সট-টু-স্পীচ ইঞ্জিন যি Rhasspy দ্বাৰা উন্নত কৰা হৈছে যি VITS আৰু larynx স্থাপত্যসমূহ ব্যৱহাৰ কৰে। ই সম্পূৰ্ণৰূপে CPU ত চলায়, ই ইয়াক এডজ ডিভাইচ, ঘৰ স্বচালিতকৰণ, আৰু অফলাইন TTS প্ৰয়োজন হোৱা এপ্লিকেচনসমূহৰ বাবে আদর্শ কৰি তোলে। 30+ ভাষাত 100 ৰ অধিক কন্ঠৰ সৈতে, Piper এ এটা Raspberry Pi 4 ৰ ওপৰতো প্ৰকৃত-সময়ৰ গতিৰে প্ৰাকৃতিক-স্বৰযুক্ত কথন প্ৰদান কৰে।
সৰ্বোত্তম: দ্ৰুত পূৰ্বপ্ৰদৰ্শন, অভিগম্যতা আৰু অন্তৰ্ভুক্ত এপ্লিকেচনসমূহ
বিনামূল্যে চেষ্টা কৰক
VITS মুক্ত
VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) হৈছে এটা সমান্তৰাল end-to-end TTS পদ্ধতি যি বৰ্তমান দুটা স্তৰৰ মডেলৰ তুলনাত অধিক প্ৰাকৃতিক সুৰযুক্ত অডিঅ' প্ৰস্তুত কৰে। ই প্ৰাকৃতিকতাত উল্লেখযোগ্য উন্নতি সাধন কৰি স্বাভাৱিকীকৰণ প্ৰবাহ আৰু প্ৰতিদ্বন্দ্বিতামূলক প্ৰশিক্ষণ প্ৰক্ৰিয়াৰ সৈতে বৃদ্ধি কৰা variational inference গ্ৰহণ কৰে।
সৰ্বোত্তম: স্বাভাৱিক প্ৰোসোডিৰ সৈতে সাধাৰণ-উদ্দেশ্যৰ টেক্সট-টু-স্পীচ
বিনামূল্যে চেষ্টা কৰক
MeloTTS মুক্ত
MyShell.ai দ্বাৰা MeloTTS এটা বহুভাষিক TTS লাইব্ৰেৰি যি ইংৰাজী (আমেৰিকান, ব্ৰিটিছ, ভাৰতীয়, অস্ট্ৰেলিয়ান), স্পেনিশ, ফৰাচী, চীনা, জাপানি আৰু কোৰীয় সমৰ্থন কৰে। ই অতি দ্রুত, কেৱল CPU ত প্ৰায় ৰিয়েল-টাইম গতিৰে টেক্সট প্ৰক্ৰিয়াকৰণ কৰে। MeloTTS উৎপাদন ব্যৱহাৰৰ বাবে নিৰ্মিত আৰু CPU আৰু GPU উভয়কে সমৰ্থন কৰে।
সৰ্বোত্তম: দ্ৰুত, বহুভাষিক TTS প্ৰয়োজনীয় উৎপাদন এপ্লিকেচনসমূহ
বিনামূল্যে চেষ্টা কৰক
OuteTTS মুক্ত
OuteTTS-এ মূল আৰ্হি সংৰক্ষণ কৰি টেক্সট-টু-স্পীচ ক্ষমতাৰ সৈতে ডাঙৰ ভাষা মডেলসমূহ বিস্তাৰ কৰে। ই llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, আৰু Transformers.js জৰিয়তে ব্ৰাউছাৰ ইনফৰমেচন সহ একাধিক বেকএন্ড সমৰ্থন কৰে। JSON হিচাপে সংৰক্ষিত স্পীকাৰ প্ৰোফাইলসমূহৰ দ্বাৰা zero-shot voice cloning বৈশিষ্ট্যসমূহ।
সৰ্বোত্তম: প্ৰান্তিক প্ৰয়োগ, ব্ৰাউছাৰ-ভিত্তিক TTS, কম সম্পদ বিশিষ্ট পৰিৱেশ
বিনামূল্যে চেষ্টা কৰক
Pocket TTS মুক্ত
Kyutai (Moshi ৰ সৃষ্টিকৰ্তা) ৰ Pocket TTS এটা কমপেক্ট ১০০M প্ৰাচল টেক্সট-টু-স্পীচ মডেল যি ইয়াৰ ওজনৰ ওপৰত ভালদৰে কাম কৰে। ই CPU ত সফলতাৰে চলাব পাৰে, এটা অডিঅ' নমুনা পৰা zero-shot voice cloning সমৰ্থন কৰে, আৰু স্বাভাৱিক-স্বৰযুক্ত কথা প্ৰস্তুত কৰে। সৰু মডেলৰ আকাৰ ই ইয়াক এড্জ ডিবেলপমেন্ট আৰু কম-সম্পদ পৰিৱেশৰ বাবে আদর্শ কৰে।
সৰ্বোত্তম: হালধীয়া প্ৰয়োগ, কেৱল CPU পৰিৱেশ, দ্ৰুত শব্দ ক্লোনিং
বিনামূল্যে চেষ্টা কৰক
Kitten TTS মুক্ত
Kitten TTS by KittenML এটা অত্যাধিক হালধীয়া টেক্সট-টু-স্পীচ মডেল যি ONNX ত নিৰ্মিত। ১৫M ৰ পৰা ৮০M প্ৰাচলৰ (ডিস্কত ২৫-৮০ MB) সৈতে, ই GPU ৰ প্ৰয়োজন নোহোৱাকৈ CPU ত উচ্চ-মানৰ শব্দ সংমিশ্ৰণ প্ৰদান কৰে। ৮ টা অন্তৰ্ভুক্ত কৰা শব্দ, সলনি কৰিব পৰা কথাৰ গতি, আৰু সংখ্যা, মুদ্ৰা আৰু এককসমূহৰ বাবে অন্তৰ্ভুক্ত টেক্সট প্ৰিপ্ৰসেসিংৰ বৈশিষ্ট্য। এডিজ ডিবেলপমেন্ট আৰু কম-লেটেন্সি এপ্লিকেচনৰ বাবে আদর্শ।
সৰ্বোত্তম: দ্ৰুত হালধীয়া TTS, প্ৰান্তিক বিকাশ, কম-লেটেন্সি এপ্লিকেচনসমূহ
বিনামূল্যে চেষ্টা কৰক
Bark অবিকল্পিত
পৰিবৰ্তন-ভিত্তিক টেক্সট-টু-অডিঅ' মডেল যি বাস্তববাদী বক্তৃতা, সঙ্গীত, আৰু শব্দ প্ৰভাৱসমূহ সৃষ্টি কৰে।
বিকাশক: Suno · অনুমতি: MIT
চেষ্টা কৰক
Bark Small অবিকল্পিত
দ্ৰুত অনুমান আৰু কম মেমৰি ব্যৱহাৰৰ সৈতে Bark ৰ হালধীয়া সংস্কৰণ।
বিকাশক: Suno · অনুমতি: MIT
চেষ্টা কৰক
CosyVoice 2 অবিকল্পিত
Alibaba ৰ মানৱ-সমান প্ৰাকৃতিকতা আৰু নিকট-শূণ্য লেটেন্সিৰ সৈতে স্কেলেবল ষ্ট্ৰীমিং TTS।
বিকাশক: Alibaba (Tongyi Lab) · অনুমতি: Apache 2.0
চেষ্টা কৰক
Dia TTS অবিকল্পিত
মাল্টি-স্পীকাৰ ডাইলগ নিৰ্মাণ মডেল যি স্পীকাৰসমূহৰ মাজত প্ৰাকৃতিক কথোপকথন সৃষ্টি কৰে।
বিকাশক: Nari Labs · অনুমতি: Apache 2.0
চেষ্টা কৰক
Parler TTS অবিকল্পিত
প্ৰাকৃতিক ভাষাত আপুনি যি ধ্বনি বিচাৰে তাক বৰ্ণনা কৰক আৰু Parler এ মিল থকা ধ্বনি সৃষ্টি কৰিব।
বিকাশক: Hugging Face · অনুমতি: Apache 2.0
চেষ্টা কৰক
GLM-TTS অবিকল্পিত
মুক্ত উৎসৰ TTS মডেলসমূহৰ ভিতৰত সৰ্বনিম্ন অক্ষৰ ত্ৰুটিৰ হাৰ প্ৰাপ্ত কৰে।
বিকাশক: Zhipu AI · অনুমতি: GLM-4 License
চেষ্টা কৰক
IndexTTS-2 অবিকল্পিত
শূণ্য-শট TTS fine-grained অনুভূতি নিয়ন্ত্ৰণ আৰু উচ্চ অভিব্যক্তিৰ সৈতে।
বিকাশক: Index Team · অনুমতি: Bilibili Model License
চেষ্টা কৰক
Spark TTS অবিকল্পিত
কন্ট্ৰোল কৰিব পৰা অনুভূতি আৰু প্ৰমপ্টসমূহৰ দ্বাৰা কথোপকথনৰ শৈলীৰ সৈতে শব্দ ক্লোনিং TTS।
বিকাশক: SparkAudio · অনুমতি: CC BY-NC-SA 4.0
চেষ্টা কৰক
GPT-SoVITS অবিকল্পিত
অডিঅ'ৰ কেৱল ৫ ছেকেণ্ডৰ পৰা যিকোনো শব্দৰ প্ৰতিলিপি প্ৰস্তুত কৰা TTS ক্লোনিং কয়েকটা শব্দৰ দ্বাৰা।
বিকাশক: RVC-Boss · অনুমতি: MIT
চেষ্টা কৰক
Orpheus অবিকল্পিত
১০০K ঘণ্টাৰ কথন তথ্যৰ ওপৰত প্ৰশিক্ষিত মানৱ-স্তরৰ আবেগিক TTS মডেল।
বিকাশক: Canopy Labs · অনুমতি: Llama 3.2 Community
চেষ্টা কৰক
Qwen3 TTS অবিকল্পিত
Alibaba ৰ বহুভাষী TTS, যিটোত শব্দ ক্লোনিং, প্ৰাক-নিৰ্ধাৰিত শব্দ, আৰু টেক্সটৰ পৰা শব্দৰ নকশা আছে।
বিকাশক: Alibaba (Qwen) · অনুমতি: Apache 2.0
চেষ্টা কৰক
Chatterbox Turbo অবিকল্পিত
Sub-200ms latency ৰ সৈতে দ্ৰুত Chatterbox আৰু হাস্যৰ বাবে paralinguistic ট্যাগ, কাহ, আৰু অধিক।
বিকাশক: Resemble AI · অনুমতি: MIT
চেষ্টা কৰক
Dia 2 অবিকল্পিত
মাল্টি-স্পীকাৰ ডায়লগ আৰু প্যাৰালিঙ্গুইষ্টিক চিহ্নসমূহৰ সৈতে ষ্ট্ৰীমিং-প্ৰথম কথোপকথন TTS।
বিকাশক: Nari Labs · অনুমতি: Apache 2.0
চেষ্টা কৰক
VoxCPM অবিকল্পিত
Tokenizer-free TTS প্ৰস্তুত কৰা 44.1kHz অডিঅ' প্ৰসঙ্গ-সচেতন অনুচ্ছেদ স্থিতিশীলতাৰ সৈতে।
বিকাশক: OpenBMB · অনুমতি: Apache 2.0
চেষ্টা কৰক
TADA অবিকল্পিত
দ্বৈত-অভিযোজনৰ সৈতে শূণ্য-হলুচিনাইচন TTS, তুলনামূলক LLM TTS ৰ তুলনাত ৫x দ্ৰুত।
বিকাশক: Hume AI · অনুমতি: MIT
চেষ্টা কৰক
VibeVoice অবিকল্পিত
পোডকাস্ট আৰু অডিঅ'বুকৰ দৰে দীৰ্ঘ-আকৃতিৰ বহু-ভাষক সমলসমূহৰ বাবে Microsoft মডেল।
বিকাশক: Microsoft · অনুমতি: MIT
চেষ্টা কৰক
CosyVoice3 অবিকল্পিত
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
বিকাশক: Alibaba (FunAudioLLM) · অনুমতি: Apache 2.0
চেষ্টা কৰক
CosyVoice 2
Alibaba ৰ মানৱ-সমান প্ৰাকৃতিকতা আৰু নিকট-শূণ্য লেটেন্সিৰ সৈতে স্কেলেবল ষ্ট্ৰীমিং TTS।
ভাষা: en, zh, ja, ko, fr, de, it, es
ধ্বনি ক্লোন কৰক
GLM-TTS
মুক্ত উৎসৰ TTS মডেলসমূহৰ ভিতৰত সৰ্বনিম্ন অক্ষৰ ত্ৰুটিৰ হাৰ প্ৰাপ্ত কৰে।
ভাষা: en, zh
ধ্বনি ক্লোন কৰক
IndexTTS-2
শূণ্য-শট TTS fine-grained অনুভূতি নিয়ন্ত্ৰণ আৰু উচ্চ অভিব্যক্তিৰ সৈতে।
ভাষা: en, zh
ধ্বনি ক্লোন কৰক
Spark TTS
কন্ট্ৰোল কৰিব পৰা অনুভূতি আৰু প্ৰমপ্টসমূহৰ দ্বাৰা কথোপকথনৰ শৈলীৰ সৈতে শব্দ ক্লোনিং TTS।
ভাষা: en, zh
ধ্বনি ক্লোন কৰক
GPT-SoVITS
অডিঅ'ৰ কেৱল ৫ ছেকেণ্ডৰ পৰা যিকোনো শব্দৰ প্ৰতিলিপি প্ৰস্তুত কৰা TTS ক্লোনিং কয়েকটা শব্দৰ দ্বাৰা।
ভাষা: en, zh, ja, ko
ধ্বনি ক্লোন কৰক
Chatterbox
Resemble AI ৰ পৰা আবেগ নিয়ন্ত্ৰণৰ সৈতে state-of-the-art zero-shot শব্দ ক্লোনিং।
ভাষা: en
ধ্বনি ক্লোন কৰক
Tortoise TTS
বহু-ভাষা টেক্সট-টু-স্পীচ স্ব-পৰিবৰ্তনশীল স্থাপত্যৰ সৈতে গুণগত মানত গুৰুত্ব আৰোপ কৰা হৈছে।
ভাষা: en
ধ্বনি ক্লোন কৰক
OpenVoice
শৈলী, অনুভূতি, আৰু উচ্চাৰণৰ ওপৰত granular নিয়ন্ত্ৰণৰ সৈতে তাৎক্ষণিক শব্দ ক্লোনিং।
ভাষা: en, zh, ja, ko, fr, de, es, it
ধ্বনি ক্লোন কৰক
Qwen3 TTS
Alibaba ৰ বহুভাষী TTS, যিটোত শব্দ ক্লোনিং, প্ৰাক-নিৰ্ধাৰিত শব্দ, আৰু টেক্সটৰ পৰা শব্দৰ নকশা আছে।
ভাষা: en, zh, ja, ko, de, fr, ru, pt, es, it
ধ্বনি ক্লোন কৰক
Chatterbox Turbo
Sub-200ms latency ৰ সৈতে দ্ৰুত Chatterbox আৰু হাস্যৰ বাবে paralinguistic ট্যাগ, কাহ, আৰু অধিক।
ভাষা: en
ধ্বনি ক্লোন কৰক
VoxCPM
Tokenizer-free TTS প্ৰস্তুত কৰা 44.1kHz অডিঅ' প্ৰসঙ্গ-সচেতন অনুচ্ছেদ স্থিতিশীলতাৰ সৈতে।
ভাষা: en, zh
ধ্বনি ক্লোন কৰক
OuteTTS
LLM-ভিত্তিক TTS যি CPU, GPU, অথবা llama.cpp আৰু Transformers.js ৰ দ্বাৰা ব্ৰাউছাৰত চলায়।
ভাষা: en
ধ্বনি ক্লোন কৰক
Pocket TTS
এটা একক নমুনাৰ পৰা শব্দ ক্লোনিংৰ সৈতে Kyutai ৰ দ্বাৰা হালধীয়া ১০০M প্ৰাচল মডেল।
ভাষা: en, fr
ধ্বনি ক্লোন কৰক
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
ভাষা: en, zh, ja, ko, de, es, fr, it, ru
ধ্বনি ক্লোন কৰক
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
ভাষা: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
ধ্বনি ক্লোন কৰক
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
ভাষা: en, zh
ধ্বনি ক্লোন কৰকবিকাশক-প্ৰথম API
OpenAI-সংগতিপূৰ্ণ REST API। এটা অন্তবিন্দু, ২২+ মডেল। ৰিয়েল-টাইম এপ্লিকেচনৰ বাবে ষ্ট্ৰীমিং সমৰ্থন।
- OpenAI-সুসংগত বিন্যাস
- ৰিয়েল-টাইম এপ্লিকেচনৰ বাবে TTS স্ট্ৰিমিং
- ডাঙৰ কামসমূহৰ বাবে ব্যাচ প্ৰক্ৰিয়াকৰণ
- Webhook অধিসূচনাসমূহ
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
সৰল, স্বচ্ছ মূল্য নিৰ্ধাৰণ
মুক্তভাৱে আৰম্ভ কৰক। বৃদ্ধিৰ লগে লগে স্কেল কৰক।
মুক্ত
৫০ ক্রেডিট
- Kokoro, Piper, VITS, MeloTTS
- ৫০০ আখৰৰ সীমা
- ৩ জন/ঘন্টা (কোনো একাওন্ট নাই)
আৰম্ভ কৰক
৫০০ ক্রেডিট/মাহ
- সকলো ২২+ আৰ্হি
- প্ৰতি প্ৰজন্মে ১০০,০০০ আখৰ
- ধ্বনি ক্লোনিং
প্ৰো
২,০০০ ক্রেডিট/মাহ
- আৰম্ভণিত সকলো
- API অভিগম
- অগ্ৰাধিকাৰ প্ৰক্ৰিয়াকৰণ
সদায় সোধা প্ৰশ্নসমূহ
আমি কি উন্নত কৰিব পাৰো? আপোনাৰ মতামত আমাক সমস্যা সমাধানত সহায় কৰে।
AI Voice আজি ব্যৱহাৰ আৰম্ভ কৰক
TTS.ai ব্যৱহাৰ কৰি সৃষ্টিকৰ্তা, উন্নয়নকাৰী, আৰু ব্যৱসায়ত যোগদান কৰক