মুক্ত AI টেক্সট- থেকে- কথাName
31+ মুক্ত উৎস মডেল, 231+ কন্ঠস্বর, 34+ ভাষা। কোন অ্যাকাউন্ট প্রয়োজন নেই।
ভয়েস এআই-এর জন্য আপনার যা যা প্রয়োজন
উন্মুক্ত-সোর্স AI মডেল দ্বারা চালিত 30+ টুল
31+ AI শব্দ মডেল
একটি প্ল্যাটফর্মে মুক্ত-সোর্স TTS মডেলের সবচেয়ে বিস্তৃত সংগ্রহ
Kokoro Free
কোকোরো একটি ৮২ মিলিয়ন প্যারামিটার টেক্সট-টু-স্পীচ মডেল যা তার ওজন শ্রেণীর চেয়ে অনেক বেশি কাজ করে। এর ছোট আকার সত্ত্বেও, এটি অসাধারণভাবে প্রাকৃতিক এবং অভিব্যক্তিমূলক ভাষা তৈরি করে। কোকোরো একাধিক ভাষা সহায়তা করে, যার মধ্যে ইংরেজি, জাপানি, চীনা এবং কোরীয় রয়েছে। এটি অসাধারণভাবে দ্রুত চলতে পারে - একটি জিপিইউতে বাস্তব সময়ের চেয়ে প্রায় ১০০ গুণ দ্রুত অডিও উত্পাদন করে।
সর্বোত্তম: সর্বনিম্ন latency সহ উচ্চমানের TTS, স্ট্রিমিং অ্যাপ্লিকেশন
বিনামূল্যে চেষ্টা করুন
Piper Free
পাইপার একটি হালকা টেক্সট-টু-স্পিচ ইঞ্জিন যা Rhasspy দ্বারা উন্নত করা হয়েছে এবং VITS এবং larynx স্থাপত্য ব্যবহার করে। এটি সম্পূর্ণরূপে সিপিইউ-তে চলছে, এটিকে প্রান্ত ডিভাইস, হোম অটোমেশন এবং অফলাইন TTS প্রয়োজনীয় অ্যাপ্লিকেশনের জন্য আদর্শ করে তোলে। ৩০+ ভাষার মধ্যে ১০০ এরও বেশি কন্ঠ সহ, পাইপার একটি রাসবেরি পাই ৪-এও বাস্তব-সময়ের গতিতে প্রাকৃতিক-স্বরযুক্ত কথা প্রদান করে।
সর্বোত্তম: দ্রুত প্রাকদর্শন, প্রবেশযোগ্যতা এবং অন্তর্ভুক্ত অ্যাপ্লিকেশন
বিনামূল্যে চেষ্টা করুন
VITS Free
VITS (এন্ড- টু- এন্ড টেক্সট- টু- স্পিকারের জন্য প্রতিদ্বন্দ্বী শিখতে সহযোগিতাকারী বৈচিত্র্যমূলক অনুমান) একটি সমান্তরাল শেষ- থেকে- শেষ TTS পদ্ধতি যা বর্তমান দুই- পর্যায়ের মডেলের চেয়ে আরও প্রাকৃতিক শব্দের অডিও উৎপাদন করে। এটি স্বাভাবিক প্রবাহ এবং প্রতিদ্বন্দ্বী প্রশিক্ষণ প্রক্রিয়ার সাথে উন্নত বৈচিত্র্যমূলক অনুমান গ্রহণ করে, প্রাকৃতিকতার একটি উল্লেখযোগ্য উন্নতি অর্জন করে।
সর্বোত্তম: প্রাকৃতিক প্রসোডির সাথে সাধারণ উদ্দেশ্যে টেক্সট-টু-স্পিকার
বিনামূল্যে চেষ্টা করুন
MeloTTS Free
MyShell.ai দ্বারা MeloTTS একটি বহুভাষিক TTS লাইব্রেরী যা ইংরেজি (আমেরিকান, ব্রিটিশ, ভারতীয়, অস্ট্রেলিয়ান), স্প্যানিশ, ফরাসি, চীনা, জাপানি এবং কোরীয় সমর্থন করে। এটি খুব দ্রুত, শুধুমাত্র সিপিইউ-তে প্রায় বাস্তব-সময়ের গতিতে টেক্সট প্রক্রিয়াকরণ করে। MeloTTS উৎপাদন ব্যবহারের জন্য ডিজাইন করা হয়েছে এবং সিপিইউ এবং জিপিইউ উভয়ই সমর্থন করে।
সর্বোত্তম: দ্রুত, বহুভাষিক TTS প্রয়োজনীয় উৎপাদন অ্যাপ্লিকেশন
বিনামূল্যে চেষ্টা করুন
OuteTTS Free
OuteTTS বড় ভাষা মডেলকে টেক্সট-টু-স্পিকার ক্ষমতার সাথে প্রসারিত করে, কিন্তু মূল স্থাপত্য সংরক্ষণ করে। এটি lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM সহ একাধিক ব্যাকএন্ড সমর্থন করে, এবং Transformers.js এর মাধ্যমে এমনকি ব্রাউজার অনুমানও। JSON হিসাবে সংরক্ষিত স্পিকার প্রোফাইলগুলির মাধ্যমে জিরো-শট ভয়েস ক্লোনিং বৈশিষ্ট্য।
সর্বোত্তম: প্রান্ত বিনির্মাণ, ব্রাউজার ভিত্তিক TTS, কম-সম্পদ পরিবেশ
বিনামূল্যে চেষ্টা করুন
Pocket TTS Free
Kyutai (Moshi-এর সৃষ্টিকর্তা) দ্বারা Pocket TTS একটি কমপ্যাক্ট ১০০M প্যারামিটার টেক্সট-টু-স্পিকার মডেল যা তার ওজনের চেয়ে অনেক বেশি। এটি সিপিইউ-তে দক্ষতার সাথে কাজ করে, একটি অডিও নমুনা থেকে শূন্য-শট ভয়েস ক্লোনিং সমর্থন করে, এবং প্রাকৃতিক-স্বরযুক্ত কথাবার্তা তৈরি করে। ছোট মডেলের আকার এটিকে প্রান্তে প্রয়োগ এবং কম-সম্পদ পরিবেশের জন্য আদর্শ করে তোলে।
সর্বোত্তম: হালকা বিতরণ, CPU-একমাত্র পরিবেশ, দ্রুত ভয়েস ক্লোনিং
বিনামূল্যে চেষ্টা করুন
Kitten TTS Free
KittenML দ্বারা Kitten TTS একটি অত্যধিক হালকা টেক্সট-টু-স্পীচ মডেল যা ONNX-এ নির্মিত। ১৫M থেকে ৮০M প্যারামিটার (ডিস্কে ২৫-৮০ মেগাবাইট) এর মধ্যে বিকল্প সহ, এটি একটি GPU-এর প্রয়োজন ছাড়াই সিপিইউ-তে উচ্চমানের শব্দ সংশ্লেষণ প্রদান করে। ৮টি অভ্যন্তরীণ শব্দ, সংশোধনযোগ্য কথা বলার গতি, এবং সংখ্যা, মুদ্রা এবং এককগুলির জন্য অভ্যন্তরীণ টেক্সট পূর্বপ্রক্রিয়াকরণ বৈশিষ্ট্য। প্রান্তের বিকাশ এবং কম-লাটেন্সি অ্যাপ্লিকেশনের জন্য আদর্শ।
সর্বোত্তম: দ্রুত হালকা TTS, প্রান্ত বিনির্মাণ, কম-লাটেন্সি অ্যাপ্লিকেশন
বিনামূল্যে চেষ্টা করুন
Bark Standard
রূপান্তর-ভিত্তিক টেক্সট-টু-অডিও মডেল যা বাস্তববাদী বক্তৃতা, সঙ্গীত, এবং শব্দ প্রভাব উৎপাদন করে।
ডেভেলপার: Suno · লাইসেন্স: MIT
চেষ্টা করো
Bark Small Standard
দ্রুততর অনুমান এবং কম মেমরি ব্যবহারের সাথে Bark এর হালকা সংস্করণ।
ডেভেলপার: Suno · লাইসেন্স: MIT
চেষ্টা করো
CosyVoice 2 Standard
আলিবাবার মানব-সমান প্রাকৃতিকতা এবং শূন্যের কাছাকাছি ল্যাটেন্সি সহ স্কেলেবল স্ট্রিমিং টিটিএস।
ডেভেলপার: Alibaba (Tongyi Lab) · লাইসেন্স: Apache 2.0
চেষ্টা করো
Dia TTS Standard
মাল্টি-স্পিকার ডায়ালগ প্রজনন মডেল যা স্পিকারের মধ্যে প্রাকৃতিক কথোপকথন তৈরি করে।
ডেভেলপার: Nari Labs · লাইসেন্স: Apache 2.0
চেষ্টা করো
Parler TTS Standard
প্রাকৃতিক ভাষায় আপনি যে শব্দটি চান তা বর্ণনা করুন এবং পালারের মাধ্যমে সেটিকে সঙ্গতিপূর্ণ শব্দে রূপান্তর করা হবে।
ডেভেলপার: Hugging Face · লাইসেন্স: Apache 2.0
চেষ্টা করো
GLM-TTS Standard
মুক্ত উৎস TTS মডেলগুলির মধ্যে সর্বনিম্ন অক্ষর ত্রুটি হার অর্জন করে।
ডেভেলপার: Zhipu AI · লাইসেন্স: GLM-4 License
চেষ্টা করো
IndexTTS-2 Standard
নিরপেক্ষ আবেগ নিয়ন্ত্রণ এবং উচ্চ অভিব্যক্তির সাথে জিরো-শট টিটিএস।
ডেভেলপার: Index Team · লাইসেন্স: Bilibili Model License
চেষ্টা করো
Spark TTS Standard
কন্ট্রোলযোগ্য আবেগ এবং অনুরোধের মাধ্যমে কথা বলার শৈলীর সাথে শব্দ ক্লোনিং TTS।
ডেভেলপার: SparkAudio · লাইসেন্স: CC BY-NC-SA 4.0
চেষ্টা করো
GPT-SoVITS Standard
অডিও থেকে মাত্র ৫ সেকেন্ডের মধ্যে যে কোন শব্দ প্রতিলিপি করার জন্য কয়েকটি শব্দ ক্লোনিং TTS।
ডেভেলপার: RVC-Boss · লাইসেন্স: MIT
চেষ্টা করো
Orpheus Standard
মানব-স্তরের আবেগগত TTS মডেল ১০০K ঘন্টা বক্তৃতা তথ্য প্রশিক্ষণ।
ডেভেলপার: Canopy Labs · লাইসেন্স: Llama 3.2 Community
চেষ্টা করো
Qwen3 TTS Standard
আলিবাবার বহুভাষী টিটিএস, যার সাথে আছে শব্দ ক্লোনিং, পূর্বনির্ধারিত শব্দ এবং লেখা থেকে শব্দ ডিজাইন।
ডেভেলপার: Alibaba (Qwen) · লাইসেন্স: Apache 2.0
চেষ্টা করো
Chatterbox Turbo Standard
সাব-২০০মিলিসেকেন্ডের স্থগিত অবস্থা এবং হাসি, কাশি এবং আরও অনেক কিছুর জন্য প্যারালিঙ্গুইস্টিক ট্যাগ সহ দ্রুত চ্যাটবক্স।
ডেভেলপার: Resemble AI · লাইসেন্স: MIT
চেষ্টা করো
Dia 2 Standard
মাল্টি-স্পিকার ডায়ালগ এবং প্যারালিঙ্গুইস্টিক ইঙ্গিত সহ স্ট্রিমিং-প্রথম কথোপকথন TTS।
ডেভেলপার: Nari Labs · লাইসেন্স: Apache 2.0
চেষ্টা করো
VoxCPM Standard
Tokenizer-free TTS44.1kHz অডিও উৎপাদন করে প্রসঙ্গ-সচেতন অনুচ্ছেদ স্থিতিশীলতার সাথে।
ডেভেলপার: OpenBMB · লাইসেন্স: Apache 2.0
চেষ্টা করো
TADA Standard
টেক্সট-আকুস্টিক দ্বৈত সারণী সহ শূন্য-হ্যালুসিনেশন TTS, তুলনামূলক LLM TTS এর চেয়ে ৫x দ্রুততর।
ডেভেলপার: Hume AI · লাইসেন্স: MIT
চেষ্টা করো
VibeVoice Standard
মাইক্রোসফট মডেল দীর্ঘ-ফর্ম মাল্টি-স্পিকার বিষয়বস্তু যেমন পডকাস্ট এবং অডিওবইয়ের জন্য।
ডেভেলপার: Microsoft · লাইসেন্স: MIT
চেষ্টা করো
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
ডেভেলপার: Alibaba (FunAudioLLM) · লাইসেন্স: Apache 2.0
চেষ্টা করো
CosyVoice 2
আলিবাবার মানব-সমান প্রাকৃতিকতা এবং শূন্যের কাছাকাছি ল্যাটেন্সি সহ স্কেলেবল স্ট্রিমিং টিটিএস।
ভাষা: en, zh, ja, ko, fr, de, it, es
শব্দ ক্লোন করো
GLM-TTS
মুক্ত উৎস TTS মডেলগুলির মধ্যে সর্বনিম্ন অক্ষর ত্রুটি হার অর্জন করে।
ভাষা: en, zh
শব্দ ক্লোন করো
IndexTTS-2
নিরপেক্ষ আবেগ নিয়ন্ত্রণ এবং উচ্চ অভিব্যক্তির সাথে জিরো-শট টিটিএস।
ভাষা: en, zh
শব্দ ক্লোন করো
Spark TTS
কন্ট্রোলযোগ্য আবেগ এবং অনুরোধের মাধ্যমে কথা বলার শৈলীর সাথে শব্দ ক্লোনিং TTS।
ভাষা: en, zh
শব্দ ক্লোন করো
GPT-SoVITS
অডিও থেকে মাত্র ৫ সেকেন্ডের মধ্যে যে কোন শব্দ প্রতিলিপি করার জন্য কয়েকটি শব্দ ক্লোনিং TTS।
ভাষা: en, zh, ja, ko
শব্দ ক্লোন করো
Chatterbox
রিসেম্বেল এআই থেকে আবেগ নিয়ন্ত্রণের সাথে অত্যাধুনিক জিরো-শট ভয়েস ক্লোনিং।
ভাষা: en
শব্দ ক্লোন করো
Tortoise TTS
স্ব-পশ্চাৎপসরণকারী স্থাপত্যের সাথে গুণগত মানকে কেন্দ্র করে বহু-স্বর টেক্সট-টু-স্পিকার।
ভাষা: en
শব্দ ক্লোন করো
OpenVoice
স্টাইল, আবেগ এবং উচ্চারণ উপর granular নিয়ন্ত্রণ সঙ্গে অবিলম্বে ভয়েস ক্লোনিং।
ভাষা: en, zh, ja, ko, fr, de, es, it
শব্দ ক্লোন করো
Qwen3 TTS
আলিবাবার বহুভাষী টিটিএস, যার সাথে আছে শব্দ ক্লোনিং, পূর্বনির্ধারিত শব্দ এবং লেখা থেকে শব্দ ডিজাইন।
ভাষা: en, zh, ja, ko, de, fr, ru, pt, es, it
শব্দ ক্লোন করো
Chatterbox Turbo
সাব-২০০মিলিসেকেন্ডের স্থগিত অবস্থা এবং হাসি, কাশি এবং আরও অনেক কিছুর জন্য প্যারালিঙ্গুইস্টিক ট্যাগ সহ দ্রুত চ্যাটবক্স।
ভাষা: en
শব্দ ক্লোন করো
VoxCPM
Tokenizer-free TTS44.1kHz অডিও উৎপাদন করে প্রসঙ্গ-সচেতন অনুচ্ছেদ স্থিতিশীলতার সাথে।
ভাষা: en, zh
শব্দ ক্লোন করো
OuteTTS
LLM-ভিত্তিক TTS যা CPU, GPU, বা lama.cpp এবং Transformers.js এর মাধ্যমে ব্রাউজার চালায়।
ভাষা: en
শব্দ ক্লোন করো
Pocket TTS
একটি একক নমুনা থেকে শব্দ ক্লোনিং সঙ্গে হালকা ১০০M প্যারামিটার মডেল দ্বারা Kyutai.
ভাষা: en, fr
শব্দ ক্লোন করো
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
ভাষা: en, zh, ja, ko, de, es, fr, it, ru
শব্দ ক্লোন করো
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
ভাষা: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
শব্দ ক্লোন করো
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
ভাষা: en, zh
শব্দ ক্লোন করোডেভেলপার-প্রথম API
OpenAI-র সাথে সামঞ্জস্যপূর্ণ REST API। একটি এন্ডপয়েন্ট, ২২+ মডেল। বাস্তব-সময়ের অ্যাপ্লিকেশনের জন্য স্ট্রিমিং সমর্থন।
- OpenAI-র সাথে সামঞ্জস্যপূর্ণ ফরম্যাট
- রিয়েল-টাইম অ্যাপ্লিকেশনের জন্য স্ট্রিমিং TTS
- বড় কাজের জন্য ব্যাচ প্রসেসিং
- Webhook বিজ্ঞপ্তি
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
সহজ, স্বচ্ছ মূল্য নির্ধারণ
মুক্তভাবে শুরু করো, বড় হও।
মুক্ত
১৫ ক্রেডিট
- Kokoro, Piper, VITS, MeloTTS
- ৫০০ অক্ষরের সীমা
- ৩ জন/ঘন্টা (কোনো অ্যাকাউন্ট নেই)
স্টার্টার
মাসে ৫০০ ক্রেডিট
- সব ২২+ মডেল
- প্রতি প্রজন্মে ১০০,০০০ অক্ষর
- ভয়েস ক্লোন
প্রফেশনাল
২,০০০ ক্রেডিট/মাস
- স্টার্টারে সবকিছু
- API প্রবেশাধিকার
- অগ্রাধিকার প্রসেসিং
ব্যবসা
১০,০০০ ক্রেডিট/মাস
- প্রো-তে সবকিছু
- ব্যাপক API
- অগ্রাধিকার তালিকা
প্রায়শ জিজ্ঞাসিত প্রশ্ন
আমরা কি উন্নতি করতে পারি? আপনার ফিডব্যাক আমাদের সমস্যা সমাধানে সাহায্য করে।
AI Voice ব্যবহার শুরু করুন
TTS.ai ব্যবহার করে সৃষ্টিকর্তা, ডেভেলপার এবং ব্যবসায়ীদের সাথে যোগ দিন