মুক্ত AI টেক্সট- থেকে- কথাName

33+ মুক্ত উৎস মডেল, 273+ কন্ঠস্বর, 33+ ভাষা। কোন অ্যাকাউন্ট প্রয়োজন নেই।

18K+
নির্মাতা
72K+
প্রজন্ম
33+
AI মডেল
273+
আওয়াজ
TTS.ai পছন্দ করেন? আপনার বন্ধুদের বলুন!

ভয়েস এআই-এর জন্য আপনার যা যা প্রয়োজন

উন্মুক্ত-সোর্স AI মডেল দ্বারা চালিত 30+ টুল

33+ AI শব্দ মডেল

একটি প্ল্যাটফর্মে মুক্ত-সোর্স TTS মডেলের সবচেয়ে বিস্তৃত সংগ্রহ

KokoroKokoro মুক্ত

কোকোরো একটি ৮২ মিলিয়ন প্যারামিটার টেক্সট-টু-স্পীচ মডেল যা তার ওজন শ্রেণীর চেয়ে অনেক বেশি কাজ করে। এর ছোট আকার সত্ত্বেও, এটি অসাধারণভাবে প্রাকৃতিক এবং অভিব্যক্তিমূলক ভাষা তৈরি করে। কোকোরো একাধিক ভাষা সহায়তা করে, যার মধ্যে ইংরেজি, জাপানি, চীনা এবং কোরীয় রয়েছে। এটি অসাধারণভাবে দ্রুত চলতে পারে - একটি জিপিইউতে বাস্তব সময়ের চেয়ে প্রায় ১০০ গুণ দ্রুত অডিও উত্পাদন করে।

সর্বোত্তম: সর্বনিম্ন latency সহ উচ্চমানের TTS, স্ট্রিমিং অ্যাপ্লিকেশন

বিনামূল্যে চেষ্টা করুন

PiperPiper মুক্ত

পাইপার একটি হালকা টেক্সট-টু-স্পিচ ইঞ্জিন যা Rhasspy দ্বারা উন্নত করা হয়েছে এবং VITS এবং larynx স্থাপত্য ব্যবহার করে। এটি সম্পূর্ণরূপে সিপিইউ-তে চলছে, এটিকে প্রান্ত ডিভাইস, হোম অটোমেশন এবং অফলাইন TTS প্রয়োজনীয় অ্যাপ্লিকেশনের জন্য আদর্শ করে তোলে। ৩০+ ভাষার মধ্যে ১০০ এরও বেশি কন্ঠ সহ, পাইপার একটি রাসবেরি পাই ৪-এও বাস্তব-সময়ের গতিতে প্রাকৃতিক-স্বরযুক্ত কথা প্রদান করে।

সর্বোত্তম: দ্রুত প্রাকদর্শন, প্রবেশযোগ্যতা এবং অন্তর্ভুক্ত অ্যাপ্লিকেশন

বিনামূল্যে চেষ্টা করুন

VITSVITS মুক্ত

VITS (এন্ড- টু- এন্ড টেক্সট- টু- স্পিকারের জন্য প্রতিদ্বন্দ্বী শিখতে সহযোগিতাকারী বৈচিত্র্যমূলক অনুমান) একটি সমান্তরাল শেষ- থেকে- শেষ TTS পদ্ধতি যা বর্তমান দুই- পর্যায়ের মডেলের চেয়ে আরও প্রাকৃতিক শব্দের অডিও উৎপাদন করে। এটি স্বাভাবিক প্রবাহ এবং প্রতিদ্বন্দ্বী প্রশিক্ষণ প্রক্রিয়ার সাথে উন্নত বৈচিত্র্যমূলক অনুমান গ্রহণ করে, প্রাকৃতিকতার একটি উল্লেখযোগ্য উন্নতি অর্জন করে।

সর্বোত্তম: প্রাকৃতিক প্রসোডির সাথে সাধারণ উদ্দেশ্যে টেক্সট-টু-স্পিকার

বিনামূল্যে চেষ্টা করুন

MeloTTSMeloTTS মুক্ত

MyShell.ai দ্বারা MeloTTS একটি বহুভাষিক TTS লাইব্রেরী যা ইংরেজি (আমেরিকান, ব্রিটিশ, ভারতীয়, অস্ট্রেলিয়ান), স্প্যানিশ, ফরাসি, চীনা, জাপানি এবং কোরীয় সমর্থন করে। এটি খুব দ্রুত, শুধুমাত্র সিপিইউ-তে প্রায় বাস্তব-সময়ের গতিতে টেক্সট প্রক্রিয়াকরণ করে। MeloTTS উৎপাদন ব্যবহারের জন্য ডিজাইন করা হয়েছে এবং সিপিইউ এবং জিপিইউ উভয়ই সমর্থন করে।

সর্বোত্তম: দ্রুত, বহুভাষিক TTS প্রয়োজনীয় উৎপাদন অ্যাপ্লিকেশন

বিনামূল্যে চেষ্টা করুন

Kani TTS 2Kani TTS 2 মুক্ত

নব্বই-নব্বই-ষষ্ঠ দ্বারা Kani-TTS-2 একটি অতি-হালকা ৪০০ এমপি প্যারামিটার মডেল এনভিডিএ NanoCodec সঙ্গে একটি তরল AI LFM2 ব্যাকবোন উপর নির্মিত। এটি মাত্র ৩ জিবি VRAM এবং একটি A100 (RTF 0.2) উপর ~২ সেকেন্ডে ~১০ সেকেন্ডের কথা বলার উৎপাদন করে। বর্তমান জনসাধারণের মুক্তি শুধুমাত্র ইংরেজি `kani-tts-2-en` চেকপোস্ট এবং স্পিকার-embedding হুক প্রকাশ করে না যেটি ভয়েস ক্লোনিং এর জন্য প্রয়োজনীয় - ক্লোনিং এর জন্য Chatterbox / IndexTTS2 / F5-TTS ব্যবহার করুন, বা Kokoro / MeloTTS ইংরেজি নয়।

সর্বোত্তম: কম VRAM হার্ডওয়্যারের উপর দ্রুত ইংরেজি উৎপাদন, দ্রুত প্রাকদর্শন

বিনামূল্যে চেষ্টা করুন

OuteTTSOuteTTS মুক্ত

OuteTTS বড় ভাষা মডেলকে টেক্সট-টু-স্পিকার ক্ষমতার সাথে প্রসারিত করে, কিন্তু মূল স্থাপত্য সংরক্ষণ করে। এটি lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM সহ একাধিক ব্যাকএন্ড সমর্থন করে, এবং Transformers.js এর মাধ্যমে এমনকি ব্রাউজার অনুমানও। JSON হিসাবে সংরক্ষিত স্পিকার প্রোফাইলগুলির মাধ্যমে জিরো-শট ভয়েস ক্লোনিং বৈশিষ্ট্য।

সর্বোত্তম: প্রান্ত বিনির্মাণ, ব্রাউজার ভিত্তিক TTS, কম-সম্পদ পরিবেশ

বিনামূল্যে চেষ্টা করুন

Pocket TTSPocket TTS মুক্ত

Kyutai (Moshi-এর সৃষ্টিকর্তা) দ্বারা Pocket TTS একটি কমপ্যাক্ট ১০০M প্যারামিটার টেক্সট-টু-স্পিকার মডেল যা তার ওজনের চেয়ে অনেক বেশি। এটি সিপিইউ-তে দক্ষতার সাথে কাজ করে, একটি অডিও নমুনা থেকে শূন্য-শট ভয়েস ক্লোনিং সমর্থন করে, এবং প্রাকৃতিক-স্বরযুক্ত কথাবার্তা তৈরি করে। ছোট মডেলের আকার এটিকে প্রান্তে প্রয়োগ এবং কম-সম্পদ পরিবেশের জন্য আদর্শ করে তোলে।

সর্বোত্তম: হালকা বিতরণ, CPU-একমাত্র পরিবেশ, দ্রুত ভয়েস ক্লোনিং

বিনামূল্যে চেষ্টা করুন

Kitten TTSKitten TTS মুক্ত

KittenML দ্বারা Kitten TTS একটি অত্যধিক হালকা টেক্সট-টু-স্পীচ মডেল যা ONNX-এ নির্মিত। ১৫M থেকে ৮০M প্যারামিটার (ডিস্কে ২৫-৮০ মেগাবাইট) এর মধ্যে বিকল্প সহ, এটি একটি GPU-এর প্রয়োজন ছাড়াই সিপিইউ-তে উচ্চমানের শব্দ সংশ্লেষণ প্রদান করে। ৮টি অভ্যন্তরীণ শব্দ, সংশোধনযোগ্য কথা বলার গতি, এবং সংখ্যা, মুদ্রা এবং এককগুলির জন্য অভ্যন্তরীণ টেক্সট পূর্বপ্রক্রিয়াকরণ বৈশিষ্ট্য। প্রান্তের বিকাশ এবং কম-লাটেন্সি অ্যাপ্লিকেশনের জন্য আদর্শ।

সর্বোত্তম: দ্রুত হালকা TTS, প্রান্ত বিনির্মাণ, কম-লাটেন্সি অ্যাপ্লিকেশন

বিনামূল্যে চেষ্টা করুন

Ming-Omni TTSMing-Omni TTS মুক্ত

inclusionAI দ্বারা Ming-omni-tts-0.5B একটি সংকুচিত omni-modal কথা মডেল BailingMM ঘন backbone উপর নির্মিত একটি Patch-by-Patch ফ্লো-মাtching অডিও ডিকোডার সঙ্গে। ৪৪. ১kHz আউটপুট প্রদান করে (CD গুণমানের কাছাকাছি), একটি ৩+ সেকেন্ড রেফারেন্স থেকে শূন্য-শট ভয়েস ক্লোনিং সমর্থন করে, এবং JSON নির্দেশনা দ্বারা অভ্যন্তরীণ আবেগ / উপভাষা / BGM নিয়ন্ত্রণ অন্তর্ভুক্ত করে। চীনা বেঞ্চমার্কে 0.83% WER এর মাধ্যমে অসাধারণ স্থিতিশীলতা।

সর্বোত্তম: উচ্চমানের দ্বিভাষিক বর্ণনা, আবেগ নিয়ন্ত্রিত কণ্ঠ অভিনয়, চীনা অডিওবুকের বিষয়বস্তু

বিনামূল্যে চেষ্টা করুন

MOSS-TTS NanoMOSS-TTS Nano মুক্ত

MOSS-TTS-Nano-100M হল MOSS-TTS পরিবারের OpenMOSS এর কমপ্যাক্ট ১০০এম-প্যারামিটার বৈচিত্র্য, যা দেরি-ট্রান্সফরমার স্থাপত্যের অংশ। 8B মডেলের চূড়ান্ত গুণমানের জন্য ~৮০x ছোট ওজন এবং প্রতি-আবেদনে ভেরামের উল্লেখযোগ্যভাবে কম বিনিময় করে, এটিকে ফ্রি-টিয়ার এবং উচ্চ-থ্রুপুট ডিপ্লোমেশনের জন্য উপযুক্ত করে তোলে। একই ২০-ভাষা সীমিত।

সর্বোত্তম: ফ্রি-টিয়ার TTS, উচ্চ-ভলিউম উৎপাদন, কম-লেটেন্সি মিথস্ক্রিয় ব্যবহার

বিনামূল্যে চেষ্টা করুন

BarkBark ডিফল্ট

রূপান্তর-ভিত্তিক টেক্সট-টু-অডিও মডেল যা বাস্তববাদী বক্তৃতা, সঙ্গীত, এবং শব্দ প্রভাব উৎপাদন করে।

ডেভেলপার: Suno · লাইসেন্স: MIT

চেষ্টা করো

Bark SmallBark Small ডিফল্ট

দ্রুততর অনুমান এবং কম মেমরি ব্যবহারের সাথে Bark এর হালকা সংস্করণ।

ডেভেলপার: Suno · লাইসেন্স: MIT

চেষ্টা করো

CosyVoice 2CosyVoice 2 ডিফল্ট

আলিবাবার মানব-সমান প্রাকৃতিকতা এবং শূন্যের কাছাকাছি ল্যাটেন্সি সহ স্কেলেবল স্ট্রিমিং টিটিএস।

ডেভেলপার: Alibaba (Tongyi Lab) · লাইসেন্স: Apache 2.0

চেষ্টা করো

Dia TTSDia TTS ডিফল্ট

মাল্টি-স্পিকার ডায়ালগ প্রজনন মডেল যা স্পিকারের মধ্যে প্রাকৃতিক কথোপকথন তৈরি করে।

ডেভেলপার: Nari Labs · লাইসেন্স: Apache 2.0

চেষ্টা করো

Parler TTSParler TTS ডিফল্ট

প্রাকৃতিক ভাষায় আপনি যে শব্দটি চান তা বর্ণনা করুন এবং পালারের মাধ্যমে সেটিকে সঙ্গতিপূর্ণ শব্দে রূপান্তর করা হবে।

ডেভেলপার: Hugging Face · লাইসেন্স: Apache 2.0

চেষ্টা করো

IndexTTS-2IndexTTS-2 ডিফল্ট

নিরপেক্ষ আবেগ নিয়ন্ত্রণ এবং উচ্চ অভিব্যক্তির সাথে জিরো-শট টিটিএস।

ডেভেলপার: Index Team · লাইসেন্স: Bilibili Model License

চেষ্টা করো

Spark TTSSpark TTS ডিফল্ট

কন্ট্রোলযোগ্য আবেগ এবং অনুরোধের মাধ্যমে কথা বলার শৈলীর সাথে শব্দ ক্লোনিং TTS।

ডেভেলপার: SparkAudio · লাইসেন্স: CC BY-NC-SA 4.0

চেষ্টা করো

GPT-SoVITSGPT-SoVITS ডিফল্ট

অডিও থেকে মাত্র ৫ সেকেন্ডের মধ্যে যে কোন শব্দ প্রতিলিপি করার জন্য কয়েকটি শব্দ ক্লোনিং TTS।

ডেভেলপার: RVC-Boss · লাইসেন্স: MIT

চেষ্টা করো

OrpheusOrpheus ডিফল্ট

মানব-স্তরের আবেগগত TTS মডেল ১০০K ঘন্টা বক্তৃতা তথ্য প্রশিক্ষণ।

ডেভেলপার: Canopy Labs · লাইসেন্স: Llama 3.2 Community

চেষ্টা করো

Qwen3 TTSQwen3 TTS ডিফল্ট

অলিবাবার বহুভাষী টিটিএস, প্রাক-নির্ধারিত কণ্ঠ এবং টেক্সট থেকে কণ্ঠের নকশা।

ডেভেলপার: Alibaba (Qwen) · লাইসেন্স: Apache 2.0

চেষ্টা করো

VieNeu-TTS-v2VieNeu-TTS-v2 ডিফল্ট

ভিয়েতনামি + ইংরেজি কোড-স্যুইচিং TTS, ৭টি পূর্বনির্ধারিত শব্দ এবং শূন্য-শট শব্দ ক্লোনিং সহ। শুধুমাত্র CPU, GPU প্রয়োজন নেই।

ডেভেলপার: Phạm Nguyễn Ngọc Bảo · লাইসেন্স: Apache 2.0

চেষ্টা করো

Chatterbox TurboChatterbox Turbo ডিফল্ট

সাব-২০০মিলিসেকেন্ডের স্থগিত অবস্থা এবং হাসি, কাশি এবং আরও অনেক কিছুর জন্য প্যারালিঙ্গুইস্টিক ট্যাগ সহ দ্রুত চ্যাটবক্স।

ডেভেলপার: Resemble AI · লাইসেন্স: MIT

চেষ্টা করো

VoxCPMVoxCPM ডিফল্ট

Tokenizer-free TTS44.1kHz অডিও উৎপাদন করে প্রসঙ্গ-সচেতন অনুচ্ছেদ স্থিতিশীলতার সাথে।

ডেভেলপার: OpenBMB · লাইসেন্স: Apache 2.0

চেষ্টা করো

VibeVoiceVibeVoice ডিফল্ট

মাইক্রোসফট মডেল দীর্ঘ-ফর্ম মাল্টি-স্পিকার বিষয়বস্তু যেমন পডকাস্ট এবং অডিওবইয়ের জন্য।

ডেভেলপার: Microsoft · লাইসেন্স: MIT

চেষ্টা করো

CosyVoice3CosyVoice3 ডিফল্ট

পরবর্তী প্রজন্মের বহুভাষিক TTS, দ্বি-স্ট্রিমিং, আবেগ নিয়ন্ত্রণ এবং শূন্য-শট ভয়েস ক্লোনিং সহ।

ডেভেলপার: Alibaba (FunAudioLLM) · লাইসেন্স: Apache 2.0

চেষ্টা করো

NAMAA Saudi TTSNAMAA Saudi TTS ডিফল্ট

প্রথম উন্মুক্ত সৌদি আরবি TTS। চ্যাটবক্স-গুণমানের কণ্ঠ ক্লোনিং সহ স্থানীয় সৌদি উপভাষা।

ডেভেলপার: NAMAA Space · লাইসেন্স: MIT

চেষ্টা করো

Darwin TTSDarwin TTS ডিফল্ট

Qwen3-1.7B ভাষা মডেল থেকে FFN ওজনের সাথে ক্রস-মোডাল Qwen3-TTS বৈচিত্র্যযুক্ত, যা আরও স্পষ্ট বহুভাষিক ক্লোনিংয়ের জন্য।

ডেভেলপার: FINAL-Bench · লাইসেন্স: Apache 2.0

চেষ্টা করো

MOSS-TTSDMOSS-TTSD ডিফল্ট

মাল্টি স্পিকার ডায়ালগ কালচার মডেল - পডকাস্ট-শৈলীর কথাবার্তা তৈরি করুন ৫ জন স্পিকার এবং ৬০ মিনিটের সমন্বিত অডিও সহ।

ডেভেলপার: OpenMOSS · লাইসেন্স: Apache 2.0

চেষ্টা করো

ChatterboxChatterbox প্রাইম

রিসেম্বেল এআই থেকে আবেগ নিয়ন্ত্রণের সাথে অত্যাধুনিক জিরো-শট ভয়েস ক্লোনিং।

গুণমান:

চেষ্টা করো

Tortoise TTSTortoise TTS প্রাইম

স্ব-পশ্চাৎপসরণকারী স্থাপত্যের সাথে গুণগত মানকে কেন্দ্র করে বহু-স্বর টেক্সট-টু-স্পিকার।

গুণমান:

চেষ্টা করো

StyleTTS 2StyleTTS 2 প্রাইম

মানব-স্তরের টেক্সট-টু-স্পিকার স্টাইল ডিফেন্স এবং প্রতিদ্বন্দ্বী প্রশিক্ষণের মাধ্যমে।

গুণমান:

চেষ্টা করো

OpenVoiceOpenVoice প্রাইম

স্টাইল, আবেগ এবং উচ্চারণ উপর granular নিয়ন্ত্রণ সঙ্গে অবিলম্বে ভয়েস ক্লোনিং।

গুণমান:

চেষ্টা করো

Sesame CSMSesame CSM প্রাইম

সঙ্গীতের সাথে কথা বলার মডেল, যা প্রাকৃতিক ভাবেই কথা বলার অনুমতি দেয়।

গুণমান:

চেষ্টা করো

CosyVoice 2CosyVoice 2

আলিবাবার মানব-সমান প্রাকৃতিকতা এবং শূন্যের কাছাকাছি ল্যাটেন্সি সহ স্কেলেবল স্ট্রিমিং টিটিএস।

ভাষা: en, zh, ja, ko, fr, de, it, es

শব্দ ক্লোন করো

IndexTTS-2IndexTTS-2

নিরপেক্ষ আবেগ নিয়ন্ত্রণ এবং উচ্চ অভিব্যক্তির সাথে জিরো-শট টিটিএস।

ভাষা: en, zh

শব্দ ক্লোন করো

Spark TTSSpark TTS

কন্ট্রোলযোগ্য আবেগ এবং অনুরোধের মাধ্যমে কথা বলার শৈলীর সাথে শব্দ ক্লোনিং TTS।

ভাষা: en, zh

শব্দ ক্লোন করো

GPT-SoVITSGPT-SoVITS

অডিও থেকে মাত্র ৫ সেকেন্ডের মধ্যে যে কোন শব্দ প্রতিলিপি করার জন্য কয়েকটি শব্দ ক্লোনিং TTS।

ভাষা: en, zh, ja, ko

শব্দ ক্লোন করো

ChatterboxChatterbox

রিসেম্বেল এআই থেকে আবেগ নিয়ন্ত্রণের সাথে অত্যাধুনিক জিরো-শট ভয়েস ক্লোনিং।

ভাষা: en

শব্দ ক্লোন করো

Tortoise TTSTortoise TTS

স্ব-পশ্চাৎপসরণকারী স্থাপত্যের সাথে গুণগত মানকে কেন্দ্র করে বহু-স্বর টেক্সট-টু-স্পিকার।

ভাষা: en

শব্দ ক্লোন করো

OpenVoiceOpenVoice

স্টাইল, আবেগ এবং উচ্চারণ উপর granular নিয়ন্ত্রণ সঙ্গে অবিলম্বে ভয়েস ক্লোনিং।

ভাষা: en, zh, ja, ko, fr, es

শব্দ ক্লোন করো

VieNeu-TTS-v2VieNeu-TTS-v2

ভিয়েতনামি + ইংরেজি কোড-স্যুইচিং TTS, ৭টি পূর্বনির্ধারিত শব্দ এবং শূন্য-শট শব্দ ক্লোনিং সহ। শুধুমাত্র CPU, GPU প্রয়োজন নেই।

ভাষা: vi, en

শব্দ ক্লোন করো

Chatterbox TurboChatterbox Turbo

সাব-২০০মিলিসেকেন্ডের স্থগিত অবস্থা এবং হাসি, কাশি এবং আরও অনেক কিছুর জন্য প্যারালিঙ্গুইস্টিক ট্যাগ সহ দ্রুত চ্যাটবক্স।

ভাষা: en

শব্দ ক্লোন করো

VoxCPMVoxCPM

Tokenizer-free TTS44.1kHz অডিও উৎপাদন করে প্রসঙ্গ-সচেতন অনুচ্ছেদ স্থিতিশীলতার সাথে।

ভাষা: en, zh

শব্দ ক্লোন করো

OuteTTSOuteTTS

LLM-ভিত্তিক TTS যা CPU, GPU, বা lama.cpp এবং Transformers.js এর মাধ্যমে ব্রাউজার চালায়।

ভাষা: en

শব্দ ক্লোন করো

Pocket TTSPocket TTS

একটি একক নমুনা থেকে শব্দ ক্লোনিং সঙ্গে হালকা ১০০M প্যারামিটার মডেল দ্বারা Kyutai.

ভাষা: en, fr

শব্দ ক্লোন করো

CosyVoice3CosyVoice3

পরবর্তী প্রজন্মের বহুভাষিক TTS, দ্বি-স্ট্রিমিং, আবেগ নিয়ন্ত্রণ এবং শূন্য-শট ভয়েস ক্লোনিং সহ।

ভাষা: en, zh, ja, ko, de, es, fr, it, ru

শব্দ ক্লোন করো

NAMAA Saudi TTSNAMAA Saudi TTS

প্রথম উন্মুক্ত সৌদি আরবি TTS। চ্যাটবক্স-গুণমানের কণ্ঠ ক্লোনিং সহ স্থানীয় সৌদি উপভাষা।

ভাষা: ar

শব্দ ক্লোন করো

Darwin TTSDarwin TTS

Qwen3-1.7B ভাষা মডেল থেকে FFN ওজনের সাথে ক্রস-মোডাল Qwen3-TTS বৈচিত্র্যযুক্ত, যা আরও স্পষ্ট বহুভাষিক ক্লোনিংয়ের জন্য।

ভাষা: en, ko, ja, zh

শব্দ ক্লোন করো

MOSS-TTSDMOSS-TTSD

মাল্টি স্পিকার ডায়ালগ কালচার মডেল - পডকাস্ট-শৈলীর কথাবার্তা তৈরি করুন ৫ জন স্পিকার এবং ৬০ মিনিটের সমন্বিত অডিও সহ।

ভাষা: en, zh

শব্দ ক্লোন করো

Ming-Omni TTSMing-Omni TTS

inclusionAI থেকে উচ্চ-সত্যতা ৪৪.১kHz আউটপুট এবং শূন্য-শট ভয়েস ক্লোনিং সহ কমপ্যাক্ট ০.৫বি অমিনো-মোডাল স্পিকার মডেল।

ভাষা: en, zh

শব্দ ক্লোন করো

MOSS-TTS NanoMOSS-TTS Nano

ছোট ১০০M MOSS-TTS সংস্করণ — একই স্থাপত্য, ৮০x ছোট, ফ্রি-টিয়ার লেটেন্সি।

ভাষা: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

শব্দ ক্লোন করো

ডেভেলপার-প্রথম API

OpenAI-র সাথে সামঞ্জস্যপূর্ণ REST API। একটি এন্ডপয়েন্ট, ২২+ মডেল। বাস্তব-সময়ের অ্যাপ্লিকেশনের জন্য স্ট্রিমিং সমর্থন।

  • OpenAI-র সাথে সামঞ্জস্যপূর্ণ ফরম্যাট
  • রিয়েল-টাইম অ্যাপ্লিকেশনের জন্য স্ট্রিমিং TTS
  • বড় কাজের জন্য ব্যাচ প্রসেসিং
  • Webhook বিজ্ঞপ্তি
API ডকুমেন্টেশন প্রদর্শন করুন
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

সহজ, স্বচ্ছ মূল্য নির্ধারণ

মুক্তভাবে শুরু করো, বড় হও।

মুক্ত

$0

১৫,০০০ অক্ষর + ৫,০০০/দিন

  • কোকোরো সহ ৭টি বিনামূল্যে মডেল
  • প্রতি প্রজন্মে ৫,০০০ অক্ষর
  • API প্রবেশাধিকার অন্তর্ভুক্ত
নিবন্ধন করুন

স্টার্টার

$9/% 1 সেকেন্ড

মাসে ৫০০ ক্রেডিট

  • সব ২২+ মডেল
  • প্রতি প্রজন্মে ১০০,০০০ অক্ষর
  • ভয়েস ক্লোন
শুরু করো
সবচেয়ে জনপ্রিয়

প্রফেশনাল

$29/% 1 সেকেন্ড

২,০০০ ক্রেডিট/মাস

  • স্টার্টারে সবকিছু
  • API প্রবেশাধিকার
  • অগ্রাধিকার প্রসেসিং
প্রফেশনাল হয়ে যাও

ব্যবসা

$99/% 1 সেকেন্ড

১০,০০০ ক্রেডিট/মাস

  • প্রো-তে সবকিছু
  • ব্যাপক API
  • অগ্রাধিকার তালিকা
ব্যবসায়িক তথ্য

ক্রেডিট প্যাক সহ সব পরিকল্পনা দেখুন →

প্রায়শ জিজ্ঞাসিত প্রশ্ন

TTS.ai সবচেয়ে বিস্তৃত AI শব্দ প্ল্যাটফর্ম, ২২+ টেক্সট-টু-স্পিকার মডেল, শব্দ ক্লোনিং, শব্দ-টু-স্পিকার, এবং অডিও সরঞ্জাম প্রদান করে। সব মডেল উন্মুক্ত উৎস, কোন বিক্রেতা লক-ইন নেই।

হ্যাঁ! TTS.ai কোকোরো, পাইপার, ভিটিএস এবং মেলোটিটিএস মডেলের সাথে বিনামূল্যে টেক্সট-টু-স্পিকার প্রদান করে। কোন অ্যাকাউন্টের প্রয়োজন নেই। ১৫টি বিনামূল্যে ক্রেডিট এবং সমস্ত মডেল ব্যবহারের জন্য নিবন্ধন করুন। বিনামূল্যে পরিকল্পনা শুরু হয় $9/মাস।

গতি বাড়াতে Kokoro অথবা Piper ব্যবহার করুন। গুণগত মান বাড়াতে CosyVoice2অথবা StyleTTS2ব্যবহার করুন। শব্দের ক্লোন তৈরি করতে Chatterbox অথবা GPT-SoVITS ব্যবহার করুন। ডায়ালগ করার জন্য Dia TTS ব্যবহার করুন। একই টেক্সটের উপর একাধিক মডেল ব্যবহার করে তুলনা করুন।

হ্যাঁ। TTS, STT, ভয়েস ক্লোনিং এবং অডিও টুলস-এর জন্য OpenAI-সমর্থিত REST API। ফ্রি সহ সকল পরিকল্পনায় অন্তর্ভুক্ত, স্তর অনুযায়ী পরিমাপের হারের সীমা (ফ্রি: ১০ req/min, লাইট: ২০, স্টার্টার: ৩০, প্রো: ৬০, বিজনেস: ৩০০)। tts.ai/api/-এ নথিপত্র দেখুন।

মডেল অনুযায়ী শব্দের গুণগত মানের পার্থক্য দেখা যায়। প্রাইম মডেল যেমন CosyVoice2, StyleTTS2, এবং Chatterbox প্রাকৃতিক উচ্চারণ এবং অনুভূতি সহকারে মানুষের কাছাকাছি শব্দের গুণগত মানের সৃষ্টি করে। ফ্রি মডেল যেমন Kokoro বেশীরভাগ ব্যবহারের ক্ষেত্রে অসাধারণ গুণগত মানের প্রদান করে।

TTS.ai এর মডেল লাইব্রেরী ৩০+ ভাষা সমর্থন করে। ইংরেজি ভাষার সবচেয়ে বড় মডেল সমর্থন, কিন্তু CosyVoice2এর মত মডেল চীনা, জাপানি এবং কোরীয় ভাষা সমর্থন করে; GPT-SoVITS চীনা, জাপানি, কোরীয় এবং ইংরেজি ভাষা সমর্থন করে; এবং MeloTTS ইংরেজি, স্প্যানিশ, ফরাসি, চীনা, জাপানি এবং কোরীয় ভাষা সমর্থন করে।

হ্যাঁ। সমস্ত প্রক্রিয়াকরণ আমাদের নিবেদিত GPU সার্ভারে ঘটে। আমরা আপনার টেক্সট ইনপুট বা উত্পাদিত অডিও প্রেরণ করার পরে সংরক্ষণ করি না। ক্লোন করার জন্য আপলোড করা শব্দ নমুনা শুধুমাত্র বর্তমান সেশনের জন্য ব্যবহার করা হয় এবং সংরক্ষণ করা হয় না। আমরা কখনও আপনার তথ্য তৃতীয় পক্ষের সাথে শেয়ার করি না বা মডেল প্রশিক্ষণ দিতে এটি ব্যবহার করি না।

হ্যাঁ। TTS.ai-এ তৈরি সকল অডিও বাণিজ্যিকভাবে ব্যবহারের জন্য আপনার, যার মধ্যে ইউটিউব ভিডিও, পডকাস্ট, অডিওবুক, অ্যাপ, বিজ্ঞাপন এবং পণ্য অন্তর্ভুক্ত। আমাদের মডেলগুলি অনুমোদনযোগ্য লাইসেন্সের অধীনে উন্মুক্ত উৎস (MIT, Apache 2.0)। কোন মুক্ত বা অনুমোদন প্রয়োজন নেই।

TTS.ai সর্বোচ্চ গুণমানের জন্য ডিফল্টভাবে WAV ফরম্যাটে অডিও উৎপাদন করে। আপনি আমাদের বিনামূল্যে অডিও কনভার্টার টুল ব্যবহার করে MP3, FLAC, OGG, অথবা M4A তে রূপান্তর করতে পারেন। API অনুরোধের মধ্যে আপনার পছন্দের আউটপুট ফরম্যাট সরাসরি উল্লেখ করতে সমর্থন করে।

আপনি যে কণ্ঠ ক্লোন করতে চান তার একটি সংক্ষিপ্ত অডিও নমুনা (৫ সেকেন্ডের মধ্যে) আপলোড করুন, তারপর সেই কণ্ঠে কথা বলার জন্য যেকোন টেক্সট টাইপ করুন। Chatterbox, GPT-SoVITS, এবং CosyVoice2এর মতো মডেলগুলি কণ্ঠ ক্লোনিং সমর্থন করে। ক্লোন করা কণ্ঠ টোন, উচ্চারণ এবং কথা বলার শৈলী ধারণ করে।

ফ্রি মডেল (Kokoro, Piper, VITS, MeloTTS) ব্যবহারের জন্য কোন অ্যাকাউন্টের প্রয়োজন নেই এবং এর জন্য শূন্য ক্রেডিট খরচ হয়। স্ট্যান্ডার্ড মডেল (২ ক্রেডিট/১K অক্ষর)-এর মধ্যে রয়েছে Bark, CosyVoice ২, F5-TTS, এবং Dia। প্রিমিয়াম মডেল (৪ ক্রেডিট/১K অক্ষর)-এর মধ্যে রয়েছে OpenVoice, Chatterbox, StyleTTS ২, এবং Tortoise। প্রিমিয়াম মডেল সাধারণত উচ্চমানের, আরও বেশি কণ্ঠস্বর এবং অডিও ক্লোনিং-এর মতো অতিরিক্ত বৈশিষ্ট্য প্রদান করে।

হ্যাঁ। এই API ব্যাচ প্রসেসিং সমর্থন করে বড় পরিমাণে টেক্সটকে কথায় রূপান্তর করার জন্য। একাধিক অনুরোধ জমা দিন এবং কাজ UUIDs ব্যবহার করে ফলাফল অসঙ্গতভাবে পুনরুদ্ধার করুন। ব্যবসায়িক পরিকল্পনা ($99/মাস) এবং উচ্চতর দ্রুত ব্যাচ প্রসেসিংয়ের জন্য প্রাধান্য কুইজের প্রবেশাধিকার অন্তর্ভুক্ত করে। অডিওবুক উৎপাদন, কোর্স বিষয়বস্তু এবং বড় পরিমাণের ভয়েসওভার প্রকল্পের জন্য আদর্শ।
4.1/5 (42)

আমরা কি উন্নতি করতে পারি? আপনার ফিডব্যাক আমাদের সমস্যা সমাধানে সাহায্য করে।

AI Voice ব্যবহার শুরু করুন

TTS.ai ব্যবহার করে সৃষ্টিকর্তা, ডেভেলপার এবং ব্যবসায়ীদের সাথে যোগ দিন