টেক্সট-টু-স্পিচ (TTS) কি?
কৃত্ৰিম বুদ্ধিমত্তা ব্যৱহাৰ কৰি লিখা টেক্সটক কথোপকথনৰ অডিঅ'লৈ পৰিবৰ্তন কৰা টেক্সট-টু-স্পীচ প্ৰযুক্তি। প্ৰাৰম্ভিক ৰোবটিক সংমিশ্ৰণকাৰীৰ পৰা আজিলৈকে
টেক্সট-টু-স্পীচত প্ৰধান ধাৰণাসমূহ
আধুনিক কথোপকথন সংশ্লেষণৰ বিল্ডিং ব্লকসমূহ বুজি পোৱা
TTS ৰ অৰ্থ কি
TTS মানে টেক্সট-টু-স্পিচ (Text-to-Speech) — কম্পিউটাৰ দ্বাৰা নিৰ্মিত শব্দ ব্যৱহাৰ কৰি লিখিত টেক্সটক কথোপকথনৰ অডিঅ'লৈ ৰূপান্তৰ কৰা প্ৰযুক্তি।
Neural TTS কিদৰে কাম কৰে
আধুনিক TTS-এ গভীৰ নিউৰাল নেটৱৰ্ক ব্যৱহাৰ কৰি টেক্সট বিশ্লেষণ কৰে, কথাৰ বিন্যাস ভৱিষ্যদ্বাণী কৰে, আৰু অডিঅ' ৱেভফৰ্ম সৃষ্টি কৰে যি অসাধাৰণভাৱে মানৱীয়।
কথোপকথন সংশ্লেষণৰ ইতিহাস
১৯৬০ৰ দশকৰ নিয়ম-ভিত্তিক ব্যৱস্থাৰ পৰা ১৯৯০ৰ দশকৰ সংযোগসূচক সংশ্লেষণৰ পৰা আজিৰ নিউৰাল মডেললৈ— TTS কিদৰে ছয় দশকত বিকশিত হৈছে।
আধুনিক AI মডেলসমূহ
আজিৰ Kokoro, Bark, আৰু CosyVoice2ৰ দৰে মডেলসমূহে মানৱ স্তৰৰ কথাৰ গুণমান লাভ কৰিবলৈ পৰিবৰ্তনকাৰী, প্ৰসাৰণ, আৰু বৈচিত্র্যমূলক অনুমান ব্যৱহাৰ কৰে।
সাধাৰণ এপ্লিকেচনসমূহ
টিটিএছত স্ক্ৰিন ৰিডাৰ, জিপিএছ নেভিগেচন, ভাৰ্চুৱেল এচিষ্টেন্ট, অডিঅ’বুক, গ্ৰাহক সেৱা বট, ই-লৰ্নিং প্লেটফৰ্ম আৰু বিষয়বস্তু সৃষ্টিৰ ক্ষমতা আছে।
মুক্ত উৎস versus বাণিজ্যিক
উন্মুক্ত উৎসৰ মডেল (MIT, Apache 2.0) বিনামূলীয়া, স্ব-হোস্টযোগ্য TTS প্ৰদান কৰে যদিও বাণিজ্যিক সেৱা SLAs আৰু সমৰ্থনৰ সৈতে পৰিচালিত APIs প্ৰদান কৰে।
TTS.ai ত উপলব্ধ TTS মডেলসমূহ
দ্ৰুত আৰু হালধীয়াৰ পৰা স্টুডিঅ'-গুণমানৰ নিউৰাল শব্দলৈ
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
সৰ্বোত্তম: state-of-the-art সৰু মডেল — নিউৰেল TTS কেনেকৈ আগবাঢ়িছে তাক দেখুৱায়
চেষ্টা কৰক Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
সৰ্বোত্তম: শব্দৰ বাহিৰে অডিঅ' উৎপাদন প্ৰদৰ্শন কৰা ট্ৰান্সফাৰ-ভিত্তিক মডেল
চেষ্টা কৰক Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
সৰ্বোত্তম: Human-parity গুণমান আৰু zero-shot ক্লোনিংৰ সৈতে TTS স্ট্ৰিমিং কৰক
চেষ্টা কৰক CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
সৰ্বোত্তম: শব্দ সংশ্লেষণৰ সীমাবদ্ধতা প্ৰদৰ্শন কৰা জিৰো-শ্বট শব্দ ক্লোনিং
চেষ্টা কৰক Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
সৰ্বোত্তম: সৰ্বোচ্চ অডিঅ' গুণমানক অগ্ৰাধিকাৰ দিয়া স্বয়ংক্ৰিয় পুনৰাবৃত্তিমূলক স্থাপত্য
চেষ্টা কৰক Tortoise TTSNeural TTS কিদৰে কাম কৰে
চাৰিটা পদক্ষেপে আধুনিক কথন সংশ্লেষণ পাইপলাইন
মৌলিক বিষয়সমূহ বুজি লওক
TTS লিখা টেক্সটক কথোপকথনৰ অডিঅ'লৈ ৰূপান্তৰ কৰে। আধুনিক ব্যৱস্থাপ্ৰণালীসমূহে মানৱ কথোপকথনৰ ৰেকৰ্ডিংৰ হাজারো ঘণ্টাৰ ওপৰত প্ৰশিক্ষিত নিউৰাল নেটৱাৰ্কসমূহ ব্যৱহাৰ কৰে।
বিভিন্ন মডেল অনুসন্ধান কৰক
প্ৰতিটো টিটিএছ মডেলে গতি, মান আৰু বৈশিষ্ট্যৰ ক্ষেত্ৰত অনন্য শক্তিৰ সৈতে এটা ভিন্ন স্থাপত্য (ট্ৰান্সফৰ্মাৰ, ডিফ’ছন, ভেৰিএচনেল) ব্যৱহাৰ কৰে।
নিজে চেষ্টা কৰক
TTS বুজি পোৱাৰ সৰ্বোত্তম উপায় হ'ল ইয়াক ব্যৱহাৰ কৰা। উপৰোক্ত আমাৰ বিনামূলীয়া মডেলসমূহ চেষ্টা কৰক - যিকোনো টেক্সট পেইস্ট কৰক আৰু সেকেণ্ডসমূহত ইয়াক কথোপকথনত শুনিব।
আপোনাৰ প্ৰকল্পত অন্তৰ্ভুক্ত কৰক
আপুনি পছন্দ কৰা এটা মডেল পোৱাৰ পিছত, আপোনাৰ এপ্লিকেচন, উৎপাদন, বা বিষয়বস্তু সৃষ্টি কাৰ্য্যক্ৰমত TTS একত্ৰিত কৰিবলৈ আমাৰ API ব্যৱহাৰ কৰক।
টেক্সট-টু-স্পিচৰ সংক্ষিপ্ত ইতিহাসName
যান্ত্ৰিক কথা কোৱা মেচিনৰ পৰা নিউৰেল নেটৱৰ্কলৈ
প্ৰাৰম্ভিক দিনসমূহ (১৯৫০-১৯৮০)
প্ৰথম কম্পিউটাৰ দ্বাৰা নিৰ্মিত ভাষণ ১৯৬১ চনত IBM ৰ দ্বাৰা প্ৰস্তুত কৰা হৈছিল।
উল্লেখযোগ্য ব্যৱস্থাপ্ৰণালী: Votrax (১৯৭০ দশক), DECtalk (১৯৮৪, Stephen Hawking দ্বাৰা ব্যৱহৃত), Apple
কনকাটেনেটিভ সংশ্লেষণ (১৯৯০-২০০০)
কনকাটেনেটিভ TTS ৰ দ্বাৰা প্ৰকৃত মানৱ কণ্ঠস্বৰ ৰেকৰ্ড কৰা হয়, যিহেতু ইয়াত হাজাৰ হাজাৰ শব্দৰ সংমিশ্ৰণ ব্যৱহাৰ কৰা হয়, আৰু তাৰ পিছত রানটাইমত সঠিক অংশসমূহ একত্ৰিত কৰা হয়। ইয়াৰ ফলত অধিক প্ৰাকৃতিক সুৰযুক্ত কণ্ঠস্বৰ উৎপন্ন হয় কিন্তু ইয়াৰ বাবে বিশাল তথ্যভঁৰালৰ প্ৰয়োজন হয় (প্ৰতিটো কণ্ঠস্বৰৰ বাবে প্ৰায় ১০-২০ ঘণ্টাৰ ৰেকৰ্ডিংৰ প্ৰয়োজন হয়)। এই অংশসমূহৰ মাজত সুষম সংযোগৰ সন্ধানৰ ওপৰত গুণগত মান নিৰ্ভৰ কৰে।
ব্যৱহাৰ কৰা হৈছে: AT&T Natural Voices, Nuance Vocalizer, প্ৰাৰম্ভিক Google Translate TTS।
পৰিসংখ্যা/পৰামিটাৰ (২০০০-২০১০)
স্টিচিং ৰেকৰ্ডসমূহৰ পৰিবৰ্তে, পৰামিতিক মডেলসমূহে কথাৰ পৰিসংখ্যাগত প্ৰতিনিধিত্ব শিকে। লুকুৱা মাৰ্কভ মডেলসমূহ (HMMs) আৰু পিছত গভীৰ নিউরাল নেটৱাৰ্কসমূহে কথাৰ প্ৰাচলসমূহ (পিচ, স্থায়িত্ব, স্পেকট্ৰাল বৈশিষ্ট্যসমূহ) উৎপন্ন কৰে যাক এটা ভ'কোডাৰ দ্বাৰা ফিড কৰা হয়। ই অসীমিত শব্দভাণ্ডাৰ আৰু সহজে কন্ঠ সৃষ্টি কৰাৰ অনুমতি দিয়ে, কিন্তু ভ'কোডাৰ পদক্ষেপে প্ৰায়শঃই এটা \ উৎপন্ন কৰে
প্ৰধান মডেল: HTS, Merlin, প্ৰাৰম্ভিক DNN-ভিত্তিক ব্যৱস্থা।
নিউৰাল TTS (২০১৬-প্ৰচলিত)
আধুনিক যুগ আৰম্ভ হৈছিল WaveNet (DeepMind, ২০১৬) ৰ সৈতে, যিয়ে গভীৰ নিউৰাল নেটৱৰ্ক ব্যৱহাৰ কৰি অডিঅ' নমুনাসমূহৰ নমুনাসমূহ সৃষ্টি কৰিছিল। ইয়াৰ পিছত Tacotron (Google, ২০১৭) ৰ দ্বাৰা অনুসৰণ কৰা হৈছিল, যিয়ে টেক্সটক সরাসৰি স্পেক্ট্ৰোগ্ৰামলৈ মেপ কৰিবলৈ শিকিছিল। আজি
প্ৰধান অগ্ৰগতিঃ ৱেবনেট, টেকোট্ৰন, ফাষ্টস্পীচ, ভিআইটিছ, বাৰ্ক, কোকোৰো।
আধুনিক নিউৰাল TTS কিদৰে কাম কৰে
প্ৰাকৃতিক-স্বৰ AI কণ্ঠস্বৰৰ পিছৰ স্থাপত্য
লিপি বিশ্লেষণ আৰু স্বাভাৱিককৰণName
কাঁচা লিপি পৰিষ্কাৰ আৰু স্বাভাৱিক কৰা হৈছে: সংখ্যাসমূহ শব্দত পৰিণত হৈছে (\
অডিঅ' মডেল (স্পেক্ট্ৰোগ্ৰামলৈ লিপি)
অডিঅ' মডেল (সাধাৰণতে এটা Transformer অথবা autoregressive নেটৱাৰ্ক) শব্দৰ ক্ৰম ল'ব আৰু এটা mel spectrogram ৰ ভৱিষ্যদ্বাণী কৰে - অডিঅ' কেনেকৈ হ'ব তাৰ এটা দৃশ্যমান প্ৰতিনিধিত্ব
ভ'কোডাৰ (স্পেক্ট্ৰোগ্ৰামৰ পৰা অডিঅ')
ভ'কোডাৰে mel স্পেক্ট্ৰোগ্ৰামক প্ৰকৃত অডিঅ' তৰংগৰূপলৈ ৰূপান্তৰ কৰে। Griffin-Lim ৰ দৰে প্ৰাৰম্ভিক ভ'কোডাৰে রোবটিক আৰ্টিফেক্টসমূহ উৎপাদন কৰে। আধুনিক নিউৰাল ভ'কোডাৰে (HiFi-GAN, BigVGAN, Vocos) উচ্চ-সত্যতা ২৪kHz অথবা ৪৪.১kHz অডিঅ' উৎপন্ন কৰে যি প্ৰাকৃতিক কথোপকথনৰ সুন্দৰ বিৱৰণসমূহ জব্দ কৰে, শ্বাস-প্ৰশ্বাসৰ শব্দ আৰু ঠোঁটৰ সূক্ষ্ম গতিসমূহ অন্তৰ্ভুক্ত কৰে।
এন্ড-টু-এন্ড মডেলসমূহ
VITS, Kokoro, আৰু Bark ৰ দৰে শেহতীয়া মডেলসমূহে দুটা পৰ্যায়ৰ পাইপলাইন সম্পূৰ্ণৰূপে এৰি দিয়ে। ইবোৰে এটা একক নিউৰাল নেটৱাৰ্কত লিখনীৰ পৰা অডিঅ'লৈ সরাসৰি যায়, কম সংখ্যক আৰ্টিফেক্টৰ সৈতে অধিক প্ৰাকৃতিক ফলাফলসমূহ উৎপাদন কৰে। কিছুমান মডেল (যেনে Bark)য়ে কথাৰ লগতে অ-ভাষা শব্দ, হাসি, আৰু সঙ্গীতও উৎপাদন কৰিব পাৰে।
TTS প্ৰক্ৰিয়াৰ তুলনা
টিটিএছ প্ৰযুক্তিৰ চাৰিটা প্ৰজন্মৰ তুলনা
| প্ৰক্ৰিয়া | যুগ | প্ৰাকৃতিকতা | নমনীয়তা | গতি | তথ্যৰ প্ৰয়োজন |
|---|---|---|---|---|---|
| ফৰ্মেন্ট সংশ্লেষণ নিয়ম-ভিত্তিক ঘনত্ব মডেলিং |
1960s-1990s | কোনো নহয় | |||
| কনকাটেনটিভ স্টিচেড অডিঅ' অংশসমূহ |
1990s-2010s | ১০-২০+ ঘন্টা | |||
| পৰামিটাৰ (HMM/DNN) পৰিসংখ্যাগত ভাষিক মডেল |
2000s-2016 | ১-৫ ঘন্টা | |||
| নিউৰাল এন্ড-টু-এন্ড গভীৰ শিক্ষা (VITS, Kokoro, Bark) |
2016-বৰ্তমান | মিনিটৰ পৰা ঘন্টা |
TTS ৰ সাধাৰণ অনুপ্ৰয়োগ
আজি টেক্সট-টু-স্পীচ ব্যৱহাৰ কৰা হ'ব
অভিগম্যতা
স্ক্ৰিন ৰিডাৰ, সহায়ক ডিভাইচ আৰু চক্ষু বিকলতা বা পঢ়াৰ অসুবিধা থকা লোকসকলৰ বাবে টীটিএছৰ ওপৰত নিৰ্ভৰ কৰে যাতে ডিজিটেল সামগ্ৰী সকলোৰে বাবে উপলব্ধ হয়।
বিষয়বস্তু সৃষ্টি
ইউটিউবাৰ, পডকাষ্টাৰ আৰু সামাজিক মাধ্যমৰ সৃষ্টিকৰ্তাসকলে TTS ব্যৱহাৰ কৰে ভয়েসঅভাৰ, নাৰ্টিফিকেচন আৰু স্বয়ংক্ৰিয় ভাবে সামগ্ৰী নিৰ্মাণৰ বাবে।
ভাৰ্চুৱেল সহায়ক
Siri, Alexa, Google Assistant, আৰু গ্ৰাহক সেৱা চেটবটসমূহে TTS ব্যৱহাৰ কৰি ব্যৱহাৰকাৰীসকলক স্বাভাৱিকভাৱে উত্তৰ দিব পাৰে।
সদায় সোধা প্ৰশ্নসমূহ
টেক্সট-টু-স্পিচ প্ৰযুক্তিৰ বিষয়ে সাধাৰণ প্ৰশ্নসমূহ
আধুনিক TTS নিজেই উপভোগ কৰক
24+ state-of-the-art AI কন্ঠ মডেল বিনামূল্যে চেষ্টা কৰক। টেক্সটৰ পৰা কথোপকথন কিমান দূৰ হৈছে চাওক।