টেক্সট-টু-স্পিচ (TTS) কি?

কৃত্ৰিম বুদ্ধিমত্তা ব্যৱহাৰ কৰি লিখা টেক্সটক কথোপকথনৰ অডিঅ'লৈ পৰিবৰ্তন কৰা টেক্সট-টু-স্পীচ প্ৰযুক্তি। প্ৰাৰম্ভিক ৰোবটিক সংমিশ্ৰণকাৰীৰ পৰা আজিলৈকে

প্ৰযুক্তি ইতিহাস কিদৰে কাম কৰে নিউৰাল নেটৱাৰ্ক Evolution-ৰ সৈতে সংযোগ স্থাপন কৰক

মুক্ত আৰম্ভ কৰক মূল্য দেখুৱাওক

টেক্সট-টু-স্পীচত প্ৰধান ধাৰণাসমূহ

আধুনিক কথোপকথন সংশ্লেষণৰ বিল্ডিং ব্লকসমূহ বুজি পোৱা

TTS ৰ অৰ্থ কি

TTS মানে টেক্সট-টু-স্পিচ (Text-to-Speech) — কম্পিউটাৰ দ্বাৰা নিৰ্মিত শব্দ ব্যৱহাৰ কৰি লিখিত টেক্সটক কথোপকথনৰ অডিঅ'লৈ ৰূপান্তৰ কৰা প্ৰযুক্তি।

Neural TTS কিদৰে কাম কৰে

আধুনিক TTS-এ গভীৰ নিউৰাল নেটৱৰ্ক ব্যৱহাৰ কৰি টেক্সট বিশ্লেষণ কৰে, কথাৰ বিন্যাস ভৱিষ্যদ্বাণী কৰে, আৰু অডিঅ' ৱেভফৰ্ম সৃষ্টি কৰে যি অসাধাৰণভাৱে মানৱীয়।

কথোপকথন সংশ্লেষণৰ ইতিহাস

১৯৬০ৰ দশকৰ নিয়ম-ভিত্তিক ব্যৱস্থাৰ পৰা ১৯৯০ৰ দশকৰ সংযোগসূচক সংশ্লেষণৰ পৰা আজিৰ নিউৰাল মডেললৈ— TTS কিদৰে ছয় দশকত বিকশিত হৈছে।

আধুনিক AI মডেলসমূহ

আজিৰ Kokoro, Bark, আৰু CosyVoice2ৰ দৰে মডেলসমূহে মানৱ স্তৰৰ কথাৰ গুণমান লাভ কৰিবলৈ পৰিবৰ্তনকাৰী, প্ৰসাৰণ, আৰু বৈচিত্র্যমূলক অনুমান ব্যৱহাৰ কৰে।

সাধাৰণ এপ্লিকেচনসমূহ

টিটিএছত স্ক্ৰিন ৰিডাৰ, জিপিএছ নেভিগেচন, ভাৰ্চুৱেল এচিষ্টেন্ট, অডিঅ’বুক, গ্ৰাহক সেৱা বট, ই-লৰ্নিং প্লেটফৰ্ম আৰু বিষয়বস্তু সৃষ্টিৰ ক্ষমতা আছে।

মুক্ত উৎস versus বাণিজ্যিক

উন্মুক্ত উৎসৰ মডেল (MIT, Apache 2.0) বিনামূলীয়া, স্ব-হোস্টযোগ্য TTS প্ৰদান কৰে যদিও বাণিজ্যিক সেৱা SLAs আৰু সমৰ্থনৰ সৈতে পৰিচালিত APIs প্ৰদান কৰে।

TTS.ai ত উপলব্ধ TTS মডেলসমূহ

দ্ৰুত আৰু হালধীয়াৰ পৰা স্টুডিঅ'-গুণমানৰ নিউৰাল শব্দলৈ

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

স্থায়ী 5/5

সৰ্বোত্তম: state-of-the-art সৰু মডেল — নিউৰেল TTS কেনেকৈ আগবাঢ়িছে তাক দেখুৱায়

চেষ্টা কৰক Kokoro

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

ধীর 4/5

সৰ্বোত্তম: শব্দৰ বাহিৰে অডিঅ' উৎপাদন প্ৰদৰ্শন কৰা ট্ৰান্সফাৰ-ভিত্তিক মডেল

চেষ্টা কৰক Bark

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

মধ্যম 5/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: Human-parity গুণমান আৰু zero-shot ক্লোনিংৰ সৈতে TTS স্ট্ৰিমিং কৰক

চেষ্টা কৰক CosyVoice 2

Chatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

মধ্যম 5/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: শব্দ সংশ্লেষণৰ সীমাবদ্ধতা প্ৰদৰ্শন কৰা জিৰো-শ্বট শব্দ ক্লোনিং

চেষ্টা কৰক Chatterbox

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

ধীর 5/5 ধ্বনি ক্লোনিং

সৰ্বোত্তম: সৰ্বোচ্চ অডিঅ' গুণমানক অগ্ৰাধিকাৰ দিয়া স্বয়ংক্ৰিয় পুনৰাবৃত্তিমূলক স্থাপত্য

চেষ্টা কৰক Tortoise TTS

Neural TTS কিদৰে কাম কৰে

চাৰিটা পদক্ষেপে আধুনিক কথন সংশ্লেষণ পাইপলাইন

মৌলিক বিষয়সমূহ বুজি লওক

TTS লিখা টেক্সটক কথোপকথনৰ অডিঅ'লৈ ৰূপান্তৰ কৰে। আধুনিক ব্যৱস্থাপ্ৰণালীসমূহে মানৱ কথোপকথনৰ ৰেকৰ্ডিংৰ হাজারো ঘণ্টাৰ ওপৰত প্ৰশিক্ষিত নিউৰাল নেটৱাৰ্কসমূহ ব্যৱহাৰ কৰে।

বিভিন্ন মডেল অনুসন্ধান কৰক

প্ৰতিটো টিটিএছ মডেলে গতি, মান আৰু বৈশিষ্ট্যৰ ক্ষেত্ৰত অনন্য শক্তিৰ সৈতে এটা ভিন্ন স্থাপত্য (ট্ৰান্সফৰ্মাৰ, ডিফ’ছন, ভেৰিএচনেল) ব্যৱহাৰ কৰে।

নিজে চেষ্টা কৰক

TTS বুজি পোৱাৰ সৰ্বোত্তম উপায় হ'ল ইয়াক ব্যৱহাৰ কৰা। উপৰোক্ত আমাৰ বিনামূলীয়া মডেলসমূহ চেষ্টা কৰক - যিকোনো টেক্সট পেইস্ট কৰক আৰু সেকেণ্ডসমূহত ইয়াক কথোপকথনত শুনিব।

আপোনাৰ প্ৰকল্পত অন্তৰ্ভুক্ত কৰক

আপুনি পছন্দ কৰা এটা মডেল পোৱাৰ পিছত, আপোনাৰ এপ্লিকেচন, উৎপাদন, বা বিষয়বস্তু সৃষ্টি কাৰ্য্যক্ৰমত TTS একত্ৰিত কৰিবলৈ আমাৰ API ব্যৱহাৰ কৰক।

টেক্সট-টু-স্পিচৰ সংক্ষিপ্ত ইতিহাসName

যান্ত্ৰিক কথা কোৱা মেচিনৰ পৰা নিউৰেল নেটৱৰ্কলৈ

প্ৰাৰম্ভিক দিনসমূহ (১৯৫০-১৯৮০)

প্ৰথম কম্পিউটাৰ দ্বাৰা নিৰ্মিত ভাষণ ১৯৬১ চনত IBM ৰ দ্বাৰা প্ৰস্তুত কৰা হৈছিল।

উল্লেখযোগ্য ব্যৱস্থাপ্ৰণালী: Votrax (১৯৭০ দশক), DECtalk (১৯৮৪, Stephen Hawking দ্বাৰা ব্যৱহৃত), Apple

কনকাটেনেটিভ সংশ্লেষণ (১৯৯০-২০০০)

কনকাটেনেটিভ TTS ৰ দ্বাৰা প্ৰকৃত মানৱ কণ্ঠস্বৰ ৰেকৰ্ড কৰা হয়, যিহেতু ইয়াত হাজাৰ হাজাৰ শব্দৰ সংমিশ্ৰণ ব্যৱহাৰ কৰা হয়, আৰু তাৰ পিছত রানটাইমত সঠিক অংশসমূহ একত্ৰিত কৰা হয়। ইয়াৰ ফলত অধিক প্ৰাকৃতিক সুৰযুক্ত কণ্ঠস্বৰ উৎপন্ন হয় কিন্তু ইয়াৰ বাবে বিশাল তথ্যভঁৰালৰ প্ৰয়োজন হয় (প্ৰতিটো কণ্ঠস্বৰৰ বাবে প্ৰায় ১০-২০ ঘণ্টাৰ ৰেকৰ্ডিংৰ প্ৰয়োজন হয়)। এই অংশসমূহৰ মাজত সুষম সংযোগৰ সন্ধানৰ ওপৰত গুণগত মান নিৰ্ভৰ কৰে।

ব্যৱহাৰ কৰা হৈছে: AT&T Natural Voices, Nuance Vocalizer, প্ৰাৰম্ভিক Google Translate TTS।

পৰিসংখ্যা/পৰামিটাৰ (২০০০-২০১০)

ৰেকৰ্ডিং ষ্টিচিং কৰাৰ পৰিবৰ্তে, পৰামিতিক মডেলে কথোপকথনৰ পৰিসংখ্যাগত প্ৰতিনিধিত্ব শিকে। লুকুৱা মাৰ্কভ মডেল (HMMs) আৰু পিছত গভীৰ নিউৰেল নেটৱাৰ্কে কথোপকথনৰ পৰামিতিক (পিচ, সময়, স্পেক্ট্ৰেল বৈশিষ্ট্য) সৃষ্টি কৰে যাক এটা ভ'কোডাৰ দ্বাৰা প্ৰদান কৰা হয়। ই অসীমিত শব্দভাণ্ডাৰ আৰু সহজে কথোপকথন সৃষ্টি কৰাৰ অনুমতি দিয়ে, কিন্তু ভ'কোডাৰ পদক্ষেপে প্ৰায়শঃই এটা \ প্ৰস্তুত কৰে

প্ৰধান মডেল: HTS, Merlin, প্ৰাৰম্ভিক DNN-ভিত্তিক ব্যৱস্থা।

নিউৰাল TTS (২০১৬-প্ৰচলিত)

আধুনিক যুগ আৰম্ভ হৈছিল WaveNet (DeepMind, ২০১৬) ৰ সৈতে, যিয়ে গভীৰ নিউৰাল নেটৱৰ্ক ব্যৱহাৰ কৰি অডিঅ' নমুনাসমূহৰ নমুনাসমূহ সৃষ্টি কৰিছিল। ইয়াৰ পিছত Tacotron (Google, ২০১৭) ৰ দ্বাৰা অনুসৰণ কৰা হৈছিল, যিয়ে টেক্সটক সরাসৰি স্পেক্ট্ৰোগ্ৰামলৈ মেপ কৰিবলৈ শিকিছিল। আজি

প্ৰধান অগ্ৰগতিঃ ৱেবনেট, টেকোট্ৰন, ফাষ্টস্পীচ, ভিআইটিছ, বাৰ্ক, কোকোৰো।

আধুনিক নিউৰাল TTS চেষ্টা কৰক

আধুনিক নিউৰাল TTS কিদৰে কাম কৰে

প্ৰাকৃতিক-স্বৰ AI কণ্ঠস্বৰৰ পিছৰ স্থাপত্য

লিপি বিশ্লেষণ আৰু স্বাভাৱিককৰণName

কাঁচা লিপি পৰিষ্কাৰ আৰু স্বাভাৱিক কৰা হৈছে: সংখ্যাসমূহ শব্দত পৰিণত হৈছে (\

অডিঅ' মডেল (স্পেক্ট্ৰোগ্ৰামলৈ লিপি)

অডিঅ' মডেল (সাধাৰণতে এটা Transformer অথবা autoregressive নেটৱাৰ্ক) শব্দৰ ক্ৰম ল'ব আৰু এটা mel spectrogram ৰ ভৱিষ্যদ্বাণী কৰে - অডিঅ' কেনেকৈ হ'ব তাৰ এটা দৃশ্যমান প্ৰতিনিধিত্ব

ভ'কোডাৰ (স্পেক্ট্ৰোগ্ৰামৰ পৰা অডিঅ')

ভ'কোডাৰে mel স্পেক্ট্ৰোগ্ৰামক প্ৰকৃত অডিঅ' তৰংগৰূপলৈ ৰূপান্তৰ কৰে। Griffin-Lim ৰ দৰে প্ৰাৰম্ভিক ভ'কোডাৰে রোবটিক আৰ্টিফেক্টসমূহ উৎপাদন কৰে। আধুনিক নিউৰাল ভ'কোডাৰে (HiFi-GAN, BigVGAN, Vocos) উচ্চ-সত্যতা ২৪kHz অথবা ৪৪.১kHz অডিঅ' উৎপন্ন কৰে যি প্ৰাকৃতিক কথোপকথনৰ সুন্দৰ বিৱৰণসমূহ জব্দ কৰে, শ্বাস-প্ৰশ্বাসৰ শব্দ আৰু ঠোঁটৰ সূক্ষ্ম গতিসমূহ অন্তৰ্ভুক্ত কৰে।

এন্ড-টু-এন্ড মডেলসমূহ

VITS, Kokoro, আৰু Bark ৰ দৰে শেহতীয়া মডেলসমূহে দুটা পৰ্যায়ৰ পাইপলাইন সম্পূৰ্ণৰূপে এৰি দিয়ে। ইবোৰে এটা একক নিউৰাল নেটৱাৰ্কত লিখনীৰ পৰা অডিঅ'লৈ সরাসৰি যায়, কম সংখ্যক আৰ্টিফেক্টৰ সৈতে অধিক প্ৰাকৃতিক ফলাফলসমূহ উৎপাদন কৰে। কিছুমান মডেল (যেনে Bark)য়ে কথাৰ লগতে অ-ভাষা শব্দ, হাসি, আৰু সঙ্গীতও উৎপাদন কৰিব পাৰে।

নিজেই উপভোগ কৰক

TTS প্ৰক্ৰিয়াৰ তুলনা

টিটিএছ প্ৰযুক্তিৰ চাৰিটা প্ৰজন্মৰ তুলনা

প্ৰক্ৰিয়া	যুগ	তথ্যৰ প্ৰয়োজন
ফৰ্মেন্ট সংশ্লেষণ নিয়ম-ভিত্তিক ঘনত্ব মডেলিং	1960s-1990s	কোনো নহয়
কনকাটেনটিভ স্টিচেড অডিঅ' অংশসমূহ	1990s-2010s	১০-২০+ ঘন্টা
পৰামিটাৰ (HMM/DNN) পৰিসংখ্যাগত ভাষিক মডেল	2000s-2016	১-৫ ঘন্টা
নিউৰাল এন্ড-টু-এন্ড গভীৰ শিক্ষা (VITS, Kokoro, Bark)	2016-বৰ্তমান	মিনিটৰ পৰা ঘন্টা

Neural TTS মুক্ত চেষ্টা কৰক

TTS ৰ সাধাৰণ অনুপ্ৰয়োগ

আজি টেক্সট-টু-স্পীচ ব্যৱহাৰ কৰা হ'ব

অভিগম্যতা

স্ক্ৰিন ৰিডাৰ, সহায়ক ডিভাইচ আৰু চক্ষু বিকলতা বা পঢ়াৰ অসুবিধা থকা লোকসকলৰ বাবে টীটিএছৰ ওপৰত নিৰ্ভৰ কৰে যাতে ডিজিটেল সামগ্ৰী সকলোৰে বাবে উপলব্ধ হয়।

বিষয়বস্তু সৃষ্টি

ইউটিউবাৰ, পডকাষ্টাৰ আৰু সামাজিক মাধ্যমৰ সৃষ্টিকৰ্তাসকলে TTS ব্যৱহাৰ কৰে ভয়েসঅভাৰ, নাৰ্টিফিকেচন আৰু স্বয়ংক্ৰিয় ভাবে সামগ্ৰী নিৰ্মাণৰ বাবে।

ভাৰ্চুৱেল সহায়ক

Siri, Alexa, Google Assistant, আৰু গ্ৰাহক সেৱা চেটবটসমূহে TTS ব্যৱহাৰ কৰি ব্যৱহাৰকাৰীসকলক স্বাভাৱিকভাৱে উত্তৰ দিব পাৰে।

টেক্সট-টু-স্পীচ এতিয়া চেষ্টা কৰক

সদায় সোধা প্ৰশ্নসমূহ

টেক্সট-টু-স্পিচ প্ৰযুক্তিৰ বিষয়ে সাধাৰণ প্ৰশ্নসমূহ

TTS মানে টেক্সট-টু-স্পিচ (Text-to-Speech) । এই প্ৰযুক্তিৰ দ্বাৰা লিখিত টেক্সটক সংমিশ্ৰিত অথবা AI দ্বাৰা নিৰ্মিত শব্দৰ সহায়ত শুনিবলগীয়া শব্দলৈ ৰূপান্তৰ কৰা হয় । প্ৰযুক্তিগত সাহিত্যত এই শব্দটি "ভাষা সংমিশ্ৰণ" (speech synthesis) শব্দৰ সৈতে বিনিময়যোগ্যৰূপে ব্যৱহৃত হয় ।

আধুনিক TTS প্ৰণালীসমূহে তিনিটা পৰ্যায়ত কাম কৰে: টেক্সট বিশ্লেষণ (পাৰ্চিং, নৰ্মেলাইজেশন, ফনেম কনভাৰচন), প্ৰোসোডি পূৰ্বদৰ্শন (ৰিদম, পিট, চাপ আৰু স্থগিত কৰা নিৰ্ধাৰণ কৰা), আৰু অডিঅ' সংশ্লেষণ (প্ৰকৃত শব্দ তৰংগৰ সৃষ্টি কৰা) । নিউৰাল মডেলসমূহে প্ৰশিক্ষণ তথ্যৰ পৰা সকলো তিনিটা পৰ্যায় শিকে ।

Concatenative TTS এ পূৰ্বে ৰেকৰ্ড কৰা কথোপকথনৰ অংশসমূহ একেলগে সংযুক্ত কৰে, যি পৰিবৰ্তনসমূহত অস্থিৰ হ'ব পাৰে। Neural TTS এ গভীৰ শিকিবলৈ ব্যৱহাৰ কৰি সমূলি নতুনকৈ কথোপকথন সৃষ্টি কৰে, সুষম, অধিক প্ৰাকৃতিক-স্বৰযুক্ত অডিঅ' উৎপাদন কৰে ভাল প্ৰোসোডি আৰু অনুভূতিৰ সৈতে।

SSML (Speech Synthesis Markup Language) এটা XML-ভিত্তিক মাৰ্কআপ ভাষা যাৰ দ্বাৰা TTS ব্যৱস্থাপ্ৰণালীৰ দ্বাৰা লিখনীৰ উচ্চাৰণ নিয়ন্ত্ৰণ কৰিব পাৰি। আপুনি আপোনাৰ লিখনী ইনপুটত SSML টেগসমূহ ব্যৱহাৰ কৰি স্থগিত, জোৰ, উচ্চাৰণ, পিট পৰিবৰ্তন, আৰু কথা কোৱাৰ হাৰ নিৰ্ধাৰণ কৰিব পাৰিব।

TTS ব্যৱহাৰ কৰা হয় অভিগম্যতাৰ বাবে (দৃশ্যহীন ব্যৱহাৰকাৰীৰ বাবে স্ক্ৰীন ৰিডাৰ), ভাৰ্চুৱেল সহায়ক (Siri, Alexa, Google Assistant), অডিঅ’বুক উৎপাদন, ই-লৰ্নিং, GPS নেভিগেচন, গ্ৰাহক সেৱা IVR ব্যৱস্থা, বিষয়বস্তু সৃষ্টি আৰু ভাষা শিকিবলৈ এপ্লিকেচনসমূহত।

TTS ১৯৬০ চনত ৰ’বটিক নিয়ম-ভিত্তিক ব্যৱস্থাৰ পৰা ১৯৯০ চনত কনকাটেনেটিভ সংশ্লেষণলৈ, ২০০০ চনত পৰিসংখ্যাগত পৰামিটাৰ সংশ্লেষণলৈ, ২০১৬ চনত ৱেবনেটৰ সৈতে নিউৰাল TTSলৈ, আজিৰ পৰিবৰ্তন আৰু প্ৰসাৰণ মডেললৈ উন্নীত হৈছে।

প্ৰাকৃতিক-স্বৰযুক্ত TTS ৰ বাবে সঠিক প্ৰোসোডি (ৰৈখিকতা, জোৰ, উচ্চাৰণ), উপযুক্ত পেচিং, ধ্বনিসমূহৰ মাজত সুষম পৰিবৰ্তন, আৰু স্থায়ী ধ্বনি পৰিচয়ৰ প্ৰয়োজন। নিউৰাল মডেলসমূহে প্ৰাকৃতিক মানৱ ধ্বনি ৰেকৰ্ডিংৰ বৃহৎ ডাটাছেটসমূহৰ পৰা এই বিন্যাসসমূহ শিকে।

Chatterbox আৰু CosyVoice2ৰ দৰে শব্দ ক্লোনিং মডেলসমূহে ৫-৩০ ছেকেণ্ডৰ সংযোগ অডিঅ'ৰ পৰা এটা নিৰ্দিষ্ট শব্দ প্ৰতিলিপি কৰিব পাৰে। ক্লোন কৰা শব্দটি টাইমব্ৰে, উচ্চাৰণ, আৰু কথোপকথনৰ শৈলী সংগ্ৰহ কৰে, যদিও অন্যৰ শব্দ ক্লোন কৰিবলৈ নৈতিক আৰু আইনী বিবেচনাসমূহ প্ৰযোজ্য।

আধুনিক TTS মডেলসমূহ সমষ্টিগতভাৱে ৩০+ ভাষা সমৰ্থন কৰে। কিছুমান মডেল নিৰ্দিষ্ট ভাষাত বিশেষজ্ঞ আৰু আনবোৰ বহুভাষিক। ইংৰাজীয়ে সৰ্বাধিক উপলব্ধ মডেল আৰু কন্ঠ আছে, কিন্তু চীনা, জাপানী, কোৰীয়, স্পেনিশ আৰু ইউৰোপীয় ভাষাসমূহ ভালকৈ সমৰ্থিত।

TTS হৈছে AI শব্দ উৎপাদনৰ এটা উপসেট। TTS বিশেষকৈ টেক্সট ইনপুটক কথোপকথনৰ আউটপুটলৈ পৰিবৰ্তন কৰে। AI শব্দ উৎপাদন এটা বৃহৎ শব্দ যিটোত শব্দ ক্লোনিং, শব্দ পৰিবৰ্তন, কথোপকথন-থেকে-কথোপকথন, আৰু শব্দ প্ৰভাৱ উৎপাদন অন্তৰ্ভুক্ত কৰে।

এইটো আপোনাৰ প্ৰয়োজনৰ ওপৰত নিৰ্ভৰ কৰে। Kokoroয়ে সাধাৰণ ব্যৱহাৰৰ বাবে গতি আৰু গুণগত মানৰ সৰ্বোত্তম ভাৰসাম্য প্ৰদান কৰে। Chatterbox-এ শব্দ ক্লোনিংত নেতৃত্ব দিয়ে। Orpheus-এ আবেগিক অভিব্যক্তিত অসাধাৰণ। StyleTTS2এ সৰ্বোত্তম একক-ভাষী বৰ্ণনা প্ৰদান কৰে। সকলো ব্যৱহাৰৰ ক্ষেত্ৰত এটা "সৰ্বোত্তম" মডেল নাই।

হ'ব। TTS.ai ৰ সকলো মডেল উন্মুক্ত উৎস আৰু স্ব-হোস্ট কৰা যাব। কেৱল CPU মডেল যেনে Piper যিকোনো কম্পিউটাৰত চলাব পাৰি। GPU মডেল যেনে Kokoro আৰু Barkৰ বাবে ২-৮GB VRAM সহ NVIDIA GPUৰ প্ৰয়োজন হয়। আমাৰ প্লেটফৰ্মে হোস্ট কৰা প্ৰৱেশও প্ৰদান কৰে যাতে আপুনি আন্তঃগাঁথনি পৰিচালনা কৰিব নালাগে।

5.0/5 (1)

আধুনিক TTS নিজেই উপভোগ কৰক

২০+ state-of-the-art AI শব্দ মডেল বিনামূল্যে চেষ্টা কৰক। দেখুন টেক্সট-টু-স্পীচ কত দূৰ গিয়েছে।

বিনামূল্যে নিবন্ধন কৰক মূল্য দেখুৱাওক

টেক্সট-টু-স্পিচ (TTS) কি?

টেক্সট-টু-স্পীচত প্ৰধান ধাৰণাসমূহ

TTS ৰ অৰ্থ কি

Neural TTS কিদৰে কাম কৰে

কথোপকথন সংশ্লেষণৰ ইতিহাস

আধুনিক AI মডেলসমূহ

সাধাৰণ এপ্লিকেচনসমূহ

মুক্ত উৎস versus বাণিজ্যিক

TTS.ai ত উপলব্ধ TTS মডেলসমূহ

Kokoro

Bark

CosyVoice 2

Chatterbox

Tortoise TTS

Neural TTS কিদৰে কাম কৰে

মৌলিক বিষয়সমূহ বুজি লওক

বিভিন্ন মডেল অনুসন্ধান কৰক

নিজে চেষ্টা কৰক

আপোনাৰ প্ৰকল্পত অন্তৰ্ভুক্ত কৰক

টেক্সট-টু-স্পিচৰ সংক্ষিপ্ত ইতিহাসName

প্ৰাৰম্ভিক দিনসমূহ (১৯৫০-১৯৮০)

কনকাটেনেটিভ সংশ্লেষণ (১৯৯০-২০০০)

পৰিসংখ্যা/পৰামিটাৰ (২০০০-২০১০)

নিউৰাল TTS (২০১৬-প্ৰচলিত)

আধুনিক নিউৰাল TTS কিদৰে কাম কৰে

লিপি বিশ্লেষণ আৰু স্বাভাৱিককৰণName

অডিঅ' মডেল (স্পেক্ট্ৰোগ্ৰামলৈ লিপি)

ভ'কোডাৰ (স্পেক্ট্ৰোগ্ৰামৰ পৰা অডিঅ')

এন্ড-টু-এন্ড মডেলসমূহ

TTS প্ৰক্ৰিয়াৰ তুলনা

TTS ৰ সাধাৰণ অনুপ্ৰয়োগ

অভিগম্যতা

বিষয়বস্তু সৃষ্টি

ভাৰ্চুৱেল সহায়ক

সদায় সোধা প্ৰশ্নসমূহ

TTS মানে কি?

টেক্সট-টু-স্পিচ কিদৰে কাম কৰে?

নিউৰাল TTS আৰু কনকাটেনেটিভ TTSৰ মাজত কি পাৰ্থক্য আছে?

SSML কি আৰু TTS ৰ সৈতে ইয়াক কেনেদৰে ব্যৱহাৰ কৰা হয়?

টিটিএছ প্ৰযুক্তিৰ প্ৰধান প্ৰয়োগ কি কি?

সময়ৰ লগে লগে টিটিএছ প্ৰযুক্তি কিদৰে বিকশিত হৈছে?

TTS শব্দটোক কিয়ে স্বাভাৱিক কৰি তোলে?

TTS-এ কোনো মানৱ কণ্ঠৰ অনুকৰণ কৰিব পাৰে নে?

TTS দ্বাৰা কোন ভাষা সমৰ্থিত হয়?

TTS আৰু AI voice generation একই নে?

আজিৰ দিনত উপলব্ধ সৰ্বোত্তম টিটিএছ মডেল কি?

মই মোৰ নিজৰ কমপিউটাৰত TTS মডেল চলাব পাৰিম নে?

আধুনিক TTS নিজেই উপভোগ কৰক