টেক্সট-টু-স্পিচ (TTS) কি?

টেক্সট টু স্পিকার হচ্ছে এমন এক প্রযুক্তি যা কৃত্রিম বুদ্ধিমত্তার সাহায্যে লেখা টেক্সটকে কথা বলা অডিওতে রূপান্তর করে। প্রাথমিক রোবট সিন্থেসিজার থেকে আজকের নিউরাল নেটওয়ার্ক যা মানুষের থেকে আলাদা শোনায় না, টিটিএস আমাদের প্রযুক্তির সাথে যোগাযোগ, বিষয়বস্তু গ্রহণ এবং তথ্যের প্রবেশাধিকার বদলে দিয়েছে।

প্রযুক্তিName ইতিবৃত্ত কিভাবে কাজ করে নিউরাল নেটওয়ার্কName Evolution-এ যোগ দিন

টেক্সট- টু- স্পিচ- এর মূল ধারণা

আধুনিক বক্তৃতা সংশ্লেষণের নির্মাণ ব্লক বুঝতে

TTS মানে কি

টিটিএস হচ্ছে টেক্সট-টু-স্পিচ এর সংক্ষিপ্ত রূপ। কম্পিউটার দ্বারা তৈরি করা শব্দ ব্যবহার করে লেখা টেক্সটকে অডিওতে রূপান্তর করার প্রযুক্তি।

নিউরাল TTS কিভাবে কাজ করে

আধুনিক টিটিএস গভীর নিউরাল নেটওয়ার্ক ব্যবহার করে লেখা বিশ্লেষণ করে, কথা বলার ধরন অনুমান করে এবং অডিও তরঙ্গের সৃষ্টি করে যা মানুষের মতো শোনায়।

বক্তৃতা সংশ্লেষণের ইতিহাস

১৯৬০ এর দশকের নিয়ম ভিত্তিক সিস্টেম থেকে ১৯৯০ এর দশকের সংযুক্ত সংশ্লেষণ থেকে আজকের নিউরাল মডেল পর্যন্ত - ছয় দশক ধরে টিটিএস কিভাবে বিকশিত হয়েছে।

আধুনিক AI মডেল

আজকের মডেল যেমন কোকোরো, বার্ক এবং কোসিভয়েস ২, মানব-স্তরের কথা বলার গুণমান অর্জন করতে ট্রান্সফরমার, ডিফ্যুশন এবং ভিন্নতামূলক অনুমান ব্যবহার করে।

সাধারণ অ্যাপলিকেশনName

টিটিএস স্ক্রিন রিডার, জিপিএস নেভিগেশন, ভার্চুয়াল সহকারী, অডিওবুক, গ্রাহক সেবা বট, ই-লর্নিং প্ল্যাটফর্ম এবং বিষয়বস্তু সৃষ্টির ক্ষমতা প্রদান করে।

ওপেন সোর্স বনাম বাণিজ্যিক

উন্মুক্ত উৎস মডেল (এমআইটি, অ্যাপাচি ২. ০) বিনামূল্যে, স্ব-হোস্ট করা টিটিএস প্রদান করে, যখন বাণিজ্যিক পরিষেবাগুলি এসএলএ এবং সমর্থনের সাথে পরিচালিত এপিআই প্রদান করে।

TTS.ai এ TTS মডেল পাওয়া যায়

দ্রুত এবং হালকা থেকে স্টুডিও-মানের নিউরাল কণ্ঠস্বর

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

সর্বোত্তম: State-of-the-art ছোট মডেল - নিউরাল TTS কত দূর এসেছে তা দেখায়

চেষ্টা করো Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

সর্বোত্তম: ট্রান্সফরমার-ভিত্তিক মডেল শব্দের বাইরে অডিও উৎপাদন প্রদর্শন করে

চেষ্টা করো Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ভয়েস ক্লোন

সর্বোত্তম: মানব-সমান গুণমান এবং শূন্য-শট ক্লোনিং সঙ্গে স্ট্রিমিং TTS

চেষ্টা করো CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ভয়েস ক্লোন

সর্বোত্তম: জিরো-শট ভয়েস ক্লোনিং ভয়েস সিন্থেসিসের সীমানা প্রদর্শন করে

চেষ্টা করো Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 ভয়েস ক্লোন

সর্বোত্তম: সর্বোচ্চ অডিও গুণমান অগ্রাধিকার প্রদানের জন্য স্বয়ংক্রিয় পুনরাবৃত্তিমূলক স্থাপত্য

চেষ্টা করো Tortoise TTS

নিউরাল TTS কিভাবে কাজ করে

চারটি ধাপ দ্বারা আধুনিক বক্তব্য সংশ্লেষণ পাইপলাইন

1

মৌলিক বিষয়বস্তু বুঝুন

TTS লেখা টেক্সটকে কথা বলা অডিওতে রূপান্তর করে। আধুনিক সিস্টেম নিউরাল নেটওয়ার্ক ব্যবহার করে যা হাজার হাজার ঘন্টা মানুষের কথার রেকর্ডিং থেকে প্রশিক্ষিত।

2

বিভিন্ন মডেল অনুসন্ধান করুন

প্রত্যেকটি টিটিএস মডেল একটি ভিন্ন স্থাপত্য (ট্রান্সফরমার, ডিফ্যুশন, ভ্যারিয়েশনাল) ব্যবহার করে যা গতিতে, গুণমানে এবং বৈশিষ্ট্যগুলিতে অসাধারণ শক্তি রয়েছে।

3

নিজেই চেষ্টা করুন

টিটিএস বুঝার সবচেয়ে ভালো উপায় হল এটি ব্যবহার করা। উপরে আমাদের বিনামূল্যে মডেলগুলো চেষ্টা করুন - যে কোন লেখা পেস্ট করুন এবং সেকেন্ডের মধ্যেই তা বলা শুনুন।

4

আপনার প্রকল্পে অন্তর্ভুক্ত করুন

আপনি যখন আপনার পছন্দের মডেল খুঁজে পাবেন, তখন আপনার অ্যাপ্লিকেশন, পণ্য বা বিষয়বস্তু সৃষ্টির কর্মপ্রবাহের সাথে টিটিএসকে একীভূত করতে আমাদের এপিআই ব্যবহার করুন।

টেক্সট-টু-স্পিকারের সংক্ষিপ্ত ইতিহাসName

যান্ত্রিক কথা বলা মেশিন থেকে নিউরাল নেটওয়ার্ক

প্রারম্ভিক দিন (১৯৫০-১৯৮০)

প্রথম কম্পিউটার দ্বারা সৃষ্ট বক্তৃতা ১৯৬১ সালের কথা, যখন আইবিএম

উল্লেখযোগ্য সিস্টেম: Votrax (১৯৭০), DECtalk (১৯৮৪, Stephen Hawking দ্বারা ব্যবহৃত), Apple

কনকাটেনেটিভ সিন্থেসিস (১৯৯০-২০০০)

কনকাটেনেটিভ টিটিএস একটি বাস্তব মানব কণ্ঠস্বর রেকর্ড করে যা হাজার হাজার শব্দের সংমিশ্রণ বলে, তারপর র‍্যান্ডম- টাইমে সঠিক অংশগুলোকে একত্রিত করে। এর ফলে আরও প্রাকৃতিক শব্দের কণ্ঠস্বর তৈরি হয় কিন্তু এর জন্য প্রচুর ডাটাবেস প্রয়োজন হয় (প্রতিটি কণ্ঠস্বরের জন্য প্রায় ১০- ২০ ঘণ্টা রেকর্ডিং)। গুণমানের উপর অনেকাংশে নির্ভর করে সেগমেন্টগুলোর মধ্যে সুষম যোগসূত্র খুঁজে পাওয়া।

ব্যবহার করেছে: এটিএন্ডটি নেচারাল ভয়েসেস, নিউয়েন্স ভক্যালাইজার, গুগল ট্রান্সলেট টিটিএস।

পরিসংখ্যান/প্যারামিটার (২০০০-২০১০)

রেকর্ডিং স্টিকিং করার পরিবর্তে, প্যারামিটার মডেলগুলি বক্তৃতার পরিসংখ্যানিক প্রতিনিধিত্ব শিখেছিল । লুকানো মারকোভ মডেল (HMMs) এবং পরে গভীর নিউরাল নেটওয়ার্কগুলি বক্তৃতার প্যারামিটারগুলি (পিচ, সময়কাল, স্পেক্ট্রাল বৈশিষ্ট্য) তৈরি করেছিল যা একটি ভকোডার দ্বারা সরবরাহ করা হত । এটি অসীমিত শব্দভাণ্ডার এবং সহজ কণ্ঠ সৃষ্টির অনুমতি দেয়, কিন্তু ভকোডার পদক্ষেপটি প্রায়শই একটি \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\ \\

প্রধান মডেল: HTS, মার্লিন, প্রাথমিক DNN-ভিত্তিক সিস্টেম।

নিউরাল TTS (২০১৬-বর্তমান)

আধুনিক যুগের সূচনা হয় ওয়েভনেট (ডিপমাইন্ড, ২০১৬) এর মাধ্যমে, যা গভীর নিউরাল নেটওয়ার্ক ব্যবহার করে অডিও নমুনা থেকে নমুনা তৈরি করে। এরপর তাকোট্রন (গুগল, ২০১৭) এর মাধ্যমে, যা সরাসরি টেক্সটকে স্পেক্ট্রোগ্রামে ম্যাপ করতে শিখে। আজ

গুরুত্বপূর্ণ অগ্রগতি: ওয়েভনেট, ট্যাকোট্রন, ফাস্টস্পিচ, ভিটিএস, বার্ক, কোকোরো।

আধুনিক নিউরাল TTS কিভাবে কাজ করে

প্রাকৃতিক শব্দের AI কণ্ঠের পেছনের স্থাপত্য

টেক্সট বিশ্লেষণ এবং স্বাভাবিককরণName

কাঁচা লেখা পরিষ্কার করা হয়েছে এবং স্বাভাবিক করা হয়েছে: সংখ্যাগুলি শব্দে পরিণত হয়েছে (\

অডিও মডেল (স্পেক্ট্রোগ্রামে টেক্সট)

অডিও মডেল (প্রায়শই একটি ট্রান্সফরমার বা অটোরেগ্রেসিভ নেটওয়ার্ক) শব্দের অনুক্রম গ্রহণ করে এবং একটি মেল স্পেক্ট্রোগ্রামের পূর্বাভাস দেয় - অডিও কীভাবে শোনা যায় তার একটি দৃশ্যমান প্রতিনিধিত্ব

ভকোডার (অডিওতে স্পেক্ট্রোগ্রাম)

ভকোডার মেল স্পেক্ট্রোগ্রামকে আসল অডিও তরঙ্গে রূপান্তর করে। গ্রিফিন- লিমের মত প্রাথমিক ভকোডার রোবট শিল্পকর্ম তৈরি করে। আধুনিক নিউরাল ভকোডার (HiFi- GAN, BigVGAN, Vocos) উচ্চমানের ২৪ কিলোহার্টজ অথবা ৪৪. ১ কিলোহার্টজ অডিও উৎপাদন করে যা প্রাকৃতিক বক্তৃতার বিস্তারিত বিবরণ ধারণ করে, যার মধ্যে শ্বাস- প্রশ্বাসের শব্দ এবং ঠোঁটের সূক্ষ্ম নড়াচড়া অন্তর্ভুক্ত।

শেষ-থেকে-শেষ মডেল

VITS, Kokoro, এবং Bark এর মত সাম্প্রতিক মডেল দুটি পর্যায়ের পাইপলাইন সম্পূর্ণভাবে ছাড়িয়ে যায়। তারা সরাসরি একটি নিউরাল নেটওয়ার্কে টেক্সট থেকে অডিওতে যায়, যা কম শিল্পকর্মের সাথে আরও প্রাকৃতিক ফলাফল উৎপাদন করে। কিছু মডেল (যেমন Bark) এমনকি কথা বলার সাথে সাথে অ- কথা বলার শব্দ, হাসি এবং সঙ্গীতও তৈরি করতে পারে।

TTS পদ্ধতির তুলনা

টিটিএস প্রযুক্তির চার প্রজন্মের তুলনা

প্রচেষ্টা সময়কাল প্রাকৃতিকতা নমনীয়তা গতি ডাটা প্রয়োজন
ফরম্যান্ট সংশ্লেষণ
নিয়ম-ভিত্তিক ফ্রিকোয়েন্সি মডেলিং
1960s-1990s কিছু না
সংযুক্তকরণ
স্টাইটেড অডিও সেগমেন্ট
1990s-2010s ১০-২০+ ঘন্টা
প্যারামিটার (HMM/DNN)
পরিসংখ্যানগত বক্তব্য মডেল
2000s-2016 ১-৫ ঘন্টা
নিউরাল এন্ড-টু-এন্ড
গভীর শিক্ষা (VITS, Kokoro, Bark)
2016-বর্তমান মিনিট থেকে ঘন্টা

TTS- এর সাধারণ অ্যাপ্লিকেশন

টেক্সট-টু-স্পীচ বর্তমানে যেখানে ব্যবহৃত হয়

প্রবেশযোগ্যতা

স্ক্রীন রিডার, সহায়ক যন্ত্র এবং দৃষ্টিশক্তির অবনতি বা পড়াশোনার অসুবিধা থাকা ব্যক্তিদের জন্য টুলসগুলো টিটিএসের উপর নির্ভর করে যাতে ডিজিটাল বিষয়বস্তু সবার জন্যে সহজলভ্য হয়।

বিষয়বস্তু তৈরি করা হচ্ছে

ইউটিউব ব্যবহারকারী, পডকাস্টার এবং সামাজিক যোগাযোগ মাধ্যমের সৃষ্টিকর্তারা টিটিএস ব্যবহার করেন ভয়েসওভার, বর্ণনা এবং স্বয়ংক্রিয়ভাবে পরিমাণ অনুযায়ী বিষয়বস্তু উৎপাদনের জন্য।

ভার্চুয়াল সহকারী

সিরি, অ্যালেক্সা, গুগল অ্যাসিস্ট্যান্ট এবং কাস্টমার সার্ভিস চ্যাটবট সবাই টিটিএস ব্যবহার করে ব্যবহারকারীদের স্বাভাবিক ভাষায় উত্তর দিতে।

প্রায়শ জিজ্ঞাসিত প্রশ্ন

টেক্সট-টু-স্পিচ প্রযুক্তি সম্পর্কে সাধারণ প্রশ্ন

TTS হল টেক্সট-টু-স্পিচ (Text-to-Speech) । এটি এমন একটি প্রযুক্তি যা লিখিত টেক্সটকে সিনথেটিক বা AI-প্রোডাক্টেড শব্দের সাহায্যে শোনা যায় এমন শব্দে রূপান্তর করে । প্রযুক্তিগত সাহিত্যে এই শব্দটি "স্পিচ সিনথেসিস" এর সাথে বিনিময়যোগ্যভাবে ব্যবহৃত হয় ।

আধুনিক TTS সিস্টেম তিনটি পর্যায়ে কাজ করে: টেক্সট বিশ্লেষণ (পার্সিং, নরম্যালাইজেশন, ফোনেম রূপান্তর), প্রসোডি ভবিষ্যদ্বাণী (রিদম, পিচ, স্ট্রেস এবং বিরতি নির্ধারণ করা), এবং অডিও সংশ্লেষণ (প্রকৃত শব্দ তরঙ্গরূপ তৈরি করা)। নিউরাল মডেল প্রশিক্ষণ তথ্য থেকে তিনটি পর্যায় শিখে।

কনকাটেনেটিভ TTS পূর্বে রেকর্ড করা কথার টুকরোগুলোকে একত্রিত করে, যা পরিবর্তনের সময় ঝামেলা সৃষ্টি করতে পারে। নিউরাল TTS গভীরভাবে শিখতে ব্যবহার করে শূণ্য থেকে কথা তৈরি করে, সুষম, আরও প্রাকৃতিক-স্বরযুক্ত অডিও উৎপাদন করে, ভাল প্রসোডি এবং আবেগ সহ।

SSML (Speech Synthesis Markup Language) একটি এক্সএমএল ভিত্তিক ট্যাগিং ভাষা যা আপনাকে নিয়ন্ত্রণ করতে দেয় যে TTS সিস্টেম কিভাবে লেখা উচ্চারণ করে । আপনি আপনার টেক্সট ইনপুটের মধ্যে SSML ট্যাগ ব্যবহার করে বিরতি, জোর, উচ্চারণ, উচ্চতা পরিবর্তন এবং কথা বলার হার নির্ধারণ করতে পারেন ।

টিটিএস ব্যবহার করা হয় ব্যবহারকারীর সুবিধার জন্য (দৃষ্টিহীন ব্যবহারকারীদের জন্য স্ক্রীন রিডার), ভার্চুয়াল সহকারী (সিরি, অ্যালেক্সা, গুগল সহকারী), অডিওবুক উৎপাদন, ই-লর্নিং, জিপিএস নেভিগেশন, গ্রাহক সেবা আইভিআর সিস্টেম, বিষয়বস্তু সৃষ্টি এবং ভাষা শিখতে অ্যাপ্লিকেশনের জন্য।

১৯৬০ সালের রোবট নিয়ম ভিত্তিক সিস্টেম থেকে ১৯৯০ সালের কনকাটেনেটিভ সিন্থেসিস, ২০০০ সালের পরিসংখ্যানগত প্যারামিটার সিন্থেসিস, ২০১৬ সালের ওয়েভনেট সহ নিউরাল টিটিএস, এবং বর্তমানে ট্রান্সফরমার এবং ডিফ্যুশন মডেল যা মানব-স্তরের গুণমান অর্জন করে, এই সব থেকে টিটিএস বিকশিত হয়েছে।

প্রাকৃতিক-স্বর TTS সঠিক prosody (রথ, জোর, intonation), উপযুক্ত পেসিং, সুষম transitions মধ্যে শব্দ, এবং স্থায়ী কণ্ঠস্বর পরিচয় প্রয়োজন। নিউরাল মডেল এই নকশা শিখতে বড় ডাটাসেট থেকে প্রাকৃতিক মানুষের কথা রেকর্ডিং।

চ্যাটারবক্স এবং কোসিভয়েস ২ এর মত ভয়েস ক্লোনিং মডেল মাত্র ৫-৩০ সেকেন্ডের রেফারেন্স অডিও থেকে একটি নির্দিষ্ট ভয়েস প্রতিলিপি করতে পারে। ক্লোন করা ভয়েসটি টাইমব্রে, উচ্চারণ এবং কথা বলার শৈলী ধরে রাখে, যদিও অন্যের ভয়েস ক্লোন করার ক্ষেত্রে নৈতিক এবং আইনগত বিবেচনা প্রযোজ্য।

আধুনিক TTS মডেল সমষ্টিগতভাবে ৩০+ ভাষা সমর্থন করে। কিছু মডেল নির্দিষ্ট ভাষার জন্য বিশেষ করে এবং অন্যগুলো বহুভাষিক। ইংরেজি ভাষায় সবচেয়ে বেশি মডেল এবং কণ্ঠস্বর পাওয়া যায়, কিন্তু চীনা, জাপানি, কোরীয়, স্প্যানিশ এবং ইউরোপীয় ভাষাগুলি ভালভাবে সমর্থিত।

TTS হল AI শব্দ উৎপাদনের একটি সাবসেট। TTS বিশেষভাবে টেক্সট ইনপুটকে কথার আউটপুটে রূপান্তর করে। AI শব্দ উৎপাদন একটি বিস্তৃত শব্দ যা শব্দ ক্লোনিং, শব্দ রূপান্তর, কথা থেকে কথা এবং শব্দ প্রভাব উৎপাদন অন্তর্ভুক্ত করে।

এটি আপনার প্রয়োজনের উপর নির্ভর করে। Kokoro সাধারণ ব্যবহারের জন্য গতি এবং গুণমানের সর্বোত্তম ভারসাম্য প্রদান করে। Chatterbox ভয়েস ক্লোনিং- এ নেতৃত্ব দেয়। Orpheus আবেগ প্রকাশে অসাধারণ। StyleTTS2সবচেয়ে প্রাকৃতিক একক- স্পিকার বর্ণনা তৈরি করে। সব ব্যবহারের ক্ষেত্রে কোন একক "সেরা" মডেল নেই।

হ্যাঁ। TTS.ai-এর সকল মডেল উন্মুক্ত উৎস এবং স্ব-হোস্ট করা যেতে পারে। পাইপার-এর মত শুধুমাত্র সিপিইউ মডেল যেকোনো কম্পিউটারে চালানো যেতে পারে। কোকোরো এবং বার্কের মত GPU মডেলের জন্য ২-৮GB VRAM সহ এনভিডিআইএ GPU প্রয়োজন। আমাদের প্ল্যাটফর্ম হোস্ট করা অ্যাক্সেসও প্রদান করে যাতে আপনাকে অবকাঠামো পরিচালনা করতে হয় না।
5.0/5 (1)

আমরা কি উন্নতি করতে পারি? আপনার ফিডব্যাক আমাদের সমস্যা সমাধানে সাহায্য করে।

আধুনিক TTS আপনার নিজের অভিজ্ঞতা

২০+ state-of-the-art AI ভয়েস মডেল বিনামূল্যে চেষ্টা করুন। দেখুন টেক্সট-টু-স্পিচ কতটা এগিয়ে গেছে।