ପାଠ୍ୟରୁ ଭାଷା (TTS) କଣ?

ପାଠ୍ୟରୁ ଭାଷା ହେଉଛି ଏକ ପ୍ରଯୁକ୍ତି ଯାହା ଲିଖିତ ପାଠ୍ୟକୁ କୃତ୍ରିମ ବୁଦ୍ଧି ବ୍ୟବହାର କରି ବଚନ ଧ୍ୱନିରେ ପରିବର୍ତ୍ତନ କରିଥାଏ । ପ୍ରାରମ୍ଭିକ ରୋବୋଟିକ ସିନ୍ଥେସିଜରରୁ ଆଜିର ନ୍ୟୁରାଲ ନେଟୱାର୍କ ପର୍ଯ୍ୟନ୍ତ ଯାହାକି ମାନବରୁ ଅଲଗା ଶବ୍ଦ କରିଥାଏ, TTS ଆମର ପ୍ରଯୁକ୍ତି ସହିତ ଆଲୋଚନା କରିବା, ବିଷୟବସ୍ତୁ ବ୍ୟବହାର କରିବା ଏବଂ ସୂଚନା ସୁଗମ କରିବାରେ ପରିବର୍ତ୍ତନ କରିଛି ।

ପ୍ରଯୁକ୍ତିName ପୁରୁଣା ତଥ୍ଯ ଏହା କିପରି କାମ କରେ ନ୍ୟୁରାଲ ନେଟୱର୍କଗୁଡ଼ିକName Evolution ପୃଷ୍ଠାଗୁଡ଼ିକ

ପାଠ୍ୟରୁ ବକ୍ତବ୍ୟରେ ପ୍ରମୁଖ ଧାରଣାଗୁଡ଼ିକName

ଆଧୁନିକ ଭାଷା ସଂଶ୍ଲେଷଣର ନିର୍ମାଣ ବସ୍ତୁଗୁଡ଼ିକୁ ବୁଝିବା

TTS କଣ ପାଇଁ ଥାଏ

TTS ଟେକ୍ସଟ-ଟୁ-ସ୍ପିକର ଅର୍ଥାତ୍ ଲିଖିତ ପାଠ୍ୟକୁ କମ୍ପ୍ୟୁଟର ଦ୍ୱାରା ନିର୍ମିତ ଧ୍ୱନି ବ୍ୟବହାର କରି କଥାବାର୍ତ୍ତାରେ ପରିଣତ କରୁଥିବା ପ୍ରଯୁକ୍ତିବିଦ୍ୟା ।

ନ୍ୟୁରାଲ TTS କିପରି କାମ କରେName

ଆଧୁନିକ TTS ପାଠ୍ୟକୁ ବିଶ୍ଳେଷଣ କରିବା ପାଇଁ ଗଭୀର ନ୍ୟୁରାଲ ନେଟୱାର୍କ ବ୍ୟବହାର କରେ, ଭାଷଣ ପଦ୍ଧତିକୁ ଭବିଷ୍ୟବାଣୀ କରେ, ଏବଂ ଅଡିଓ ତରଙ୍ଗଗୁଡ଼ିକୁ ଉତ୍ପାଦନ କରେ ଯାହାକି ଅତ୍ୟନ୍ତ ମାନବୀୟ ଶବ୍ଦ ହୋଇଥାଏ ।

ଭାଷା ସଂଯୋଜକତାର ଇତିହାସName

1960 ମସିହାରୁ ନିୟମ ଆଧାରିତ ବ୍ୟବସ୍ଥାରୁ 1990 ମସିହାରେ ସଂଯୋଗୀକରଣ ସଂଶ୍ଲେଷଣ ପର୍ଯ୍ୟନ୍ତ ଆଜିର ନ୍ୟୁରାଲ ମଡେଲ ପର୍ଯ୍ୟନ୍ତ – TTS କିପରି 60 ବର୍ଷ ମଧ୍ୟରେ ବିକଶିତ ହୋଇଛି ।

ଆଧୁନିକ AI ମଡେଲଗୁଡ଼ିକ

ଆଜିର ମଡେଲ ଯେପରିକି କୋକୋରୋ, ବାର୍କ, ଏବଂ କୋସିଭାୟସ2ମାନବ ସ୍ତରୀୟ ଭାଷା ଗୁଣବତ୍ତା ହାସଲ କରିବା ପାଇଁ ଟ୍ରାନ୍ସଫର୍ମର, ପ୍ରସାରଣ, ଏବଂ ବିବିଧତା ଅନୁମାନ ବ୍ୟବହାର କରିଥାଏ ।

ସାଧାରଣ ପ୍ରୟୋଗଗୁଡ଼ିକ

ଟିଟିଏସ ସ୍କ୍ରିନ ରିଡର, ଜିପିଏସ ନେଭିଗେସନ, ୱାରଚ୍ୟୁଆଲ ସହାୟକ, ଅଡିଓବୁକ୍ସ, କଷ୍ଟମର ସେବା ବଟ, ଇ-ଲର୍ନିଂ ପ୍ଲାଟଫର୍ମ ଏବଂ ବିଷୟବସ୍ତୁ ନିର୍ମାଣକୁ ଶକ୍ତି ପ୍ରଦାନ କରିଥାଏ ।

ମୁକ୍ତ ଉତ୍ସ versus ବାଣିଜ୍ୟିକ

ମୁକ୍ତ ଉତ୍ସ ମଡେଲ (ଏମଆଇଟି, ଆପାଚି 2.0) ମୁକ୍ତ, ସ୍ୱୟଂ-ହୋଷ୍ଟେବଲ ଟିଟିଏସ ପ୍ରଦାନ କରୁଥିବା ବେଳେ ବାଣିଜ୍ୟିକ ସେବା ଏସଏଲଏ ଏବଂ ସମର୍ଥନ ସହିତ ପରିଚାଳିତ ଏପିଆଇ ପ୍ରଦାନ କରୁଛି ।

TTS.ai ରେ ଉପଲବ୍ଧ TTS ନମୂନା

ଦ୍ରୁତ ଏବଂ ହଳଦିଆରୁ ଷ୍ଟୁଡିଓ-ଗୁଣବତ୍ତା ନ୍ୟୁରାଲ ଧ୍ୱନିଗୁଡ଼ିକ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ଏହା ପାଇଁ ଉତ୍ତମ: State-of-the-art ଛୋଟ ମଡେଲ - ନ୍ୟୁରାଲ TTS କେତେ ଦୂର ଆସିଛି ତାହା ଦର୍ଶାଇଥାଏ

ଚେଷ୍ଟାକରନ୍ତୁ Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

ଏହା ପାଇଁ ଉତ୍ତମ: ବାକ୍ୟ ବ୍ୟତୀତ ଧ୍ୱନି ଉତ୍ପାଦନ ପ୍ରଦର୍ଶନ କରୁଥିବା ଟ୍ରାନ୍ସଫର୍ମର-ଆଧାରିତ ମଡେଲ

ଚେଷ୍ଟାକରନ୍ତୁ Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ମାନବ-ସମାନ ଗୁଣବତ୍ତା ଏବଂ ଶୂନ୍ୟ-ଶଟ କ୍ଲୋନିଂ ସହିତ TTSକୁ ପ୍ରବାହିତ କରନ୍ତୁ

ଚେଷ୍ଟାକରନ୍ତୁ CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ଶୂନ୍ୟ-ଶଟ ଧ୍ୱନି କ୍ଲୋନିଂ ଧ୍ୱନି ସଂଶ୍ଲେଷଣର ସୀମା ଦର୍ଶାଇଥାଏ

ଚେଷ୍ଟାକରନ୍ତୁ Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ସର୍ବାଧିକ ଧ୍ୱନି ଗୁଣବତ୍ତାକୁ ପ୍ରାଥମିକତା ଦେଇଥିବା ସ୍ୱୟଂ-ପୃଥକ ଢାଞ୍ଚା

ଚେଷ୍ଟାକରନ୍ତୁ Tortoise TTS

ନ୍ୟୁରାଲ TTS କିପରି କାମ କରେName

ଚାରିଟି ପର୍ଯ୍ୟାୟରେ ଆଧୁନିକ ଭାଷା ସଂଶ୍ଲେଷଣ ପାଇପଲାଇନName

1

ମୂଳଧର୍ମକୁ ବୁଝନ୍ତୁ

TTS ଲିଖିତ ପାଠ୍ୟକୁ ବଚନ ଧ୍ୱନିରେ ପରିବର୍ତ୍ତନ କରିଥାଏ । ଆଧୁନିକ ତନ୍ତ୍ରଗୁଡ଼ିକ ହଜାର ହଜାର ଘଣ୍ଟା ମାନବ ବଚନ ରେକର୍ଡିଂରେ ପ୍ରଶିକ୍ଷଣପ୍ରାପ୍ତ ନ୍ୟୁରାଲ ନେଟୱର୍କଗୁଡ଼ିକୁ ବ୍ୟବହାର କରିଥାଏ ।

2

ଭିନ୍ନ ଭିନ୍ନ ନମୁନାକୁ ଅନୁସନ୍ଧାନ କରନ୍ତୁ

ପ୍ରତ୍ୟେକ ଟିଟିଏସ ମଡେଲ ଭିନ୍ନ ଭିନ୍ନ ଢାଂଚା (ଟ୍ରାନ୍ସଫର୍ମର, ଡିଫ୍ୟୁଜନ, ଭେରିଟେସନାଲ) ବ୍ୟବହାର କରେ ଯାହାର ଗତି, ଗୁଣବତ୍ତା ଏବଂ ଫିଚରରେ ଭିନ୍ନ ଭିନ୍ନ ଶକ୍ତି ରହିଛି ।

3

ନିଜେ ଚେଷ୍ଟାକରନ୍ତୁ

TTS କୁ ବୁଝିବାର ସବୁଠାରୁ ଭଲ ଉପାୟ ହେଉଛି ଏହାକୁ ବ୍ୟବହାର କରିବା । ଉପରସ୍ଥିତ ଆମର ମୁକ୍ତ ନମୂନାକୁ ଚେଷ୍ଟାକରନ୍ତୁ — ଯେକୌଣସି ପାଠ୍ୟକୁ ଲଗାନ୍ତୁ ଏବଂ ସେକଣ୍ଡଗୁଡ଼ିକରେ ଏହାକୁ କହିବା ଶୁଣନ୍ତୁ ।

4

ଆପଣଙ୍କର ପ୍ରକଳ୍ପଗୁଡ଼ିକରେ ଏକୀକୃତ କରନ୍ତୁ

ଆପଣ ପସନ୍ଦ କରୁଥିବା ନମୂନାକୁ ପାଇବା ପରେ, ଆପଣଙ୍କ ପ୍ରୟୋଗ, ଉତ୍ପାଦ କିମ୍ବା ବିଷୟବସ୍ତୁ ସୃଷ୍ଟି କାର୍ଯ୍ୟପ୍ରବାହରେ TTSକୁ ଏକୀକୃତ କରିବା ପାଇଁ ଆମର API ବ୍ୟବହାର କରନ୍ତୁ ।

ପାଠ୍ୟରୁ ଭାଷଣର ସଂକ୍ଷିପ୍ତ ଇତିହାସName

ଯାନ୍ତ୍ରିକ କଥାବାର୍ତ୍ତା ଯନ୍ତ୍ରରୁ ନ୍ୟୁରାଲ ନେଟୱାର୍କ ପର୍ଯ୍ୟନ୍ତ

ପ୍ରାରମ୍ଭିକ ଦିନଗୁଡ଼ିକ (1950-1980)

ପ୍ରଥମ କମ୍ପ୍ୟୁଟର ଦ୍ୱାରା ନିର୍ମିତ ଭାଷଣ 1961 ମସିହାରେ IBM ଦ୍ଵାରା ପ୍ରସ୍ତୁତ ହୋଇଥିଲା ।

ଉଲ୍ଲେଖନୀୟ ତନ୍ତ୍ରଗୁଡିକ: Votrax (1970s), DECtalk (1984, Stephen Hawking ଦ୍ୱାରା ବ୍ୟବହୃତ), Apple

ସମ୍ବନ୍ଧୀୟ ସଂଶ୍ଲେଷଣ (1990-2000)

ସଂଯୋଜକ TTS ଗୋଟିଏ ପ୍ରକୃତ ମାନବ ସ୍ୱରକୁ ହଜାର ହଜାର ଫୋନେମ ସଂଯୋଜକକୁ କହିବା ପାଇଁ ରେକର୍ଡ କରିଥାଏ, ତାପରେ ରେନଟାଇମରେ ଠିକ ସେଗମେଣ୍ଟଗୁଡ଼ିକୁ ଏକାଠି କରିଥାଏ। ଏହା ଅଧିକ ପ୍ରାକୃତିକ ସ୍ୱରଯୁକ୍ତ ଭାଷା ଉତ୍ପାଦନ କରିଥାଏ କିନ୍ତୁ ବଡ଼ ତଥ୍ୟଭଣ୍ଡାରଗୁଡ଼ିକୁ ଆବଶ୍ୟକ କରେ (ପ୍ରତି ସ୍ୱର ପାଇଁ ପ୍ରାୟ 10-20 ଘଣ୍ଟା ରେକର୍ଡ)। ଗୁଣବତ୍ତା ସେଗମେଣ୍ଟଗୁଡ଼ିକ ମଧ୍ୟରେ ସୁସ୍ଥ ଯୋଗାଯୋଗ ଖୋଜିବା ଉପରେ ଅଧିକ ନିର୍ଭର କରିଥାଏ।

ଦ୍ୱାରା ବ୍ୟବହୃତ: AT&T ପ୍ରାକୃତିକ ସ୍ୱର, Nuance Vocalizer, ପ୍ରାରମ୍ଭିକ Google ଅନୁବାଦ TTS ।

ପରିସଂଖ୍ୟାନ/ପାରାମିଟର (2000s-2010s)

ରେକର୍ଡିଂକୁ ଷ୍ଟିଚ କରିବା ବଦଳରେ, ପରିମାପକ ନମୁନାଗୁଡ଼ିକ ଭାଷାର ପରିସଂଖ୍ୟାନ ପ୍ରତିନିଧିତ୍ୱକୁ ଶିଖିଥାଏ। ଲୁକ୍କାୟିତ ମାର୍କୋଭ ନମୁନାଗୁଡ଼ିକ (HMMs) ଏବଂ ପରେ ଗଭୀର ନ୍ୟୁରାଲ ନେଟୱର୍କଗୁଡ଼ିକ ଭାଷା ପରିମାପକଗୁଡ଼ିକୁ ସୃଷ୍ଟି କରିଥାଏ (ପିଚ, ସମୟ, ସ୍ପେକ୍ଟ୍ରାଲ ଗୁଣଧର୍ମ) ଯାହାକି ଗୋଟିଏ ଭୋକୋଡର ମାଧ୍ୟମରେ ପଠାଯାଇଥାଏ। ଏହା ଅସୀମିତ ଶବ୍ଦଭଣ୍ଡାର ଏବଂ ସହଜ ସ୍ୱର ନିର୍ମାଣକୁ ଅନୁମତି ଦେଇଥାଏ, କିନ୍ତୁ ଭୋକୋଡର ପଦକ୍ଷେପଟି ସାଧାରଣତଃ ଗୋଟିଏ \ ଉତ୍ପାଦନ କରିଥାଏ।

ପ୍ରମୁଖ ମଡେଲ: ଏଚଟିଏସ, ମର୍ଲିନ, ପ୍ରାରମ୍ଭିକ ଡିଏନଏ ଆଧାରିତ ବ୍ୟବସ୍ଥା ।

ନ୍ୟୁରାଲ TTS (2016-ପ୍ରಸ್ತುତ)

ଆଧୁନିକ ଯୁଗ WaveNet (DeepMind, 2016) ସହିତ ଆରମ୍ଭ ହୋଇଥିଲା, ଯାହା ଗଭୀର ନ୍ୟୁରାଲ ନେଟୱାର୍କ ବ୍ୟବହାର କରି ନମୁନା ଦ୍ୱାରା ନମୁନା ଦ୍ୱାରା ଧ୍ୱନି ନମୁନା ସୃଷ୍ଟି କରିଥିଲା । ଏହାକୁ Tacotron (Google, 2017) ଦ୍ୱାରା ଅନୁସରଣ କରାଯାଇଥିଲା, ଯାହା ପାଠ୍ୟକୁ ସିଧାସଳଖ ସ୍ପେକ୍ଟ୍ରୋଗ୍ରାମରେ ମେପ କରିବାକୁ ଶିଖିଥିଲା । ଆଜି

ପ୍ରମୁଖ ପ୍ରଗତି: ୱେବନେଟ, ଟାକୋଟ୍ରନ, ଫାଷ୍ଟସ୍ପିକ୍ସ, ଭିଆଇଟିଏସ, ବାର୍କ, କୋକୋରୋ

ଆଧୁନିକ ନ୍ୟୁରାଲ TTS କିପରି କାମ କରେName

ପ୍ରାକୃତିକ-ସଙ୍ଗୀତ AI ଧ୍ୱନି ପଛର ସ୍ଥାପତ୍ୟ

ପାଠ୍ୟ ବିଶ୍ଳେଷଣ ଏବଂ ସାଧାରଣକରଣName

କଠିନ ପାଠ୍ୟକୁ ସଫା କରାଯାଇଛି ଏବଂ ସାଧାରଣତଃ: ସଂଖ୍ୟାଗୁଡ଼ିକ ଶବ୍ଦ ହୋଇଯାଏ (\

ଶବ୍ଦ ମଡେଲ (ପାଠ୍ୟରୁ ସ୍ପେକ୍ଟ୍ରୋଗ୍ରାମକୁ) Name

ଶବ୍ଦମୂଳକ ନମୂନା (ସାଧାରଣତଃ ଏକ ଟ୍ରାନ୍ସଫର୍ମର କିମ୍ବା ସ୍ୱୟଂ-ପୃଥକ ନେଟୱର୍କ) ଫୋନେମ ଅନୁକ୍ରମକୁ ଗ୍ରହଣ କରିଥାଏ ଏବଂ ଏକ ମେଲ ସ୍ପେକ୍ଟ୍ରୋଗ୍ରାମକୁ ଭବିଷ୍ୟବାଣୀ କରିଥାଏ - ଧ୍ୱନି କିପରି ହୋଇଥାଏ ତାହାର ଏକ ଦୃଶ୍ୟମାନ ପ୍ରତିନିଧିତ୍ୱ

Vocoder (ସ୍ପେକଟ୍ରୋଗ୍ରାମକୁ ଧ୍ୱନି) Name

ଭୋକୋଡର mel ସ୍ପେକ୍ଟ୍ରୋଗ୍ରାମକୁ ପ୍ରକୃତ ଧ୍ୱନି ତରଙ୍ଗରେ ରୂପାନ୍ତରିତ କରେ। ପ୍ରାରମ୍ଭିକ ଭୋକୋଡରଗୁଡ଼ିକ ଯେପରିକି Griffin-Lim ରୋବୋଟିକ ଆର୍ଟଫେକଟ ଉତ୍ପାଦନ କରେ। ଆଧୁନିକ ନ୍ୟୁରାଲ ଭୋକୋଡରଗୁଡ଼ିକ (HiFi-GAN, BigVGAN, Vocos) ଉଚ୍ଚ-ସତ୍ୟତା 24kHz କିମ୍ବା 44.1kHz ଧ୍ୱନି ଉତ୍ପାଦନ କରେ ଯାହାକି ପ୍ରାକୃତିକ ବକ୍ତବ୍ୟର ବିସ୍ତୃତ ବିବରଣୀକୁ ଗ୍ରହଣ କରିଥାଏ, ଶ୍ୱାସ ଶବ୍ଦଗୁଡ଼ିକ ଏବଂ ସୁକ୍ଷ୍ମ ଓଠ ଗତି ସମେତ।

ଶେଷ-ରୁ-ଶେଷ ନମୂନାଗୁଡ଼ିକ

ନୂତନ ମଡେଲଗୁଡ଼ିକ ଯେପରିକି VITS, Kokoro, ଏବଂ Bark ଦୁଇ-ସ୍ତରୀୟ ପାଇପଲାଇନକୁ ସମ୍ପୂର୍ଣ୍ଣ ଭାବରେ ଛାଡ଼ିଦେଇଛନ୍ତି । ସେମାନେ ସିଧାସଳଖ ପାଠ୍ୟରୁ ଧ୍ୱନିକୁ ଗୋଟିଏ ନ୍ୟୁରାଲ ନେଟୱର୍କରେ ଯାଆନ୍ତି, କମ୍ ଆର୍ଟଫେକ୍ସ ସହିତ ଅଧିକ ପ୍ରାକୃତିକ ଫଳାଫଳ ଉତ୍ପାଦନ କରିଥାନ୍ତି । କିଛି ମଡେଲଗୁଡ଼ିକ (ଯେପରିକି Bark) ବାକ୍ୟ ସହିତ ଅବାକ୍ୟ ଧ୍ୱନି, ହସ, ଏବଂ ସଂଗୀତ ମଧ୍ୟ ଉତ୍ପାଦନ କରିପାରିବେ ।

TTS ଉପାୟଗୁଡ଼ିକର ତୁଳନାName

ଟିଟିଏସ ପ୍ରଯୁକ୍ତିର ଚାରିଟି ପିଢ଼ିର ତୁଳନା କିପରି ହେବ

ପଦ୍ଧତି ସମୟ ପ୍ରାକୃତିକତା ନବୀନତା ବେଗ ତଥ୍ୟ ଆବଶ୍ୟକ
ଫର୍ମେଣ୍ଟ ସଂଯୋଜକ
ନିୟମ ଆଧାରିତ ଆବର୍ଜନା ମଡେଲିଂ
1960s-1990s କିଛି ନାହିଁ
ସଂଯୋଜକ
ସଂଲଗ୍ନ ଧ୍ୱନି ଅଂଶଗୁଡିକ
1990s-2010s ଘଣ୍ଟା
ପରିମାପକ (HMM/DNN)
ପରିସଂଖ୍ୟାନ ବକ୍ତବ୍ୟ ନମୁନାଗୁଡ଼ିକ
2000s-2016 1-5 ଘଣ୍ଟା
ନ୍ୟୁରାଲ ସର୍ଭରName
ଗଭୀର ଶିକ୍ଷା (ଭିଟିଏସ, କୋକୋରୋ, ବାର୍କ)
2016-ପ୍ରସ୍ତାବିତ ମିନିଟଗୁଡ଼ିକୁ ଘଣ୍ଟା

TTS ର ସାଧାରଣ ପ୍ରୟୋଗଗୁଡ଼ିକ

ପାଠ୍ୟରୁ ବାକ୍ୟକୁ ଆଜି କେଉଁଠାରେ ବ୍ୟବହାର ହୋଇଥାଏ

ସୁଗମତା

ସ୍କ୍ରିନ ରିଡର, ସହାୟତା ଉପକରଣ ଏବଂ ଦୃଷ୍ଟିହୀନତା କିମ୍ବା ପଢ଼ିବାରେ ଅସମର୍ଥ ବ୍ୟକ୍ତିମାନଙ୍କ ପାଇଁ ଉପକରଣଗୁଡ଼ିକ ଡିଜିଟାଲ ବିଷୟବସ୍ତୁକୁ ସମସ୍ତଙ୍କୁ ସୁଲଭ କରିବା ପାଇଁ ଟିଟିଏସ ଉପରେ ନିର୍ଭର କରିଥାନ୍ତି ।

ବିଷୟବସ୍ତୁ ସୃଷ୍ଟି

ୟୁଟ୍ୟୁବର, ପୋଡକାଷ୍ଟର ଏବଂ ସାମାଜିକ ଗଣମାଧ୍ୟମ ନିର୍ମାତାମାନେ ଭାଷା, ବର୍ଣ୍ଣନା ଏବଂ ସ୍ୱୟଂଚାଳିତ ବିଷୟବସ୍ତୁ ଉତ୍ପାଦନ ପାଇଁ ଟିଟିଏସ ବ୍ୟବହାର କରୁଛନ୍ତି ।

ଆଭାସୀ ସହାୟକଗୁଡ଼ିକName

ସିରି, ଅଲେକ୍ସା, ଗୁଗୁଲ ସହାୟକ ଏବଂ କଷ୍ଟମର ସେବା ଚାଟବଟ ସବୁ TTS ବ୍ୟବହାର କରି ବ୍ୟବହାରକାରୀଙ୍କୁ ସ୍ୱଭାବିକ ଭାବେ ଉତ୍ତର ଦେଇଥାନ୍ତି ।

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

ପାଠ୍ୟରୁ ଭାଷଣ ପ୍ରଯୁକ୍ତିବିଦ୍ୟା ବିଷୟରେ ସାଧାରଣ ପ୍ରଶ୍ନଗୁଡ଼ିକ

TTS ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ପାଇଁ ଅଟେ। ଏହା ପ୍ରଯୁକ୍ତିବିଦ୍ୟାକୁ ସୂଚାଇଥାଏ ଯାହା ଲିଖିତ ପାଠ୍ୟକୁ ସଂଯୋଜିତ କିମ୍ବା AI-ସୃଷ୍ଟ ସ୍ୱର ବ୍ୟବହାର କରି ଶୁଣାଯାଉଥିବା ବକ୍ତବ୍ୟରେ ପରିବର୍ତ୍ତନ କରିଥାଏ। ବୈଷୟିକ ସାହିତ୍ୟରେ ଏହି ଶବ୍ଦଟି "ବାକ୍ୟ ସଂଯୋଜନ" ସହିତ ପରିବର୍ତ୍ତନୀୟ ଭାବରେ ବ୍ୟବହାର ହୋଇଥାଏ।

ଆଧୁନିକ TTS ତନ୍ତ୍ର ତିନୋଟି ପର୍ଯ୍ୟାୟରେ କାମ କରେ: ପାଠ୍ୟ ବିଶ୍ଳେଷଣ (ବିଭାଜନ, ସାଧାରଣକରଣ, ଫୋନେମ ରୂପାନ୍ତର), ପ୍ରୋସୋଡି ଭବିଷ୍ୟବାଣୀ (ରୂପାନ୍ତର, ପୀଚ, ଚାପ, ଏବଂ ବିରତି ନିର୍ଦ୍ଧାରଣ), ଏବଂ ଧ୍ୱନି ସଂଯୋଜକତା (ପ୍ରଚଳିତ ଧ୍ୱନି ତରଙ୍ଗର ନିର୍ମାଣ) । ନ୍ୟୁରାଲ ମଡେଲଗୁଡ଼ିକ ସମସ୍ତ ତିନିଟି ପର୍ଯ୍ୟାୟକୁ ପ୍ରଶିକ୍ଷଣ ତଥ୍ୟରୁ ଶିଖନ୍ତି ।

Concatenative TTS ପୂର୍ବରୁ ରେକର୍ଡ କରାଯାଇଥିବା ଭାଷା ଫ୍ରେମକୁ ଏକାଠି କରିଥାଏ, ଯାହାକି ପରିବର୍ତ୍ତନ ସମୟରେ ତ୍ରୁଟିପୂର୍ଣ୍ଣ ଭାବରେ ଶୁଣାଯାଇପାରେ। ନ୍ୟୁରାଲ TTS ଗଭୀର ଶିକ୍ଷାକୁ ବ୍ୟବହାର କରି ଶୂନ୍ୟରୁ ଭାଷା ସୃଷ୍ଟି କରିଥାଏ, ଉତ୍ପାଦନ କରିଥାଏ ସୁଗମ, ଅଧିକ ପ୍ରାକୃତିକ-ସଙ୍ଗୀତ ଧ୍ୱନି ଭଲ ପ୍ରୋସୋଡି ଏବଂ ଭାବନା ସହିତ।

SSML (ଭାଷା ସଂଶ୍ଳୋଧନ ମାର୍କଅପ ଭାଷା) ଗୋଟିଏ XML- ଆଧାରିତ ମାର୍କଅପ ଭାଷା ଯାହାକି TTS ତନ୍ତ୍ରଗୁଡ଼ିକ ପାଠ୍ୟକୁ ଉଚ୍ଚାରଣ କରିବାରେ ଆପଣଙ୍କୁ ନିୟନ୍ତ୍ରଣ କରିଥାଏ । ଆପଣ ଆପଣଙ୍କର ପାଠ୍ୟ ନିବେଶ ଅନ୍ତର୍ଗତ SSML ଟ୍ୟାଗଗୁଡ଼ିକୁ ବ୍ୟବହାର କରି ବିରାମ, ଗୁରୁତ୍ୱ, ଉଚ୍ଚାରଣ, ପୀଚ ପରିବର୍ତ୍ତନ, ଏବଂ ବଚନ ହାରକୁ ନିର୍ଦ୍ଧାରଣ କରିପାରିବେ ।

ଟିଟିଏସର ବ୍ୟବହାର ସୁଗମତା (ଦୃଷ୍ଟିହୀନ ବ୍ୟବହାରକାରୀଙ୍କ ପାଇଁ ସ୍କ୍ରିନ ରିଡର), ୱାରଚ୍ୟୁଆଲ ସହାୟକ (ସିରି, ଅଲେକ୍ସା, ଗୁଗୁଲ ସହାୟକ), ଅଡିଓବୁକ୍ ନିର୍ମାଣ, ଇ-ଲର୍ନିଂ, ଜିପିଏସ ନେଭିଗେସନ, କଷ୍ଟମର ସେବା ଆଇଭିଆର ବ୍ୟବସ୍ଥା, ବିଷୟବସ୍ତୁ ନିର୍ମାଣ ଏବଂ ଭାଷା ଶିକ୍ଷା ପ୍ରୟୋଗ ପାଇଁ କରାଯାଉଛି ।

1960 ମସିହାରେ ରୋବୋଟିକ ନିୟମ ଆଧାରିତ ବ୍ୟବସ୍ଥାରୁ 1990 ମସିହାରେ ସଂଯୋଗୀକରଣ ସଂଶ୍ଲେଷଣ, 2000 ମସିହାରେ ପରିସଂଖ୍ୟାନ ପରାମର୍ଶଦାତା ସଂଶ୍ଲେଷଣ, 2016 ମସିହାରେ ୱେବନେଟ ସହିତ ନ୍ୟୁରାଲ ଟିଟିଏସ ଏବଂ ଆଜିର ଟ୍ରାନ୍ସଫର୍ମର ଏବଂ ମାନବ ସ୍ତରୀୟ ଗୁଣବତ୍ତା ହାସଲ କରୁଥିବା ପ୍ରସାରଣ ମଡେଲ ପର୍ଯ୍ୟନ୍ତ ଟିଟିଏସ ବିକଶିତ ହୋଇଛି ।

ପ୍ରାକୃତିକ-ସଙ୍ଗୀତ TTS ସଠିକ ପ୍ରୋସୋଡି (ରଥମ, ଷ୍ଟେସନ, ଇଣ୍ଟୋନେସନ), ଉପଯୁକ୍ତ ପସୀଙ୍ଗ, ଫୋନେମ ମଧ୍ୟରେ ସୁସ୍ଥ ପରିବର୍ତ୍ତନ, ଏବଂ ନିରନ୍ତର ସ୍ୱର ପରିଚୟ ଆବଶ୍ୟକ କରେ। ନ୍ୟୁରାଲ ମଡେଲଗୁଡ଼ିକ ପ୍ରାକୃତିକ ମାନବ ବାକ୍ୟ ରେକର୍ଡିଂର ବଡ଼ ତଥ୍ୟସେଟଗୁଡ଼ିକରୁ ଏହି ଢାଞ୍ଚାଗୁଡ଼ିକୁ ଶିଖନ୍ତି।

ଧ୍ୱନି କ୍ଲୋନ ମଡେଲଗୁଡ଼ିକ ଯଥା Chatterbox ଏବଂ CosyVoice25-30 ସେକେଣ୍ଡର ଅନୁସରଣ ଧ୍ୱନିରୁ ଗୋଟିଏ ନିର୍ଦ୍ଦିଷ୍ଟ ଧ୍ୱନିକୁ ନକଲ କରିପାରିବେ। କ୍ଲୋନ ଧ୍ୱନି ଟିମ୍ବର, ଉଚ୍ଚାରଣ, ଏବଂ କଥାବାର୍ତ୍ତା ଶୈଳୀକୁ ଗ୍ରହଣ କରିଥାଏ, ଯଦିଓ ଅନ୍ୟମାନଙ୍କ ଧ୍ୱନିକୁ କ୍ଲୋନ କରିବା ପାଇଁ ନୀତିଗତ ଏବଂ ଆଇନଗତ ବିଚାର ପ୍ରୟୋଗ କରିଥାଏ।

ଆଧୁନିକ TTS ନମୁନା ସମୂହଗତ ଭାବରେ 30+ ଭାଷାକୁ ସମର୍ଥନ କରିଥାଏ। କିଛି ନମୁନା ନିର୍ଦ୍ଦିଷ୍ଟ ଭାଷାରେ ବିଶେଷଜ୍ଞ ଏବଂ ଅନ୍ୟମାନେ ବହୁଭାଷୀ। ଇଂରାଜୀ ସବୁଠାରୁ ଉପଲବ୍ଧ ନମୁନା ଏବଂ ଧ୍ୱନି ଅଟେ, କିନ୍ତୁ ଚାଇନିଜ, ଜାପାନୀ, କୋରିଆନ, ସ୍ପେନିସ ଏବଂ ୟୁରୋପୀୟ ଭାଷାଗୁଡ଼ିକ ଭଲ ଭାବରେ ସମର୍ଥିତ।

TTS ହେଉଛି AI ସ୍ୱର ଉତ୍ପାଦନର ଗୋଟିଏ ଉପସେଟ। TTS ବିଶେଷକରି ପାଠ୍ୟ ନିବେଶକୁ ଭାଷା ନିର୍ଗମକୁ ପରିବର୍ତ୍ତନ କରିଥାଏ। AI ସ୍ୱର ଉତ୍ପାଦନ ଏକ ବ୍ୟାପକ ଶବ୍ଦ ଯାହାକି ଭାଷା କ୍ଲୋନିଂ, ଭାଷା ପରିବର୍ତ୍ତନ, ଭାଷା-ରୁ-ଭାଷା, ଏବଂ ଧ୍ୱନି ପ୍ରଭାବ ଉତ୍ପାଦନକୁ ମଧ୍ୟ ଅନ୍ତର୍ଭୁକ୍ତ କରିଥାଏ।

ଏହା ଆପଣଙ୍କର ଆବଶ୍ୟକତା ଉପରେ ନିର୍ଭର କରେ। Kokoro ସାଧାରଣ ବ୍ୟବହାର ପାଇଁ ଗତି ଏବଂ ଗୁଣବତ୍ତାର ଶ୍ରେଷ୍ଠ ସମନ୍ୱୟ ପ୍ରଦାନ କରେ। Chatterbox ସ୍ୱର କ୍ଲୋନିଂରେ ନେତୃତ୍ୱ ଗ୍ରହଣ କରେ। Orpheus ଭାବପ୍ରବଣ ଅଭିବ୍ୟକ୍ତିରେ ଉତ୍ତମ। StyleTTS2ସର୍ବାଧିକ ପ୍ରାକୃତିକ ଏକକ-ବକ୍ତା ବର୍ଣ୍ଣନା ଉତ୍ପାଦନ କରେ। ସମସ୍ତ ବ୍ୟବହାର ମାମଲା ପାଇଁ ଗୋଟିଏ "ସର୍ବୋତ୍ତମ" ମଡେଲ ନାହିଁ।

ହଁ। TTS.ai ରେ ସମସ୍ତ ମଡେଲଗୁଡ଼ିକ ମୁକ୍ତ ଉତ୍ସ ଏବଂ ସ୍ୱୟଂ-ହୋଷ୍ଟ କରାଯାଇପାରେ। CPU-କେବଳ ମଡେଲଗୁଡ଼ିକ ଯେକୌଣସି କମ୍ପୁଟରରେ ଚାଲାଇ ପାରିବେ। GPU ମଡେଲଗୁଡ଼ିକ ଯେକୌଣସି କମ୍ପୁଟରରେ ଚାଲାଇ ପାରିବେ। Kokoro ଏବଂ Bark ପରି GPU ମଡେଲଗୁଡ଼ିକୁ NVIDIA GPU ସହିତ 2-8GB VRAM ଆବଶ୍ୟକ ହୋଇଥାଏ। ଆମ ପ୍ଲାଟଫର୍ମ ମଧ୍ୟ ହୋଷ୍ଟ ପ୍ରବେଶକୁ ପ୍ରଦାନ କରେ ଯାହାଦ୍ୱାରା ଆପଣଙ୍କୁ ଭିତ୍ତିଭୂମି ପରିଚାଳନା କରିବାକୁ ପଡିବ ନାହିଁ।
5.0/5 (1)

ଆମେ କଣ ସୁଧାରିପାରିବା? ଆପଣଙ୍କର ପ୍ରତିକ୍ରିୟା ଆମକୁ ସମସ୍ୟାର ସମାଧାନ କରିବାରେ ସହାୟକ ହୋଇଥାଏ ।

ଆଧୁନିକ TTSକୁ ନିଜେ ଅନୁଭବ କରନ୍ତୁName

20+ state-of-the-art AI ସ୍ୱର ନମୂନାକୁ ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ। ପାଠ୍ୟରୁ ଭାଷା କେତେ ଦୂର ଆସିଛି ତାହା ଦେଖନ୍ତୁ।