StyleTTS 2

Default

ପ୍ରୀମିୟମ ଇଂରାଜୀName Neutral StyleTTS 2

Default ଗୋଟିଏ neutral AI ଧ୍ୱନି ଯାହାକି StyleTTS 2 ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ନମୂନା ଦ୍ୱାରା ଶକ୍ତିପ୍ରାପ୍ତ। ଏହି ପ୍ରୀମିୟମ-ସ୍ତର ଧ୍ୱନି ଇଂରାଜୀName କୁ କହୁଛି ଏବଂ ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ଭାଷା ସଂଶ୍ଲେଷଣ ପ୍ରଦାନ କରେ। ମଧ୍ଯମ ଉତ୍ପାଦନ ଗତି ଏବଂ 5/5 ର ଗୁଣବତ୍ତା ଆକଳନ ସହିତ, Default studio-quality single-speaker synthesis, professional narration ପାଇଁ ଭଲ ଭାବରେ ଉପଯୁକ୍ତ। StyleTTS 2 ଯନ୍ତ୍ରଟି Columbia University under the MIT license ଦ୍ୱାରା ବିକଶିତ ହୋଇଛି, ଯାହାକି ଏହାକୁ ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ପାଇଁ ସୁରକ୍ଷିତ କରିଥାଏ। ମୁଖ୍ୟ କ୍ଷମତାଗୁଡ଼ିକ ମଧ୍ୟରେ ରହିଛି: {ବିଶେଷତାଗୁଡ଼ିକ}।

ବର୍ତ୍ତମାନ କୌଣସି ଆକଳନ ନାହିଁ

StyleTTS 2ଆକାର ସୂଚନାName

ଆକାର StyleTTS 2
ବିକାଶକାରୀ Columbia University
ଗୁଣବତ୍ତା
ବେଗ ମଧ୍ଯମ
ଅନୁମତିପତ୍ର MIT
କ୍ଲୋନ କରୁଅଛି ଉପଲବ୍ଧ ନାହିଁ
ଅକ୍ଟୋବର ପ୍ରୀମିୟମ (4 କ୍ରେଡିଟ/1K ଅକ୍ଷର)
ପ୍ରାଚଳଗୁଡ଼ିକ 100M
ବାସ୍ତୁଶାସ୍ତ୍ର Style Diffusion + Adversarial Training
ତାଲିମ ତଥ୍ୟName 585 ଘଣ୍ଟାunit-format
ବର୍ଷ 2024

ପାଇଁ ଶ୍ରେଷ୍ଠ ବ୍ୟବହାର ମାମଲା Default

ଏହି ଧ୍ୱନିର ଗୁଣଧର୍ମ ଆଧାରରେ ପରାମର୍ଶ ଦିଆଯାଉଥିବା ପ୍ରୟୋଗଗୁଡ଼ିକ

ଧ୍ୱନି ପୁସ୍ତକ ଏବଂ ବର୍ଣ୍ଣନାName

ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି ଏବଂ ଅଭିବ୍ୟକ୍ତି ସହିତ ଲମ୍ବା-ଫର୍ମ ବିଷୟବସ୍ତୁକୁ ବର୍ଣ୍ଣନା କରିବା ପାଇଁ Default କୁ ବ୍ୟବହାର କରନ୍ତୁ।

ଭିଡିଓ ଭାଷା

YouTube ଭିଡିଓ, ବିଜ୍ଞାପନ, ଏବଂ ସାମାଜିକ ଗଣମାଧ୍ୟମ ବିଷୟବସ୍ତୁଗୁଡ଼ିକରେ ବୈଷୟିକ ବର୍ଣ୍ଣନା ଯୋଗ କରନ୍ତୁ।

ପଡକଡ଼ଗୁଡ଼ିକ ଏବଂ ପ୍ରସାରଣName

ପଡକଡ଼, ରେଡିଓ ଏବଂ ବ୍ଯବସାୟିକ ପ୍ରସାରଣ ପାଇଁ ଉପଯୁକ୍ତ ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ନିର୍ଗମ।

ଖେଳ ଏବଂ ଅନ୍ତରକ୍ରିୟା ମିଡିଆName

ଖେଳର ଆଲୋଚନା, ଅନ୍ତରଙ୍ଗ କାହାଣୀ ଏବଂ ଆବିଷ୍କାରର ଅନୁଭୂତି ପାଇଁ ପ୍ରୀମିୟମ ଗୁଣବତ୍ତା ।

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

StyleTTS2ବଡ଼ ଭାଷା ମଡେଲ ବ୍ୟବହାର କରି ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା ପ୍ରଶିକ୍ଷା ସହିତ ଶୈଳୀ ବିସ୍ତାରକୁ ସଂଯୋଜିତ କରି ମାନବ-ସ୍ତର TTS ସଂଶ୍ଲେଷଣକୁ ହାସଲ କରିଥାଏ । ଏହା ଏକକ-ବକ୍ତା ମଡେଲ ମଧ୍ୟରେ ସବୁଠାରୁ ପ୍ରାକୃତିକ ସ୍ୱରଯୁକ୍ତ ଭାଷା ସୃଷ୍ଟି କରେ, ଯାହାକି ମାନବ ରେକର୍ଡିଂ ସହିତ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା କରେ । StyleTTS2ମାନବ ଭାଷାର ବିଭିନ୍ନତାର ସମ୍ପୂର୍ଣ୍ଣ ପରିସରକୁ ଗ୍ରହଣ କରିବା ପାଇଁ ବିସ୍ତାର-ଆଧାରିତ ଶୈଳୀ ମଡେଲିଂକୁ ବ୍ୟବହାର କରେ ।

StyleTTS2କୁ କୋଲମ୍ବିଆ ବିଶ୍ୱବିଦ୍ୟାଳୟ ଦ୍ୱାରା ବିକଶିତ କରାଯାଇଛି ଏବଂ MIT ଲାଇସେନ୍ସ ଅନ୍ତର୍ଗତ ମୁକ୍ତ କରାଯାଇଛି, ଯାହାକି ଉତ୍ପନ୍ନ ଧ୍ୱନିର ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ।

StyleTTS21 ଭାଷାକୁ ସମର୍ଥନ କରେ: ଇଂରାଜୀ ।

StyleTTS2ପ୍ରୀମିୟମ୍ ସ୍ତରରେ ଅଛି - ପ୍ରତି 1,000 ଅକ୍ଷରରେ4କୋଟି ଟଙ୍କା। ଆପଣ ସମ୍ପୂର୍ଣ୍ଣ ଧ୍ୱନି ସୃଷ୍ଟି କରିବା ପୂର୍ବରୁ ଯେକୌଣସି StyleTTS2ଧ୍ୱନିକୁ ମୁକ୍ତରେ ପ୍ରାକଦର୍ଶନ କରିପାରିବେ।

StyleTTS2ର ମଧ୍ଯମ ଉତ୍ପାଦନ ବେଗ ଅଛି । ଉତ୍ପାଦନ ସାଧାରଣତଃ ପାଠ୍ୟ ଲମ୍ବ ଉପରେ ନିର୍ଭର କରି କିଛି ସେକେଣ୍ଡ ସମୟ ନେଥାଏ ।

StyleTTS2କୁ TTS.ai ରେ ଧ୍ୱନି ଗୁଣବତ୍ତା ପାଇଁ 5/5 ରୂପେ ମାନ ଦିଆଯାଇଛି। ଏହା ଷ୍ଟୁଡିଓ-ସ୍ତରୀୟ, ମାନବ-ସଦୃଶ ଭାଷଣ ପ୍ରଦାନ କରିଥାଏ।

ନା, StyleTTS2ଅଭିଗମ୍ଯ ସ୍ୱରଗୁଡ଼ିକର ଗୋଟିଏ ସ୍ଥିର ସେଟକୁ ବ୍ୟବହାର କରେ। ସ୍ୱର କ୍ଲୋନିଂ ପାଇଁ, CosyVoice2, GPT-SoVITS, କିମ୍ବା Chatterbox ପରି ନମୂନାକୁ ଚେଷ୍ଟାକରନ୍ତୁ।

ହଁ, StyleTTS2କୁ ଷ୍ଟୁଡିଓ- ଗୁଣବତ୍ତା ଏକକ- ସ୍ଵର ସଂଶ୍ଳୋଧନ, ବୈଷୟିକ ବର୍ଣ୍ଣନା ପାଇଁ ବିଶେଷ ଭାବରେ ପରାମର୍ଶ ଦିଆଯାଏ । ଏହାର ମାନବ- ସ୍ତର, ଶୈଳୀ ବିସ୍ତାର, ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱୀ ପ୍ରଶିକ୍ଷଣ କ୍ଷମତା ଏହାକୁ ଏହି ବ୍ୟବହାର ମାମଲା ପାଇଁ ଏକ ଉତ୍ତମ ଚୟନ କରିଥାଏ ।

ହଁ, StyleTTS2କୁ MIT ଅନ୍ତର୍ଗତ ଲାଇସେନ୍ସ ଦିଆଯାଇଛି, ଯାହା ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। StyleTTS2ଦ୍ୱାରା ନିର୍ମିତ ଧ୍ୱନିକୁ ଭିଡିଓ, ପୋଡକାଷ୍ଟ, ପ୍ରୟୋଗ, ଖେଳ ଏବଂ ଅନ୍ୟାନ୍ୟ ବାଣିଜ୍ୟିକ ପ୍ରକଳ୍ପରେ ବ୍ୟବହାର କରାଯାଇପାରିବ।

ହଁ, TTS.ai ରେ ସମସ୍ତ ଧ୍ୱନି ବାଣିଜ୍ୟିକ-ଲାଇନସେଟ ମୁକ୍ତ ଉତ୍ସ ମଡେଲ (MIT, Apache 2.0) ବ୍ୟବହାର କରିଥାଏ। ନିର୍ଗତ ଧ୍ୱନିଟି ଭିଡିଓ, ପୋଡକାଷ୍ଟ, ଆପଲେଟ, ଖେଳ ଏବଂ ଅନ୍ୟାନ୍ୟ ବାଣିଜ୍ୟିକ ପ୍ରୟୋଗରେ ବ୍ୟବହାର ପାଇଁ ଆପଣଙ୍କର ଅଟେ।

/api/v1/tts/କୁ ଆକାର ନାମ ଏବଂ ଭାଷା ID ସହିତ ଗୋଟିଏ POST ଅନୁରୋଧ ପଠାନ୍ତୁ। Python, JavaScript, Go, ଏବଂ cURL ରେ କୋଡ ଉଦାହରଣ ପାଇଁ ଆମର API ଦଲିଲିକରଣ ପୃଷ୍ଠାକୁ ଦେଖନ୍ତୁ।

ହଁ, ଗୋଟିଏ ନମୁନା ଶୁଣିବା ପାଇଁ ଏହି ପୃଷ୍ଠାରେ ଚାଲାଇବା ବଟନକୁ କ୍ଲିକ କରନ୍ତୁ। ଆପଣ ପାଠ୍ୟରୁ ଭାଷଣ ପୃଷ୍ଠାରେ ଇଚ୍ଛାରୂପୀ ପାଠ୍ୟ ଟାଇପ କରିପାରିବେ ଏବଂ କୌଣସି ଭାଷା ସହିତ ମୁକ୍ତ ପ୍ରାକଦର୍ଶନ ସୃଷ୍ଟି କରିପାରିବେ।

ଚେଷ୍ଟାକରନ୍ତୁ Default ବର୍ତ୍ତମାନ

ଯେକୌଣସି ପାଠ୍ୟ ଟାଇପ କରନ୍ତୁ ଏବଂ ଏହାକୁ କହିବା ପାଇଁ ଶୁଣନ୍ତୁ Default. ବ୍ୟବହାର ପାଇଁ ମୁକ୍ତ.