Default

ପ୍ରୀମିୟମ ଇଂରାଜୀName Neutral

StyleTTS 2

Default ଗୋଟିଏ neutral AI ଧ୍ୱନି ଯାହାକି StyleTTS 2 ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ନମୂନା ଦ୍ୱାରା ଶକ୍ତିପ୍ରାପ୍ତ। ଏହି ପ୍ରୀମିୟମ-ସ୍ତର ଧ୍ୱନି ଇଂରାଜୀName କୁ କହୁଛି ଏବଂ ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ଭାଷା ସଂଶ୍ଲେଷଣ ପ୍ରଦାନ କରେ। ମଧ୍ଯମ ଉତ୍ପାଦନ ଗତି ଏବଂ 5/5 ର ଗୁଣବତ୍ତା ଆକଳନ ସହିତ, Default studio-quality single-speaker synthesis, professional narration ପାଇଁ ଭଲ ଭାବରେ ଉପଯୁକ୍ତ। StyleTTS 2 ଯନ୍ତ୍ରଟି Columbia University under the MIT license ଦ୍ୱାରା ବିକଶିତ ହୋଇଛି, ଯାହାକି ଏହାକୁ ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ପାଇଁ ସୁରକ୍ଷିତ କରିଥାଏ। human-level, style diffusion, adversarial training, natural variation, high fidelity

ବର୍ତ୍ତମାନ କୌଣସି ଆକଳନ ନାହିଁ

ଏହି ଧ୍ୱନିକୁ ଚେଷ୍ଟାକରନ୍ତୁ ସମସ୍ତ StyleTTS 2 ଧ୍ୱନିName

ଆକାର ସୂଚନାName

ଆକାର	StyleTTS 2
ବିକାଶକାରୀ	Columbia University
ଗୁଣବତ୍ତା
ବେଗ	ମଧ୍ଯମ
ଅନୁମତିପତ୍ର	MIT
କ୍ଲୋନ କରୁଅଛି	ଉପଲବ୍ଧ ନାହିଁ
ଅକ୍ଟୋବର	ପ୍ରୀମିୟମ (4 କ୍ରେଡିଟ/1K ଅକ୍ଷର)
ପ୍ରାଚଳଗୁଡ଼ିକ	100M
ବାସ୍ତୁଶାସ୍ତ୍ର	Style Diffusion + Adversarial Training
ତାଲିମ ତଥ୍ୟName	585 ଘଣ୍ଟାunit-format
ବର୍ଷ	2024

ପାଇଁ ଶ୍ରେଷ୍ଠ ବ୍ୟବହାର ମାମଲା Default

ଏହି ଧ୍ୱନିର ଗୁଣଧର୍ମ ଆଧାରରେ ପରାମର୍ଶ ଦିଆଯାଉଥିବା ପ୍ରୟୋଗଗୁଡ଼ିକ

ଧ୍ୱନି ପୁସ୍ତକ ଏବଂ ବର୍ଣ୍ଣନାName

ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି ଏବଂ ଅଭିବ୍ୟକ୍ତି ସହିତ ଲମ୍ବା-ଫର୍ମ ବିଷୟବସ୍ତୁକୁ ବର୍ଣ୍ଣନା କରିବା ପାଇଁ Default କୁ ବ୍ୟବହାର କରନ୍ତୁ।

ଭିଡିଓ ଭାଷା

YouTube ଭିଡିଓ, ବିଜ୍ଞାପନ, ଏବଂ ସାମାଜିକ ଗଣମାଧ୍ୟମ ବିଷୟବସ୍ତୁଗୁଡ଼ିକରେ ବୈଷୟିକ ବର୍ଣ୍ଣନା ଯୋଗ କରନ୍ତୁ।

ପଡକଡ଼ଗୁଡ଼ିକ ଏବଂ ପ୍ରସାରଣName

ପଡକଡ଼, ରେଡିଓ ଏବଂ ବ୍ଯବସାୟିକ ପ୍ରସାରଣ ପାଇଁ ଉପଯୁକ୍ତ ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ନିର୍ଗମ।

ଖେଳ ଏବଂ ଅନ୍ତରକ୍ରିୟା ମିଡିଆName

ଖେଳର ଆଲୋଚନା, ଅନ୍ତରଙ୍ଗ କାହାଣୀ ଏବଂ ଆବିଷ୍କାରର ଅନୁଭୂତି ପାଇଁ ପ୍ରୀମିୟମ ଗୁଣବତ୍ତା ।

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

StyleTTS2ବଡ଼ ଭାଷା ମଡେଲ ବ୍ୟବହାର କରି ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା ପ୍ରଶିକ୍ଷା ସହିତ ଶୈଳୀ ବିସ୍ତାରକୁ ସଂଯୋଜିତ କରି ମାନବ-ସ୍ତର TTS ସଂଶ୍ଲେଷଣକୁ ହାସଲ କରିଥାଏ । ଏହା ଏକକ-ବକ୍ତା ମଡେଲ ମଧ୍ୟରେ ସବୁଠାରୁ ପ୍ରାକୃତିକ ସ୍ୱରଯୁକ୍ତ ଭାଷା ସୃଷ୍ଟି କରେ, ଯାହାକି ମାନବ ରେକର୍ଡିଂ ସହିତ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା କରେ । StyleTTS2ମାନବ ଭାଷାର ବିଭିନ୍ନତାର ସମ୍ପୂର୍ଣ୍ଣ ପରିସରକୁ ଗ୍ରହଣ କରିବା ପାଇଁ ବିସ୍ତାର-ଆଧାରିତ ଶୈଳୀ ମଡେଲିଂକୁ ବ୍ୟବହାର କରେ ।

StyleTTS2କୁ କୋଲମ୍ବିଆ ବିଶ୍ୱବିଦ୍ୟାଳୟ ଦ୍ୱାରା ବିକଶିତ କରାଯାଇଛି ଏବଂ MIT ଲାଇସେନ୍ସ ଅନ୍ତର୍ଗତ ମୁକ୍ତ କରାଯାଇଛି, ଯାହାକି ଉତ୍ପନ୍ନ ଧ୍ୱନିର ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ।

StyleTTS21 ଭାଷାକୁ ସମର୍ଥନ କରେ: ଇଂରାଜୀ ।

StyleTTS2ପ୍ରୀମିୟମ୍ ସ୍ତରରେ ଅଛି - ପ୍ରତି 1,000 ଅକ୍ଷରରେ4କୋଟି ଟଙ୍କା। ଆପଣ ସମ୍ପୂର୍ଣ୍ଣ ଧ୍ୱନି ସୃଷ୍ଟି କରିବା ପୂର୍ବରୁ ଯେକୌଣସି StyleTTS2ଧ୍ୱନିକୁ ମୁକ୍ତରେ ପ୍ରାକଦର୍ଶନ କରିପାରିବେ।

StyleTTS2ର ମଧ୍ଯମ ଉତ୍ପାଦନ ବେଗ ଅଛି । ଉତ୍ପାଦନ ସାଧାରଣତଃ ପାଠ୍ୟ ଲମ୍ବ ଉପରେ ନିର୍ଭର କରି କିଛି ସେକେଣ୍ଡ ସମୟ ନେଥାଏ ।

StyleTTS2କୁ TTS.ai ରେ ଧ୍ୱନି ଗୁଣବତ୍ତା ପାଇଁ 5/5 ରୂପେ ମାନ ଦିଆଯାଇଛି। ଏହା ଷ୍ଟୁଡିଓ-ସ୍ତରୀୟ, ମାନବ-ସଦୃଶ ଭାଷଣ ପ୍ରଦାନ କରିଥାଏ।

ନା, StyleTTS2ଅଭିଗମ୍ଯ ସ୍ୱରଗୁଡ଼ିକର ଗୋଟିଏ ସ୍ଥିର ସେଟକୁ ବ୍ୟବହାର କରେ। ସ୍ୱର କ୍ଲୋନିଂ ପାଇଁ, CosyVoice2, GPT-SoVITS, କିମ୍ବା Chatterbox ପରି ନମୂନାକୁ ଚେଷ୍ଟାକରନ୍ତୁ।

ହଁ, StyleTTS2କୁ ଷ୍ଟୁଡିଓ- ଗୁଣବତ୍ତା ଏକକ- ସ୍ଵର ସଂଶ୍ଳୋଧନ, ବୈଷୟିକ ବର୍ଣ୍ଣନା ପାଇଁ ବିଶେଷ ଭାବରେ ପରାମର୍ଶ ଦିଆଯାଏ । ଏହାର ମାନବ- ସ୍ତର, ଶୈଳୀ ବିସ୍ତାର, ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱୀ ପ୍ରଶିକ୍ଷଣ କ୍ଷମତା ଏହାକୁ ଏହି ବ୍ୟବହାର ମାମଲା ପାଇଁ ଏକ ଉତ୍ତମ ଚୟନ କରିଥାଏ ।

ହଁ, StyleTTS2କୁ MIT ଅନ୍ତର୍ଗତ ଲାଇସେନ୍ସ ଦିଆଯାଇଛି, ଯାହା ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। StyleTTS2ଦ୍ୱାରା ନିର୍ମିତ ଧ୍ୱନିକୁ ଭିଡିଓ, ପୋଡକାଷ୍ଟ, ପ୍ରୟୋଗ, ଖେଳ ଏବଂ ଅନ୍ୟାନ୍ୟ ବାଣିଜ୍ୟିକ ପ୍ରକଳ୍ପରେ ବ୍ୟବହାର କରାଯାଇପାରିବ।

ହଁ, TTS.ai ରେ ସମସ୍ତ ଧ୍ୱନି ବାଣିଜ୍ୟିକ-ଲାଇନସେଟ ମୁକ୍ତ ଉତ୍ସ ମଡେଲ (MIT, Apache 2.0) ବ୍ୟବହାର କରିଥାଏ। ନିର୍ଗତ ଧ୍ୱନିଟି ଭିଡିଓ, ପୋଡକାଷ୍ଟ, ଆପଲେଟ, ଖେଳ ଏବଂ ଅନ୍ୟାନ୍ୟ ବାଣିଜ୍ୟିକ ପ୍ରୟୋଗରେ ବ୍ୟବହାର ପାଇଁ ଆପଣଙ୍କର ଅଟେ।

/api/v1/tts/କୁ ଆକାର ନାମ ଏବଂ ଭାଷା ID ସହିତ ଗୋଟିଏ POST ଅନୁରୋଧ ପଠାନ୍ତୁ। Python, JavaScript, Go, ଏବଂ cURL ରେ କୋଡ ଉଦାହରଣ ପାଇଁ ଆମର API ଦଲିଲିକରଣ ପୃଷ୍ଠାକୁ ଦେଖନ୍ତୁ।

ହଁ, ଗୋଟିଏ ନମୁନା ଶୁଣିବା ପାଇଁ ଏହି ପୃଷ୍ଠାରେ ଚାଲାଇବା ବଟନକୁ କ୍ଲିକ କରନ୍ତୁ। ଆପଣ ପାଠ୍ୟରୁ ଭାଷଣ ପୃଷ୍ଠାରେ ଇଚ୍ଛାରୂପୀ ପାଠ୍ୟ ଟାଇପ କରିପାରିବେ ଏବଂ କୌଣସି ଭାଷା ସହିତ ମୁକ୍ତ ପ୍ରାକଦର୍ଶନ ସୃଷ୍ଟି କରିପାରିବେ।

ଚେଷ୍ଟାକରନ୍ତୁ Default ବର୍ତ୍ତମାନ

ଯେକୌଣସି ପାଠ୍ୟ ଟାଇପ କରନ୍ତୁ ଏବଂ ଏହାକୁ କହିବା ପାଇଁ ଶୁଣନ୍ତୁ Default. ବ୍ୟବହାର ପାଇଁ ମୁକ୍ତ.

ବାକ୍ୟ ନିର୍ମାଣ କରନ୍ତୁ ମୁକ୍ତ ଭାବରେ ପଞ୍ଜିକୃତ ହୁଅନ୍ତୁ

Default

ଆକାର ସୂଚନାName

ପାଇଁ ଶ୍ରେଷ୍ଠ ବ୍ୟବହାର ମାମଲା Default

ଧ୍ୱନି ପୁସ୍ତକ ଏବଂ ବର୍ଣ୍ଣନାName

ଭିଡିଓ ଭାଷା

ପଡକଡ଼ଗୁଡ଼ିକ ଏବଂ ପ୍ରସାରଣName

ଖେଳ ଏବଂ ଅନ୍ତରକ୍ରିୟା ମିଡିଆName

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

StyleTTS 2TTS କଣ?

StyleTTS2କୁ କିଏ ବିକଶିତ କରିଛି?

StyleTTS2କ'ଣ ଭାଷାକୁ ସମର୍ଥନ କରେ?

StyleTTS2ଧ୍ୱନିଗୁଡ଼ିକୁ ବ୍ୟବହାର କରିବା ପାଇଁ କେତେ ଖର୍ଚ୍ଚ ହୋଇଥାଏ?

StyleTTS2ଭାଷଣ ସୃଷ୍ଟି କରିବାରେ କେତେ ଶୀଘ୍ର?

StyleTTS2ର ଧ୍ୱନି ଗୁଣବତ୍ତା କଣ?

ମୁଁ StyleTTS2 ସହିତ ଗୋଟିଏ ଧ୍ୱନିକୁ କ୍ଲୋନ କରିପାରିବି କି?

StyleTTS2ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ଏକକ-ସ୍ପିକର ସଂଶ୍ଳୋଧନ ପାଇଁ ଉପଯୁକ୍ତ କି?

ମୁଁ StyleTTS2ଧ୍ୱନିଗୁଡ଼ିକୁ ବାଣିଜ୍ୟିକ ଭାବେ ବ୍ୟବହାର କରିପାରିବି କି?

ମୁଁ ଏହି ଧ୍ୱନିକୁ ବାଣିଜ୍ୟିକ ପ୍ରକଳ୍ପ ପାଇଁ ବ୍ୟବହାର କରିପାରିବି କି?

ମୁଁ API ମାଧ୍ୟମରେ ଏହି ଧ୍ୱନିକୁ କିପରି ବ୍ୟବହାର କରିବି?

ସୃଷ୍ଟି କରିବା ପୂର୍ବରୁ ମୁଁ ଧ୍ୱନିକୁ ପ୍ରାକଦର୍ଶନ କରିପାରିବି କି?

ଚେଷ୍ଟାକରନ୍ତୁ Default ବର୍ତ୍ତମାନ