VibeVoice

Speaker 4

ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଇଂରାଜୀName Neutral VibeVoice

Speaker 4 ଗୋଟିଏ neutral AI ଧ୍ୱନି ଯାହାକି VibeVoice ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ନମୂନା ଦ୍ୱାରା ଶକ୍ତିପ୍ରାପ୍ତ। ଏହି ପୂର୍ବନିର୍ଦ୍ଧାରିତ ସ୍ତର ଧ୍ୱନି ଇଂରାଜୀName କୁ କହୁଛି ଏବଂ ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ଭାଷା ସଂଶ୍ଲେଷଣ ପ୍ରଦାନ କରେ। ପାଖାପାଖି-ତତ୍କାଳ ଉତ୍ପାଦନ ଗତି ଏବଂ 5/5 ର ଗୁଣବତ୍ତା ଆକଳନ ସହିତ, Speaker 4 podcasts, dialogues, long-form narration, multi-speaker content ପାଇଁ ଭଲ ଭାବରେ ଉପଯୁକ୍ତ। VibeVoice ଯନ୍ତ୍ରଟି Microsoft under the MIT license ଦ୍ୱାରା ବିକଶିତ ହୋଇଛି, ଯାହାକି ଏହାକୁ ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ପାଇଁ ସୁରକ୍ଷିତ କରିଥାଏ। ମୁଖ୍ୟ କ୍ଷମତାଗୁଡ଼ିକ ମଧ୍ୟରେ ରହିଛି: {ବିଶେଷତାଗୁଡ଼ିକ}।

ବର୍ତ୍ତମାନ କୌଣସି ଆକଳନ ନାହିଁ

VibeVoiceଆକାର ସୂଚନାName

ଆକାର VibeVoice
ବିକାଶକାରୀ Microsoft
ଗୁଣବତ୍ତା
ବେଗ ସ୍ଥିର
ଅନୁମତିପତ୍ର MIT
କ୍ଲୋନ କରୁଅଛି ଉପଲବ୍ଧ ନାହିଁ
ଅକ୍ଟୋବର ମାନକ (2 କ୍ରେଡିଟ/1K ଅକ୍ଷର)
ପ୍ରାଚଳଗୁଡ଼ିକ 1.5B
ବାସ୍ତୁଶାସ୍ତ୍ର LLM + DAC
ତାଲିମ ତଥ୍ୟName 100000 ଘଣ୍ଟାunit-format
ବର୍ଷ 2025

ପାଇଁ ଶ୍ରେଷ୍ଠ ବ୍ୟବହାର ମାମଲା Speaker 4

ଏହି ଧ୍ୱନିର ଗୁଣଧର୍ମ ଆଧାରରେ ପରାମର୍ଶ ଦିଆଯାଉଥିବା ପ୍ରୟୋଗଗୁଡ଼ିକ

ଧ୍ୱନି ପୁସ୍ତକ ଏବଂ ବର୍ଣ୍ଣନାName

ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି ଏବଂ ଅଭିବ୍ୟକ୍ତି ସହିତ ଲମ୍ବା-ଫର୍ମ ବିଷୟବସ୍ତୁକୁ ବର୍ଣ୍ଣନା କରିବା ପାଇଁ Speaker 4 କୁ ବ୍ୟବହାର କରନ୍ତୁ।

ଭିଡିଓ ଭାଷା

YouTube ଭିଡିଓ, ବିଜ୍ଞାପନ, ଏବଂ ସାମାଜିକ ଗଣମାଧ୍ୟମ ବିଷୟବସ୍ତୁଗୁଡ଼ିକରେ ବୈଷୟିକ ବର୍ଣ୍ଣନା ଯୋଗ କରନ୍ତୁ।

ପ୍ରୟୋଗଗୁଡ଼ିକ ଏବଂ ସୁଗମତାName

ଦ୍ରୁତ ଉତ୍ପାଦନ ଏହି ଧ୍ୱନିକୁ ରିୟଲ-ଟାଇମ ପ୍ରୟୋଗ, ପରଦା ପାଠକ, ଏବଂ ସୁଗମତା ସାଧନଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ କରିଥାଏ।

ପଡକଡ଼ଗୁଡ଼ିକ ଏବଂ ପ୍ରସାରଣName

ପଡକଡ଼, ରେଡିଓ ଏବଂ ବ୍ଯବସାୟିକ ପ୍ରସାରଣ ପାଇଁ ଉପଯୁକ୍ତ ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ନିର୍ଗମ।

ଅଧିକ VibeVoice ଧ୍ୱନିName

ସମାନ TTS ନମୂନାରୁ ଅନ୍ୟାନ୍ୟ ଧ୍ୱନିଗୁଡ଼ିକ

Speaker 1

ଇଂରାଜୀName Neutral

Speaker 1 (Chinese)

ଚାଇନିଜName Neutral

Speaker 2

ଇଂରାଜୀName Neutral

Speaker 2 (Chinese)

ଚାଇନିଜName Neutral

Speaker 3

ଇଂରାଜୀName Neutral

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

Microsoft ଦ୍ଵାରା VibeVoice ଦୁଇଟି ପରିବର୍ତ୍ତନରେ ଆସିଥାଏ: ଲମ୍ବା-ପ୍ରକାର ବିଷୟବସ୍ତୁ ପାଇଁ ଗୋଟିଏ 1.5B ମଡେଲ (90 ମିନିଟ ପର୍ଯ୍ୟନ୍ତ,4ସ୍ପିକର) ଏବଂ ~200ms ପ୍ରଥମ ଧ୍ୱନି ଲାଟେନସି ସହିତ ଷ୍ଟ୍ରୀମିଂ ପାଇଁ ଗୋଟିଏ ରିଅଲଟାଇମ 0.5B ମଡେଲ। 1.5B ପରିବର୍ତ୍ତନଟି ପୋଡକାଷ୍ଟ ଏବଂ ଧ୍ୱନି ପୁସ୍ତକଗୁଡ଼ିକରେ ଲମ୍ବା ପାଦଗୁଡ଼ିକ ଉପରେ ସ୍ପିକର ସ୍ଥିରତା ସହିତ ଉତ୍ତମ। ଟିପ୍ପଣୀ: Microsoft ରିପୋଜିଟରରୁ TTS ସଂକେତକୁ ହଟାଏ ଏବଂ ଉତ୍ପାଦିତ ଧ୍ୱନିରେ ଶୁଣାଯାଉଥିବା AI ନିବୃତ୍ତି ଅନ୍ତର୍ଭୁକ୍ତ ହୋଇଥାଏ।

VibeVoiceକୁ Microsoft ଦ୍ୱାରା ବିକଶିତ କରାଯାଇଛି ଏବଂ MIT (ସଂଶୋଧନ-ମାତ୍ର ଉଦ୍ଦେଶ୍ୟ) ଲାଇସେନ୍ସ ଅନ୍ତର୍ଗତ ପ୍ରକାଶିତ କରାଯାଇଛି, ଯାହାକି ଉତ୍ପନ୍ନ ଧ୍ୱନିର ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ ।

VibeVoice 1 ଭାଷାକୁ ସମର୍ଥନ କରେ: ଇଂରାଜୀ।

VibeVoice ପ୍ରିମିଆ ସ୍ତରରେ ଅଛି - ପ୍ରତି 1,000 ଅକ୍ଷରରେ4କରେଡିଟ। ଆପଣ ସମ୍ପୂର୍ଣ୍ଣ ଧ୍ୱନି ସୃଷ୍ଟି କରିବା ପୂର୍ବରୁ ଯେକୌଣସି VibeVoice ଧ୍ୱନିକୁ ମୁକ୍ତରେ ପ୍ରାକଦର୍ଶନ କରିପାରିବେ।

VibeVoice ରେ ମଧ୍ଯମ ଉତ୍ପାଦନ ବେଗ ଅଛି। ପାଠ୍ୟ ଲମ୍ବ ଉପରେ ନିର୍ଭର କରି ଉତ୍ପାଦନ ସାଧାରଣତଃ କିଛି ସେକେଣ୍ଡ ସମୟ ଗ୍ରହଣ କରିଥାଏ।

VibeVoice କୁ TTS.ai ରେ ଧ୍ୱନି ଗୁଣବତ୍ତା ପାଇଁ 5/5 ରୂପେ ମାନ ଦିଆଯାଇଛି। ଏହା ଷ୍ଟୁଡିଓ-ସ୍ତରୀୟ, ମାନବୀୟ-ସଦୃଶ ଭାଷଣ ପ୍ରଦାନ କରିଥାଏ।

ନା, VibeVoice ସ୍ଥାପିତ ଧ୍ୱନିଗୁଡ଼ିକର ଗୋଟିଏ ସ୍ଥିର ସେଟକୁ ବ୍ୟବହାର କରେ। ଧ୍ୱନି କ୍ଲୋନିଂ ପାଇଁ, CosyVoice2, GPT-SoVITS, କିମ୍ବା Chatterbox ପରି ନମୂନାକୁ ଚେଷ୍ଟାକରନ୍ତୁ।

ହଁ, VibeVoice କୁ ବିଶେଷକରି ପଡୋସ, ଅଡିଓବାଇକ, ଲମ୍ବା-ଫର୍ମ ବହୁ-ସ୍ପିକର ବିଷୟବସ୍ତୁ ପାଇଁ ପରାମର୍ଶ ଦିଆଯାଏ। ଏହାର ବହୁ-ସ୍ପିକର, 90 ମିନିଟ ପର୍ଯ୍ୟନ୍ତ, ପଡୋସ ସୃଷ୍ଟି କ୍ଷମତା ଏହାକୁ ଏହି ବ୍ୟବହାର ମାମଲା ପାଇଁ ଏକ ଉତ୍ତମ ଚୟନ କରିଥାଏ।

ହଁ, VibeVoice MIT (ଖୁଲାଖୁଲା ଅନୁସନ୍ଧାନ) ଅନ୍ତର୍ଗତ ଲାଇସେନ୍ସିତ, ଯାହା ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। VibeVoice ଧ୍ୱନି ସହିତ ଉତ୍ପନ୍ନ ଧ୍ୱନିକୁ ଭିଡିଓ, ପୋଡକାଷ୍ଟ, ଆପଲେଟ, ଖେଳ ଏବଂ ଅନ୍ୟାନ୍ୟ ବାଣିଜ୍ୟିକ ପ୍ରକଳ୍ପରେ ବ୍ୟବହାର କରାଯାଇପାରିବ।

ହଁ, TTS.ai ରେ ସମସ୍ତ ଧ୍ୱନି ବାଣିଜ୍ୟିକ-ଲାଇନସେଟ ମୁକ୍ତ ଉତ୍ସ ମଡେଲ (MIT, Apache 2.0) ବ୍ୟବହାର କରିଥାଏ। ନିର୍ଗତ ଧ୍ୱନିଟି ଭିଡିଓ, ପୋଡକାଷ୍ଟ, ଆପଲେଟ, ଖେଳ ଏବଂ ଅନ୍ୟାନ୍ୟ ବାଣିଜ୍ୟିକ ପ୍ରୟୋଗରେ ବ୍ୟବହାର ପାଇଁ ଆପଣଙ୍କର ଅଟେ।

/api/v1/tts/କୁ ଆକାର ନାମ ଏବଂ ଭାଷା ID ସହିତ ଗୋଟିଏ POST ଅନୁରୋଧ ପଠାନ୍ତୁ। Python, JavaScript, Go, ଏବଂ cURL ରେ କୋଡ ଉଦାହରଣ ପାଇଁ ଆମର API ଦଲିଲିକରଣ ପୃଷ୍ଠାକୁ ଦେଖନ୍ତୁ।

ହଁ, ଗୋଟିଏ ନମୁନା ଶୁଣିବା ପାଇଁ ଏହି ପୃଷ୍ଠାରେ ଚାଲାଇବା ବଟନକୁ କ୍ଲିକ କରନ୍ତୁ। ଆପଣ ପାଠ୍ୟରୁ ଭାଷଣ ପୃଷ୍ଠାରେ ଇଚ୍ଛାରୂପୀ ପାଠ୍ୟ ଟାଇପ କରିପାରିବେ ଏବଂ କୌଣସି ଭାଷା ସହିତ ମୁକ୍ତ ପ୍ରାକଦର୍ଶନ ସୃଷ୍ଟି କରିପାରିବେ।

ଚେଷ୍ଟାକରନ୍ତୁ Speaker 4 ବର୍ତ୍ତମାନ

ଯେକୌଣସି ପାଠ୍ୟ ଟାଇପ କରନ୍ତୁ ଏବଂ ଏହାକୁ କହିବା ପାଇଁ ଶୁଣନ୍ତୁ Speaker 4. ବ୍ୟବହାର ପାଇଁ ମୁକ୍ତ.