AI ଧ୍ୱନି ଉତ୍ପାଦକ - 20+ ନମୂନା, 100+ ଧ୍ୱନି

ଅତ୍ୟାଧୁନିକ AI ବ୍ୟବହାର କରି ପାଠ୍ୟରୁ ବାସ୍ତବବାଦୀ ମାନବୀୟ ଭାଷା ନିର୍ମାଣ କରନ୍ତୁ। 20+ ନ୍ୟୁରାଲ TTS ମଡେଲ, 100+ ପୂର୍ବ ନିର୍ମିତ ସ୍ୱର, ଏବଂ ସ୍ୱର କ୍ଲୋନିଂରୁ ଚୟନ କରନ୍ତୁ - ସବୁକିଛି ଗୋଟିଏ ପ୍ଲାଟଫର୍ମରୁ। Kokoro ସହିତ ଦ୍ରୁତ ଡ୍ରାଫ୍ଟରୁ Tortoise TTS ସହିତ ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ଧ୍ୱନି ପର୍ଯ୍ୟନ୍ତ, ଯେକୌଣସି ପ୍ରକଳ୍ପ ପାଇଁ ଉତ୍ତମ ସ୍ୱରକୁ ଖୋଜନ୍ତୁ।

AI ଶକ୍ତି ପ୍ରଦାନକାରୀ 20+ ନମୁନା 100+ ଧ୍ୱନି ଧ୍ୱନି କ୍ଲୋନିଂ 30+ ଭାଷାName

ବର୍ତ୍ତମାନ ଚେଷ୍ଟାକରନ୍ତୁ

Kokoro, Piper, VITS, MeloTTS ସହିତ ମୁକ୍ତ
ଆପଣଙ୍କର ନିର୍ମିତ ଧ୍ୱନି ଏଠାରେ ଦର୍ଶାଯିବ
ସୃଷ୍ଟିକର୍ତ୍ତା
ଆହରଣ କରନ୍ତୁ
TTS.ai କୁ ଭଲପାଆନ୍ତି? ଆପଣଙ୍କ ବନ୍ଧୁମାନଙ୍କୁ ଜଣାଇ ଦିଅନ୍ତୁ!

AI ଧ୍ୱନି ଉତ୍ପାଦନ ବିଶେଷତାଗୁଡ଼ିକName

ନିର୍ମାତା, ବିକାଶକାରୀ ଏବଂ ବ୍ୟବସାୟ ପାଇଁ ଏକ ସମ୍ପୂର୍ଣ୍ଣ ସ୍ୱର ଉତ୍ପାଦନ ପ୍ଲାଟଫର୍ମ

20+ AI ନମୂନା

20ରୁ ଅଧିକ ଭିନ୍ନ AI ସ୍ୱର ନମୂନାକୁ ପ୍ରବେଶ କରନ୍ତୁ, ପ୍ରତ୍ୟେକଟି ଭିନ୍ନ ଭିନ୍ନ ଶକ୍ତି ସହିତ। ଦ୍ରୁତ ହଳଦିଆ ନମୂନାରୁ ପ୍ରୀମିୟମ ଷ୍ଟୁଡିଓ-ଗୁଣମାନ ଇଞ୍ଜିନ ପର୍ଯ୍ୟନ୍ତ।

100+ ଧ୍ୱନି

ଭିନ୍ନ ଭିନ୍ନ ଲିଙ୍ଗ, ବୟସ, ଉଚ୍ଚାରଣ, ଏବଂ ଭାଷାକୁ ଆବର୍ଜନା କରୁଥିବା 100ରୁ ଅଧିକ ଧ୍ୱନିର ଏକ ବିବିଧ କ୍ୟାଟାଲଗକୁ ବ୍ରାଉଜ କରନ୍ତୁ। ନିର୍ମାଣ କରିବା ପୂର୍ବରୁ କୌଣସି ଧ୍ୱନିକୁ ପ୍ରାକଦର୍ଶନ କରନ୍ତୁ।

ଧ୍ୱନି କ୍ଲୋନିଂ

5-30 ସେକଣ୍ଡ ଧ୍ୱନି ନମୁନାରୁ ଯେକୌଣସି ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ। ଅକ୍ଷର, ବ୍ରାଣ୍ଡିଂ, କିମ୍ବା ବିଷୟବସ୍ତୁ ପାଇଁ ଇଚ୍ଛାରୂପୀ ଧ୍ୱନି ନିର୍ମାଣ କରନ୍ତୁ ଯାହାକି ପ୍ରକୃତରେ ପ୍ରକୃତ ଧ୍ୱନି ପରି ଶୁଭେ।

Emoticons ନିୟନ୍ତ୍ରଣ

ନିର୍ଦ୍ଦିଷ୍ଟ ଭାବନା ସହିତ ଭାଷଣ ସୃଷ୍ଟି କରନ୍ତୁ - ଖୁସି, ଦୁଃଖୀ, ରାଗ, ଉତ୍ସାହିତ, ଚିତ୍କାର କରିବା। ତୀବ୍ରତା ନିୟନ୍ତ୍ରଣ କରନ୍ତୁ, ସ୍ପଷ୍ଟ ପ୍ରଦାନ ପାଇଁ।

30+ ଭାଷାName

30 ଠାରୁ ଅଧିକ ଭାଷାରେ ସ୍ଥାୟୀ ଉଚ୍ଚାରଣ ସହିତ ଭାଷଣ ସୃଷ୍ଟି କରନ୍ତୁ। ହିନ୍ଦୀ, ଜାପାନୀ, ସ୍ପେନିସ, ଚାଇନିଜ, ଆରବୀ, କୋରିଆନ, ଏବଂ ଅଧିକ।

API ସୁଗମତା

ଆମର REST API ସହିତ ଆପଣଙ୍କର ଆପଲେଟଗୁଡ଼ିକରେ AI ସ୍ୱର ଉତ୍ପାଦନକୁ ଏକୀକୃତ କରନ୍ତୁ। ସମ୍ପୂର୍ଣ୍ଣ ନମୂନା ଏବଂ ସ୍ୱର ନିୟନ୍ତ୍ରଣ ସହିତ କାର୍ଯ୍ୟକ୍ରମଗତ ଭାବେ ଭାଷା ଉତ୍ପାଦନ କରନ୍ତୁ।

ଆମର AI ସ୍ୱର ମଡେଲ

ଦ୍ରୁତ ଏବଂ ମୁକ୍ତରୁ ପ୍ରୀମିୟମ୍ ଷ୍ଟୁଡିଓ-ଗୁଣମାନ ପର୍ଯ୍ୟନ୍ତ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ଏହା ପାଇଁ ଉତ୍ତମ: ସର୍ବାଧିକ ଉତ୍ତମ - ଅତ୍ୟନ୍ତ-ଶୀଘ୍ର, ଷ୍ଟୁଡିଓ ଗୁଣବତ୍ତା, ଅଧିକାଂଶ ଧ୍ୱନି ଉତ୍ପାଦନ ଆବଶ୍ୟକତା ପାଇଁ ଆଦର୍ଶ

ଚେଷ୍ଟାକରନ୍ତୁ Kokoro

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: Resemble AI ରୁ ଅନୁକୂଳ ଅନୁଭୂତି ନିୟନ୍ତ୍ରଣ ସହିତ state-of-the-art ସ୍ୱର କ୍ଲୋନିଂ

ଚେଷ୍ଟାକରନ୍ତୁ Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ପ୍ରବାହ ସହିତ ମାନବ-ସମାନ ଗୁଣବତ୍ତା, ଶୂନ୍ୟ-ଶଟ କ୍ଲୋନିଂ, ଏବଂ 8 ଭାଷା

ଚେଷ୍ଟାକରନ୍ତୁ CosyVoice 2

OrpheusOrpheus

Standard

Human-level emotional TTS model trained on 100K hours of speech data.

Medium 5/5

ଏହା ପାଇଁ ଉତ୍ତମ: 100K ଘଣ୍ଟା ବକ୍ତବ୍ୟ ତଥ୍ୟ ଉପରେ ପ୍ରଶିକ୍ଷଣ ପ୍ରାପ୍ତ ମାନବ-ସ୍ତରୀୟ ଭାବପ୍ରବଣ ଅଭିବ୍ୟକ୍ତି

ଚେଷ୍ଟାକରନ୍ତୁ Orpheus

StyleTTS 2StyleTTS 2

Premium

Human-level text-to-speech through style diffusion and adversarial training.

Medium 5/5

ଏହା ପାଇଁ ଉତ୍ତମ: ପ୍ରୀମିୟମ ବର୍ଣ୍ଣନା ପାଇଁ ଶୈଳୀ ବିସ୍ତାର ମାଧ୍ୟମରେ ମାନବ-ସ୍ତରୀୟ ଗୁଣବତ୍ତା

ଚେଷ୍ଟାକରନ୍ତୁ StyleTTS 2

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

ଏହା ପାଇଁ ଉତ୍ତମ: ଧ୍ୱନି ପ୍ରଭାବ, ହସ ଏବଂ 13+ ଭାଷା ସହିତ ସୃଜନଶୀଳ ଧ୍ୱନି

ଚେଷ୍ଟାକରନ୍ତୁ Bark

AI ସ୍ୱର ଉତ୍ପାଦନ କିପରି କାମ କରେ

ସେକଣ୍ଡଗୁଡ଼ିକରେ ପାଠ୍ୟ ନିବେଶରୁ ପ୍ରାକୃତିକ ଭାଷଣକୁ

1

ଆପଣଙ୍କର ପାଠ୍ୟ ଭରଣ କରନ୍ତୁ

ପାଠ୍ୟକୁ ଟାଇପ କରନ୍ତୁ କିମ୍ବା ଲଗାନ୍ତୁ ଯାହାକୁ ଆପଣ ଭାଷଣରେ ପରିବର୍ତ୍ତନ କରିବାକୁ ଚାହୁଁଛନ୍ତି । ପ୍ରତି ଅନୁରୋଧରେ 500 ଅକ୍ଷର ପର୍ଯ୍ୟନ୍ତ ସମର୍ଥନ କରିଥାଏ ଏବଂ ଲମ୍ବା ପାଠ୍ୟ ବିଭାଜନ ଉପଲବ୍ଧ ଅଛି ।

2

ଆକାର ଏବଂ ଧ୍ୱନି ବାଛନ୍ତୁ

20+ AI ନମୂନା ଏବଂ 100+ ଧ୍ୱନିରୁ ଚୟନ କରନ୍ତୁ। ଆପଣଙ୍କର ବିଷୟବସ୍ତୁ ଏବଂ ଶ୍ରୋତାମାନଙ୍କ ପାଇଁ ଉତ୍ତମ ମେଳକ ଖୋଜିବା ପାଇଁ ଧ୍ୱନିଗୁଡ଼ିକୁ ପ୍ରାକଦର୍ଶନ କରନ୍ତୁ।

3

ଭାଷଣ ସୃଷ୍ଟି କରନ୍ତୁ

ସେକଣ୍ଡଗୁଡ଼ିକରେ ଉତ୍ତମ ଗୁଣବତ୍ତା ଧ୍ୱନି ସୃଷ୍ଟି ଏବଂ ଗ୍ରହଣ କରିବା ପାଇଁ କ୍ଲିକ କରନ୍ତୁ। Kokoro ଭଳି ଦ୍ରୁତ ନମୂନା2ସେକଣ୍ଡ ମଧ୍ୟରେ ଫଳାଫଳ ପ୍ରଦାନ କରିଥାଏ।

4

ଆହରଣ କରନ୍ତୁ କିମ୍ବା ଏକତ୍ରିତ କରନ୍ତୁ

ଧ୍ୱନିକୁ MP3 କିମ୍ବା WAV ଭାବରେ ଆହରଣ କରନ୍ତୁ, କିମ୍ବା ଆପଣଙ୍କର ପ୍ରୟୋଗ ଏବଂ କାର୍ଯ୍ୟ ପ୍ରବାହରେ ସ୍ୱର ଉତ୍ପାଦନକୁ ସିଧାସଳଖ ସଂଯୋଗ କରିବା ପାଇଁ API କୁ ବ୍ୟବହାର କରନ୍ତୁ।

AI ସ୍ୱର ଉତ୍ପାଦନ କାର୍ଯ୍ଯପ୍ରବାହName

TTS.ai କିପରି ପାଠ୍ୟକୁ ପ୍ରାକୃତିକ-ସଙ୍ଗୀତ ଭାଷାରେ ପରିବର୍ତ୍ତନ କରେ

ଆପଣଙ୍କର ପାଠ୍ୟକୁ ଲେଖନ୍ତୁ କିମ୍ବା ଲଗାନ୍ତୁ

ଗୋଟିଏ ବାକ୍ୟରୁ ସମ୍ପୂର୍ଣ୍ଣ ଲେଖା ପର୍ଯ୍ୟନ୍ତ କିଛି ଭରଣ କରନ୍ତୁ । AI ବିରାମ ଚିହ୍ନ, ସଂଖ୍ୟା, ସଂକ୍ଷିପ୍ତ ନାମ, ଏବଂ ଏପର୍ଯ୍ୟନ୍ତ SSML ମାର୍କଅପକୁ ପ୍ରାକୃତିକ ଭାବରେ ପରିଚାଳନା କରିଥାଏ । ଲମ୍ବା ପାଠ୍ୟଗୁଡ଼ିକୁ ସ୍ୱୟଂଚାଳିତ ଭାବରେ ଛୋଟ ଛୋଟ ଅଂଶରେ ବିଭକ୍ତ କରାଯାଏ ଏବଂ ଏକାଠି ସିମଲେସ ଭାବରେ ଷ୍ଟାଇଲ କରାଯାଏ ।

  • ଲେଖା, ସ୍କ୍ରିପ୍ଟ କିମ୍ବା ପୁସ୍ତକ ଅଧ୍ୟାୟଗୁଡ଼ିକୁ ଲଗାନ୍ତୁ
  • ସ୍ମାର୍ଟ ସଂଖ୍ୟା ଏବଂ ସଂକ୍ଷିପ୍ତନା ପରିଚାଳନା
  • ଲମ୍ବା ପାଠ୍ୟ ପାଇଁ ସ୍ୱୟଂଚାଳିତ ବାକ୍ୟ ବିଭାଜନ
  • SSML ବିରତି ଏବଂ ଗୁରୁତ୍ୱ ପାଇଁ ସମର୍ଥନ

ଆକାର ଏବଂ ଧ୍ୱନି ବାଛନ୍ତୁ

ଭିନ୍ନ ଭିନ୍ନ ବ୍ୟବହାର ମାମଲା ପାଇଁ 20+ ନମୁନାରୁ ଚୟନ କରନ୍ତୁ - Kokoro ଦ୍ରୁତ, ଉଚ୍ଚ ଗୁଣବତ୍ତା ନିର୍ଗମ ପାଇଁ, Bark ଶବ୍ଦ ପ୍ରଭାବ ସହିତ ଅଭିବ୍ୟକ୍ତିଶୀଳ ଭାଷଣ ପାଇଁ, Tortoise ଷ୍ଟୁଡିଓ ବର୍ଣ୍ଣନା ଗୁଣବତ୍ତା ପାଇଁ, କିମ୍ବା Parler ପାଠ୍ୟ ବର୍ଣ୍ଣନା ଇଚ୍ଛାରୂପୀ ଧ୍ୱନି ପାଇଁ। ପ୍ରତ୍ୟେକ ନମୁନା ଏକାଧିକ ସ୍ଥାପିତ ଧ୍ୱନି ପ୍ରଦାନ କରିଥାଏ।

  • ସୃଷ୍ଟି କରିବା ପୂର୍ବରୁ ଧ୍ୱନିଗୁଡ଼ିକୁ ପ୍ରାକଦର୍ଶନ କରନ୍ତୁ
  • ଭାଷା, ଲିଙ୍ଗ ଏବଂ ଶୈଳୀ ଅନୁଯାୟୀ ଛାଣକ
  • ଗୋଟିଏ 10-ସେକଣ୍ଡ ନମୁନା ସହିତ ଆପଣଙ୍କର ସ୍ୱରକୁ କ୍ଲୋନ କରନ୍ତୁ
  • ପାଠ୍ୟରେ ଗୋଟିଏ ସ୍ୱର ବର୍ଣ୍ଣନା କରନ୍ତୁ (ପାର୍ଲେର TTS)

4x ଟେସ୍ଲା P40 ଉପରେ AI ପ୍ରକ୍ରିୟାକରଣ

ଆପଣଙ୍କର ପାଠ୍ୟକୁ ଆମର ସମର୍ପିତ GPU କ୍ଳଷ୍ଟରରେ 96GB VRAM ସହିତ ପ୍ରକ୍ରିୟା କରାଯାଇଥାଏ। ନ୍ୟୁରାଲ ନେଟୱର୍କ ଆପଣଙ୍କର ପାଠ୍ୟକୁ ପ୍ରସଙ୍ଗ, ପ୍ରୋସୋଡି ଏବଂ ଭାବନା ପାଇଁ ବିଶ୍ଳେଷଣ କରିଥାଏ, ତା'ପରେ ଏକ ଉଚ୍ଚ-ସତ୍ୟତା ଧ୍ୱନି ତରଙ୍ଗର ସୃଷ୍ଟି କରିଥାଏ। ଅଧିକାଂଶ ଅନୁରୋଧଗୁଡ଼ିକ ଲମ୍ବ ଏବଂ ମଡେଲ ଉପରେ ନିର୍ଭର କରି2-10 ସେକେଣ୍ଡରେ ସମ୍ପୂର୍ଣ୍ଣ ହୋଇଥାଏ।

  • 4x NVIDIA ଟେସଲା P40 GPUs (96GB VRAM)
  • ପୈଠିତ ଚାଳକମାନଙ୍କ ପାଇଁ ଅଗ୍ରତା ଧାଡ଼ି
  • ଲମ୍ବା ପାଠ୍ୟଗୁଡ଼ିକ ପାଇଁ ଅସ୍ଥାୟୀ ପ୍ରକ୍ରିୟାକରଣ
  • 24/7 ଉପଲବ୍ଧତା

ଆହରଣ କରନ୍ତୁ ଏବଂ ବ୍ୟବହାର କରନ୍ତୁ

ଆପଣଙ୍କର ବ୍ରାଉଜରରେ ତୁରନ୍ତ ଫଳାଫଳକୁ ଶୁଣନ୍ତୁ, ତାପରେ ଆପଣଙ୍କ ପସନ୍ଦର ଶୈଳୀରେ ଆହରଣ କରନ୍ତୁ। ସମସ୍ତ ଉତ୍ପନ୍ନ ଧ୍ୱନିଟି ବାଣିଜ୍ୟିକ ଭାବରେ ବ୍ୟବହାର କରିବା ପାଇଁ ଆପଣଙ୍କର - TTS.ai ରେ ପ୍ରତ୍ୟେକ ମଡେଲ ଖୋଲା ଉତ୍ସ ଲାଇସେନ୍ସଗୁଡ଼ିକୁ ବ୍ୟବହାର କରିଥାଏ (MIT, Apache 2.0) ଯାହାକି କୌଣସି ବୈଦେଶିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ।

  • WAV, MP3 କିମ୍ବା FLAC ଭାବରେ ଆହରଣ କରନ୍ତୁ
  • ସମସ୍ତ ଆକାରରେ ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ଅନୁମତିପ୍ରାପ୍ତ
  • ସାର୍ବଜନୀନ ସଂଯୋଗ ମାଧ୍ୟମରେ ଅଂଶଗ୍ରହଣ କରନ୍ତୁ
  • ଅଭିଗମ୍ୟ ଉତ୍ପାଦନ ଇତିହାସ

TTS.ai ବିପକ୍ଷ ଅନ୍ୟ AI ଧ୍ୱନି ଉତ୍ପାଦକName

ElevenLabs, Play.ht, ଏବଂ ଅନ୍ୟାନ୍ୟ ସେବା ସହିତ ଆମେ କିପରି ତୁଳନା କରୁଛୁ

ବିଶେଷତା TTS.ai ElevenLabs Play.ht Murf AI
AI ନମୂନାଗୁଡ଼ିକ 20+ ମୁକ୍ତ ଉତ୍ସ 1 ସ୍ୱତନ୍ତ୍ର 2 ସ୍ୱତନ୍ତ୍ର 1 ସ୍ୱତନ୍ତ୍ର
ମୁକ୍ତ ସ୍ତର କୌଣସି ସଦସ୍ୟତା ନାହିଁ 10k ଅକ୍ଷର ସୀମିତ 10 ମିନିଟ
ଧ୍ୱନି କ୍ଲୋନିଂ
ମୁକ୍ତ ଉତ୍ସ ନମୁନାଗୁଡ଼ିକ
ସ୍ୱୟଂ-ହୋଷ୍ଟେବଲ
ଆରମ୍ଭ ମୂଲ୍ୟ $9/mo $5/mo $31/mo $23/mo

API ମାଧ୍ୟମରେ ଧ୍ୱନି ସୃଷ୍ଟି କରନ୍ତୁ

କୌଣସି ପ୍ରୟୋଗରେ AI ଧ୍ୱନି ଉତ୍ପାଦନକୁ ଏକୀକୃତ କରନ୍ତୁ

Python - AI ଧ୍ୱନି ନିର୍ମାଣ REST API
import requests

# Generate with any of 20+ models
response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Welcome to the future of AI voice generation.",
    "model": "kokoro",        # or bark, tortoise, styletts2, etc.
    "voice": "af_heart",
    "format": "mp3",
    "speed": 1.0
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("generated_voice.mp3", "wb") as f:
    f.write(response.content)

print(f"Audio generated: {len(response.content)} bytes")

ପ୍ରତ୍ୟେକ ସ୍ତର ପାଇଁ ଯୋଜନା

ଷ୍ଟାର୍ଟଅପ୍ ଠାରୁ ଆରମ୍ଭ କରି ଉଦ୍ୟୋଗ – ମୁକ୍ତ ଭାବେ ଆରମ୍ଭ କରନ୍ତୁ, ବଢ଼ିବା ସହ ବଢ଼ନ୍ତୁ ।

ମୁକ୍ତ ସ୍ତର

$0

15,000 ଅକ୍ଷର

  • 4 ମୁକ୍ତ ନମୁନା
  • ମୌଳିକ ବ୍ୟବହାର ପାଇଁ କୌଣସି ସଦସ୍ୟତା ନାହିଁ
  • ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦିଅନ୍ତୁ

ଆରମ୍ଭକର୍ତ୍ତା

$9

500,000 ଅକ୍ଷର/ମାସ

  • ସମସ୍ତ 20+ ଆକାର
  • ଧ୍ୱନି କ୍ଲୋନିଂ
  • API ଅଭିଗମ୍ୟତା

ପ୍ରୋ

$29

2000 ଋଣ/ମାସ

  • ପ୍ରୀମିୟମ ମଡେଲ + ପ୍ରାଥମିକତା
  • API ସୁଗମତା
  • ବ୍ୟାଚ ଉତ୍ପାଦନ
ସମ୍ପୂର୍ଣ୍ଣ ମୂଲ୍ୟାଙ୍କନ ଦେଖନ୍ତୁ

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

AI ଧ୍ୱନି ଉତ୍ପାଦନ ବିଷୟରେ ସାଧାରଣ ପ୍ରଶ୍ନ

ଏକ AI ସ୍ୱର ଉତ୍ପାଦକ କୃତ୍ରିମ ବୁଦ୍ଧିମତା ବ୍ୟବହାର କରି ଲିଖିତ ପାଠ୍ୟକୁ ପ୍ରାକୃତିକ ସ୍ୱରରେ କଥାବାର୍ତ୍ତା ଧ୍ୱନିରେ ପରିବର୍ତ୍ତନ କରିଥାଏ। ପୁରୁଣା ରୋବୋଟିକ୍ TTS ତନ୍ତ୍ର ପରିବର୍ତ୍ତେ, ଆଧୁନିକ AI ସ୍ୱର ଉତ୍ପାଦକମାନେ ଗଭୀର ନ୍ୟୁରାଲ ନେଟୱାର୍କକୁ ବ୍ୟବହାର କରିଥାନ୍ତି ଯାହାକି ମନୁଷ୍ୟ ଭାଷାରେ ପ୍ରଶିକ୍ଷଣପ୍ରାପ୍ତ ହୋଇ ଅତ୍ୟନ୍ତ ବାସ୍ତବିକ ସ୍ୱର ଉତ୍ପାଦନ କରିଥାଏ।

କୋକୋରୋ, ଅର୍ଫିୟସ ଏବଂ ଷ୍ଟାଇଲଟିଟିଏସ2ପରି ଶ୍ରେଷ୍ଠ ମଡେଲଗୁଡ଼ିକ ଅନ୍ଧ ଶ୍ରବଣ ପରୀକ୍ଷାରେ ମାନବୀୟ ରେକର୍ଡିଂରୁ ପ୍ରାୟତଃ ଅଲଗା ହେଉଥିବା ଭାଷା ଉତ୍ପାଦନ କରିଥାଏ । ଗୁଣବତ୍ତା ନୃତ୍ୟମୂଳକ ଭାବେ ବୃଦ୍ଧି ପାଇଛି ଏବଂ ପ୍ରତ୍ୟେକ ନୂତନ ମଡେଲ ପିଢ଼ି ସହିତ ଦ୍ରୁତ ଗତିରେ ଅଗ୍ରଗତି କରିଚାଲିଛି ।

ହଁ। ଆପଣଙ୍କର ସ୍ୱରରୁ 5-30 ସେକଣ୍ଡର ଧ୍ୱନି ନମୁନାକୁ ଅଦ୍ୟତନ କରନ୍ତୁ, ଏବଂ ଚାଟରବକ୍ସ କିମ୍ବା GPT-SoVITS ଭଳି ନମୂନାଗୁଡ଼ିକ ଗୋଟିଏ କ୍ଲୋନ ସ୍ୱର ନିର୍ମାଣ କରିବେ ଯାହାକି ଆପଣଙ୍କର ତୀବ୍ରତା, ଉଚ୍ଚାରଣ, ଏବଂ କଥାବାର୍ତ୍ତା ଶୈଳୀକୁ ଗ୍ରହଣ କରିଥାଏ। ଆପଣ ତା'ପରେ କୌଣସି ପାଠ୍ୟରୁ ଆପଣଙ୍କର ସ୍ୱରରେ ଅସୀମିତ ବାକ୍ୟ ନିର୍ମାଣ କରିପାରିବେ।

ହଁ, ଚାରିଟି ମଡେଲ (Kokoro, Piper, VITS, MeloTTS) ସମ୍ପୂର୍ଣ୍ଣ ମୁକ୍ତ ଏବଂ କୌଣସି ବ୍ୟବହାର ସୀମା କିମ୍ବା ସଦସ୍ୟତା ଆବଶ୍ୟକ ନାହିଁ । ଉନ୍ନତ ଗୁଣଧର୍ମ ସହିତ ପ୍ରୀମିୟମ ମଡେଲ ଯେପରିକି ସ୍ୱର କ୍ଲୋନିଂ ଏବଂ ଭାବନା ନିୟନ୍ତ୍ରଣ ପାଇଁ କ୍ରେଡିଟ ଆବଶ୍ୟକ, 500 କ୍ରେଡିଟ ପାଇଁ $5 ରୁ ଆରମ୍ଭ ହୋଇଥାଏ ।

ଆମର ମଡେଲ ସମୂହ ଭାବେ 30+ ଭାଷା ସମର୍ଥନ କରେ ଯେଉଁଥିରେ ଇଂରାଜୀ, ସ୍ପେନିସ, ଫ୍ରେଞ୍ଚ, ଜର୍ମାନ, ଚାଇନିଜ, ଜାପାନୀ, କୋରିଆନ, ହିନ୍ଦୀ, ଆରବୀ, ପୋର୍ତୁଗୀଜ, ରୁଷିଆନ, ଇଟାଲିଆନ ଏବଂ ଅନେକ ଅଧିକ ଭାଷା ସାମିଲ ଅଛି । କୋକୋରୋ କେବଳ9ଭାଷାକୁ ସ୍ଥାନୀୟ ଉଚ୍ଚାରଣ ଗୁଣବତ୍ତା ସହିତ ସମର୍ଥନ କରେ ।

ହଁ। ଆମର ସମସ୍ତ ମଡେଲଗୁଡ଼ିକ ଅନୁମତିପ୍ରାପ୍ତ ମୁକ୍ତ ଉତ୍ସ ଲାଇସେନ୍ସଗୁଡ଼ିକୁ ବ୍ୟବହାର କରିଥାଏ (MIT, Apache 2.0) ଯାହା ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। ଆପଣ ଲାଇସେନ୍ସ ଫୀ ବିନା YouTube ଭିଡିଓ, ପୋଡକାଷ୍ଟ, ଆପ୍, ଖେଳ, ବିଜ୍ଞାପନ ଏବଂ ଉତ୍ପାଦରେ ଉତ୍ପନ୍ନ ଧ୍ୱନିକୁ ବ୍ୟବହାର କରିପାରିବେ।

ଗତି ମଡେଲ ଅନୁଯାୟୀ ପରିବର୍ତ୍ତିତ ହୋଇଥାଏ। Kokoro ଧ୍ୱନିକୁ ପ୍ରକୃତ ସମୟ ଅପେକ୍ଷା ପ୍ରାୟ 100x ଦ୍ରୁତ ଭାବରେ ସୃଷ୍ଟି କରିଥାଏ - ଗୋଟିଏ 10-ସେକେଣ୍ଡର କଲିପ ପାଖାପାଖି 0.1 ସେକେଣ୍ଡ ସମୟ ଗ୍ରହଣ କରିଥାଏ। ଏପର୍ଯ୍ୟନ୍ତ ଧୀରେ ଧୀରେ ପ୍ରୀମିୟମ ମଡେଲଗୁଡ଼ିକ ସାଧାରଣତଃ ମାନକ-ଲମ୍ବ ପାଠ୍ୟ ପାଇଁ 5-15 ସେକେଣ୍ଡ ମଧ୍ୟରେ ଫଳାଫଳ ପ୍ରଦାନ କରିଥାଏ।

ନମୂନାଗୁଡ଼ିକ ସ୍ଥାପନା, ବେଗ, ଗୁଣବତ୍ତା, ବିଶେଷତ୍ୱ ଏବଂ ଭାଷା ସମର୍ଥନରେ ଭିନ୍ନ ଭିନ୍ନ ହୋଇଥାଏ। କିଛି ବେଗକୁ ପ୍ରାଥମିକତା ଦେଇଥାଏ (Kokoro, Piper), ଅନ୍ୟମାନେ ଗୁଣବତ୍ତାକୁ ସର୍ବାଧିକ କରିଥାଏ (StyleTTS2, Tortoise), ଏବଂ ଅନ୍ୟମାନେ ସ୍ୱର କ୍ଲୋନିଂ (Chatterbox), ଭାବନା ନିୟନ୍ତ୍ରଣ (Orpheus), କିମ୍ବା ବାକ୍ୟସଂବାଦ ନିର୍ମାଣ (Dia) ଭଳି ଭିନ୍ନ ଭିନ୍ନ ବିଶେଷତ୍ୱ ପ୍ରଦାନ କରିଥାନ୍ତି।

ହଁ। Orpheus, Chatterbox, ଏବଂ Bark ପରି ନମୂନାମାନେ ଭାବପ୍ରବଣ ଭାଷା ନିର୍ମାଣକୁ ସମର୍ଥନ କରିଥାନ୍ତି। ଆପଣ ଖୁସି, ଦୁଃଖୀ, କ୍ରୋଧିତ, ଉତ୍ସାହିତ, କିମ୍ବା ଚିତ୍କାର ପ୍ରଦାନ ସହିତ ସମାନ ପାଠ୍ୟକୁ ନିର୍ମାଣ କରିପାରିବେ। କିଛି ନମୂନାମାନେ ଭାବପ୍ରବଣ ଅଭିବ୍ୟକ୍ତି ଉପରେ ତୀବ୍ରତା ନିୟନ୍ତ୍ରଣକୁ ଅନୁମତି ଦେଇଥାଏ।

TTS.ai ବ୍ୟବହାର କରିବା ସମୟରେ ନାହିଁ - ଆମର GPU ସର୍ଭର ସମସ୍ତ ପ୍ରକ୍ରିୟାକୁ ନିୟନ୍ତ୍ରଣ କରିଥାଏ। ଯଦି ସ୍ୱୟଂ-ହୋଷ୍ଟିଂ, କିଛି ମଡେଲ (Piper) CPU ଉପରେ ଚାଲନ୍ତି, କିନ୍ତୁ ଅନ୍ୟମାନଙ୍କୁ 2-8GB VRAM ସହିତ NVIDIA GPU ଆବଶ୍ୟକ ହୋଇଥାଏ। ଆମର ପ୍ଲାଟଫର୍ମ ଆପଣଙ୍କର ନିଜ ହାର୍ଡୱେରର ଆବଶ୍ୟକତାକୁ ଦୂର କରିଥାଏ।

ଆମର REST API କୁ ବ୍ୟବହାର କରନ୍ତୁ। ଆପଣଙ୍କର ପାଠ୍ୟ, ବଚ୍ଛିତ ନମୂନା ଏବଂ ସ୍ୱର ସହିତ ଗୋଟିଏ POST ଅନୁରୋଧ ପଠାନ୍ତୁ। API WAV କିମ୍ବା MP3 ଶୈଳୀରେ ଧ୍ୱନିକୁ ଫେରାଇଥାଏ। ଆମେ Python, JavaScript, Go, ଏବଂ cURL ରେ କୋଡ ଉଦାହରଣ ପ୍ରଦାନ କରୁଛୁ। API କିଗୁଡ଼ିକ ଆପଣଙ୍କର ଡେସ୍କଟପରୁ ମୁକ୍ତ ଭାବରେ ଉତ୍ପାଦନ କରାଯାଇଥାଏ।

ଆକାର 22-48kHz ନମୁନା ହାରରେ ଧ୍ୱନି ସୃଷ୍ଟିକରେ। ନିର୍ଗମ ଶୈଳୀଗୁଡ଼ିକ WAV (ଅସଂକୁଚିତ, ସର୍ବୋଚ୍ଚ ଗୁଣବତ୍ତା), MP3 (ସଂକୁଚିତ, ଛୋଟ ଫାଇଲଗୁଡ଼ିକ), ଏବଂ OGG ଅନ୍ତର୍ଭୁକ୍ତ। WAVକୁ ବ୍ୟବସାୟିକ ବ୍ୟବହାର ପାଇଁ ପରାମର୍ଶ ଦିଆଯାଏ, କିନ୍ତୁ MP3 ୱେବ ଏବଂ ମୋବାଇଲ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଭଲ ଭାବରେ କାମ କରେ।
5.0/5 (1)

ଆମେ କଣ ସୁଧାରିପାରିବା? ଆପଣଙ୍କର ପ୍ରତିକ୍ରିୟା ଆମକୁ ସମସ୍ୟାର ସମାଧାନ କରିବାରେ ସହାୟକ ହୋଇଥାଏ ।

ଆଜି AI ଧ୍ୱନି ସୃଷ୍ଟି କରିବା ଆରମ୍ଭ କରନ୍ତୁ

20+ ନମୂନା, 100+ ଧ୍ୱନି, ଧ୍ୱନି କ୍ଲୋନିଂ, ଏବଂ ଗୋଟିଏ ଶକ୍ତିଶାଳୀ API। ଏହାକୁ ମୁକ୍ତରେ ଚେଷ୍ଟାକରନ୍ତୁ - କୌଣସି ସଦସ୍ୟତା ଆବଶ୍ୟକ ନାହିଁ।