Report Bug / Feature Request

ରିୟଲ-ଟାଇମ ଧ୍ୱନି କ୍ଲୋନିଂ - ସେକଣ୍ଡଗୁଡ଼ିକରେ ଯେକୌଣସି ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

କେବଳ5ସେକେଣ୍ଡର ସଂଯୋଗ ଧ୍ୱନି ସହିତ ଯେକୌଣସି ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ।9ମୁକ୍ତ-ସୋର ଧ୍ୱନି କ୍ଲୋନ ମଡେଲ ଯଥା Chatterbox, CosyVoice2, GPT-SoVITS, ଏବଂ OpenVoice। କୌଣସି ପ୍ରଶିକ୍ଷଣ ଆବଶ୍ୟକ ନଥିବା ଶୂନ୍ୟ-ଶଟ କ୍ଲୋନିଂ - ଗୋଟିଏ ନମୁନାକୁ ଅପଲୋଡ କରନ୍ତୁ ଏବଂ ତୁରନ୍ତ ଭାଷା ସୃଷ୍ଟି କରନ୍ତୁ। ସମସ୍ତ ମଡେଲ ବାଣିଜ୍ୟିକ ଭାବେ ଲାଇସେନ୍ସିତ।

ରିୟଲ-ଟାଇମ 5- ସେକଣ୍ଡ ନମୁନାଗୁଡିକ 9 କ୍ଲୋନିଂ ଆକାର ମୁକ୍ତ ଉତ୍ସName ଭାଷାName Emoticons ନିୟନ୍ତ୍ରଣ

ରିୟଲ-ଟାଇମ ଧ୍ୱନି କ୍ଲୋନିଂ ବିଶେଷତାଗୁଡ଼ିକName

state-of-the-art AI ସହିତ ତୁରନ୍ତ କ୍ଲୋନ ଧ୍ୱନି - କୌଣସି ପ୍ରଶିକ୍ଷଣ ନାହିଁ, କୌଣସି ତଥ୍ୟ ସଂଗ୍ରହ ନାହିଁ, କୌଣସି ଅପେକ୍ଷା ନାହିଁ

ଶୂନ୍ୟ-ଶଟ କ୍ଲୋନିଂ

କୌଣସି ପ୍ରଶିକ୍ଷଣ ନାହିଁ, କୌଣସି ଫାଇନ-ଟୁନିଂ ନାହିଁ, କୌଣସି ତଥ୍ୟ ସଂଗ୍ରହ ନାହିଁ। ଧ୍ୱନିର5ସେକେଣ୍ଡକୁ ଅପ୍ଲୋଡ କରନ୍ତୁ ଏବଂ ତୁରନ୍ତ ଏକ କ୍ଲୋନ ଧ୍ୱନି ପାଇବେ। AI ବାକ୍ୟବକ୍ତା ଗୁଣଧର୍ମକୁ ରିୟଲ-ଟାଇମରେ ବାହାର କରିଥାଏ।

9 କ୍ଲୋନିଂ ଆକାର

ଚାଟରବକ୍ସ, କୋସିଭାୟସ ୨, GPT-SoVITS, ଓପନଭାୟସ, ସ୍ପାର୍କ, IndexTTS-୨, GLM-TTS, Qwen3-TTS, ଏବଂ ଟର୍ଟୋଇଜରୁ ବାଛନ୍ତୁ। ପ୍ରତ୍ୟେକ ନମୂନାରେ ଗୁଣବତ୍ତା, ବେଗ, ଏବଂ ଭାଷା ପାଇଁ ଭିନ୍ନ ଭିନ୍ନ ଶକ୍ତି ଅଛି।

କ୍ରସ- ଭାଷା କ୍ଲୋନିଂ

ଇଂରାଜୀରେ ଗୋଟିଏ ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ ଏବଂ ଚାଇନିଜ, ଜାପାନୀ, କୋରିଆନ ଏବଂ ଅଧିକ ଭାଷାରେ ଭାଷଣ ସୃଷ୍ଟି କରନ୍ତୁ। CosyVoice2and Qwen3-TTS 17+ ଭାଷାରେ ଧ୍ୱନି ପରିଚୟକୁ ସଂରକ୍ଷଣ କରିଥାଏ।

Emoticons ନିୟନ୍ତ୍ରଣ

ଚାଟରବକ୍ସ, ଓପନଭାଇସ, ଏବଂ GLM-TTS ଭାବପ୍ରବଣ ଉତ୍ପାଦନକୁ ସମର୍ଥନ କରିଥାଏ। ଭିନ୍ନ ଭିନ୍ନ ଭାବପ୍ରବଣତା ସହିତ ସମାନ ପାଠ୍ୟ ଉତ୍ପାଦନ କରନ୍ତୁ - ଖୁସି, ଦୁଃଖୀ, ରାଗୀ, ହସୁଥିବା - କ୍ଲୋନ ଧ୍ୱନିକୁ ରଖିବା ସମୟରେ।

ମୁକ୍ତ ଉତ୍ସ ଏବଂ ବାଣିଜ୍ୟିକName

ପ୍ରତିଟି କ୍ଲୋନ ମଡେଲ MIT କିମ୍ବା Apache 2.0 ଲାଇସେନ୍ସ ଅନ୍ତର୍ଗତ ମୁକ୍ତ ଉତ୍ସ ଅଟେ। ବିଷୟବସ୍ତୁ, ଉତ୍ପାଦ ଏବଂ ପ୍ରୟୋଗ ପାଇଁ ବାଣିଜ୍ୟିକ ଭାବେ କ୍ଲୋନିତ ଧ୍ୱନିଗୁଡ଼ିକୁ କୌଣସି ରେୟାଲଟି ବିନା ବ୍ୟବହାର କରନ୍ତୁ।

କ୍ଲୋନ API

ପ୍ରଗ୍ରାମାତିକ ସ୍ୱର କ୍ଲୋନିଂ ପାଇଁ REST API। ସଂଦେଷଣ ଧ୍ୱନିକୁ ଅଦ୍ୟତନ କରନ୍ତୁ, ପାଠ୍ୟକୁ ନିର୍ଦ୍ଦିଷ୍ଟ କରନ୍ତୁ, ଏବଂ କ୍ଲୋନ ହୋଇଥିବା ଭାଷଣକୁ ଗ୍ରହଣ କରନ୍ତୁ। Python ଏବଂ JavaScript ପାଇଁ SDKs। ଉଚ୍ଚ-ବ୍ଯାସାଧିକତା କାର୍ଯ୍ଯପ୍ରବାହ ପାଇଁ ବ୍ୟାଚ କ୍ଲୋନିଂ।

ସ୍ୱର କ୍ଲୋନିଙ୍ଗ ନମୂନାଗୁଡ଼ିକ

ପ୍ରତିଟି କ୍ଲୋନିଂ ବ୍ୟବହାର ମାମଲା ପାଇଁ9ଟି ମୁକ୍ତ ଉତ୍ସ ମଡେଲ

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ସର୍ବଶ୍ରେଷ୍ଠ ସାରାଂଶିକ ଗୁଣବତ୍ତା -5ସେକଣ୍ଡ ନମୁନା, ଭାବନା ନିୟନ୍ତ୍ରଣ, MIT ଲାଇସେନ୍ସିତ

ଚେଷ୍ଟାକରନ୍ତୁ Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ଶ୍ରେଷ୍ଠ ବହୁଭାଷୀ କ୍ଲୋନିଂ — ଚାଇନିଜ, ଇଂରାଜୀ, ଜାପାନୀ, କୋରିଆନ ମଧ୍ୟରେ ଧ୍ୱନିକୁ ସଂରକ୍ଷଣ କରିଥାଏ

ଚେଷ୍ଟାକରନ୍ତୁ CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ଭାବପ୍ରବଣତା ଏବଂ ଶୈଳୀ ସ୍ଥାନାନ୍ତରଣ ସହିତ ଦ୍ରୁତ ଟୋନ ରଙ୍ଗ ପରିବର୍ତ୍ତନName

ଚେଷ୍ଟାକରନ୍ତୁ OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ଦ୍ରୁତତମ କ୍ଲୋନ ନମୂନା - ~12 ସେକଣ୍ଡରେ ଫଳାଫଳ

ଚେଷ୍ଟାକରନ୍ତୁ Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ଉଚ୍ଚ ସ୍ପିକର ଭଳିତ୍ୱ ସହିତ ଉତ୍ତମ ଚାଇନିଜ- ଇଂରାଜୀ କ୍ଲୋନିଂName

ଚେଷ୍ଟାକରନ୍ତୁ IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ଫଳାଫଳ - ଧ୍ୱନି ପୁସ୍ତକ ଏବଂ ପ୍ରୀମିୟମ ବର୍ଣ୍ଣନା ପାଇଁ ସବୁଠାରୁ ଭଲ

ଚେଷ୍ଟାକରନ୍ତୁ Tortoise TTS

ପ୍ରକୃତ-କାଳ ସ୍ୱର କ୍ଲୋନିଂ କିପରି କାମ କରେName

ଗୋଟିଏ ସଂକ୍ଷିପ୍ତ ଧ୍ୱନି ନମୁନାରୁ ଅସୀମିତ କ୍ଲୋନିତ ଭାଷଣକୁ

1

ସଂଯୋଗ ଧ୍ୱନିକୁ ଅଦ୍ୟତନ କରନ୍ତୁ

ଆପଣ କ୍ଲୋନ କରିବାକୁ ଚାହୁଁଥିବା ଧ୍ୱନିରୁ 5-30 ସେକଣ୍ଡର ସ୍ୱଚ୍ଛ ଭାଷଣକୁ ରେକର୍ଡ କରନ୍ତୁ କିମ୍ବା ଅଦ୍ୟତନ କରନ୍ତୁ। WAV, MP3, କିମ୍ବା ଆପଣଙ୍କ ବ୍ରାଉଜରରେ ସିଧାସଳଖ ରେକର୍ଡ କରନ୍ତୁ।

2

ଗୋଟିଏ କ୍ଲୋନିଂ ଆକାର ବାଛନ୍ତୁ

ଆପଣଙ୍କର ଆବଶ୍ୟକତା ଅନୁଯାୟୀ ମଡେଲକୁ ବାଛନ୍ତୁ - ଗୁଣବତ୍ତା ପାଇଁ ଚାଟରବକ୍ସ, ବେଗ ପାଇଁ ସ୍ପାର୍କ, ବହୁଭାଷୀ ପାଇଁ କୋସିଭାୟସ ୨।

3

ଆପଣଙ୍କର ପାଠ୍ୟ ଭରଣ କରନ୍ତୁ

ଆପଣ କ୍ଲୋନ ଧ୍ୱନିରେ କହିବାକୁ ଚାହୁଁଥିବା ପାଠ୍ୟକୁ ଟାଇପ କରନ୍ତୁ କିମ୍ବା ଲଗାନ୍ତୁ। ନମୂନା ଦ୍ୱାରା ସମର୍ଥିତ ଯେକୌଣସି ଭାଷା କାମ କରେ।

4

ଆହରଣ କରନ୍ତୁ

10-25 ସେକଣ୍ଡ ମଧ୍ୟରେ ଆପଣଙ୍କର କ୍ଲୋନ ଧ୍ୱନିକୁ ସୃଷ୍ଟି କରିବା ପାଇଁ ଏବଂ ଶୁଣିବା ପାଇଁ କ୍ଲିକ କରନ୍ତୁ। ତୁରନ୍ତ ବ୍ୟବହାର ପାଇଁ WAV କିମ୍ବା MP3 ଭାବରେ ଆହରଣ କରନ୍ତୁ।

ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନିଂ କିପରି କାମ କରେ

କୌଣସି ଫାଇନ-ଟୁନିଙ୍ଗ ନାହିଁ, କୌଣସି ତଥ୍ୟସମୂହ ସଂଗ୍ରହ ନାହିଁ - କେବଳ ଅପଲୋଡ ଏବଂ କ୍ଲୋନ କରନ୍ତୁ

ସ୍ପିକର ସନ୍ନିବେଶିତ ଉତ୍ସName

AI ଗୋଟିଏ ସ୍ଵରକ ସନ୍ନିବେଶକୁ ବାହାର କରିବା ପାଇଁ ଆପଣଙ୍କର ସଂଯୋଗ ଧ୍ୱନିକୁ ବିଶ୍ଳେଷଣ କରେ - ସ୍ୱର ଭିନ୍ନ ଭିନ୍ନ ଗୁଣଧର୍ମର ଏକ ସଂକଳ୍ପ ଗଣିତୀୟ ପ୍ରତିନିଧିତ୍ୱ ଯଥା ପିଚ, ଟାଇମ୍ବର, କଥାବାର୍ତ୍ତା ରଥମ, ଏବଂ ସ୍ୱର ଢାଞ୍ଚା। ଏହା ୧ ସେକେଣ୍ଡରୁ କମରେ ଘଟେ।

  • ଧ୍ୱନିର5ସେକେଣ୍ଡ ସହିତ କାମ କରେ
  • ପିଚ, ଟିମବ୍ରେ ଏବଂ କଥାବାର୍ତ୍ତା ଶୈଳୀକୁ ଗ୍ରହଣ କରିଥାଏ
  • କୌଣସି ପ୍ରଶିକ୍ଷଣ କିମ୍ବା ସୁଧାରଣ ଆବଶ୍ୟକ ନାହିଁ
  • ଧ୍ୱନିକୁ କେବେବି ସ୍ଥାୟୀ ଭାବରେ ସଂରକ୍ଷିତ କରାଯାଇନାହିଁ

ସର୍ତ୍ତାବଳୀ ବାକ୍ୟ ସଂଯୋଜକName

TTS ନମୂନା ବକ୍ତା ସନ୍ନିବେଶ ଉପରେ ନିର୍ଭର କରି ନୂତନ ବକ୍ତା ସୃଷ୍ଟି କରେ। ପରିଣାମଟି ସଂଯୋଗ ବକ୍ତା ଆପଣଙ୍କର ପାଠ୍ୟ କହିବା ପରି ଶୁଭେ - ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି ସହିତ, ଉପଯୁକ୍ତ ଗୁରୁତ୍ୱ, ଏବଂ କୌଣସି ଭାଷା କିମ୍ବା ବିଷୟବସ୍ତୁ ଉପରେ ସଂରକ୍ଷିତ ମୂଳ ସ୍ୱର ଅକ୍ଷର।

  • ଗୋଟିଏ ନମୁନାରୁ ଅସୀମିତ ଭାଷଣ ସୃଷ୍ଟି କରନ୍ତୁ
  • କ୍ରସ-ଭାଷା କ୍ଲୋନିଂ (ସଂଦେଷଣ ଭାଷାରେ କଥାବାର୍ତ୍ତା କରନ୍ତୁ)
  • ଭାବନା ଏବଂ ଶୈଳୀ ସ୍ଥାନାନ୍ତରଣ
  • 10-25 ସେକଣ୍ଡ ମଧ୍ୟରେ ଫଳାଫଳ

ସ୍ୱର କ୍ଲୋନିଂ ନମୁନା ତୁଳନା

ଆପଣଙ୍କର କ୍ଲୋନ ବ୍ୟବହାର ମାମଲା ପାଇଁ ସଠିକ ନମୁନା ବାଛନ୍ତୁ

ଆକାର ସର୍ବନିମ୍ନ ସଂରଚନା ବେଗ ଗୁଣବତ୍ତା ଭାଷାName ଭାବପ୍ରବଣତା ଅନୁମତିପତ୍ର
Chatterbox 5s ~21s ଶ୍ରେଷ୍ଠ EN MIT
CosyVoice 2 5s ~20s ଉତ୍ତମ CN, EN, JP, KO+ Apache 2.0
GPT-SoVITS 5s ~16s ଉତ୍ତମ CN, EN, JP, KO MIT
OpenVoice 5s ~15s ଭଲ ଇଂରାଜୀ, ଚାଇନିଜ, ସ୍ପାନିସ, ଫ୍ରେଞ୍ଚ MIT
Spark TTS 5s ~12s ଭଲ CN, EN Apache 2.0
IndexTTS-2 5s ~18s ଉତ୍ତମ CN, EN Apache 2.0
GLM-TTS 5s ~25s ଉତ୍ତମ CN, EN Apache 2.0
Qwen3-TTS 5s ~16s ଉତ୍ତମ CN, EN, JP, KO+ Apache 2.0
Tortoise 15s ~60s ଷ୍ଟୁଡିଓ EN Apache 2.0

ଲୋକମାନେ ପ୍ରକୃତ-କାଳ ସ୍ୱର କ୍ଲୋନିଂକୁ କଣ ପାଇଁ ବ୍ୟବହାର କରନ୍ତି

ବିଷୟବସ୍ତୁ ନିର୍ମାଣରୁ ସୁଗମତା ପର୍ଯ୍ୟନ୍ତ - ଧ୍ୱନି କ୍ଲୋନିଂର ଅଣସର ପ୍ରୟୋଗ ଅଛି

ଧ୍ୱନି ପୁସ୍ତକ ବର୍ଣ୍ଣନା

ଲେଖକମାନେ ସେମାନଙ୍କର ସ୍ୱରକୁ କ୍ଲୋନ କରନ୍ତି ଏବଂ ଗୋଟିଏ ରେକର୍ଡିଂ ବୁଥରେ ଘଣ୍ଟା ବିନିଯୋଗ ନକରି ସମ୍ପୂର୍ଣ୍ଣ ଧ୍ୱନି ପୁସ୍ତକ ସୃଷ୍ଟି କରନ୍ତି। ପୁନଃରେକର୍ଡିଂ ବଦଳରେ ଗୋଟିଏ ବାକ୍ୟକୁ ପୁନଃନିର୍ମାଣ କରି ତ୍ରୁଟିଗୁଡ଼ିକୁ ସମ୍ପାଦନ କରନ୍ତୁ।

ଭିଡିଓ ଦୂଷଣ

ପ୍ରକୃତ ବକ୍ତାଙ୍କ ସ୍ୱରକୁ ବଜାୟ ରଖିବା ସହିତ ଅନ୍ୟ ଭାଷାରେ ଭିଡିଓକୁ ଡବ କରନ୍ତୁ। Cross-language ମଡେଲ ଯେପରିକି CosyVoice2and Qwen3-TTS ଚାଇନିଜ, ଇଂରାଜୀ, ଜାପାନୀ ଏବଂ କୋରିଆନ ମଧ୍ୟରେ ସ୍ୱର ପରିଚୟକୁ ବଜାୟ ରଖିଥାଏ।

ବିଷୟବସ୍ତୁ ସୃଷ୍ଟି

YouTubers, podcasters, ଏବଂ TikTok ନିର୍ମାତାମାନେ ନିରନ୍ତର ବ୍ରାଣ୍ଡିଂ ପାଇଁ ସେମାନଙ୍କର ସ୍ୱରକୁ କ୍ଲୋନ କରନ୍ତି। ନୂତନ ବିଷୟବସ୍ତୁ ପାଇଁ ରେକର୍ଡିଂ ବିନା ସ୍ୱର ଉତ୍ପାଦନ କରନ୍ତୁ, କିମ୍ବା ବର୍ତ୍ତମାନର ଭିଡିଓର ବୈକଳ୍ପିକ ଭାଷା ସଂସ୍କରଣ ନିର୍ମାଣ କରନ୍ତୁ।

ସୁଗମତା

ରୋଗ କିମ୍ବା ଅସ୍ତ୍ରୋପଚାର କାରଣରୁ ନିଜର ସ୍ୱର ହରାଇଥିବା ଲୋକମାନେ ପୁରୁଣା ରେକର୍ଡରୁ କ୍ଲୋନ କରି ଏହାକୁ ସଂରକ୍ଷଣ କରିପାରିବେ। କ୍ଲୋନ କରାଯାଇଥିବା ସ୍ୱର ସେମାନଙ୍କୁ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମାଧ୍ୟମରେ ସେମାନଙ୍କର ସ୍ୱରରେ ଯୋଗାଯୋଗ କରିବାକୁ ଅନୁମତି ଦେଇଥାଏ।

ଖେଳ ବିକାଶName

କ୍ଲୋନ ସ୍ୱର ଅଭିନେତା ଏବଂ ଷ୍ଟୁଡିଓ ସମୟ ସମୟସୀମା ବିନା ଅସୀମିତ ବାର୍ତ୍ତାଳାପ ପରିବର୍ତ୍ତନ ସୃଷ୍ଟି କରନ୍ତୁ। ଇଣ୍ଡିଆନ ଖେଳ, ମୋଡ ଏବଂ ପ୍ରୋଟୋଟାଇପିଂ ପାଇଁ ସମ୍ପୂର୍ଣ୍ଣ ଯେଉଁଠି ପ୍ରତ୍ୟେକ ଧାଡ଼ିକୁ ପୁନଃରେକର୍ଡ କରିବା ସମ୍ଭବପର ନୁହଁ।

IVR ଏବଂ ଫୋନ ତନ୍ତ୍ରName

ଫୋନ ତାଲିକା ଏବଂ ସ୍ୱୟଂଚାଳିତ ଉତ୍ତର ପାଇଁ ଆପଣଙ୍କ କମ୍ପାନୀର ବକ୍ତାଙ୍କ ସ୍ୱରକୁ କ୍ଲୋନ କରନ୍ତୁ। ଗୋଟିଏ ସ୍ୱର ଅଭିନେତାକୁ ବନ୍ଦ ନକରି IVR ପ୍ରୋମୋଟକୁ ତୁରନ୍ତ ଅଦ୍ୟତନ କରନ୍ତୁ - କେବଳ ନୂତନ ପାଠ୍ୟ ଟାଇପ କରନ୍ତୁ ଏବଂ ସୃଷ୍ଟି କରନ୍ତୁ।

TTS.ai ବିପକ୍ଷ ଅନ୍ୟାନ୍ୟ ଭାଷା କ୍ଲୋନିଂ ସମାଧାନଗୁଡ଼ିକName

କାହିଁକି9ମଡେଲ ଗୋଟିଏ ମୁକ୍ତ ଉତ୍ସ ପ୍ରକଳ୍ପକୁ ପରାସ୍ତ କରିଥାଏ

ବିଶେଷତା TTS.ai SV2TTS ElevenLabs Resemble AI
ନମୂନାକୁ କ୍ଲୋନ କରୁଅଛି 9 1 1 1
ନିକଟତମ ସଂରକ୍ଷଣ ଧ୍ୱନି 5 sec 5 sec 30 sec 3 min
ପ୍ରଶିକ୍ଷଣ ଆବଶ୍ୟକ ନାମ ନାମ ନାମ ହଁ
ଧ୍ୱନି ଗୁଣବତ୍ତା (2025) Name ଷ୍ଟୁଡିଓ-ସ୍ତର ତାରିଖ ଉତ୍ତମ ଉତ୍ତମ
Emoticons ନିୟନ୍ତ୍ରଣ
କ୍ରସ- ଭାଷା କ୍ଲୋନିଂ
ମୁକ୍ତ ଉତ୍ସName
GPU ଆବଶ୍ୟକ ମେଘ ହଁ ମେଘ ମେଘ
API ସୁଗମତା
ମୁକ୍ତ ସ୍ତର 15,000 ଅକ୍ଷର ନିଜ-ସ୍ୱୟଂ-ସମର୍ଥିତ ସୀମିତ

ଭାଷା କ୍ଲୋନିଙ୍ଗ API

ଆମର REST API ସହିତ ପ୍ରଗ୍ରାମମୂଳକ ଭାବରେ ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

Python - ଧ୍ୱନି କ୍ଲୋନିଂ REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL — ଧ୍ୱନି କ୍ଲୋନିଂ REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

ଶ୍ରେଷ୍ଠ ସ୍ୱର କ୍ଲୋନିଂ ଫଳାଫଳ ପାଇଁ ସୂଚନା

ଏହି ରେକର୍ଡିଂ ମାର୍ଗଦର୍ଶିକା ସହିତ ସବୁଠାରୁ ସଠିକ ସ୍ୱର କ୍ଲୋନକୁ ପାଇବେ

ନିରବ ପରିବେଶName

ନିମ୍ନତମ ପୃଷ୍ଠଭୂମି ଶବ୍ଦ ସହିତ ଏକ ନିରବ କକ୍ଷରେ ରେକର୍ଡ କରନ୍ତୁ। AI ସ୍ୱଚ୍ଛ ଧ୍ୱନିରୁ ଅଧିକ ସଠିକ ଭାବରେ ସ୍ୱର ଗୁଣଧର୍ମକୁ ବାହାର କରିଥାଏ।

10-30 ସେକଣ୍ଡ

5ସେକଣ୍ଡ କାମ କରୁଥିବା ବେଳେ, 10-30 ସେକଣ୍ଡ ବେଶୀ ଭଲ ଫଳାଫଳ ଦେଇଥାଏ। AI ଯେତେ ଅଧିକ ପ୍ରାକୃତିକ ଭାଷା ଶୁଣେ, କ୍ଲୋନ ସେତେ ଅଧିକ ସଠିକ ହୋଇଥାଏ।

ପ୍ରାକୃତିକ ଭାଷଣName

ପ୍ରାକୃତିକ ଭାବରେ କଥାବାର୍ତ୍ତା କରନ୍ତୁ, ଏକାଗ୍ରତାରେ ନୁହେଁ। ବିଭିନ୍ନ ପ୍ରକାରର ଢଙ୍ଗ ଏବଂ ଗତିକୁ ଅନ୍ତର୍ଭୁକ୍ତ କରନ୍ତୁ। AI ଆପଣଙ୍କର ପ୍ରାକୃତିକ କଥାବାର୍ତ୍ତା ଶୈଳୀକୁ ଗ୍ରହଣ କରିଥାଏ, ବିରତି ଏବଂ ଗୁରୁତ୍ୱ ସହିତ।

ଗୋଟିଏ ସ୍ଵରକ

କେବଳ ଗୋଟିଏ ବ୍ୟକ୍ତିଙ୍କ ସହିତ ନମୁନା ବ୍ୟବହାର କରନ୍ତୁ। ଏକାଧିକ ଧ୍ୱନି ସ୍ପିକର ସନ୍ନିବେଶକୁ ଭୁଲାଇଥାଏ ଏବଂ ମିଶ୍ରିତ ଫଳାଫଳ ସୃଷ୍ଟି କରେ।

ଆଜି ଧ୍ୱନି କ୍ଲୋନ କରିବା ଆରମ୍ଭ କରନ୍ତୁ

ଧ୍ୱନିର5ସେକେଣ୍ଡକୁ ଅଦ୍ୟତନ କରନ୍ତୁ ଏବଂ 30 ସେକେଣ୍ଡ ମଧ୍ୟରେ ଆପଣଙ୍କର କ୍ଲୋନ ଧ୍ୱନି ଶୁଣନ୍ତୁ। ଚେଷ୍ଟାକରିବା ପାଇଁ ମୁକ୍ତ।

ଏବେ ଗୋଟିଏ ଧ୍ୱନିକୁ ନକଲ କରନ୍ତୁ API ଦଲିଲିକରଣ

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

ରିୟଲ-ଟାଇମ ଧ୍ୱନି କ୍ଲୋନିଂ ବିଷୟରେ ସାଧାରଣ ପ୍ରଶ୍ନଗୁଡ଼ିକ

ରିୟଲ-ଟାଇମ ସ୍ୱର କ୍ଲୋନିଂ ହେଉଛି AI ପ୍ରଯୁକ୍ତି ଯାହାକି ଗୋଟିଏ ସଂକ୍ଷିପ୍ତ ଧ୍ୱନି ନମୁନାରୁ ଜଣେ ବ୍ୟକ୍ତିଙ୍କ ସ୍ୱରକୁ ପୁନଃପ୍ରତିଷ୍ଠିତ କରିପାରେ -5ସେକେଣ୍ଡ ପର୍ଯ୍ୟନ୍ତ - କୌଣସି ପ୍ରଶିକ୍ଷଣ କିମ୍ବା ଫାଇନ-ଟୁନିଂ ବିନା। ଆପଣ ଗୋଟିଏ ନମୁନାକୁ ଅପଲୋଡ କରନ୍ତୁ, ଏବଂ AI ସେହି ବ୍ୟକ୍ତି ପରି ସ୍ୱର ସୃଷ୍ଟି କରେ। TTS.ai9ଟି ଭିନ୍ନ ଭିନ୍ନ ସ୍ୱର କ୍ଲୋନିଂ ନମୁନା ପ୍ରଦାନ କରେ, ପ୍ରତ୍ୟେକଟି ଗୁଣବତ୍ତା, ଗତି ଏବଂ ଭାଷା ସମର୍ଥନ ପାଇଁ ଭିନ୍ନ ଭିନ୍ନ ଶକ୍ତି ସହିତ।

ଅଧିକାଂଶ ମଡେଲ ସହିତ5ସେକଣ୍ଡ କାମ କରେ (Chatterbox, CosyVoice2, Spark, GPT-SoVITS, OpenVoice)। ଶ୍ରେଷ୍ଠ ଫଳାଫଳ ପାଇଁ Tortoise କୁ 15+ ସେକଣ୍ଡ ଆବଶ୍ୟକ। ସମସ୍ତ ମଡେଲରେ ଉତ୍ତମ ଗୁଣବତ୍ତା ପାଇଁ, 10-30 ସେକଣ୍ଡର ସ୍ୱଚ୍ଛ, ଏକକ-ସ୍ପିକର ଧ୍ୱନିକୁ ପରାମର୍ଶ ଦିଆଯାଏ। ଧ୍ୱନି ପୃଷ୍ଠଭୂମି ଶବ୍ଦ ଏବଂ ସଂଗୀତରୁ ମୁକ୍ତ ହେବା ଉଚିତ।

ଧ୍ୱନି କ୍ଲୋନ ପ୍ରଯୁକ୍ତି ବିଦ୍ୟା ନିଜେ ଆଇନଗତ ଅଟେ। ତଥାପି, ଆପଣ କେବଳ ସେହି ଧ୍ୱନିଗୁଡ଼ିକୁ କ୍ଲୋନ କରିବା ଉଚିତ ଯାହାକୁ ଆପଣ ବ୍ୟବହାର କରିବାକୁ ଅନୁମତି ଦେଇଛନ୍ତି - ଆପଣଙ୍କର ନିଜ ଧ୍ୱନି, ଧ୍ୱନିଗୁଡ଼ିକ ଯାହା ପାଇଁ ଆପଣଙ୍କର ସ୍ପଷ୍ଟ ଅନୁମତି ଅଛି, କିମ୍ବା ସାର୍ବଜନୀନ ଡ଼ୋମେନରେ ଥିବା ଧ୍ୱନିଗୁଡ଼ିକ। ଅନୁମତି ବିନା କାହାକୁ ପରିଚୟ ଦେବା ପାଇଁ ଧ୍ୱନି କ୍ଲୋନ ବ୍ୟବହାର କରିବା, ଭ୍ରମ କରିବା, କିମ୍ବା ଭୁଲ ବିଷୟବସ୍ତୁ ସୃଷ୍ଟି କରିବା ଅଧିକାଂଶ ଶାସନ ଅଞ୍ଚଳରେ ବେଆଇନ ଅଟେ। TTS.ai ର ନିୟମଗୁଡ଼ିକ ଆପଣଙ୍କୁ ଯେକୌଣସି ଧ୍ୱନିକୁ କ୍ଲୋନ କରିବା ପାଇଁ ଅଧିକାର ଦେବାକୁ ଅନୁରୋଧ କରିଥାଏ।

ଏହା ଆପଣଙ୍କର ବ୍ୟବହାର ମାମଲା ଉପରେ ନିର୍ଭର କରେ। ଚାଟରବକ୍ସ ଉତ୍ତମ ଗୁଣବତ୍ତା ଇଂରାଜୀ କ୍ଲୋନଗୁଡ଼ିକୁ ଆବେଗ ନିୟନ୍ତ୍ରଣ ସହିତ ଉତ୍ପାଦନ କରେ। କୋସିଭାୟସ ୨ ବହୁଭାଷୀ କ୍ଲୋନିଂ ପାଇଁ ସବୁଠାରୁ ଭଲ (ଚାଇନିଜ, ଇଂରାଜୀ, ଜାପାନୀ, କୋରିଆନ)। ସ୍ପାର୍କ ~12 ସେକେଣ୍ଡରେ ସବୁଠାରୁ ଦ୍ରୁତ। ଟର୍ଟୁଇସ ଷ୍ଟୁଡିଓ-ଗୁଣବତ୍ତା ଫଳାଫଳ ଉତ୍ପାଦନ କରେ କିନ୍ତୁ ଧିରେ। GPT-SoVITS ଚାଇନିଜ ଭାଷା କ୍ଲୋନିଂରେ ଉତ୍ତମ। ଆପଣଙ୍କର ଭାଷା ପାଇଁ ଶ୍ରେଷ୍ଠ ମେଳକ ଖୋଜିବା ପାଇଁ ଏକାଧିକ ନମୂନାକୁ ଚେଷ୍ଟାକରନ୍ତୁ।

ହଁ - ଏହାକୁ କ୍ରସ-ଭାଷା ସ୍ୱର କ୍ଲୋନିଂ କୁହାଯାଏ। CosyVoice2, Qwen3-TTS, ଏବଂ OpenVoice ଏହାକୁ ସମର୍ଥନ କରିଥାଏ। ଉଦାହରଣ ସ୍ୱରୂପ, ଆପଣ ଗୋଟିଏ ଇଂରାଜୀ ସ୍ୱର ନମୁନାକୁ ଅଦ୍ୟତନ କରିପାରିବେ ଏବଂ ଚାଇନିଜ, ଜାପାନୀଜ, କିମ୍ବା କୋରିଆନ ଭାଷାରେ ଭାଷଣ ସୃଷ୍ଟି କରିପାରିବେ, ଏବଂ ବକ୍ତାଙ୍କ ସ୍ୱର ଗୁଣଧର୍ମକୁ ସଂରକ୍ଷଣ କରିପାରିବେ। ଗୁଣବତ୍ତା ମଡେଲ ଏବଂ ଭାଷା ଯୋଡ଼ି ଅନୁଯାୟୀ ପରିବର୍ତ୍ତନ ହୋଇଥାଏ।

CorentinJ/ରିୟଲ-ଟାଇମ-ଭାୟସ-କ୍ଲୋନିଂ GitHub ପ୍ରକଳ୍ପ (60K+ ତାରକା) SV2TTS, ଏକ 2019 ସ୍ଥାପତ୍ୟ ବ୍ୟବହାର କରିଥାଏ। ସେହି ସମୟରେ, ଆଧୁନିକ ମଡେଲ ଭଳି ଚାଟରବକ୍ସ, କୋସିଭାୟସ2, ଏବଂ GPT-ସୋଭିଟସ ଭଲ ସ୍ପିକର ସମାନତା ସହିତ ଅଧିକ ଭଲ ଧ୍ୱନି ଗୁଣବତ୍ତା ଉତ୍ପାଦନ କରିଥାଏ। TTS.ai9ଟି state-of-the-art ମଡେଲକୁ ଚଲାଏ (VS SV2TTS's one) ଏବଂ କୌଣସି GPU ସେଟଅପ ଆବଶ୍ୟକ କରେ ନାହିଁ - କେବଳ ଅପଲୋଡ ଏବଂ କ୍ଲୋନ କରନ୍ତୁ।

ହଁ। TTS.ai ସ୍ୱର କ୍ଲୋନିଂ ପାଇଁ ଗୋଟିଏ REST API ପ୍ରଦାନ କରେ। ସଂଦର୍ଭ ଧ୍ୱନି ଏବଂ ପାଠ୍ୟକୁ ଅଦ୍ୟତନ କରନ୍ତୁ, ଗୋଟିଏ ନମୂନା ବାଛନ୍ତୁ, ଏବଂ କ୍ଲୋନିତ ଭାଷଣ ଗ୍ରହଣ କରନ୍ତୁ। Python SDK (`pip install ttsai`), JavaScript SDK (`npm install @ttsainpm/ttsai`), କିମ୍ବା ସିଧାସଳଖ HTTP ଅନୁରୋଧ ମାଧ୍ୟମରେ ଉପଲବ୍ଧ। ଏକକ କ୍ଲୋନିତ ସ୍ୱର ସହିତ ଏକାଧିକ ପାଠ୍ୟକୁ ପ୍ରକ୍ରିୟା କରିବା ପାଇଁ ବ୍ୟାଚ କ୍ଲୋନିଂକୁ ସମର୍ଥନ କରେ।

ହଁ। କ୍ଲୋନ କରିବା ପରେ, ଆପଣଙ୍କ ଖାତାରେ ଧ୍ୱନିକୁ ସଂରକ୍ଷଣ କରନ୍ତୁ ଏବଂ ସଂଯୋଗ ଧ୍ୱନିକୁ ପୁନଃଅପଲୋଡ ନକରି ଅସୀମିତ ପିଢ଼ିଗୁଡ଼ିକରେ ଏହାକୁ ପୁନଃବ୍ୟବହାର କରନ୍ତୁ। ସଂରକ୍ଷିତ ଧ୍ୱନିଗୁଡ଼ିକ ଆପଣଙ୍କର ଧ୍ୱନି ଲାଇବ୍ରେରୀରେ ଧ୍ୱନି କ୍ଲୋନ ପୃଷ୍ଠାରେ ଦେଖାଯାଏ ଏବଂ API ମାଧ୍ୟମରେ ସୁଗମ ହୋଇଥାଏ।

WAV, MP3, OGG, FLAC, ଏବଂ WebM ସମସ୍ତେ ସମର୍ଥିତ। ଆପଣ ମଧ୍ୟ ସ୍ଥାପିତ ମାଇକ୍ରୋଫୋନ ରେକର୍ଡର ବ୍ୟବହାର କରି ଆପଣଙ୍କ ବ୍ରାଉଜରରେ ସିଧାସଳଖ ରେକର୍ଡ କରିପାରିବେ। ଶ୍ରେଷ୍ଠ ଫଳାଫଳ ପାଇଁ, 16kHz କିମ୍ବା ଉଚ୍ଚରେ ନଷ୍ଟହୀନ WAV ଶୈଳୀକୁ ବ୍ୟବହାର କରନ୍ତୁ। AI ସ୍ୱୟଂଚାଳିତ ଭାବରେ ଧ୍ୱନିକୁ ପୂର୍ବପ୍ରକ୍ରିୟା କରିଥାଏ (ରିସମ୍ପ୍ଲିଂ, ନ୍ୟୁଜ ଛାଣକ) ନିବେଶ ଶୈଳୀକୁ ନିର୍ବିଶେଷରେ।

ନିର୍ମାଣ ସମୟ ମଡେଲ ଅନୁଯାୟୀ ପରିବର୍ତ୍ତନ ହୋଇଥାଏ: ସ୍ପାର୍କ ~12 ସେକଣ୍ଡରେ ସବୁଠାରୁ ଦ୍ରୁତ, OpenVoice ~15 ସେକଣ୍ଡରେ, GPT-SoVITS ~16 ସେକଣ୍ଡରେ, CosyVoice2~20 ସେକଣ୍ଡରେ, Chatterbox ~21 ସେକଣ୍ଡରେ, ଏବଂ Tortoise ~60 ସେକଣ୍ଡରେ। ଏହି ସମୟଗୁଡ଼ିକ ସାଧାରଣ ବାକ୍ୟ-ଲମ୍ବ ପାଠ୍ୟ ପାଇଁ। ଲମ୍ବା ପାଠ୍ୟଗୁଡ଼ିକ ଆନୁପାତିକ ଭାବେ ଅଧିକ ସମୟ ଗ୍ରହଣ କରିଥାଏ।

ହଁ। TTS.ai ରେ ସମସ୍ତ9କ୍ଲୋନ ମଡେଲ ଖୋଲା ଉତ୍ସ ଲାଇସେନ୍ସଗୁଡ଼ିକୁ ବ୍ୟବହାର କରିଥାଏ (MIT କିମ୍ବା Apache 2.0) ଯାହାକି ବାଣିଜ୍ୟିକ ବ୍ୟବହାରକୁ ଅନୁମତି ଦେଇଥାଏ। ଆପଣ YouTube ଭିଡିଓ, ପୋଡକାଷ୍ଟ, ଅଡିଓବାଇକ, ଆପ, ଖେଳ, ଫୋନ ପ୍ରଣାଳୀ, ଏବଂ ଅନ୍ୟାନ୍ୟ ବାଣିଜ୍ୟିକ ପ୍ରୟୋଗଗୁଡ଼ିକରେ କ୍ଲୋନ ଧ୍ୱନିକୁ ବ୍ୟବହାର କରିପାରିବେ - ଯଦି ଆପଣଙ୍କ ପାଖରେ ଉତ୍ସ ଧ୍ୱନି ପାଇଁ ଅଧିକାର ଅଛି।

ହଁ। ଆମେ ଚାଲାଇଥିବା ପ୍ରତ୍ୟେକ ମଡେଲ ମୁକ୍ତ ଉତ୍ସ ଏବଂ GitHub/HuggingFaceରେ ଉପଲବ୍ଧ। ଆପଣ ନିଜ GPU ସର୍ଭରରେ Chatterbox, CosyVoice2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS, କିମ୍ବା Tortoiseକୁ ସ୍ୱୟଂ-ହୋଷ୍ଟ କରିପାରିବେ। ଅଧିକାଂଶ ମଡେଲ ପାଇଁ NVIDIA GPU ଆବଶ୍ୟକ, ଯାହାର 4-24GB VRAM ଅଛି, ଯାହା ମଡେଲ ଉପରେ ନିର୍ଭର କରିଥାଏ। TTS.ai ସମସ୍ତ ଭିତ୍ତିଭୂମିକୁ ପରିଚାଳନା କରିଥାଏ, ତେଣୁ ଆପଣଙ୍କୁ ଏହା କରିବାକୁ ପଡିବ ନାହିଁ।
5.0/5 (1)

ଆମେ କଣ ସୁଧାରିପାରିବା? ଆପଣଙ୍କର ପ୍ରତିକ୍ରିୟା ଆମକୁ ସମସ୍ୟାର ସମାଧାନ କରିବାରେ ସହାୟକ ହୋଇଥାଏ ।

ସେକଣ୍ଡଗୁଡ଼ିକରେ ଯେକୌଣସି ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

9 ମୁକ୍ତ-ସଂସଦ ଧ୍ୱନି କ୍ଲୋନ ନମୂନା.5ସେକଣ୍ଡ ନମୁନା. କୌଣସି ପ୍ରଶିକ୍ଷଣ ଆବଶ୍ୟକ ନାହିଁ। ଏହାକୁ ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ - ଆପଣଙ୍କର ଧ୍ୱନିକୁ ଅପଲୋଡ କରନ୍ତୁ ଏବଂ ତୁରନ୍ତ କ୍ଲୋନକୁ ଶୁଣନ୍ତୁ।