ରିୟଲ-ଟାଇମ ଧ୍ୱନି କ୍ଲୋନିଂ - ସେକଣ୍ଡଗୁଡ଼ିକରେ ଯେକୌଣସି ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
କେବଳ5ସେକେଣ୍ଡର ସଂଯୋଗ ଧ୍ୱନି ସହିତ ଯେକୌଣସି ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ।9ମୁକ୍ତ-ସୋର ଧ୍ୱନି କ୍ଲୋନ ମଡେଲ ଯଥା Chatterbox, CosyVoice2, GPT-SoVITS, ଏବଂ OpenVoice। କୌଣସି ପ୍ରଶିକ୍ଷଣ ଆବଶ୍ୟକ ନଥିବା ଶୂନ୍ୟ-ଶଟ କ୍ଲୋନିଂ - ଗୋଟିଏ ନମୁନାକୁ ଅପଲୋଡ କରନ୍ତୁ ଏବଂ ତୁରନ୍ତ ଭାଷା ସୃଷ୍ଟି କରନ୍ତୁ। ସମସ୍ତ ମଡେଲ ବାଣିଜ୍ୟିକ ଭାବେ ଲାଇସେନ୍ସିତ।
ରିୟଲ-ଟାଇମ ଧ୍ୱନି କ୍ଲୋନିଂ ବିଶେଷତାଗୁଡ଼ିକName
state-of-the-art AI ସହିତ ତୁରନ୍ତ କ୍ଲୋନ ଧ୍ୱନି - କୌଣସି ପ୍ରଶିକ୍ଷଣ ନାହିଁ, କୌଣସି ତଥ୍ୟ ସଂଗ୍ରହ ନାହିଁ, କୌଣସି ଅପେକ୍ଷା ନାହିଁ
ଶୂନ୍ୟ-ଶଟ କ୍ଲୋନିଂ
କୌଣସି ପ୍ରଶିକ୍ଷଣ ନାହିଁ, କୌଣସି ଫାଇନ-ଟୁନିଂ ନାହିଁ, କୌଣସି ତଥ୍ୟ ସଂଗ୍ରହ ନାହିଁ। ଧ୍ୱନିର5ସେକେଣ୍ଡକୁ ଅପ୍ଲୋଡ କରନ୍ତୁ ଏବଂ ତୁରନ୍ତ ଏକ କ୍ଲୋନ ଧ୍ୱନି ପାଇବେ। AI ବାକ୍ୟବକ୍ତା ଗୁଣଧର୍ମକୁ ରିୟଲ-ଟାଇମରେ ବାହାର କରିଥାଏ।
9 କ୍ଲୋନିଂ ଆକାର
ଚାଟରବକ୍ସ, କୋସିଭାୟସ ୨, GPT-SoVITS, ଓପନଭାୟସ, ସ୍ପାର୍କ, IndexTTS-୨, GLM-TTS, Qwen3-TTS, ଏବଂ ଟର୍ଟୋଇଜରୁ ବାଛନ୍ତୁ। ପ୍ରତ୍ୟେକ ନମୂନାରେ ଗୁଣବତ୍ତା, ବେଗ, ଏବଂ ଭାଷା ପାଇଁ ଭିନ୍ନ ଭିନ୍ନ ଶକ୍ତି ଅଛି।
କ୍ରସ- ଭାଷା କ୍ଲୋନିଂ
ଇଂରାଜୀରେ ଗୋଟିଏ ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ ଏବଂ ଚାଇନିଜ, ଜାପାନୀ, କୋରିଆନ ଏବଂ ଅଧିକ ଭାଷାରେ ଭାଷଣ ସୃଷ୍ଟି କରନ୍ତୁ। CosyVoice2and Qwen3-TTS 17+ ଭାଷାରେ ଧ୍ୱନି ପରିଚୟକୁ ସଂରକ୍ଷଣ କରିଥାଏ।
Emoticons ନିୟନ୍ତ୍ରଣ
ଚାଟରବକ୍ସ, ଓପନଭାଇସ, ଏବଂ GLM-TTS ଭାବପ୍ରବଣ ଉତ୍ପାଦନକୁ ସମର୍ଥନ କରିଥାଏ। ଭିନ୍ନ ଭିନ୍ନ ଭାବପ୍ରବଣତା ସହିତ ସମାନ ପାଠ୍ୟ ଉତ୍ପାଦନ କରନ୍ତୁ - ଖୁସି, ଦୁଃଖୀ, ରାଗୀ, ହସୁଥିବା - କ୍ଲୋନ ଧ୍ୱନିକୁ ରଖିବା ସମୟରେ।
ମୁକ୍ତ ଉତ୍ସ ଏବଂ ବାଣିଜ୍ୟିକName
ପ୍ରତିଟି କ୍ଲୋନ ମଡେଲ MIT କିମ୍ବା Apache 2.0 ଲାଇସେନ୍ସ ଅନ୍ତର୍ଗତ ମୁକ୍ତ ଉତ୍ସ ଅଟେ। ବିଷୟବସ୍ତୁ, ଉତ୍ପାଦ ଏବଂ ପ୍ରୟୋଗ ପାଇଁ ବାଣିଜ୍ୟିକ ଭାବେ କ୍ଲୋନିତ ଧ୍ୱନିଗୁଡ଼ିକୁ କୌଣସି ରେୟାଲଟି ବିନା ବ୍ୟବହାର କରନ୍ତୁ।
କ୍ଲୋନ API
ପ୍ରଗ୍ରାମାତିକ ସ୍ୱର କ୍ଲୋନିଂ ପାଇଁ REST API। ସଂଦେଷଣ ଧ୍ୱନିକୁ ଅଦ୍ୟତନ କରନ୍ତୁ, ପାଠ୍ୟକୁ ନିର୍ଦ୍ଦିଷ୍ଟ କରନ୍ତୁ, ଏବଂ କ୍ଲୋନ ହୋଇଥିବା ଭାଷଣକୁ ଗ୍ରହଣ କରନ୍ତୁ। Python ଏବଂ JavaScript ପାଇଁ SDKs। ଉଚ୍ଚ-ବ୍ଯାସାଧିକତା କାର୍ଯ୍ଯପ୍ରବାହ ପାଇଁ ବ୍ୟାଚ କ୍ଲୋନିଂ।
ସ୍ୱର କ୍ଲୋନିଙ୍ଗ ନମୂନାଗୁଡ଼ିକ
ପ୍ରତିଟି କ୍ଲୋନିଂ ବ୍ୟବହାର ମାମଲା ପାଇଁ9ଟି ମୁକ୍ତ ଉତ୍ସ ମଡେଲ
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
ଏହା ପାଇଁ ଉତ୍ତମ: ସର୍ବଶ୍ରେଷ୍ଠ ସାରାଂଶିକ ଗୁଣବତ୍ତା -5ସେକଣ୍ଡ ନମୁନା, ଭାବନା ନିୟନ୍ତ୍ରଣ, MIT ଲାଇସେନ୍ସିତ
ଚେଷ୍ଟାକରନ୍ତୁ Chatterbox
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
ଏହା ପାଇଁ ଉତ୍ତମ: ଶ୍ରେଷ୍ଠ ବହୁଭାଷୀ କ୍ଲୋନିଂ — ଚାଇନିଜ, ଇଂରାଜୀ, ଜାପାନୀ, କୋରିଆନ ମଧ୍ୟରେ ଧ୍ୱନିକୁ ସଂରକ୍ଷଣ କରିଥାଏ
ଚେଷ୍ଟାକରନ୍ତୁ CosyVoice 2
OpenVoice
Premium
Instant voice cloning with granular control over style, emotion, and accent.
ଏହା ପାଇଁ ଉତ୍ତମ: ଭାବପ୍ରବଣତା ଏବଂ ଶୈଳୀ ସ୍ଥାନାନ୍ତରଣ ସହିତ ଦ୍ରୁତ ଟୋନ ରଙ୍ଗ ପରିବର୍ତ୍ତନName
ଚେଷ୍ଟାକରନ୍ତୁ OpenVoice
Spark TTS
Standard
Voice cloning TTS with controllable emotion and speaking style via prompts.
ଏହା ପାଇଁ ଉତ୍ତମ: ଦ୍ରୁତତମ କ୍ଲୋନ ନମୂନା - ~12 ସେକଣ୍ଡରେ ଫଳାଫଳ
ଚେଷ୍ଟାକରନ୍ତୁ Spark TTS
IndexTTS-2
Standard
Zero-shot TTS with fine-grained emotion control and high expressiveness.
ଏହା ପାଇଁ ଉତ୍ତମ: ଉଚ୍ଚ ସ୍ପିକର ଭଳିତ୍ୱ ସହିତ ଉତ୍ତମ ଚାଇନିଜ- ଇଂରାଜୀ କ୍ଲୋନିଂName
ଚେଷ୍ଟାକରନ୍ତୁ IndexTTS-2
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
ଏହା ପାଇଁ ଉତ୍ତମ: ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ଫଳାଫଳ - ଧ୍ୱନି ପୁସ୍ତକ ଏବଂ ପ୍ରୀମିୟମ ବର୍ଣ୍ଣନା ପାଇଁ ସବୁଠାରୁ ଭଲ
ଚେଷ୍ଟାକରନ୍ତୁ Tortoise TTSପ୍ରକୃତ-କାଳ ସ୍ୱର କ୍ଲୋନିଂ କିପରି କାମ କରେName
ଗୋଟିଏ ସଂକ୍ଷିପ୍ତ ଧ୍ୱନି ନମୁନାରୁ ଅସୀମିତ କ୍ଲୋନିତ ଭାଷଣକୁ
ସଂଯୋଗ ଧ୍ୱନିକୁ ଅଦ୍ୟତନ କରନ୍ତୁ
ଆପଣ କ୍ଲୋନ କରିବାକୁ ଚାହୁଁଥିବା ଧ୍ୱନିରୁ 5-30 ସେକଣ୍ଡର ସ୍ୱଚ୍ଛ ଭାଷଣକୁ ରେକର୍ଡ କରନ୍ତୁ କିମ୍ବା ଅଦ୍ୟତନ କରନ୍ତୁ। WAV, MP3, କିମ୍ବା ଆପଣଙ୍କ ବ୍ରାଉଜରରେ ସିଧାସଳଖ ରେକର୍ଡ କରନ୍ତୁ।
ଗୋଟିଏ କ୍ଲୋନିଂ ଆକାର ବାଛନ୍ତୁ
ଆପଣଙ୍କର ଆବଶ୍ୟକତା ଅନୁଯାୟୀ ମଡେଲକୁ ବାଛନ୍ତୁ - ଗୁଣବତ୍ତା ପାଇଁ ଚାଟରବକ୍ସ, ବେଗ ପାଇଁ ସ୍ପାର୍କ, ବହୁଭାଷୀ ପାଇଁ କୋସିଭାୟସ ୨।
ଆପଣଙ୍କର ପାଠ୍ୟ ଭରଣ କରନ୍ତୁ
ଆପଣ କ୍ଲୋନ ଧ୍ୱନିରେ କହିବାକୁ ଚାହୁଁଥିବା ପାଠ୍ୟକୁ ଟାଇପ କରନ୍ତୁ କିମ୍ବା ଲଗାନ୍ତୁ। ନମୂନା ଦ୍ୱାରା ସମର୍ଥିତ ଯେକୌଣସି ଭାଷା କାମ କରେ।
ଆହରଣ କରନ୍ତୁ
10-25 ସେକଣ୍ଡ ମଧ୍ୟରେ ଆପଣଙ୍କର କ୍ଲୋନ ଧ୍ୱନିକୁ ସୃଷ୍ଟି କରିବା ପାଇଁ ଏବଂ ଶୁଣିବା ପାଇଁ କ୍ଲିକ କରନ୍ତୁ। ତୁରନ୍ତ ବ୍ୟବହାର ପାଇଁ WAV କିମ୍ବା MP3 ଭାବରେ ଆହରଣ କରନ୍ତୁ।
ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନିଂ କିପରି କାମ କରେ
କୌଣସି ଫାଇନ-ଟୁନିଙ୍ଗ ନାହିଁ, କୌଣସି ତଥ୍ୟସମୂହ ସଂଗ୍ରହ ନାହିଁ - କେବଳ ଅପଲୋଡ ଏବଂ କ୍ଲୋନ କରନ୍ତୁ
ସ୍ପିକର ସନ୍ନିବେଶିତ ଉତ୍ସName
AI ଗୋଟିଏ ସ୍ଵରକ ସନ୍ନିବେଶକୁ ବାହାର କରିବା ପାଇଁ ଆପଣଙ୍କର ସଂଯୋଗ ଧ୍ୱନିକୁ ବିଶ୍ଳେଷଣ କରେ - ସ୍ୱର ଭିନ୍ନ ଭିନ୍ନ ଗୁଣଧର୍ମର ଏକ ସଂକଳ୍ପ ଗଣିତୀୟ ପ୍ରତିନିଧିତ୍ୱ ଯଥା ପିଚ, ଟାଇମ୍ବର, କଥାବାର୍ତ୍ତା ରଥମ, ଏବଂ ସ୍ୱର ଢାଞ୍ଚା। ଏହା ୧ ସେକେଣ୍ଡରୁ କମରେ ଘଟେ।
- ଧ୍ୱନିର5ସେକେଣ୍ଡ ସହିତ କାମ କରେ
- ପିଚ, ଟିମବ୍ରେ ଏବଂ କଥାବାର୍ତ୍ତା ଶୈଳୀକୁ ଗ୍ରହଣ କରିଥାଏ
- କୌଣସି ପ୍ରଶିକ୍ଷଣ କିମ୍ବା ସୁଧାରଣ ଆବଶ୍ୟକ ନାହିଁ
- ଧ୍ୱନିକୁ କେବେବି ସ୍ଥାୟୀ ଭାବରେ ସଂରକ୍ଷିତ କରାଯାଇନାହିଁ
ସର୍ତ୍ତାବଳୀ ବାକ୍ୟ ସଂଯୋଜକName
TTS ନମୂନା ବକ୍ତା ସନ୍ନିବେଶ ଉପରେ ନିର୍ଭର କରି ନୂତନ ବକ୍ତା ସୃଷ୍ଟି କରେ। ପରିଣାମଟି ସଂଯୋଗ ବକ୍ତା ଆପଣଙ୍କର ପାଠ୍ୟ କହିବା ପରି ଶୁଭେ - ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି ସହିତ, ଉପଯୁକ୍ତ ଗୁରୁତ୍ୱ, ଏବଂ କୌଣସି ଭାଷା କିମ୍ବା ବିଷୟବସ୍ତୁ ଉପରେ ସଂରକ୍ଷିତ ମୂଳ ସ୍ୱର ଅକ୍ଷର।
- ଗୋଟିଏ ନମୁନାରୁ ଅସୀମିତ ଭାଷଣ ସୃଷ୍ଟି କରନ୍ତୁ
- କ୍ରସ-ଭାଷା କ୍ଲୋନିଂ (ସଂଦେଷଣ ଭାଷାରେ କଥାବାର୍ତ୍ତା କରନ୍ତୁ)
- ଭାବନା ଏବଂ ଶୈଳୀ ସ୍ଥାନାନ୍ତରଣ
- 10-25 ସେକଣ୍ଡ ମଧ୍ୟରେ ଫଳାଫଳ
ସ୍ୱର କ୍ଲୋନିଂ ନମୁନା ତୁଳନା
ଆପଣଙ୍କର କ୍ଲୋନ ବ୍ୟବହାର ମାମଲା ପାଇଁ ସଠିକ ନମୁନା ବାଛନ୍ତୁ
| ଆକାର | ସର୍ବନିମ୍ନ ସଂରଚନା | ବେଗ | ଗୁଣବତ୍ତା | ଭାଷାName | ଭାବପ୍ରବଣତା | ଅନୁମତିପତ୍ର |
|---|---|---|---|---|---|---|
| Chatterbox | 5s | ~21s | ଶ୍ରେଷ୍ଠ | EN | MIT | |
| CosyVoice 2 | 5s | ~20s | ଉତ୍ତମ | CN, EN, JP, KO+ | Apache 2.0 | |
| GPT-SoVITS | 5s | ~16s | ଉତ୍ତମ | CN, EN, JP, KO | MIT | |
| OpenVoice | 5s | ~15s | ଭଲ | ଇଂରାଜୀ, ଚାଇନିଜ, ସ୍ପାନିସ, ଫ୍ରେଞ୍ଚ | MIT | |
| Spark TTS | 5s | ~12s | ଭଲ | CN, EN | Apache 2.0 | |
| IndexTTS-2 | 5s | ~18s | ଉତ୍ତମ | CN, EN | Apache 2.0 | |
| GLM-TTS | 5s | ~25s | ଉତ୍ତମ | CN, EN | Apache 2.0 | |
| Qwen3-TTS | 5s | ~16s | ଉତ୍ତମ | CN, EN, JP, KO+ | Apache 2.0 | |
| Tortoise | 15s | ~60s | ଷ୍ଟୁଡିଓ | EN | Apache 2.0 |
ଲୋକମାନେ ପ୍ରକୃତ-କାଳ ସ୍ୱର କ୍ଲୋନିଂକୁ କଣ ପାଇଁ ବ୍ୟବହାର କରନ୍ତି
ବିଷୟବସ୍ତୁ ନିର୍ମାଣରୁ ସୁଗମତା ପର୍ଯ୍ୟନ୍ତ - ଧ୍ୱନି କ୍ଲୋନିଂର ଅଣସର ପ୍ରୟୋଗ ଅଛି
ଧ୍ୱନି ପୁସ୍ତକ ବର୍ଣ୍ଣନା
ଲେଖକମାନେ ସେମାନଙ୍କର ସ୍ୱରକୁ କ୍ଲୋନ କରନ୍ତି ଏବଂ ଗୋଟିଏ ରେକର୍ଡିଂ ବୁଥରେ ଘଣ୍ଟା ବିନିଯୋଗ ନକରି ସମ୍ପୂର୍ଣ୍ଣ ଧ୍ୱନି ପୁସ୍ତକ ସୃଷ୍ଟି କରନ୍ତି। ପୁନଃରେକର୍ଡିଂ ବଦଳରେ ଗୋଟିଏ ବାକ୍ୟକୁ ପୁନଃନିର୍ମାଣ କରି ତ୍ରୁଟିଗୁଡ଼ିକୁ ସମ୍ପାଦନ କରନ୍ତୁ।
ଭିଡିଓ ଦୂଷଣ
ପ୍ରକୃତ ବକ୍ତାଙ୍କ ସ୍ୱରକୁ ବଜାୟ ରଖିବା ସହିତ ଅନ୍ୟ ଭାଷାରେ ଭିଡିଓକୁ ଡବ କରନ୍ତୁ। Cross-language ମଡେଲ ଯେପରିକି CosyVoice2and Qwen3-TTS ଚାଇନିଜ, ଇଂରାଜୀ, ଜାପାନୀ ଏବଂ କୋରିଆନ ମଧ୍ୟରେ ସ୍ୱର ପରିଚୟକୁ ବଜାୟ ରଖିଥାଏ।
ବିଷୟବସ୍ତୁ ସୃଷ୍ଟି
YouTubers, podcasters, ଏବଂ TikTok ନିର୍ମାତାମାନେ ନିରନ୍ତର ବ୍ରାଣ୍ଡିଂ ପାଇଁ ସେମାନଙ୍କର ସ୍ୱରକୁ କ୍ଲୋନ କରନ୍ତି। ନୂତନ ବିଷୟବସ୍ତୁ ପାଇଁ ରେକର୍ଡିଂ ବିନା ସ୍ୱର ଉତ୍ପାଦନ କରନ୍ତୁ, କିମ୍ବା ବର୍ତ୍ତମାନର ଭିଡିଓର ବୈକଳ୍ପିକ ଭାଷା ସଂସ୍କରଣ ନିର୍ମାଣ କରନ୍ତୁ।
ସୁଗମତା
ରୋଗ କିମ୍ବା ଅସ୍ତ୍ରୋପଚାର କାରଣରୁ ନିଜର ସ୍ୱର ହରାଇଥିବା ଲୋକମାନେ ପୁରୁଣା ରେକର୍ଡରୁ କ୍ଲୋନ କରି ଏହାକୁ ସଂରକ୍ଷଣ କରିପାରିବେ। କ୍ଲୋନ କରାଯାଇଥିବା ସ୍ୱର ସେମାନଙ୍କୁ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମାଧ୍ୟମରେ ସେମାନଙ୍କର ସ୍ୱରରେ ଯୋଗାଯୋଗ କରିବାକୁ ଅନୁମତି ଦେଇଥାଏ।
ଖେଳ ବିକାଶName
କ୍ଲୋନ ସ୍ୱର ଅଭିନେତା ଏବଂ ଷ୍ଟୁଡିଓ ସମୟ ସମୟସୀମା ବିନା ଅସୀମିତ ବାର୍ତ୍ତାଳାପ ପରିବର୍ତ୍ତନ ସୃଷ୍ଟି କରନ୍ତୁ। ଇଣ୍ଡିଆନ ଖେଳ, ମୋଡ ଏବଂ ପ୍ରୋଟୋଟାଇପିଂ ପାଇଁ ସମ୍ପୂର୍ଣ୍ଣ ଯେଉଁଠି ପ୍ରତ୍ୟେକ ଧାଡ଼ିକୁ ପୁନଃରେକର୍ଡ କରିବା ସମ୍ଭବପର ନୁହଁ।
IVR ଏବଂ ଫୋନ ତନ୍ତ୍ରName
ଫୋନ ତାଲିକା ଏବଂ ସ୍ୱୟଂଚାଳିତ ଉତ୍ତର ପାଇଁ ଆପଣଙ୍କ କମ୍ପାନୀର ବକ୍ତାଙ୍କ ସ୍ୱରକୁ କ୍ଲୋନ କରନ୍ତୁ। ଗୋଟିଏ ସ୍ୱର ଅଭିନେତାକୁ ବନ୍ଦ ନକରି IVR ପ୍ରୋମୋଟକୁ ତୁରନ୍ତ ଅଦ୍ୟତନ କରନ୍ତୁ - କେବଳ ନୂତନ ପାଠ୍ୟ ଟାଇପ କରନ୍ତୁ ଏବଂ ସୃଷ୍ଟି କରନ୍ତୁ।
TTS.ai ବିପକ୍ଷ ଅନ୍ୟାନ୍ୟ ଭାଷା କ୍ଲୋନିଂ ସମାଧାନଗୁଡ଼ିକName
କାହିଁକି9ମଡେଲ ଗୋଟିଏ ମୁକ୍ତ ଉତ୍ସ ପ୍ରକଳ୍ପକୁ ପରାସ୍ତ କରିଥାଏ
| ବିଶେଷତା | TTS.ai | SV2TTS | ElevenLabs | Resemble AI |
|---|---|---|---|---|
| ନମୂନାକୁ କ୍ଲୋନ କରୁଅଛି | 9 | 1 | 1 | 1 |
| ନିକଟତମ ସଂରକ୍ଷଣ ଧ୍ୱନି | 5 sec | 5 sec | 30 sec | 3 min |
| ପ୍ରଶିକ୍ଷଣ ଆବଶ୍ୟକ | ନାମ | ନାମ | ନାମ | ହଁ |
| ଧ୍ୱନି ଗୁଣବତ୍ତା (2025) Name | ଷ୍ଟୁଡିଓ-ସ୍ତର | ତାରିଖ | ଉତ୍ତମ | ଉତ୍ତମ |
| Emoticons ନିୟନ୍ତ୍ରଣ | ||||
| କ୍ରସ- ଭାଷା କ୍ଲୋନିଂ | ||||
| ମୁକ୍ତ ଉତ୍ସName | ||||
| GPU ଆବଶ୍ୟକ | ମେଘ | ହଁ | ମେଘ | ମେଘ |
| API ସୁଗମତା | ||||
| ମୁକ୍ତ ସ୍ତର | 15,000 ଅକ୍ଷର | ନିଜ-ସ୍ୱୟଂ-ସମର୍ଥିତ | ସୀମିତ |
ଭାଷା କ୍ଲୋନିଙ୍ଗ API
ଆମର REST API ସହିତ ପ୍ରଗ୍ରାମମୂଳକ ଭାବରେ ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-...")
# Clone a voice from a 5-second sample
result = client.clone_voice(
name="My Cloned Voice",
file="reference.wav", # 5-30 seconds of clear speech
model="chatterbox", # or cosyvoice2, openvoice, spark...
text="Hello! This is my cloned voice speaking new text.",
)
# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
f.write(audio)
curl -X POST https://api.tts.ai/v1/voice-clone \
-H "Authorization: Bearer sk-tts-YOUR_KEY" \
-F "reference=@voice_sample.wav" \
-F "text=This is my cloned voice." \
-F "model=chatterbox"
ଶ୍ରେଷ୍ଠ ସ୍ୱର କ୍ଲୋନିଂ ଫଳାଫଳ ପାଇଁ ସୂଚନା
ଏହି ରେକର୍ଡିଂ ମାର୍ଗଦର୍ଶିକା ସହିତ ସବୁଠାରୁ ସଠିକ ସ୍ୱର କ୍ଲୋନକୁ ପାଇବେ
ନିରବ ପରିବେଶName
ନିମ୍ନତମ ପୃଷ୍ଠଭୂମି ଶବ୍ଦ ସହିତ ଏକ ନିରବ କକ୍ଷରେ ରେକର୍ଡ କରନ୍ତୁ। AI ସ୍ୱଚ୍ଛ ଧ୍ୱନିରୁ ଅଧିକ ସଠିକ ଭାବରେ ସ୍ୱର ଗୁଣଧର୍ମକୁ ବାହାର କରିଥାଏ।
10-30 ସେକଣ୍ଡ
5ସେକଣ୍ଡ କାମ କରୁଥିବା ବେଳେ, 10-30 ସେକଣ୍ଡ ବେଶୀ ଭଲ ଫଳାଫଳ ଦେଇଥାଏ। AI ଯେତେ ଅଧିକ ପ୍ରାକୃତିକ ଭାଷା ଶୁଣେ, କ୍ଲୋନ ସେତେ ଅଧିକ ସଠିକ ହୋଇଥାଏ।
ପ୍ରାକୃତିକ ଭାଷଣName
ପ୍ରାକୃତିକ ଭାବରେ କଥାବାର୍ତ୍ତା କରନ୍ତୁ, ଏକାଗ୍ରତାରେ ନୁହେଁ। ବିଭିନ୍ନ ପ୍ରକାରର ଢଙ୍ଗ ଏବଂ ଗତିକୁ ଅନ୍ତର୍ଭୁକ୍ତ କରନ୍ତୁ। AI ଆପଣଙ୍କର ପ୍ରାକୃତିକ କଥାବାର୍ତ୍ତା ଶୈଳୀକୁ ଗ୍ରହଣ କରିଥାଏ, ବିରତି ଏବଂ ଗୁରୁତ୍ୱ ସହିତ।
ଗୋଟିଏ ସ୍ଵରକ
କେବଳ ଗୋଟିଏ ବ୍ୟକ୍ତିଙ୍କ ସହିତ ନମୁନା ବ୍ୟବହାର କରନ୍ତୁ। ଏକାଧିକ ଧ୍ୱନି ସ୍ପିକର ସନ୍ନିବେଶକୁ ଭୁଲାଇଥାଏ ଏବଂ ମିଶ୍ରିତ ଫଳାଫଳ ସୃଷ୍ଟି କରେ।
ଆଜି ଧ୍ୱନି କ୍ଲୋନ କରିବା ଆରମ୍ଭ କରନ୍ତୁ
ଧ୍ୱନିର5ସେକେଣ୍ଡକୁ ଅଦ୍ୟତନ କରନ୍ତୁ ଏବଂ 30 ସେକେଣ୍ଡ ମଧ୍ୟରେ ଆପଣଙ୍କର କ୍ଲୋନ ଧ୍ୱନି ଶୁଣନ୍ତୁ। ଚେଷ୍ଟାକରିବା ପାଇଁ ମୁକ୍ତ।
ଏବେ ଗୋଟିଏ ଧ୍ୱନିକୁ ନକଲ କରନ୍ତୁ API ଦଲିଲିକରଣପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName
ରିୟଲ-ଟାଇମ ଧ୍ୱନି କ୍ଲୋନିଂ ବିଷୟରେ ସାଧାରଣ ପ୍ରଶ୍ନଗୁଡ଼ିକ
ଆମେ କଣ ସୁଧାରିପାରିବା? ଆପଣଙ୍କର ପ୍ରତିକ୍ରିୟା ଆମକୁ ସମସ୍ୟାର ସମାଧାନ କରିବାରେ ସହାୟକ ହୋଇଥାଏ ।
ସେକଣ୍ଡଗୁଡ଼ିକରେ ଯେକୌଣସି ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
9 ମୁକ୍ତ-ସଂସଦ ଧ୍ୱନି କ୍ଲୋନ ନମୂନା.5ସେକଣ୍ଡ ନମୁନା. କୌଣସି ପ୍ରଶିକ୍ଷଣ ଆବଶ୍ୟକ ନାହିଁ। ଏହାକୁ ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ - ଆପଣଙ୍କର ଧ୍ୱନିକୁ ଅପଲୋଡ କରନ୍ତୁ ଏବଂ ତୁରନ୍ତ କ୍ଲୋନକୁ ଶୁଣନ୍ତୁ।