ମୁକ୍ତ AI ପାଠ୍ୟରୁ ବାକ୍ୟName

33+ ମୁକ୍ତ ଉତ୍ସ ମଡେଲ, 273+ ସ୍ୱର, 33+ କୌଣସି ଖାତା ଆବଶ୍ୟକ ନାହିଁ ।

18K+
ନିର୍ମାତାମାନେ
72K+
ଜନ୍ମଗୁଡିକ
33+
AI ମଡେଲଗୁଡିକ
273+
ଧ୍ୱନିଗୁଡିକ
TTS.ai କୁ ଭଲପାଆନ୍ତି? ଆପଣଙ୍କ ବନ୍ଧୁମାନଙ୍କୁ ଜଣାଇ ଦିଅନ୍ତୁ!

ଭାଷା AI ପାଇଁ ଆପଣଙ୍କୁ ଆବଶ୍ୟକୀୟ ସବୁକିଛିName

ମୁକ୍ତ ଉତ୍ସ AI ମଡେଲ ଦ୍ୱାରା ଶକ୍ତିପ୍ରାପ୍ତ 30+ ଉପକରଣ

33+ AI ଧ୍ୱନି ନମୂନାଗୁଡ଼ିକName

ଗୋଟିଏ ପ୍ଲାଟଫର୍ମରେ ମୁକ୍ତ ଉତ୍ସ TTS ନମୁନାର ସବୁଠାରୁ ବ୍ୟାପକ ସଂଗ୍ରହ

KokoroKokoro ମୁକ୍ତ

Kokoro ଗୋଟିଏ 82 ମିଲିୟନ ମାପଦଣ୍ଡ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ଏହାର ଓଜନ ଶ୍ରେଣୀର ଉର୍ଦ୍ଧରେ ଭଲ ଭାବରେ କାମ କରେ। ଏହାର ଛୋଟ ଆକାର ସତ୍ତ୍ୱେ, ଏହା ଅତ୍ୟନ୍ତ ପ୍ରାକୃତିକ ଏବଂ ଅଭିବ୍ୟକ୍ତିଶୀଳ ଭାଷା ଉତ୍ପାଦନ କରେ। Kokoro ଏକାଧିକ ଭାଷା ସମର୍ଥନ କରେ, ଯେଉଁଥିରେ ଇଂରାଜୀ, ଜାପାନୀ, ଚାଇନିଜ ଏବଂ କୋରିଆନ ବିଭିନ୍ନ ପ୍ରକାର ଅଭିବ୍ୟକ୍ତିଶୀଳ ସ୍ୱର ସହିତ। ଏହା ଅତ୍ୟନ୍ତ ଦ୍ରୁତ ଭାବରେ ଚଳାଇଥାଏ - GPU ରେ ପ୍ରକୃତ ସମୟ ଅପେକ୍ଷା ପ୍ରାୟ 100x ଦ୍ରୁତ ଧ୍ୱନି ଉତ୍ପାଦନ କରିଥାଏ।

ଏହା ପାଇଁ ଉତ୍ତମ: ସର୍ବନିମ୍ନ ଲାଟେନସି ସହିତ ଉଚ୍ଚ ଗୁଣବତ୍ତା TTS, ପ୍ରବାହିତ ପ୍ରୟୋଗଗୁଡ଼ିକName

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

PiperPiper ମୁକ୍ତ

Piper ଗୋଟିଏ ହାଲୁକା ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଯନ୍ତ୍ର ଯାହାକି Rhasspy ଦ୍ୱାରା ବିକଶିତ ହୋଇଛି ଯାହାକି VITS ଏବଂ larynx ସ୍ଥାପତ୍ୟକୁ ବ୍ୟବହାର କରେ। ଏହା ସମ୍ପୂର୍ଣ୍ଣ ଭାବରେ CPU ଉପରେ ଚାଲୁଛି, ଏହାକୁ ଅଂଶ ଉପକରଣ, ଘର ସ୍ୱୟଂଚାଳିତ, ଏବଂ ଅଫଲାଇନ TTS ଆବଶ୍ୟକ କରୁଥିବା ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ କରିଥାଏ। 30+ ଭାଷାରେ 100ରୁ ଅଧିକ ଧ୍ୱନି ସହିତ, Piper ଗୋଟିଏ Raspberry Pi4ରେ ମଧ୍ୟ ପ୍ରକୃତ ସମୟ ଗତିରେ ପ୍ରାକୃତିକ-ଧ୍ୱନି ବାକ୍ୟ ପ୍ରଦାନ କରେ।

ଏହା ପାଇଁ ଉତ୍ତମ: ଦ୍ରୁତ ପ୍ରାକଦର୍ଶନ, ସୁଗମତା, ଏବଂ ସନ୍ନିବେଶିତ ପ୍ରୟୋଗଗୁଡ଼ିକName

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

VITSVITS ମୁକ୍ତ

VITS (ଅନୁସରଣୀୟ ସନ୍ଧାନ ସହିତ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା ଜ୍ଞାନ ପାଇଁ ଶେଷ-ରୁ-ଶେଷ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ) ଏକ ସମତଳ ଶେଷ-ରୁ-ଶେଷ TTS ପଦ୍ଧତି ଯାହାକି ବର୍ତ୍ତମାନ ଦୁଇ-ସ୍ତରୀୟ ମଡେଲ ଅପେକ୍ଷା ଅଧିକ ପ୍ରାକୃତିକ ସ୍ୱର ଧ୍ୱନି ସୃଷ୍ଟି କରିଥାଏ। ଏହା ପ୍ରାକୃତିକତାରେ ଏକ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଉନ୍ନତି ହାସଲ କରିବା ପାଇଁ ସାଧାରଣକରଣ ପ୍ରବାହ ଏବଂ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା ପ୍ରଶିକ୍ଷା ପ୍ରକ୍ରିୟା ସହିତ ବୃଦ୍ଧି ପାଇଥିବା ଅନୁସରଣୀୟ ସନ୍ଧାନକୁ ଗ୍ରହଣ କରିଥାଏ।

ଏହା ପାଇଁ ଉତ୍ତମ: ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି ସହିତ ସାଧାରଣ- ଉଦ୍ଦେଶ୍ୟ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟName

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

MeloTTSMeloTTS ମୁକ୍ତ

MyShell.ai ଦ୍ୱାରା MeloTTS ଏକ ବହୁଭାଷୀ TTS ଲାଇବ୍ରେରୀ ଯାହାକି ଇଂରାଜୀ (ଆମେରିକୀୟ, ବ୍ରିଟିଶ, ଭାରତୀୟ, ଅଷ୍ଟ୍ରେଲିଆନ), ସ୍ପେନିସ, ଫ୍ରେଞ୍ଚ, ଚାଇନିଜ, ଜାପାନୀ, ଏବଂ କୋରିଆନକୁ ସମର୍ଥନ କରେ। ଏହା ଅତ୍ୟନ୍ତ ଦ୍ରୁତ, କେବଳ CPU ଉପରେ ପାଖାପାଖି ରିୟଲ-ଟାଇମ ବେଗରେ ପାଠ୍ୟକୁ ପ୍ରକ୍ରିୟା କରିଥାଏ। MeloTTS ଉତ୍ପାଦନ ବ୍ୟବହାର ପାଇଁ ନିର୍ମିତ ଏବଂ CPU ଏବଂ GPU ଉଭୟକୁ ସମର୍ଥନ କରେ।

ଏହା ପାଇଁ ଉତ୍ତମ: ଉତ୍ପାଦନ ପ୍ରୟୋଗଗୁଡ଼ିକୁ ଦ୍ରୁତ, ବହୁଭାଷୀ TTS ଆବଶ୍ୟକ

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

Kani TTS 2Kani TTS 2 ମୁକ୍ତ

Kani-TTS-2 by NineNineSix ଗୋଟିଏ NVIDIA NanoCodec ସହିତ Liquid AI LFM2 backbone ଉପରେ ନିର୍ମିତ ଏକ ଅତ୍ୟନ୍ତ ହଳଦିଆ 400M ପରିମାପକ ମଡେଲ। ଏହା କେବଳ 3GB VRAM ରେ ଚଲାଇଥାଏ ଏବଂ A100 (RTF 0.2) ରେ ~2 ସେକେଣ୍ଡରେ ~10 ସେକେଣ୍ଡର ଭାଷଣ ଉତ୍ପାଦନ କରିଥାଏ। ବର୍ତ୍ତମାନର ସାର୍ବଜନୀନ ରିଲିଜ କେବଳ ଇଂରାଜୀ `kani-tts-2-en` ଯାଞ୍ଚ ବିନ୍ଦୁକୁ ପ୍ରଦାନ କରେ ଏବଂ ଭାଷା କ୍ଲୋନିଂ ପାଇଁ ଆବଶ୍ୟକୀୟ ସ୍ଵରକ-ସମୃଦ୍ଧି ହକ୍କୁ ପ୍ରଦର୍ଶନ କରେ ନାହିଁ - କ୍ଲୋନିଂ ପାଇଁ Chatterbox / IndexTTS2 / F5-TTS ବ୍ୟବହାର କରନ୍ତୁ, କିମ୍ବା Kokoro / MeloTTS ଅଣ-ଇଂରାଜୀ ପାଇଁ।

ଏହା ପାଇଁ ଉତ୍ତମ: କମ୍-VRAM ହାର୍ଡୱେର ଉପରେ ଦ୍ରୁତ ଇଂରାଜୀ ଉତ୍ପାଦନ, ଦ୍ରୁତ ପ୍ରାକଦର୍ଶନ

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

OuteTTSOuteTTS ମୁକ୍ତ

OuteTTS ବଡ଼ ଭାଷା ମଡେଲଗୁଡ଼ିକୁ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ କ୍ଷମତା ସହିତ ବଢ଼ାଇଥାଏ, କିନ୍ତୁ ପ୍ରକୃତ ସ୍ଥାପତ୍ୟକୁ ସଂରକ୍ଷଣ କରିଥାଏ। ଏହା llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ଏବଂ Transformers.js ମାଧ୍ୟମରେ ବ୍ରାଉଜର ସନ୍ଧାନକୁ ସମର୍ଥନ କରେ। JSON ଭାବରେ ସଂରକ୍ଷିତ ସ୍ଵର ପ୍ରୋଫାଇଲଗୁଡ଼ିକ ମାଧ୍ୟମରେ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂର ବିଶେଷତା।

ଏହା ପାଇଁ ଉତ୍ତମ: ଆଡ଼ଜଷ୍ଟମେଣ୍ଟ, ବ୍ରାଉଜର ଆଧାରିତ TTS, କମ୍-ସମ୍ପଦ ପରିବେଶଗୁଡ଼ିକName

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

Pocket TTSPocket TTS ମୁକ୍ତ

Kyutai (Moshi ର ନିର୍ମାତା) ଦ୍ୱାରା ପକେଟ TTS ଏକ ସଂକଳ୍ପ 100M ପରିମାପ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ଏହାର ଓଜନଠାରୁ ଅଧିକ ଭଲ ଭାବରେ ସ୍ପର୍ଶ କରିଥାଏ। ଏହା CPU ଉପରେ ଦକ୍ଷତା ସହିତ ଚାଲୁଛି, ଗୋଟିଏ ସ୍ୱର ନମୁନାରୁ ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନକୁ ସମର୍ଥନ କରେ, ଏବଂ ପ୍ରାକୃତିକ-ସ୍ୱର ଭାଷା ଉତ୍ପାଦନ କରେ। ଛୋଟ ମଡେଲ ଆକାର ଏହାକୁ ଅଂଶ ବିସ୍ତାର ଏବଂ କମ୍-ସମ୍ପଦ ପରିବେଶଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ କରିଥାଏ।

ଏହା ପାଇଁ ଉତ୍ତମ: ହଳଦିଆ ବିସ୍ତାର, CPU-କେବଳ ପରିବେଶ, ଶୀଘ୍ର ଧ୍ୱନି କ୍ଲୋନିଂName

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

Kitten TTSKitten TTS ମୁକ୍ତ

KittenML ଦ୍ୱାରା Kitten TTS ଗୋଟିଏ ଅତ୍ୟନ୍ତ ହଳଦିଆ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ONNX ଉପରେ ନିର୍ମିତ ହୋଇଛି । 15M ରୁ 80M ପରିମାପକ (ଡିସ୍କରେ 25-80 MB) ସହିତ, ଏହା GPU ଆବଶ୍ୟକ ନକରି CPU ଉପରେ ଉଚ୍ଚ ଗୁଣବତ୍ତା ବାକ୍ୟ ସଂଶ୍ଲେଷଣ ପ୍ରଦାନ କରିଥାଏ । 8ଟି ସ୍ଥାପିତ ବାକ୍ୟ, ସଜେଇ ହେଉଥିବା ବାକ୍ୟ ବେଗ, ଏବଂ ସଂଖ୍ୟା, ମୁଦ୍ରା ଏବଂ ଏକକଗୁଡ଼ିକ ପାଇଁ ସ୍ଥାପିତ ପାଠ୍ୟ ପୂର୍ବପ୍ରକ୍ରିୟାକରଣ ବିଶେଷତାଗୁଡ଼ିକ । ସର୍ଭର ଶେଷଭାଗରେ ବିସ୍ତାର ଏବଂ କମ-ଅଧିକାର ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ ।

ଏହା ପାଇଁ ଉତ୍ତମ: ଦ୍ରୁତ ହଳଦିଆ TTS, ଅଂଶ ବିସ୍ତାର, କମ- ଲାଟେନସି ପ୍ରୟୋଗଗୁଡ଼ିକName

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

Ming-Omni TTSMing-Omni TTS ମୁକ୍ତ

inclusionAI ଦ୍ୱାରା Ming-omni-tts-0.5B ଏକ ସଙ୍କଟ omni-modal ଭାଷା ମଡେଲ ଯାହାକି BailingMM ଘନ backbone ଉପରେ ନିର୍ମିତ ହୋଇଛି ଗୋଟିଏ Patch-by-Patch ଫ୍ଲୋ-ମେଚିଂ ଧ୍ୱନି ବିକୋଡର ସହିତ । 44.1kHz ନିର୍ଗମନ (CD ଗୁଣବତ୍ତା ପାଖାପାଖି),3+ ସେକେଣ୍ଡ ସଂଦର୍ଭରୁ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂକୁ ସମର୍ଥନ କରେ, ଏବଂ JSON ନିର୍ଦ୍ଦେଶନାମା ମାଧ୍ୟମରେ ସ୍ଥାପିତ ଭାବନା / ଭାଷା / BGM ନିୟନ୍ତ୍ରଣକୁ ଅନ୍ତର୍ଭୁକ୍ତ କରେ । ଚାଇନିଜ ବେଞ୍ଚମାର୍କରେ ଉତ୍ତମ ସ୍ଥିରତା — 0.83% WER ।

ଏହା ପାଇଁ ଉତ୍ତମ: ଉଚ୍ଚ-ସତ୍ୟତା ଦ୍ୱିଭାଷୀ ବର୍ଣ୍ଣନା, ଭାବନା ନିୟନ୍ତ୍ରିତ ସ୍ୱର ଅଭିନୟ, ଚାଇନିଜ ଅଡିଓବାଇକ ବିଷୟବସ୍ତୁ

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

MOSS-TTS NanoMOSS-TTS Nano ମୁକ୍ତ

MOSS-TTS-Nano-100M ହେଉଛି MOSS-TTS ପରିବାରର OpenMOSSର ସଂକଳ୍ପ 100M-ପର୍ଯ୍ୟାୟ ବିକଳ୍ପ, ବିଳମ୍ବ-ପରିବର୍ତ୍ତକ ଢାଞ୍ଚାକୁ ଭାଗ କରିଥାଏ। 8B ମଡେଲର ଉଚ୍ଚତମ ଗୁଣବତ୍ତା ~80x ଛୋଟ ଓଜନ ଏବଂ ଦୃଶ୍ୟମାନ ଭାବେ ପ୍ରତି ଅନୁରୋଧରେ VRAMକୁ ହ୍ରାସ କରିଥାଏ, ଏହାକୁ ମୁକ୍ତ-ସ୍ତର ଏବଂ ଉଚ୍ଚ-ଥ୍ରୁପାଉଟ ବିସ୍ତରଣ ପାଇଁ ଉପଯୁକ୍ତ କରିଥାଏ। ସମାନ 20-ଭାଷା ସ୍ତର।

ଏହା ପାଇଁ ଉତ୍ତମ: ମୁକ୍ତ-ସ୍ତର TTS, ଉଚ୍ଚ-ବ୍ଯାସହାର ଉତ୍ପାଦନ, କମ-ବିଳମ୍ବିତ ଅନ୍ତରାପୃଷ୍ଠ ବ୍ୟବହାର

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

BarkBark ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ପରିବର୍ତ୍ତକ ଆଧାରିତ ପାଠ୍ୟ-ରୁ-ଧ୍ୱନି ମଡେଲ ଯାହାକି ବାସ୍ତବବାଦୀ ବକ୍ତବ୍ୟ, ସଂଗୀତ ଏବଂ ଧ୍ୱନି ପ୍ରଭାବ ସୃଷ୍ଟି କରିଥାଏ।

ବିକାଶକାରୀ: Suno · ଅନୁମତିପତ୍ର: MIT

ଚେଷ୍ଟାକରନ୍ତୁ

Bark SmallBark Small ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ଦ୍ରୁତ ଅନୁମାନ ଏବଂ କମ ସ୍ମୃତିସ୍ଥାନ ବ୍ୟବହାର ସହିତ Bark ର ହାଲୁକା ସଂସ୍କରଣ ।

ବିକାଶକାରୀ: Suno · ଅନୁମତିପତ୍ର: MIT

ଚେଷ୍ଟାକରନ୍ତୁ

CosyVoice 2CosyVoice 2 ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ଅଲିବାବା ର ମାପଯୋଗ୍ୟ ଷ୍ଟ୍ରିମିଂ TTS ମାନବ-ସମାନ ପ୍ରାକୃତିକତା ଏବଂ ଶୂନ୍ୟ-ନିକଟତର ଲାଟେନସି ସହିତ।

ବିକାଶକାରୀ: Alibaba (Tongyi Lab) · ଅନୁମତିପତ୍ର: Apache 2.0

ଚେଷ୍ଟାକରନ୍ତୁ

Dia TTSDia TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ବହୁ-ବକ୍ତା ସଂଳାପ ନିର୍ମାଣ ମଡେଲ ଯାହା ବକ୍ତାମାନଙ୍କ ମଧ୍ୟରେ ପ୍ରାକୃତିକ ବାର୍ତ୍ତାଳାପ ସୃଷ୍ଟି କରେ।

ବିକାଶକାରୀ: Nari Labs · ଅନୁମତିପତ୍ର: Apache 2.0

ଚେଷ୍ଟାକରନ୍ତୁ

Parler TTSParler TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ଆପଣ ପ୍ରାକୃତିକ ଭାଷାରେ ଚାହୁଁଥିବା ଧ୍ୱନିକୁ ବର୍ଣ୍ଣନା କରନ୍ତୁ ଏବଂ ପାର୍ଲର ମେଳଖାଉଥିବା ଭାଷଣ ସୃଷ୍ଟି କରିଥାଏ।

ବିକାଶକାରୀ: Hugging Face · ଅନୁମତିପତ୍ର: Apache 2.0

ଚେଷ୍ଟାକରନ୍ତୁ

IndexTTS-2IndexTTS-2 ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ଶୂନ୍ୟ-ଶଟ TTS ଫାଇନ-ଗ୍ରେନ ଇମୋସନ ନିୟନ୍ତ୍ରଣ ଏବଂ ଉଚ୍ଚ ଅଭିବ୍ୟକ୍ତିଶୀଳତା ସହିତ ।

ବିକାଶକାରୀ: Index Team · ଅନୁମତିପତ୍ର: Bilibili Model License

ଚେଷ୍ଟାକରନ୍ତୁ

Spark TTSSpark TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ନିୟନ୍ତ୍ରଣଯୋଗ୍ୟ ଅନୁଭୂତି ଏବଂ ପରାମର୍ଶ ମାଧ୍ୟମରେ କଥାବାର୍ତ୍ତା ଶୈଳୀ ସହିତ ଧ୍ୱନି କ୍ଲୋନ TTS।

ବିକାଶକାରୀ: SparkAudio · ଅନୁମତିପତ୍ର: CC BY-NC-SA 4.0

ଚେଷ୍ଟାକରନ୍ତୁ

GPT-SoVITSGPT-SoVITS ପୂର୍ବନିର୍ଦ୍ଧାରିତ

କିଛି-ଶଟ ସ୍ୱର କ୍ଲୋନ TTS ଯାହାକି କେବଳ5ସେକେଣ୍ଡ ଧ୍ୱନିରୁ ଯେକୌଣସି ସ୍ୱରକୁ ନକଲ କରିଥାଏ।

ବିକାଶକାରୀ: RVC-Boss · ଅନୁମତିପତ୍ର: MIT

ଚେଷ୍ଟାକରନ୍ତୁ

OrpheusOrpheus ପୂର୍ବନିର୍ଦ୍ଧାରିତ

100K ଘଣ୍ଟା ବାକ୍ୟ ତଥ୍ୟ ଉପରେ ପ୍ରଶିକ୍ଷିତ ମାନବ ସ୍ତରୀୟ ଭାବଗତ TTS ମଡେଲ ।

ବିକାଶକାରୀ: Canopy Labs · ଅନୁମତିପତ୍ର: Llama 3.2 Community

ଚେଷ୍ଟାକରନ୍ତୁ

Qwen3 TTSQwen3 TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ଅଲିବାବାର ବହୁଭାଷୀ TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଧ୍ୱନି ଏବଂ ପାଠ୍ୟରୁ ଧ୍ୱନି ଡିଜାଇନ ସହିତ।

ବିକାଶକାରୀ: Alibaba (Qwen) · ଅନୁମତିପତ୍ର: Apache 2.0

ଚେଷ୍ଟାକରନ୍ତୁ

VieNeu-TTS-v2VieNeu-TTS-v2 ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ଭିଏତନାମ + ଇଂରାଜୀ ସଂକେତ-ସ୍ୱିଚ TTS7ପ୍ରାଥମିକ ସଂରଚନା ଧ୍ୱନି ଏବଂ ଶୂନ୍ୟ-ଶଟ ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ। କେବଳ CPU, କୌଣସି GPU ଆବଶ୍ୟକ ନାହିଁ।

ବିକାଶକାରୀ: Phạm Nguyễn Ngọc Bảo · ଅନୁମତିପତ୍ର: Apache 2.0

ଚେଷ୍ଟାକରନ୍ତୁ

Chatterbox TurboChatterbox Turbo ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ଦ୍ରୁତ ଚାଟରବକ୍ସ ଅଧି-200ms ଲାଟେନସି ଏବଂ ହସ, କାଶି ଏବଂ ଅଧିକ ପାଇଁ ପାରାଲିଙ୍ଗୁଇଷ୍ଟିକ ଟ୍ୟାଗ ସହିତ।

ବିକାଶକାରୀ: Resemble AI · ଅନୁମତିପତ୍ର: MIT

ଚେଷ୍ଟାକରନ୍ତୁ

VoxCPMVoxCPM ପୂର୍ବନିର୍ଦ୍ଧାରିତ

Tokenizer-ମୁକ୍ତ TTS 44.1kHz ଧ୍ୱନି ଉତ୍ପାଦନ କରୁଅଛି ଯାହାର ପ୍ରସଙ୍ଗ-ସଚେତନ ଅନୁଚ୍ଛେଦ ସ୍ଥିରତା ଅଛି।

ବିକାଶକାରୀ: OpenBMB · ଅନୁମତିପତ୍ର: Apache 2.0

ଚେଷ୍ଟାକରନ୍ତୁ

VibeVoiceVibeVoice ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ପୋଡକାଷ୍ଟ ଏବଂ ଧ୍ୱନି ପୁସ୍ତକ ଭଳି ଲମ୍ବା-ଫର୍ମ ବହୁ-ବକ୍ତା ବିଷୟବସ୍ତୁ ପାଇଁ Microsoft ମଡେଲ।

ବିକାଶକାରୀ: Microsoft · ଅନୁମତିପତ୍ର: MIT

ଚେଷ୍ଟାକରନ୍ତୁ

CosyVoice3CosyVoice3 ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ଦ୍ୱି-ପ୍ରବାହ, ଅନୁଭୂତି ନିୟନ୍ତ୍ରଣ, ଏବଂ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂ ସହିତ ପରବର୍ତ୍ତୀ-ପୀଢ଼ିର ବହୁଭାଷା TTS।

ବିକାଶକାରୀ: Alibaba (FunAudioLLM) · ଅନୁମତିପତ୍ର: Apache 2.0

ଚେଷ୍ଟାକରନ୍ତୁ

NAMAA Saudi TTSNAMAA Saudi TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ପ୍ରଥମ ଖୋଲା ସାଉଦି-ଆରବୀ TTS। ଚାଟରବକ୍ସ-ଗୁଣବତ୍ତା ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ ସ୍ଥାନୀୟ ସାଉଦି ଭାଷା।

ବିକାଶକାରୀ: NAMAA Space · ଅନୁମତିପତ୍ର: MIT

ଚେଷ୍ଟାକରନ୍ତୁ

Darwin TTSDarwin TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ

FFN ଓଜନ ସହିତ କ୍ରସ-ମୋଡାଲ Qwen3-TTS ବିକଳ୍ପଟି Qwen3-1.7B ଭାଷା ମଡେଲରୁ ଶକ୍ତ ବହୁଭାଷୀ କ୍ଲୋନିଂ ପାଇଁ ମିଶ୍ରିତ ହୋଇଛି । Name

ବିକାଶକାରୀ: FINAL-Bench · ଅନୁମତିପତ୍ର: Apache 2.0

ଚେଷ୍ଟାକରନ୍ତୁ

MOSS-TTSDMOSS-TTSD ପୂର୍ବନିର୍ଦ୍ଧାରିତ

ବହୁ-ବକ୍ତା ଆଲୋଚନା ନିରନ୍ତର ମଡେଲ -5ବକ୍ତା ଏବଂ 60 ମିନିଟ ସମନ୍ୱିତ ଧ୍ୱନି ସହିତ ପୋଡକାଷ୍ଟ-ଶୈଳୀ କଥାବାର୍ତ୍ତା ସୃଷ୍ଟି କରନ୍ତୁ।

ବିକାଶକାରୀ: OpenMOSS · ଅନୁମତିପତ୍ର: Apache 2.0

ଚେଷ୍ଟାକରନ୍ତୁ

ChatterboxChatterbox ପ୍ରୀମିୟମ

Resemble AI ଠାରୁ ଆବେଗ ନିୟନ୍ତ୍ରଣ ସହିତ state-of-the-art ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନିଂ ।

ଗୁଣବତ୍ତା:

ଚେଷ୍ଟାକରନ୍ତୁ

Tortoise TTSTortoise TTS ପ୍ରୀମିୟମ

ବହୁ-ଭାଷା ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଗୁଣବତ୍ତା ଉପରେ ଆଧାରିତ ଅଟୋ-ରିଗ୍ରେସିଭ ଢାଞ୍ଚା ସହିତ ।

ଗୁଣବତ୍ତା:

ଚେଷ୍ଟାକରନ୍ତୁ

StyleTTS 2StyleTTS 2 ପ୍ରୀମିୟମ

ମାନବ ସ୍ତରୀୟ ପାଠ-ରୁ-ବାକ୍ୟ ମାଧ୍ୟମରେ ଶୈଳୀ ପ୍ରସାରଣ ଏବଂ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା ପ୍ରଶିକ୍ଷା

ଗୁଣବତ୍ତା:

ଚେଷ୍ଟାକରନ୍ତୁ

OpenVoiceOpenVoice ପ୍ରୀମିୟମ

ଶୈଳୀ, ଅନୁଭୂତି ଏବଂ ଉଚ୍ଚାରଣ ଉପରେ ଗ୍ରେନାଲ ନିୟନ୍ତ୍ରଣ ସହିତ ତୁରନ୍ତ ସ୍ୱର କ୍ଲୋନିଂ।

ଗୁଣବତ୍ତା:

ଚେଷ୍ଟାକରନ୍ତୁ

Sesame CSMSesame CSM ପ୍ରୀମିୟମ

ଯୁକ୍ତିତର୍କର ଭାଷା ମଡେଲ, ଯାହାକି ଉପଯୁକ୍ତ ସମୟ ଏବଂ ଭାବନା ସହିତ ପ୍ରାକୃତିକ ଆଲୋଚନା ସୃଷ୍ଟି କରିଥାଏ ।

ଗୁଣବତ୍ତା:

ଚେଷ୍ଟାକରନ୍ତୁ

CosyVoice 2CosyVoice 2

ଅଲିବାବା ର ମାପଯୋଗ୍ୟ ଷ୍ଟ୍ରିମିଂ TTS ମାନବ-ସମାନ ପ୍ରାକୃତିକତା ଏବଂ ଶୂନ୍ୟ-ନିକଟତର ଲାଟେନସି ସହିତ।

ଭାଷା: en, zh, ja, ko, fr, de, it, es

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

IndexTTS-2IndexTTS-2

ଶୂନ୍ୟ-ଶଟ TTS ଫାଇନ-ଗ୍ରେନ ଇମୋସନ ନିୟନ୍ତ୍ରଣ ଏବଂ ଉଚ୍ଚ ଅଭିବ୍ୟକ୍ତିଶୀଳତା ସହିତ ।

ଭାଷା: en, zh

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

Spark TTSSpark TTS

ନିୟନ୍ତ୍ରଣଯୋଗ୍ୟ ଅନୁଭୂତି ଏବଂ ପରାମର୍ଶ ମାଧ୍ୟମରେ କଥାବାର୍ତ୍ତା ଶୈଳୀ ସହିତ ଧ୍ୱନି କ୍ଲୋନ TTS।

ଭାଷା: en, zh

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

GPT-SoVITSGPT-SoVITS

କିଛି-ଶଟ ସ୍ୱର କ୍ଲୋନ TTS ଯାହାକି କେବଳ5ସେକେଣ୍ଡ ଧ୍ୱନିରୁ ଯେକୌଣସି ସ୍ୱରକୁ ନକଲ କରିଥାଏ।

ଭାଷା: en, zh, ja, ko

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

ChatterboxChatterbox

Resemble AI ଠାରୁ ଆବେଗ ନିୟନ୍ତ୍ରଣ ସହିତ state-of-the-art ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନିଂ ।

ଭାଷା: en

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

Tortoise TTSTortoise TTS

ବହୁ-ଭାଷା ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଗୁଣବତ୍ତା ଉପରେ ଆଧାରିତ ଅଟୋ-ରିଗ୍ରେସିଭ ଢାଞ୍ଚା ସହିତ ।

ଭାଷା: en

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

OpenVoiceOpenVoice

ଶୈଳୀ, ଅନୁଭୂତି ଏବଂ ଉଚ୍ଚାରଣ ଉପରେ ଗ୍ରେନାଲ ନିୟନ୍ତ୍ରଣ ସହିତ ତୁରନ୍ତ ସ୍ୱର କ୍ଲୋନିଂ।

ଭାଷା: en, zh, ja, ko, fr, es

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

VieNeu-TTS-v2VieNeu-TTS-v2

ଭିଏତନାମ + ଇଂରାଜୀ ସଂକେତ-ସ୍ୱିଚ TTS7ପ୍ରାଥମିକ ସଂରଚନା ଧ୍ୱନି ଏବଂ ଶୂନ୍ୟ-ଶଟ ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ। କେବଳ CPU, କୌଣସି GPU ଆବଶ୍ୟକ ନାହିଁ।

ଭାଷା: vi, en

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

Chatterbox TurboChatterbox Turbo

ଦ୍ରୁତ ଚାଟରବକ୍ସ ଅଧି-200ms ଲାଟେନସି ଏବଂ ହସ, କାଶି ଏବଂ ଅଧିକ ପାଇଁ ପାରାଲିଙ୍ଗୁଇଷ୍ଟିକ ଟ୍ୟାଗ ସହିତ।

ଭାଷା: en

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

VoxCPMVoxCPM

Tokenizer-ମୁକ୍ତ TTS 44.1kHz ଧ୍ୱନି ଉତ୍ପାଦନ କରୁଅଛି ଯାହାର ପ୍ରସଙ୍ଗ-ସଚେତନ ଅନୁଚ୍ଛେଦ ସ୍ଥିରତା ଅଛି।

ଭାଷା: en, zh

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

OuteTTSOuteTTS

LLM-ଆଧାରିତ TTS ଯାହାକି CPU, GPU, କିମ୍ବା lama.cpp ଏବଂ Transformers.js ମାଧ୍ୟମରେ ବ୍ରାଉଜରରେ ଚଲାଇଥାଏ।

ଭାଷା: en

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

Pocket TTSPocket TTS

ଗୋଟିଏ ନମୁନାରୁ ସ୍ୱର କ୍ଲୋନିଂ ସହିତ Kyutai ଦ୍ୱାରା ହଳଦିଆ 100M ପରିମାପକ ମଡେଲ ।

ଭାଷା: en, fr

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

CosyVoice3CosyVoice3

ଦ୍ୱି-ପ୍ରବାହ, ଅନୁଭୂତି ନିୟନ୍ତ୍ରଣ, ଏବଂ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂ ସହିତ ପରବର୍ତ୍ତୀ-ପୀଢ଼ିର ବହୁଭାଷା TTS।

ଭାଷା: en, zh, ja, ko, de, es, fr, it, ru

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

NAMAA Saudi TTSNAMAA Saudi TTS

ପ୍ରଥମ ଖୋଲା ସାଉଦି-ଆରବୀ TTS। ଚାଟରବକ୍ସ-ଗୁଣବତ୍ତା ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ ସ୍ଥାନୀୟ ସାଉଦି ଭାଷା।

ଭାଷା: ar

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

Darwin TTSDarwin TTS

FFN ଓଜନ ସହିତ କ୍ରସ-ମୋଡାଲ Qwen3-TTS ବିକଳ୍ପଟି Qwen3-1.7B ଭାଷା ମଡେଲରୁ ଶକ୍ତ ବହୁଭାଷୀ କ୍ଲୋନିଂ ପାଇଁ ମିଶ୍ରିତ ହୋଇଛି । Name

ଭାଷା: en, ko, ja, zh

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

MOSS-TTSDMOSS-TTSD

ବହୁ-ବକ୍ତା ଆଲୋଚନା ନିରନ୍ତର ମଡେଲ -5ବକ୍ତା ଏବଂ 60 ମିନିଟ ସମନ୍ୱିତ ଧ୍ୱନି ସହିତ ପୋଡକାଷ୍ଟ-ଶୈଳୀ କଥାବାର୍ତ୍ତା ସୃଷ୍ଟି କରନ୍ତୁ।

ଭାଷା: en, zh

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

Ming-Omni TTSMing-Omni TTS

ଉଚ୍ଚ-ସତ୍ୟତା 44.1kHz ନିର୍ଗମ ଏବଂ ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନିଂ ସହିତ inclusionAI ରୁ ସଙ୍କଟ 0.5B ଅମ୍ନି-ମୋଡାଲ ଭାଷା ମଡେଲ ।

ଭାଷା: en, zh

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

MOSS-TTS NanoMOSS-TTS Nano

ଛୋଟ 100M MOSS-TTS ବିକଳ୍ପ - ସମାନ ଢାଞ୍ଚା, 80x ଛୋଟ, ମୁକ୍ତ-ସ୍ତର ଲାଟେନସି ।

ଭାଷା: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ

ବିକାଶକାରୀ- ପ୍ରଥମ API

OpenAI-ସହଜ REST API. ଗୋଟିଏ ଶେଷ ବିନ୍ଦୁ, 22+ ନମୂନା. ରିୟଲ-ଟାଇମ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଷ୍ଟ୍ରିମିଂ ସମର୍ଥନ।

  • OpenAI- ସୁସଂଗତ ଶୈଳୀ
  • ରିଅଲ-ଟାଇମ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ TTS ପ୍ରବାହ
  • ବଡ଼ କାର୍ଯ୍ୟଗୁଡ଼ିକ ପାଇଁ ବ୍ୟାଚ ପ୍ରକ୍ରିୟାକରଣ
  • Webhook ବିଜ୍ଞପ୍ତିଗୁଡ଼ିକ
API ଦଲିଲଗୁଡ଼ିକୁ ଦେଖନ୍ତୁ
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

ସରଳ, ପାରଦର୍ଶୀ ମୂଲ୍ୟାଙ୍କନ

ମୁକ୍ତ ଭାବରେ ଆରମ୍ଭ କରନ୍ତୁ । ଆପଣ ବଢିବା ସମୟରେ ମାପନ୍ତୁ ।

ମୁକ୍ତ

$0

15,000 ଅକ୍ଷର + 5,000/ଦିନ

  • କୋକୋରୋ ସମେତ 7ଟି ମୁକ୍ତ ନମୂନା
  • ପ୍ରତି ଉତ୍ପତ୍ତିରେ 5,000 ଅକ୍ଷର
  • API ଅଭିଗମ୍ୟତା ଅନ୍ତର୍ଭୁକ୍ତ
ମୁକ୍ତ ଭାବରେ ପଞ୍ଜିକୃତ ହୁଅନ୍ତୁ

ଆରମ୍ଭକର୍ତ୍ତା

$9/ମିନିଟ

500 ଋଣ/ମାସ

  • ସମସ୍ତ 22+ ଆକାର
  • ପ୍ରତି ଉତ୍ପତ୍ତିରେ 100,000 ଅକ୍ଷର
  • ଧ୍ୱନି କ୍ଲୋନିଂName
ଆରମ୍ଭ କରନ୍ତୁ
ସବୁଠାରୁ ଲୋକପ୍ରିୟ

ପ୍ରୋ

$29/ମିନିଟ

2,000 ଋଣ/ମାସ

  • ଆରମ୍ଭକର୍ତ୍ତାରେ ସବୁକିଛି
  • API ସୁଗମତା
  • ପ୍ରାଥମିକତା ପ୍ରକ୍ରିୟାକରଣ
ପ୍ରୋ ଗ୍ରହଣ କରନ୍ତୁ

ବ୍ୟବସାୟ

$99/ମିନିଟ

10,000 ଋଣ/ମାସ

  • Pro ରେ ସବୁକିଛି
  • ବୃହତ API
  • ପ୍ରାଥମିକତା ଧାଡ଼ି
ବ୍ୟବସାୟ ଗ୍ରହଣ କରନ୍ତୁ

ଅକ୍ଷର ପ୍ୟାକ ସମେତ ସମସ୍ତ ଯୋଜନାଗୁଡ଼ିକୁ ଦେଖନ୍ତୁ →

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

TTS.ai ହେଉଛି ସବୁଠାରୁ ବ୍ୟାପକ AI ସ୍ୱର ପ୍ଲାଟଫର୍ମ, ଯାହା 22+ ପାଠ୍ୟ-ରୁ-ଭାଷା ମଡେଲ, ଭାଷା କ୍ଲୋନିଂ, ଭାଷା-ରୁ-ପାଠ୍ୟ ଏବଂ ଧ୍ୱନି ଉପକରଣ ପ୍ରଦାନ କରେ । ସମସ୍ତ ମଡେଲଗୁଡ଼ିକ କୌଣସି ବିକ୍ରୟକାରୀ ଲକ-ଇନ ସହିତ ମୁକ୍ତ ଉତ୍ସ ।

ହଁ! TTS.ai Kokoro, Piper, VITS, ଏବଂ MeloTTS ମଡେଲ ସହିତ ମୁକ୍ତ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ପ୍ରଦାନ କରେ। କୌଣସି ଖାତା ଆବଶ୍ୟକ ନୁହଁ। 15,000 ମୁକ୍ତ ଅକ୍ଷର ଏବଂ ସମସ୍ତ ମଡେଲକୁ ବ୍ୟବହାର କରିବା ପାଇଁ ସଦସ୍ୟତା ନିଅନ୍ତୁ। ପୈଠିତ ଯୋଜନା $9/ମାସରେ ଆରମ୍ଭ ହୋଇଥାଏ।

ଗତି ପାଇଁ, Kokoro କିମ୍ବା Piper କୁ ବ୍ୟବହାର କରନ୍ତୁ। ଗୁଣବତ୍ତା ପାଇଁ, CosyVoice2ଅଥବା StyleTTS2କୁ ଚେଷ୍ଟାକରନ୍ତୁ। ଧ୍ୱନି କ୍ଲୋନିଂ ପାଇଁ, Chatterbox କିମ୍ବା GPT-SoVITS କୁ ବ୍ୟବହାର କରନ୍ତୁ। ସଂଳାପ ପାଇଁ, Dia TTS କୁ ବ୍ୟବହାର କରନ୍ତୁ। ତୁଳନା କରିବା ପାଇଁ ଏକା ପାଠ୍ୟରେ ଏକାଧିକ ନମୂନାକୁ ଚେଷ୍ଟାକରନ୍ତୁ।

ହଁ। OpenAI-ସଂଗଠିତ REST API TTS, STT, ସ୍ୱର କ୍ଲୋନିଂ, ଏବଂ ଧ୍ୱନି ସାଧନଗୁଡ଼ିକ ପାଇଁ। ମୁକ୍ତ ସମେତ ପ୍ରତ୍ୟେକ ଯୋଜନାରେ ଅନ୍ତର୍ଭୁକ୍ତ, ସ୍ତର ଅନୁଯାୟୀ ମାପୁଥିବା ହାର ସୀମା ସହିତ (ମୁକ୍ତ: 10 req/min, ଲାଇନେଟ: 20, ଷ୍ଟାର୍ଟଅପ: 30, ପ୍ରୋ: 60, ବ୍ୟବସାୟ: 300)। tts.ai/api/ ରେ ଦଲିଲ ଦେଖନ୍ତୁ।

ସ୍ୱର ଗୁଣବତ୍ତା ମଡେଲ ଅନୁଯାୟୀ ପରିବର୍ତ୍ତିତ ହୋଇଥାଏ। CosyVoice2, StyleTTS2, ଏବଂ Chatterbox ପରି ପ୍ରୀମିୟମ ମଡେଲଗୁଡ଼ିକ ପ୍ରାକୃତିକ ଢଙ୍ଗ ଏବଂ ଅନୁଭୂତି ସହିତ ପାଖାପାଖି-ମାନବୀୟ ଗୁଣବତ୍ତାର ଭାଷା ଉତ୍ପାଦନ କରିଥାଏ। Kokoro ଭଳି ମୁକ୍ତ ମଡେଲଗୁଡ଼ିକ ଅଧିକାଂଶ ବ୍ୟବହାର ମାମଲା ପାଇଁ ଉତ୍ତମ ଗୁଣବତ୍ତା ପ୍ରଦାନ କରିଥାଏ।

TTS.ai ଏହାର ଆଦର୍ଶ ଲାଇବ୍ରେରୀରେ 30+ ଭାଷାକୁ ସମର୍ଥନ କରେ। ଇଂରାଜୀ ସର୍ବବୃହତ ଆଦର୍ଶ ସମର୍ଥନ କରେ, କିନ୍ତୁ CosyVoice2ପରି ଆଦର୍ଶ ଚୀନୀୟ, ଜାପାନୀ ଏବଂ କୋରିଆନକୁ ଆବରଣ କରେ; GPT-SoVITS ଚୀନୀୟ, ଜାପାନୀ, କୋରିଆନ ଏବଂ ଇଂରାଜୀକୁ ପରିଚାଳନା କରେ; ଏବଂ MeloTTS ଇଂରାଜୀ, ସ୍ପେନିସ, ଫ୍ରେଞ୍ଚ, ଚୀନୀୟ, ଜାପାନୀ ଏବଂ କୋରିଆନକୁ ସମର୍ଥନ କରେ।

ହଁ। ସମସ୍ତ ପ୍ରକ୍ରିୟା ଆମର ସମର୍ପିତ GPU ସର୍ଭରଗୁଡ଼ିକରେ ଘଟେ। ଆମେ ଆପଣଙ୍କର ପାଠ୍ୟ ନିବେଶକୁ ସଂରକ୍ଷଣ କରୁନାହିଁ କିମ୍ବା ପ୍ରଦାନ ପରେ ଉତ୍ପନ୍ନ ଧ୍ୱନିକୁ ସଂରକ୍ଷଣ କରୁନାହିଁ। କ୍ଲୋନ କରିବା ପାଇଁ ଅଦ୍ୟତନ କରାଯାଇଥିବା ଧ୍ୱନି ନମୁନାଗୁଡ଼ିକୁ କେବଳ ବର୍ତ୍ତମାନ ଅଧିବେଶନ ପାଇଁ ବ୍ୟବହାର କରାଯାଏ ଏବଂ ସଂରକ୍ଷିତ କରାଯାଇନାହିଁ। ଆମେ ଆପଣଙ୍କର ତଥ୍ୟକୁ ତୃତୀୟ ପକ୍ଷ ସହିତ କେବେ ବି ବାଣ୍ଟିନୁ କିମ୍ବା ଏହାକୁ ନମୂନାକୁ ପ୍ରଶିକ୍ଷଣ ଦେବା ପାଇଁ ବ୍ୟବହାର କରୁନୁ।

ହଁ। TTS.ai ରେ ନିର୍ମିତ ସମସ୍ତ ଧ୍ୱନି ଆପଣଙ୍କର ବାଣିଜ୍ୟିକ ବ୍ୟବହାର ପାଇଁ, YouTube ଭିଡିଓ, ପୋଡକାଷ୍ଟ, ଅଡିଓବାଇକ, ଆପ, ବିଜ୍ଞାପନ, ଏବଂ ଉତ୍ପାଦଗୁଡ଼ିକ ସହିତ। ଆମର ମଡେଲଗୁଡ଼ିକ ଅନୁମତିପ୍ରଦାନକାରୀ ଲାଇସେନ୍ସ (MIT, Apache 2.0) ଅନ୍ତର୍ଗତ ମୁକ୍ତ ଉତ୍ସ। କୌଣସି ରୟାଲଟି କିମ୍ବା ଯୋଗଦାନ ଆବଶ୍ୟକ ନାହିଁ।

TTS.ai ସର୍ବାଧିକ ଗୁଣବତ୍ତା ପାଇଁ ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଭାବରେ WAV ଶୈଳୀରେ ଧ୍ୱନି ସୃଷ୍ଟି କରିଥାଏ। ଆପଣ MP3, FLAC, OGG, କିମ୍ବା M4A କୁ ଆମର ମୁକ୍ତ ଧ୍ୱନି ପରିବର୍ତ୍ତକ ସାଧନକୁ ବ୍ୟବହାର କରି ପରିବର୍ତ୍ତନ କରିପାରିବେ। API ଅନୁରୋଧରେ ଆପଣଙ୍କର ପସନ୍ଦଯୋଗ୍ୟ ନିର୍ଗମ ଶୈଳୀକୁ ସିଧାସଳଖ ନିର୍ଦ୍ଦିଷ୍ଟ କରିବା ପାଇଁ ସମର୍ଥନ କରିଥାଏ।

ଆପଣ କ୍ଲୋନ କରିବାକୁ ଚାହୁଁଥିବା ଧ୍ୱନିର ଗୋଟିଏ ସଂକ୍ଷିପ୍ତ ଧ୍ୱନି ନମୁନାକୁ ଅପଲୋଡ କରନ୍ତୁ (5 ସେକେଣ୍ଡରୁ କମ), ତା'ପରେ ସେହି ଧ୍ୱନିରେ ଭାଷା ସୃଷ୍ଟି କରିବା ପାଇଁ କୌଣସି ପାଠ୍ୟକୁ ଟାଇପ କରନ୍ତୁ। ଚାଟରବକ୍ସ, GPT-SoVITS, ଏବଂ CosyVoice2ପରି ନମୂନାଗୁଡ଼ିକ ଧ୍ୱନି କ୍ଲୋନକୁ ସମର୍ଥନ କରିଥାଏ। କ୍ଲୋନ କରାଯାଇଥିବା ଧ୍ୱନି ଧ୍ୱନି, ଉଚ୍ଚାରଣ, ଏବଂ ଭାଷା ଶୈଳୀକୁ ଗ୍ରହଣ କରିଥାଏ।

ମୁକ୍ତ ମଡେଲ (Kokoro, Piper, VITS, MeloTTS) ପାଇଁ କୌଣସି ଖାତା ଆବଶ୍ୟକ ନାହିଁ ଏବଂ ଶୂନ୍ୟ ଅକ୍ଷର ଖର୍ଚ୍ଚ ହୋଇଥାଏ। ମାନକ ମଡେଲ (2,000 ଅକ୍ଷର/1K ନିବେଶ) ରେ Bark, CosyVoice2, F5-TTS, ଏବଂ Dia ସାମିଲ ଅଛି। ପ୍ରୀମିୟମ ମଡେଲ (4,000 ଅକ୍ଷର/1K ନିବେଶ) ରେ OpenVoice, Chatterbox, StyleTTS2, ଏବଂ Tortoise ସାମିଲ ଅଛି। ପୈଠିତ ମଡେଲ ସାଧାରଣତଃ ଉଚ୍ଚ ଗୁଣବତ୍ତା, ଅଧିକ ଧ୍ୱନି, ଏବଂ ଅତିରିକ୍ତ ବିଶେଷତା ଭଳି ଧ୍ୱନି କ୍ଲୋନିଂ ପ୍ରଦାନ କରିଥାଏ।

ହଁ। API ବଡ଼ ପରିମାଣର ପାଠ୍ୟକୁ ଭାଷାରେ ପରିବର୍ତ୍ତନ କରିବା ପାଇଁ ବ୍ୟାଚ ପ୍ରକ୍ରିୟାକୁ ସମର୍ଥନ କରେ। ଏକାଧିକ ଅନୁରୋଧ ଦାଖଲ କରନ୍ତୁ ଏବଂ କାର୍ଯ୍ୟ UUIDଗୁଡ଼ିକୁ ବ୍ୟବହାର କରି ଅସଂଯୋଜିତ ଭାବରେ ଫଳାଫଳକୁ ପୁନଃପ୍ରାପ୍ତ କରନ୍ତୁ। ବ୍ୟବସାୟ ଯୋଜନା ($99/ମାସ) ଏବଂ ଉଚ୍ଚତର ଦ୍ରୁତ ବ୍ୟାଚ ପ୍ରକ୍ରିୟା ପାଇଁ ପ୍ରାଥମିକତା ଧାଡ଼ି ପ୍ରବେଶ ସଂଯୋଗକୁ ଅନ୍ତର୍ଭୁକ୍ତ କରିଥାଏ। ଧ୍ୱନି ପୁସ୍ତକ ଉତ୍ପାଦନ, ପାଠ୍ୟ ବିଷୟବସ୍ତୁ ଏବଂ ବଡ଼ ପରିମାଣର ଭାଷା ପ୍ରକଳ୍ପଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ।
4.1/5 (42)

ଆମେ କଣ ସୁଧାରିପାରିବା? ଆପଣଙ୍କର ପ୍ରତିକ୍ରିୟା ଆମକୁ ସମସ୍ୟାର ସମାଧାନ କରିବାରେ ସହାୟକ ହୋଇଥାଏ ।

AI ଧ୍ୱନି ବ୍ୟବହାର କରିବା ଆଜି ଆରମ୍ଭ କରନ୍ତୁ

TTS.ai ବ୍ୟବହାର କରି ନିର୍ମାତା, ବିକାଶକାରୀ ଏବଂ ବ୍ୟବସାୟରେ ଯୋଗ ଦିଅନ୍ତୁ