ମୁକ୍ତ AI ପାଠ୍ୟରୁ ବାକ୍ୟName
33+ ମୁକ୍ତ ଉତ୍ସ ମଡେଲ, 273+ ସ୍ୱର, 33+ କୌଣସି ଖାତା ଆବଶ୍ୟକ ନାହିଁ ।
ଭାଷା AI ପାଇଁ ଆପଣଙ୍କୁ ଆବଶ୍ୟକୀୟ ସବୁକିଛିName
ମୁକ୍ତ ଉତ୍ସ AI ମଡେଲ ଦ୍ୱାରା ଶକ୍ତିପ୍ରାପ୍ତ 30+ ଉପକରଣ
33+ AI ଧ୍ୱନି ନମୂନାଗୁଡ଼ିକName
ଗୋଟିଏ ପ୍ଲାଟଫର୍ମରେ ମୁକ୍ତ ଉତ୍ସ TTS ନମୁନାର ସବୁଠାରୁ ବ୍ୟାପକ ସଂଗ୍ରହ
Kokoro ମୁକ୍ତ
Kokoro ଗୋଟିଏ 82 ମିଲିୟନ ମାପଦଣ୍ଡ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ଏହାର ଓଜନ ଶ୍ରେଣୀର ଉର୍ଦ୍ଧରେ ଭଲ ଭାବରେ କାମ କରେ। ଏହାର ଛୋଟ ଆକାର ସତ୍ତ୍ୱେ, ଏହା ଅତ୍ୟନ୍ତ ପ୍ରାକୃତିକ ଏବଂ ଅଭିବ୍ୟକ୍ତିଶୀଳ ଭାଷା ଉତ୍ପାଦନ କରେ। Kokoro ଏକାଧିକ ଭାଷା ସମର୍ଥନ କରେ, ଯେଉଁଥିରେ ଇଂରାଜୀ, ଜାପାନୀ, ଚାଇନିଜ ଏବଂ କୋରିଆନ ବିଭିନ୍ନ ପ୍ରକାର ଅଭିବ୍ୟକ୍ତିଶୀଳ ସ୍ୱର ସହିତ। ଏହା ଅତ୍ୟନ୍ତ ଦ୍ରୁତ ଭାବରେ ଚଳାଇଥାଏ - GPU ରେ ପ୍ରକୃତ ସମୟ ଅପେକ୍ଷା ପ୍ରାୟ 100x ଦ୍ରୁତ ଧ୍ୱନି ଉତ୍ପାଦନ କରିଥାଏ।
ଏହା ପାଇଁ ଉତ୍ତମ: ସର୍ବନିମ୍ନ ଲାଟେନସି ସହିତ ଉଚ୍ଚ ଗୁଣବତ୍ତା TTS, ପ୍ରବାହିତ ପ୍ରୟୋଗଗୁଡ଼ିକName
ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ
Piper ମୁକ୍ତ
Piper ଗୋଟିଏ ହାଲୁକା ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଯନ୍ତ୍ର ଯାହାକି Rhasspy ଦ୍ୱାରା ବିକଶିତ ହୋଇଛି ଯାହାକି VITS ଏବଂ larynx ସ୍ଥାପତ୍ୟକୁ ବ୍ୟବହାର କରେ। ଏହା ସମ୍ପୂର୍ଣ୍ଣ ଭାବରେ CPU ଉପରେ ଚାଲୁଛି, ଏହାକୁ ଅଂଶ ଉପକରଣ, ଘର ସ୍ୱୟଂଚାଳିତ, ଏବଂ ଅଫଲାଇନ TTS ଆବଶ୍ୟକ କରୁଥିବା ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ କରିଥାଏ। 30+ ଭାଷାରେ 100ରୁ ଅଧିକ ଧ୍ୱନି ସହିତ, Piper ଗୋଟିଏ Raspberry Pi4ରେ ମଧ୍ୟ ପ୍ରକୃତ ସମୟ ଗତିରେ ପ୍ରାକୃତିକ-ଧ୍ୱନି ବାକ୍ୟ ପ୍ରଦାନ କରେ।
ଏହା ପାଇଁ ଉତ୍ତମ: ଦ୍ରୁତ ପ୍ରାକଦର୍ଶନ, ସୁଗମତା, ଏବଂ ସନ୍ନିବେଶିତ ପ୍ରୟୋଗଗୁଡ଼ିକName
ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ
VITS ମୁକ୍ତ
VITS (ଅନୁସରଣୀୟ ସନ୍ଧାନ ସହିତ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା ଜ୍ଞାନ ପାଇଁ ଶେଷ-ରୁ-ଶେଷ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ) ଏକ ସମତଳ ଶେଷ-ରୁ-ଶେଷ TTS ପଦ୍ଧତି ଯାହାକି ବର୍ତ୍ତମାନ ଦୁଇ-ସ୍ତରୀୟ ମଡେଲ ଅପେକ୍ଷା ଅଧିକ ପ୍ରାକୃତିକ ସ୍ୱର ଧ୍ୱନି ସୃଷ୍ଟି କରିଥାଏ। ଏହା ପ୍ରାକୃତିକତାରେ ଏକ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଉନ୍ନତି ହାସଲ କରିବା ପାଇଁ ସାଧାରଣକରଣ ପ୍ରବାହ ଏବଂ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା ପ୍ରଶିକ୍ଷା ପ୍ରକ୍ରିୟା ସହିତ ବୃଦ୍ଧି ପାଇଥିବା ଅନୁସରଣୀୟ ସନ୍ଧାନକୁ ଗ୍ରହଣ କରିଥାଏ।
ଏହା ପାଇଁ ଉତ୍ତମ: ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି ସହିତ ସାଧାରଣ- ଉଦ୍ଦେଶ୍ୟ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟName
ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ
MeloTTS ମୁକ୍ତ
MyShell.ai ଦ୍ୱାରା MeloTTS ଏକ ବହୁଭାଷୀ TTS ଲାଇବ୍ରେରୀ ଯାହାକି ଇଂରାଜୀ (ଆମେରିକୀୟ, ବ୍ରିଟିଶ, ଭାରତୀୟ, ଅଷ୍ଟ୍ରେଲିଆନ), ସ୍ପେନିସ, ଫ୍ରେଞ୍ଚ, ଚାଇନିଜ, ଜାପାନୀ, ଏବଂ କୋରିଆନକୁ ସମର୍ଥନ କରେ। ଏହା ଅତ୍ୟନ୍ତ ଦ୍ରୁତ, କେବଳ CPU ଉପରେ ପାଖାପାଖି ରିୟଲ-ଟାଇମ ବେଗରେ ପାଠ୍ୟକୁ ପ୍ରକ୍ରିୟା କରିଥାଏ। MeloTTS ଉତ୍ପାଦନ ବ୍ୟବହାର ପାଇଁ ନିର୍ମିତ ଏବଂ CPU ଏବଂ GPU ଉଭୟକୁ ସମର୍ଥନ କରେ।
ଏହା ପାଇଁ ଉତ୍ତମ: ଉତ୍ପାଦନ ପ୍ରୟୋଗଗୁଡ଼ିକୁ ଦ୍ରୁତ, ବହୁଭାଷୀ TTS ଆବଶ୍ୟକ
ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ
Kani TTS 2 ମୁକ୍ତ
Kani-TTS-2 by NineNineSix ଗୋଟିଏ NVIDIA NanoCodec ସହିତ Liquid AI LFM2 backbone ଉପରେ ନିର୍ମିତ ଏକ ଅତ୍ୟନ୍ତ ହଳଦିଆ 400M ପରିମାପକ ମଡେଲ। ଏହା କେବଳ 3GB VRAM ରେ ଚଲାଇଥାଏ ଏବଂ A100 (RTF 0.2) ରେ ~2 ସେକେଣ୍ଡରେ ~10 ସେକେଣ୍ଡର ଭାଷଣ ଉତ୍ପାଦନ କରିଥାଏ। ବର୍ତ୍ତମାନର ସାର୍ବଜନୀନ ରିଲିଜ କେବଳ ଇଂରାଜୀ `kani-tts-2-en` ଯାଞ୍ଚ ବିନ୍ଦୁକୁ ପ୍ରଦାନ କରେ ଏବଂ ଭାଷା କ୍ଲୋନିଂ ପାଇଁ ଆବଶ୍ୟକୀୟ ସ୍ଵରକ-ସମୃଦ୍ଧି ହକ୍କୁ ପ୍ରଦର୍ଶନ କରେ ନାହିଁ - କ୍ଲୋନିଂ ପାଇଁ Chatterbox / IndexTTS2 / F5-TTS ବ୍ୟବହାର କରନ୍ତୁ, କିମ୍ବା Kokoro / MeloTTS ଅଣ-ଇଂରାଜୀ ପାଇଁ।
ଏହା ପାଇଁ ଉତ୍ତମ: କମ୍-VRAM ହାର୍ଡୱେର ଉପରେ ଦ୍ରୁତ ଇଂରାଜୀ ଉତ୍ପାଦନ, ଦ୍ରୁତ ପ୍ରାକଦର୍ଶନ
ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ
OuteTTS ମୁକ୍ତ
OuteTTS ବଡ଼ ଭାଷା ମଡେଲଗୁଡ଼ିକୁ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ କ୍ଷମତା ସହିତ ବଢ଼ାଇଥାଏ, କିନ୍ତୁ ପ୍ରକୃତ ସ୍ଥାପତ୍ୟକୁ ସଂରକ୍ଷଣ କରିଥାଏ। ଏହା llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ଏବଂ Transformers.js ମାଧ୍ୟମରେ ବ୍ରାଉଜର ସନ୍ଧାନକୁ ସମର୍ଥନ କରେ। JSON ଭାବରେ ସଂରକ୍ଷିତ ସ୍ଵର ପ୍ରୋଫାଇଲଗୁଡ଼ିକ ମାଧ୍ୟମରେ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂର ବିଶେଷତା।
ଏହା ପାଇଁ ଉତ୍ତମ: ଆଡ଼ଜଷ୍ଟମେଣ୍ଟ, ବ୍ରାଉଜର ଆଧାରିତ TTS, କମ୍-ସମ୍ପଦ ପରିବେଶଗୁଡ଼ିକName
ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ
Pocket TTS ମୁକ୍ତ
Kyutai (Moshi ର ନିର୍ମାତା) ଦ୍ୱାରା ପକେଟ TTS ଏକ ସଂକଳ୍ପ 100M ପରିମାପ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ଏହାର ଓଜନଠାରୁ ଅଧିକ ଭଲ ଭାବରେ ସ୍ପର୍ଶ କରିଥାଏ। ଏହା CPU ଉପରେ ଦକ୍ଷତା ସହିତ ଚାଲୁଛି, ଗୋଟିଏ ସ୍ୱର ନମୁନାରୁ ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନକୁ ସମର୍ଥନ କରେ, ଏବଂ ପ୍ରାକୃତିକ-ସ୍ୱର ଭାଷା ଉତ୍ପାଦନ କରେ। ଛୋଟ ମଡେଲ ଆକାର ଏହାକୁ ଅଂଶ ବିସ୍ତାର ଏବଂ କମ୍-ସମ୍ପଦ ପରିବେଶଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ କରିଥାଏ।
ଏହା ପାଇଁ ଉତ୍ତମ: ହଳଦିଆ ବିସ୍ତାର, CPU-କେବଳ ପରିବେଶ, ଶୀଘ୍ର ଧ୍ୱନି କ୍ଲୋନିଂName
ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ
Kitten TTS ମୁକ୍ତ
KittenML ଦ୍ୱାରା Kitten TTS ଗୋଟିଏ ଅତ୍ୟନ୍ତ ହଳଦିଆ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ONNX ଉପରେ ନିର୍ମିତ ହୋଇଛି । 15M ରୁ 80M ପରିମାପକ (ଡିସ୍କରେ 25-80 MB) ସହିତ, ଏହା GPU ଆବଶ୍ୟକ ନକରି CPU ଉପରେ ଉଚ୍ଚ ଗୁଣବତ୍ତା ବାକ୍ୟ ସଂଶ୍ଲେଷଣ ପ୍ରଦାନ କରିଥାଏ । 8ଟି ସ୍ଥାପିତ ବାକ୍ୟ, ସଜେଇ ହେଉଥିବା ବାକ୍ୟ ବେଗ, ଏବଂ ସଂଖ୍ୟା, ମୁଦ୍ରା ଏବଂ ଏକକଗୁଡ଼ିକ ପାଇଁ ସ୍ଥାପିତ ପାଠ୍ୟ ପୂର୍ବପ୍ରକ୍ରିୟାକରଣ ବିଶେଷତାଗୁଡ଼ିକ । ସର୍ଭର ଶେଷଭାଗରେ ବିସ୍ତାର ଏବଂ କମ-ଅଧିକାର ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ ।
ଏହା ପାଇଁ ଉତ୍ତମ: ଦ୍ରୁତ ହଳଦିଆ TTS, ଅଂଶ ବିସ୍ତାର, କମ- ଲାଟେନସି ପ୍ରୟୋଗଗୁଡ଼ିକName
ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ
Ming-Omni TTS ମୁକ୍ତ
inclusionAI ଦ୍ୱାରା Ming-omni-tts-0.5B ଏକ ସଙ୍କଟ omni-modal ଭାଷା ମଡେଲ ଯାହାକି BailingMM ଘନ backbone ଉପରେ ନିର୍ମିତ ହୋଇଛି ଗୋଟିଏ Patch-by-Patch ଫ୍ଲୋ-ମେଚିଂ ଧ୍ୱନି ବିକୋଡର ସହିତ । 44.1kHz ନିର୍ଗମନ (CD ଗୁଣବତ୍ତା ପାଖାପାଖି),3+ ସେକେଣ୍ଡ ସଂଦର୍ଭରୁ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂକୁ ସମର୍ଥନ କରେ, ଏବଂ JSON ନିର୍ଦ୍ଦେଶନାମା ମାଧ୍ୟମରେ ସ୍ଥାପିତ ଭାବନା / ଭାଷା / BGM ନିୟନ୍ତ୍ରଣକୁ ଅନ୍ତର୍ଭୁକ୍ତ କରେ । ଚାଇନିଜ ବେଞ୍ଚମାର୍କରେ ଉତ୍ତମ ସ୍ଥିରତା — 0.83% WER ।
ଏହା ପାଇଁ ଉତ୍ତମ: ଉଚ୍ଚ-ସତ୍ୟତା ଦ୍ୱିଭାଷୀ ବର୍ଣ୍ଣନା, ଭାବନା ନିୟନ୍ତ୍ରିତ ସ୍ୱର ଅଭିନୟ, ଚାଇନିଜ ଅଡିଓବାଇକ ବିଷୟବସ୍ତୁ
ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ
MOSS-TTS Nano ମୁକ୍ତ
MOSS-TTS-Nano-100M ହେଉଛି MOSS-TTS ପରିବାରର OpenMOSSର ସଂକଳ୍ପ 100M-ପର୍ଯ୍ୟାୟ ବିକଳ୍ପ, ବିଳମ୍ବ-ପରିବର୍ତ୍ତକ ଢାଞ୍ଚାକୁ ଭାଗ କରିଥାଏ। 8B ମଡେଲର ଉଚ୍ଚତମ ଗୁଣବତ୍ତା ~80x ଛୋଟ ଓଜନ ଏବଂ ଦୃଶ୍ୟମାନ ଭାବେ ପ୍ରତି ଅନୁରୋଧରେ VRAMକୁ ହ୍ରାସ କରିଥାଏ, ଏହାକୁ ମୁକ୍ତ-ସ୍ତର ଏବଂ ଉଚ୍ଚ-ଥ୍ରୁପାଉଟ ବିସ୍ତରଣ ପାଇଁ ଉପଯୁକ୍ତ କରିଥାଏ। ସମାନ 20-ଭାଷା ସ୍ତର।
ଏହା ପାଇଁ ଉତ୍ତମ: ମୁକ୍ତ-ସ୍ତର TTS, ଉଚ୍ଚ-ବ୍ଯାସହାର ଉତ୍ପାଦନ, କମ-ବିଳମ୍ବିତ ଅନ୍ତରାପୃଷ୍ଠ ବ୍ୟବହାର
ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ
Bark ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ପରିବର୍ତ୍ତକ ଆଧାରିତ ପାଠ୍ୟ-ରୁ-ଧ୍ୱନି ମଡେଲ ଯାହାକି ବାସ୍ତବବାଦୀ ବକ୍ତବ୍ୟ, ସଂଗୀତ ଏବଂ ଧ୍ୱନି ପ୍ରଭାବ ସୃଷ୍ଟି କରିଥାଏ।
ବିକାଶକାରୀ: Suno · ଅନୁମତିପତ୍ର: MIT
ଚେଷ୍ଟାକରନ୍ତୁ
Bark Small ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ଦ୍ରୁତ ଅନୁମାନ ଏବଂ କମ ସ୍ମୃତିସ୍ଥାନ ବ୍ୟବହାର ସହିତ Bark ର ହାଲୁକା ସଂସ୍କରଣ ।
ବିକାଶକାରୀ: Suno · ଅନୁମତିପତ୍ର: MIT
ଚେଷ୍ଟାକରନ୍ତୁ
CosyVoice 2 ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ଅଲିବାବା ର ମାପଯୋଗ୍ୟ ଷ୍ଟ୍ରିମିଂ TTS ମାନବ-ସମାନ ପ୍ରାକୃତିକତା ଏବଂ ଶୂନ୍ୟ-ନିକଟତର ଲାଟେନସି ସହିତ।
ବିକାଶକାରୀ: Alibaba (Tongyi Lab) · ଅନୁମତିପତ୍ର: Apache 2.0
ଚେଷ୍ଟାକରନ୍ତୁ
Dia TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ବହୁ-ବକ୍ତା ସଂଳାପ ନିର୍ମାଣ ମଡେଲ ଯାହା ବକ୍ତାମାନଙ୍କ ମଧ୍ୟରେ ପ୍ରାକୃତିକ ବାର୍ତ୍ତାଳାପ ସୃଷ୍ଟି କରେ।
ବିକାଶକାରୀ: Nari Labs · ଅନୁମତିପତ୍ର: Apache 2.0
ଚେଷ୍ଟାକରନ୍ତୁ
Parler TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ଆପଣ ପ୍ରାକୃତିକ ଭାଷାରେ ଚାହୁଁଥିବା ଧ୍ୱନିକୁ ବର୍ଣ୍ଣନା କରନ୍ତୁ ଏବଂ ପାର୍ଲର ମେଳଖାଉଥିବା ଭାଷଣ ସୃଷ୍ଟି କରିଥାଏ।
ବିକାଶକାରୀ: Hugging Face · ଅନୁମତିପତ୍ର: Apache 2.0
ଚେଷ୍ଟାକରନ୍ତୁ
IndexTTS-2 ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ଶୂନ୍ୟ-ଶଟ TTS ଫାଇନ-ଗ୍ରେନ ଇମୋସନ ନିୟନ୍ତ୍ରଣ ଏବଂ ଉଚ୍ଚ ଅଭିବ୍ୟକ୍ତିଶୀଳତା ସହିତ ।
ବିକାଶକାରୀ: Index Team · ଅନୁମତିପତ୍ର: Bilibili Model License
ଚେଷ୍ଟାକରନ୍ତୁ
Spark TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ନିୟନ୍ତ୍ରଣଯୋଗ୍ୟ ଅନୁଭୂତି ଏବଂ ପରାମର୍ଶ ମାଧ୍ୟମରେ କଥାବାର୍ତ୍ତା ଶୈଳୀ ସହିତ ଧ୍ୱନି କ୍ଲୋନ TTS।
ବିକାଶକାରୀ: SparkAudio · ଅନୁମତିପତ୍ର: CC BY-NC-SA 4.0
ଚେଷ୍ଟାକରନ୍ତୁ
GPT-SoVITS ପୂର୍ବନିର୍ଦ୍ଧାରିତ
କିଛି-ଶଟ ସ୍ୱର କ୍ଲୋନ TTS ଯାହାକି କେବଳ5ସେକେଣ୍ଡ ଧ୍ୱନିରୁ ଯେକୌଣସି ସ୍ୱରକୁ ନକଲ କରିଥାଏ।
ବିକାଶକାରୀ: RVC-Boss · ଅନୁମତିପତ୍ର: MIT
ଚେଷ୍ଟାକରନ୍ତୁ
Orpheus ପୂର୍ବନିର୍ଦ୍ଧାରିତ
100K ଘଣ୍ଟା ବାକ୍ୟ ତଥ୍ୟ ଉପରେ ପ୍ରଶିକ୍ଷିତ ମାନବ ସ୍ତରୀୟ ଭାବଗତ TTS ମଡେଲ ।
ବିକାଶକାରୀ: Canopy Labs · ଅନୁମତିପତ୍ର: Llama 3.2 Community
ଚେଷ୍ଟାକରନ୍ତୁ
Qwen3 TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ଅଲିବାବାର ବହୁଭାଷୀ TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଧ୍ୱନି ଏବଂ ପାଠ୍ୟରୁ ଧ୍ୱନି ଡିଜାଇନ ସହିତ।
ବିକାଶକାରୀ: Alibaba (Qwen) · ଅନୁମତିପତ୍ର: Apache 2.0
ଚେଷ୍ଟାକରନ୍ତୁ
VieNeu-TTS-v2 ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ଭିଏତନାମ + ଇଂରାଜୀ ସଂକେତ-ସ୍ୱିଚ TTS7ପ୍ରାଥମିକ ସଂରଚନା ଧ୍ୱନି ଏବଂ ଶୂନ୍ୟ-ଶଟ ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ। କେବଳ CPU, କୌଣସି GPU ଆବଶ୍ୟକ ନାହିଁ।
ବିକାଶକାରୀ: Phạm Nguyễn Ngọc Bảo · ଅନୁମତିପତ୍ର: Apache 2.0
ଚେଷ୍ଟାକରନ୍ତୁ
Chatterbox Turbo ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ଦ୍ରୁତ ଚାଟରବକ୍ସ ଅଧି-200ms ଲାଟେନସି ଏବଂ ହସ, କାଶି ଏବଂ ଅଧିକ ପାଇଁ ପାରାଲିଙ୍ଗୁଇଷ୍ଟିକ ଟ୍ୟାଗ ସହିତ।
ବିକାଶକାରୀ: Resemble AI · ଅନୁମତିପତ୍ର: MIT
ଚେଷ୍ଟାକରନ୍ତୁ
VoxCPM ପୂର୍ବନିର୍ଦ୍ଧାରିତ
Tokenizer-ମୁକ୍ତ TTS 44.1kHz ଧ୍ୱନି ଉତ୍ପାଦନ କରୁଅଛି ଯାହାର ପ୍ରସଙ୍ଗ-ସଚେତନ ଅନୁଚ୍ଛେଦ ସ୍ଥିରତା ଅଛି।
ବିକାଶକାରୀ: OpenBMB · ଅନୁମତିପତ୍ର: Apache 2.0
ଚେଷ୍ଟାକରନ୍ତୁ
VibeVoice ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ପୋଡକାଷ୍ଟ ଏବଂ ଧ୍ୱନି ପୁସ୍ତକ ଭଳି ଲମ୍ବା-ଫର୍ମ ବହୁ-ବକ୍ତା ବିଷୟବସ୍ତୁ ପାଇଁ Microsoft ମଡେଲ।
ବିକାଶକାରୀ: Microsoft · ଅନୁମତିପତ୍ର: MIT
ଚେଷ୍ଟାକରନ୍ତୁ
CosyVoice3 ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ଦ୍ୱି-ପ୍ରବାହ, ଅନୁଭୂତି ନିୟନ୍ତ୍ରଣ, ଏବଂ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂ ସହିତ ପରବର୍ତ୍ତୀ-ପୀଢ଼ିର ବହୁଭାଷା TTS।
ବିକାଶକାରୀ: Alibaba (FunAudioLLM) · ଅନୁମତିପତ୍ର: Apache 2.0
ଚେଷ୍ଟାକରନ୍ତୁ
NAMAA Saudi TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ପ୍ରଥମ ଖୋଲା ସାଉଦି-ଆରବୀ TTS। ଚାଟରବକ୍ସ-ଗୁଣବତ୍ତା ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ ସ୍ଥାନୀୟ ସାଉଦି ଭାଷା।
ବିକାଶକାରୀ: NAMAA Space · ଅନୁମତିପତ୍ର: MIT
ଚେଷ୍ଟାକରନ୍ତୁ
Darwin TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ
FFN ଓଜନ ସହିତ କ୍ରସ-ମୋଡାଲ Qwen3-TTS ବିକଳ୍ପଟି Qwen3-1.7B ଭାଷା ମଡେଲରୁ ଶକ୍ତ ବହୁଭାଷୀ କ୍ଲୋନିଂ ପାଇଁ ମିଶ୍ରିତ ହୋଇଛି । Name
ବିକାଶକାରୀ: FINAL-Bench · ଅନୁମତିପତ୍ର: Apache 2.0
ଚେଷ୍ଟାକରନ୍ତୁ
MOSS-TTSD ପୂର୍ବନିର୍ଦ୍ଧାରିତ
ବହୁ-ବକ୍ତା ଆଲୋଚନା ନିରନ୍ତର ମଡେଲ -5ବକ୍ତା ଏବଂ 60 ମିନିଟ ସମନ୍ୱିତ ଧ୍ୱନି ସହିତ ପୋଡକାଷ୍ଟ-ଶୈଳୀ କଥାବାର୍ତ୍ତା ସୃଷ୍ଟି କରନ୍ତୁ।
ବିକାଶକାରୀ: OpenMOSS · ଅନୁମତିପତ୍ର: Apache 2.0
ଚେଷ୍ଟାକରନ୍ତୁ
CosyVoice 2
ଅଲିବାବା ର ମାପଯୋଗ୍ୟ ଷ୍ଟ୍ରିମିଂ TTS ମାନବ-ସମାନ ପ୍ରାକୃତିକତା ଏବଂ ଶୂନ୍ୟ-ନିକଟତର ଲାଟେନସି ସହିତ।
ଭାଷା: en, zh, ja, ko, fr, de, it, es
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
IndexTTS-2
ଶୂନ୍ୟ-ଶଟ TTS ଫାଇନ-ଗ୍ରେନ ଇମୋସନ ନିୟନ୍ତ୍ରଣ ଏବଂ ଉଚ୍ଚ ଅଭିବ୍ୟକ୍ତିଶୀଳତା ସହିତ ।
ଭାଷା: en, zh
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
Spark TTS
ନିୟନ୍ତ୍ରଣଯୋଗ୍ୟ ଅନୁଭୂତି ଏବଂ ପରାମର୍ଶ ମାଧ୍ୟମରେ କଥାବାର୍ତ୍ତା ଶୈଳୀ ସହିତ ଧ୍ୱନି କ୍ଲୋନ TTS।
ଭାଷା: en, zh
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
GPT-SoVITS
କିଛି-ଶଟ ସ୍ୱର କ୍ଲୋନ TTS ଯାହାକି କେବଳ5ସେକେଣ୍ଡ ଧ୍ୱନିରୁ ଯେକୌଣସି ସ୍ୱରକୁ ନକଲ କରିଥାଏ।
ଭାଷା: en, zh, ja, ko
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
Chatterbox
Resemble AI ଠାରୁ ଆବେଗ ନିୟନ୍ତ୍ରଣ ସହିତ state-of-the-art ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନିଂ ।
ଭାଷା: en
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
Tortoise TTS
ବହୁ-ଭାଷା ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଗୁଣବତ୍ତା ଉପରେ ଆଧାରିତ ଅଟୋ-ରିଗ୍ରେସିଭ ଢାଞ୍ଚା ସହିତ ।
ଭାଷା: en
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
OpenVoice
ଶୈଳୀ, ଅନୁଭୂତି ଏବଂ ଉଚ୍ଚାରଣ ଉପରେ ଗ୍ରେନାଲ ନିୟନ୍ତ୍ରଣ ସହିତ ତୁରନ୍ତ ସ୍ୱର କ୍ଲୋନିଂ।
ଭାଷା: en, zh, ja, ko, fr, es
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
VieNeu-TTS-v2
ଭିଏତନାମ + ଇଂରାଜୀ ସଂକେତ-ସ୍ୱିଚ TTS7ପ୍ରାଥମିକ ସଂରଚନା ଧ୍ୱନି ଏବଂ ଶୂନ୍ୟ-ଶଟ ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ। କେବଳ CPU, କୌଣସି GPU ଆବଶ୍ୟକ ନାହିଁ।
ଭାଷା: vi, en
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
Chatterbox Turbo
ଦ୍ରୁତ ଚାଟରବକ୍ସ ଅଧି-200ms ଲାଟେନସି ଏବଂ ହସ, କାଶି ଏବଂ ଅଧିକ ପାଇଁ ପାରାଲିଙ୍ଗୁଇଷ୍ଟିକ ଟ୍ୟାଗ ସହିତ।
ଭାଷା: en
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
VoxCPM
Tokenizer-ମୁକ୍ତ TTS 44.1kHz ଧ୍ୱନି ଉତ୍ପାଦନ କରୁଅଛି ଯାହାର ପ୍ରସଙ୍ଗ-ସଚେତନ ଅନୁଚ୍ଛେଦ ସ୍ଥିରତା ଅଛି।
ଭାଷା: en, zh
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
OuteTTS
LLM-ଆଧାରିତ TTS ଯାହାକି CPU, GPU, କିମ୍ବା lama.cpp ଏବଂ Transformers.js ମାଧ୍ୟମରେ ବ୍ରାଉଜରରେ ଚଲାଇଥାଏ।
ଭାଷା: en
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
Pocket TTS
ଗୋଟିଏ ନମୁନାରୁ ସ୍ୱର କ୍ଲୋନିଂ ସହିତ Kyutai ଦ୍ୱାରା ହଳଦିଆ 100M ପରିମାପକ ମଡେଲ ।
ଭାଷା: en, fr
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
CosyVoice3
ଦ୍ୱି-ପ୍ରବାହ, ଅନୁଭୂତି ନିୟନ୍ତ୍ରଣ, ଏବଂ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂ ସହିତ ପରବର୍ତ୍ତୀ-ପୀଢ଼ିର ବହୁଭାଷା TTS।
ଭାଷା: en, zh, ja, ko, de, es, fr, it, ru
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
NAMAA Saudi TTS
ପ୍ରଥମ ଖୋଲା ସାଉଦି-ଆରବୀ TTS। ଚାଟରବକ୍ସ-ଗୁଣବତ୍ତା ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ ସ୍ଥାନୀୟ ସାଉଦି ଭାଷା।
ଭାଷା: ar
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
Darwin TTS
FFN ଓଜନ ସହିତ କ୍ରସ-ମୋଡାଲ Qwen3-TTS ବିକଳ୍ପଟି Qwen3-1.7B ଭାଷା ମଡେଲରୁ ଶକ୍ତ ବହୁଭାଷୀ କ୍ଲୋନିଂ ପାଇଁ ମିଶ୍ରିତ ହୋଇଛି । Name
ଭାଷା: en, ko, ja, zh
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
MOSS-TTSD
ବହୁ-ବକ୍ତା ଆଲୋଚନା ନିରନ୍ତର ମଡେଲ -5ବକ୍ତା ଏବଂ 60 ମିନିଟ ସମନ୍ୱିତ ଧ୍ୱନି ସହିତ ପୋଡକାଷ୍ଟ-ଶୈଳୀ କଥାବାର୍ତ୍ତା ସୃଷ୍ଟି କରନ୍ତୁ।
ଭାଷା: en, zh
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
Ming-Omni TTS
ଉଚ୍ଚ-ସତ୍ୟତା 44.1kHz ନିର୍ଗମ ଏବଂ ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନିଂ ସହିତ inclusionAI ରୁ ସଙ୍କଟ 0.5B ଅମ୍ନି-ମୋଡାଲ ଭାଷା ମଡେଲ ।
ଭାଷା: en, zh
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ
MOSS-TTS Nano
ଛୋଟ 100M MOSS-TTS ବିକଳ୍ପ - ସମାନ ଢାଞ୍ଚା, 80x ଛୋଟ, ମୁକ୍ତ-ସ୍ତର ଲାଟେନସି ।
ଭାଷା: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁବିକାଶକାରୀ- ପ୍ରଥମ API
OpenAI-ସହଜ REST API. ଗୋଟିଏ ଶେଷ ବିନ୍ଦୁ, 22+ ନମୂନା. ରିୟଲ-ଟାଇମ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଷ୍ଟ୍ରିମିଂ ସମର୍ଥନ।
- OpenAI- ସୁସଂଗତ ଶୈଳୀ
- ରିଅଲ-ଟାଇମ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ TTS ପ୍ରବାହ
- ବଡ଼ କାର୍ଯ୍ୟଗୁଡ଼ିକ ପାଇଁ ବ୍ୟାଚ ପ୍ରକ୍ରିୟାକରଣ
- Webhook ବିଜ୍ଞପ୍ତିଗୁଡ଼ିକ
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
ସରଳ, ପାରଦର୍ଶୀ ମୂଲ୍ୟାଙ୍କନ
ମୁକ୍ତ ଭାବରେ ଆରମ୍ଭ କରନ୍ତୁ । ଆପଣ ବଢିବା ସମୟରେ ମାପନ୍ତୁ ।
ମୁକ୍ତ
15,000 ଅକ୍ଷର + 5,000/ଦିନ
- କୋକୋରୋ ସମେତ 7ଟି ମୁକ୍ତ ନମୂନା
- ପ୍ରତି ଉତ୍ପତ୍ତିରେ 5,000 ଅକ୍ଷର
- API ଅଭିଗମ୍ୟତା ଅନ୍ତର୍ଭୁକ୍ତ
ଆରମ୍ଭକର୍ତ୍ତା
500 ଋଣ/ମାସ
- ସମସ୍ତ 22+ ଆକାର
- ପ୍ରତି ଉତ୍ପତ୍ତିରେ 100,000 ଅକ୍ଷର
- ଧ୍ୱନି କ୍ଲୋନିଂName
ପ୍ରୋ
2,000 ଋଣ/ମାସ
- ଆରମ୍ଭକର୍ତ୍ତାରେ ସବୁକିଛି
- API ସୁଗମତା
- ପ୍ରାଥମିକତା ପ୍ରକ୍ରିୟାକରଣ
ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName
ଆମେ କଣ ସୁଧାରିପାରିବା? ଆପଣଙ୍କର ପ୍ରତିକ୍ରିୟା ଆମକୁ ସମସ୍ୟାର ସମାଧାନ କରିବାରେ ସହାୟକ ହୋଇଥାଏ ।
AI ଧ୍ୱନି ବ୍ୟବହାର କରିବା ଆଜି ଆରମ୍ଭ କରନ୍ତୁ
TTS.ai ବ୍ୟବହାର କରି ନିର୍ମାତା, ବିକାଶକାରୀ ଏବଂ ବ୍ୟବସାୟରେ ଯୋଗ ଦିଅନ୍ତୁ