ମୁକ୍ତ AI ପାଠ୍ୟରୁ ବାକ୍ୟName

82M ପ୍ରାଚଳଗୁଡ଼ିକ ଅତ୍ୟନ୍ତ ଶୀଘ୍ର ଅଭିବ୍ୟକ୍ତିଶୀଳ ଧ୍ୱନିଗୁଡ଼ିକ ବହୁଭାଷୀName ପ୍ରବାହ ସମର୍ଥନ

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference

ସ୍ଥିର · 1.5GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

Piper

CPU- ସହଜ ଅଫଲାଇନ ସକ୍ଷମ 100+ ଧ୍ୱନି 35+ ଭାଷା SSML ସମର୍ଥନ

ଗୋଟିଏ ଦ୍ରୁତ, ସ୍ଥାନୀୟ ନ୍ୟୁରାଲ ପାଠ୍ୟରୁ ଭାଷା ତନ୍ତ୍ର ଯାହାକି ରାସବେରି ପି ଏବଂ ସନ୍ନିବେଶିତ ଉପକରଣଗୁଡ଼ିକ ପାଇଁ ଅନୁକୂଳିତ। Name

ସ୍ଥିର · 0 (CPU only) VRAM ଚେଷ୍ଟାକରନ୍ତୁ

VITS

ଶେଷ-ରୁ-ଶେଷ ସଂଶ୍ଲେଷଣ ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି ଦ୍ରୁତ ଅନୁମାନ ଏକାଧିକ ବକ୍ତା

ଶେଷ-ରୁ-ଶେଷ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ପାଇଁ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱୀ ଶିକ୍ଷାଦାନ ସହିତ ସର୍ତ୍ତାବଳୀ ବିରଳ ସ୍ୱୟଂ ସଂକେତାଙ୍କକ।

ସ୍ଥିର · 1GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

MeloTTS

CPU- ଅନୁକୂଳିତ ବହୁଭାଷୀName ଏକାଧିକ ଉଚ୍ଚାରଣ ଚିହ୍ନKCharselect unicode block name ଉତ୍ପାଦନ-ସଜ୍ଜିତ ନିମ୍ନ ବିଳମ୍ବ

ଉଚ୍ଚ ଗୁଣବତ୍ତା ବିବିଧଭାଷା ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଯାହାକି CPU ରେ ସର୍ବନିମ୍ନ ଲାଟେନସି ସହିତ ଚାଲୁଛି। Name

ସ୍ଥିର · 0.5GB (GPU optional) VRAM ଚେଷ୍ଟାକରନ୍ତୁ

Bark

ଧ୍ୱନି ପ୍ରଭାବ ହସିବା/ହସିବା ସଂଗୀତ ନିର୍ମାଣ ସ୍ପିକରName ବହୁଭାଷୀName

ପରିବର୍ତ୍ତକ ଆଧାରିତ ପାଠ୍ୟ-ରୁ-ଧ୍ୱନି ମଡେଲ ଯାହାକି ବାସ୍ତବବାଦୀ ବକ୍ତବ୍ୟ, ସଂଗୀତ ଏବଂ ଧ୍ୱନି ପ୍ରଭାବ ସୃଷ୍ଟି କରିଥାଏ।

ଧୀରେ · 5GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

Bark Small

ହଳଦିଆ ସମ୍ପୂର୍ଣ୍ଣ ବର୍କ୍ ଠାରୁ ଶୀଘ୍ର ଭାବପ୍ରବଣ ବକ୍ତବ୍ୟ ବହୁଭାଷୀName

ଦ୍ରୁତ ଅନୁମାନ ଏବଂ କମ ସ୍ମୃତିସ୍ଥାନ ବ୍ୟବହାର ସହିତ Bark ର ହାଲୁକା ସଂସ୍କରଣ ।

ମଧ୍ଯମ · 2GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

CosyVoice 2

ପ୍ରବାହ ଶୂନ୍ୟ-ଶଟ କ୍ଲୋନିଂ କ୍ରସ-ଭାଷାName ଅନୁଭୂତି ନିୟନ୍ତ୍ରଣ ମାନବ-ସମାନତା

ଅଲିବାବା ର ମାପଯୋଗ୍ୟ ଷ୍ଟ୍ରିମିଂ TTS ମାନବ-ସମାନ ପ୍ରାକୃତିକତା ଏବଂ ଶୂନ୍ୟ-ନିକଟତର ଲାଟେନସି ସହିତ।

Dia TTS

ବହୁ-ସ୍ପିକର ସଂଳାପ ସୃଷ୍ଟି ପ୍ରାକୃତିକ ତରଙ୍ଗ-ଗ୍ରହଣ ଭାବପ୍ରବଣ ଅଭିବ୍ୟକ୍ତି ପ୍ରାଚଳଗୁଡ଼ିକ

ବହୁ-ବକ୍ତା ସଂଳାପ ନିର୍ମାଣ ମଡେଲ ଯାହା ବକ୍ତାମାନଙ୍କ ମଧ୍ୟରେ ପ୍ରାକୃତିକ ବାର୍ତ୍ତାଳାପ ସୃଷ୍ଟି କରେ।

Parler TTS

ଧ୍ୱନି ବର୍ଣ୍ଣନା ପ୍ରାକୃତିକ ଭାଷା ନିୟନ୍ତ୍ରଣ ନମନୀୟ ସ୍ୱର ନିର୍ମାଣ କୌଣସି ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଧ୍ୱନି ଆବଶ୍ୟକ ନାହିଁ

ଆପଣ ପ୍ରାକୃତିକ ଭାଷାରେ ଚାହୁଁଥିବା ଧ୍ୱନିକୁ ବର୍ଣ୍ଣନା କରନ୍ତୁ ଏବଂ ପାର୍ଲର ମେଳଖାଉଥିବା ଭାଷଣ ସୃଷ୍ଟି କରିଥାଏ।

Indic Parler TTS

ଭାରତୀୟ ଭାଷା ଧ୍ୱନି ବର୍ଣ୍ଣନା ପ୍ରାକୃତିକ ଭାଷା ନିୟନ୍ତ୍ରଣ ପ୍ରଚଳିତ ଭାରତୀୟ ଉଚ୍ଚାରଣKCharselect unicode block name

ପ୍ରାକୃତିକ ଭାଷା ସ୍ୱର ନିୟନ୍ତ୍ରଣ ସହିତ 8+ ଭାରତୀୟ ଭାଷା ପାଇଁ ଉଚ୍ଚ ଗୁଣବତ୍ତା ସମ୍ପନ୍ନ ଭାଷଣ ।

ଧୀରେ · 8GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

KhanomTan TTS

ଥାଇ TTS ଏକାଧିକ ବକ୍ତା YourTTS ଢାଞ୍ଚା ବାଣିଜ୍ୟିକ-ନିରାପଦ ଲାଇସେନ୍ସ

ଥାଇ-ପ୍ରଥମ ପାଠ୍ୟ-ରୁ-ବାକ୍ସ, ବକ୍ତା ସ୍ୱରଗୁଡ଼ିକର ଗୋଟିଏ ଚୟନ ସହିତ। Name

ସ୍ଥିର · 2GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

IndexTTS-2

ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଶୂନ୍ୟ-ଶଟ ଭାବପ୍ରବଣ ଭେକଟରଗୁଡ଼ିକ ଅଭିବ୍ୟକ୍ତ ଭାଷଣKCharselect unicode block name ଫାଇନ- ଗ୍ରେନ ନିୟନ୍ତ୍ରଣ

ଶୂନ୍ୟ-ଶଟ TTS ଫାଇନ-ଗ୍ରେନ ଇମୋସନ ନିୟନ୍ତ୍ରଣ ଏବଂ ଉଚ୍ଚ ଅଭିବ୍ୟକ୍ତିଶୀଳତା ସହିତ ।

Spark TTS

ଧ୍ୱନି କ୍ଲୋନିଂ ଅନୁଭୂତି ନିୟନ୍ତ୍ରଣ ଶୈଳୀ ନିୟନ୍ତ୍ରଣ ପ୍ରମୋଟ- ଆଧାରିତ 5-ସେକଣ୍ଡ କ୍ଲୋନ

ନିୟନ୍ତ୍ରଣଯୋଗ୍ୟ ଅନୁଭୂତି ଏବଂ ପରାମର୍ଶ ମାଧ୍ୟମରେ କଥାବାର୍ତ୍ତା ଶୈଳୀ ସହିତ ଧ୍ୱନି କ୍ଲୋନ TTS।

GPT-SoVITS

5-ସେକଣ୍ଡ କ୍ଲୋନ ଗୀତ ଗାଇଥିବା ସ୍ୱର କିଛି-ଶଟ ଶିଖିବା ଉଚ୍ଚ ସତ୍ୟତା କ୍ରସ-ଭାଷାName

କିଛି-ଶଟ ସ୍ୱର କ୍ଲୋନ TTS ଯାହାକି କେବଳ5ସେକେଣ୍ଡ ଧ୍ୱନିରୁ ଯେକୌଣସି ସ୍ୱରକୁ ନକଲ କରିଥାଏ।

ଧୀରେ · 6GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

Orpheus

ମାନବ-ସ୍ତରୀୟ ଭାବନା 100K ଘଣ୍ଟା ପ୍ରଶିକ୍ଷଣ ପ୍ରାକୃତିକ ଜୋର ଅଭିବ୍ୟକ୍ତ ଭାଷଣKCharselect unicode block name

100K ଘଣ୍ଟା ବାକ୍ୟ ତଥ୍ୟ ଉପରେ ପ୍ରଶିକ୍ଷିତ ମାନବ ସ୍ତରୀୟ ଭାବଗତ TTS ମଡେଲ ।

Chatterbox

ଶୂନ୍ୟ-ଶଟ କ୍ଲୋନିଂ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଉଚ୍ଚ ସତ୍ୟତା ଶୈଳୀ ସ୍ଥାନାନ୍ତରଣ ଏକକ ନମୁନା କ୍ଲୋନିଂ

Resemble AI ଠାରୁ ଆବେଗ ନିୟନ୍ତ୍ରଣ ସହିତ state-of-the-art ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନିଂ ।

Tortoise TTS

ସର୍ବାଧିକ ଗୁଣବତ୍ତା ବହୁ-ଧ୍ୱନି DALL-E ସ୍ଥାପତ୍ୟ ଧ୍ୱନି କ୍ଲୋନିଂ ସ୍ୱୟଂ-ପୃଥକୀକରଣ

ବହୁ-ଭାଷା ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଗୁଣବତ୍ତା ଉପରେ ଆଧାରିତ ଅଟୋ-ରିଗ୍ରେସିଭ ଢାଞ୍ଚା ସହିତ ।

ଧୀରେ · 8GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

StyleTTS 2

ମାନବ-ସ୍ତର ଶୈଳୀ ବିସ୍ତାର ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତାପୂର୍ଣ୍ଣ ପ୍ରଶିକ୍ଷଣ ପ୍ରାକୃତିକ ପରିବର୍ତ୍ତନ ଉଚ୍ଚ ସତ୍ୟତା

ମାନବ ସ୍ତରୀୟ ପାଠ-ରୁ-ବାକ୍ୟ ମାଧ୍ୟମରେ ଶୈଳୀ ପ୍ରସାରଣ ଏବଂ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା ପ୍ରଶିକ୍ଷା

OpenVoice

ତୁରନ୍ତ କ୍ଲୋନ ଧ୍ୱନି ପରିବର୍ତ୍ତନ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଉଚ୍ଚାରଣ ନିୟନ୍ତ୍ରଣ ବହୁଭାଷୀName

ଶୈଳୀ, ଅନୁଭୂତି ଏବଂ ଉଚ୍ଚାରଣ ଉପରେ ଗ୍ରେନାଲ ନିୟନ୍ତ୍ରଣ ସହିତ ତୁରନ୍ତ ସ୍ୱର କ୍ଲୋନିଂ।

Qwen3 TTS

9 ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଧ୍ୱନି ପାଠ୍ୟରୁ ଧ୍ୱନି ଡିଜାଇନ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଭାଷାName

ଅଲିବାବାର ବହୁଭାଷୀ TTS ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଧ୍ୱନି ଏବଂ ପାଠ୍ୟରୁ ଧ୍ୱନି ଡିଜାଇନ ସହିତ।

ମଧ୍ଯମ · 7GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

VieNeu-TTS-v2

7 ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଧ୍ୱନି (ଉତ୍ତର + ଦକ୍ଷିଣ ଉଚ୍ଚାରଣ ଚିହ୍ନ) Name En-Vi ସଂକେତ-ସ୍ୱିଚ ଧ୍ୱନି କ୍ଲୋନିଂ (3-5s ସଂରଚନା) ପଡୋସ / ବହୁ-ବକ୍ତା ସମର୍ଥନ କେବଳ CPU — କୌଣସି GPU ଆବଶ୍ୟକ ନାହିଁ

ଭିଏତନାମ + ଇଂରାଜୀ ସଂକେତ-ସ୍ୱିଚ TTS7ପ୍ରାଥମିକ ସଂରଚନା ଧ୍ୱନି ଏବଂ ଶୂନ୍ୟ-ଶଟ ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ। କେବଳ CPU, କୌଣସି GPU ଆବଶ୍ୟକ ନାହିଁ।

ସ୍ଥିର · CPU VRAM ଚେଷ୍ଟାକରନ୍ତୁ

Sesame CSM

କଥାବାର୍ତ୍ତାName ପ୍ରାକୃତିକ ସମୟ ଥର ନେବା ପଛ ଚ୍ୟାନେଲ 1B ପ୍ରାଚଳଗୁଡ଼ିକ

ଯୁକ୍ତିତର୍କର ଭାଷା ମଡେଲ, ଯାହାକି ଉପଯୁକ୍ତ ସମୟ ଏବଂ ଭାବନା ସହିତ ପ୍ରାକୃତିକ ଆଲୋଚନା ସୃଷ୍ଟି କରିଥାଏ ।

ଧୀରେ · 8GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

Chatterbox Turbo

ଅଧି-200ms ଲାଟେନସି ପାରାଲିଙ୍ଗୁଇଷ୍ଟିକ ଟ୍ୟାଗଗୁଡିକKCharselect unicode block name 6x ସତ୍ୟକାଳୀନ ଧ୍ୱନି କ୍ଲୋନିଂ ପାନ ଚିହ୍ନ

ଦ୍ରୁତ ଚାଟରବକ୍ସ ଅଧି-200ms ଲାଟେନସି ଏବଂ ହସ, କାଶି ଏବଂ ଅଧିକ ପାଇଁ ପାରାଲିଙ୍ଗୁଇଷ୍ଟିକ ଟ୍ୟାଗ ସହିତ।

ସ୍ଥିର · 2GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

VoxCPM

ଧ୍ୱନି ଟୋକେନାଇଜର-ମୁକ୍ତ କ୍ରସ-ଭାଷା କ୍ଲୋନିଂ ସାରାଂଶ-ସଚେତନ LoRA ଫାଇନ-ଟୁନିଙ୍ଗ

Tokenizer-ମୁକ୍ତ TTS 44.1kHz ଧ୍ୱନି ଉତ୍ପାଦନ କରୁଅଛି ଯାହାର ପ୍ରସଙ୍ଗ-ସଚେତନ ଅନୁଚ୍ଛେଦ ସ୍ଥିରତା ଅଛି।

ସ୍ଥିର · 4GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

Kani TTS 2

3GB VRAM ଅତ୍ୟନ୍ତ ଶୀଘ୍ର ହଳଦିଆ ନାନୋ- କୋଡେକName ମୁକ୍ତ

ଅତ୍ୟନ୍ତ ହଳଦିଆ 400M ଇଂରାଜୀ TTS ମଡେଲ କେବଳ 3GB VRAM ରେ ଚାଲୁଛି ।

ସ୍ଥିର · 3GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

OuteTTS

CPU ଅନୁମାନ ବ୍ରାଉଜର ଅନୁମାନ ଏକାଧିକ ପୃଷ୍ଠଭୂମି ବକ୍ତା ରୂପରେଖଗୁଡ଼ିକ

LLM-ଆଧାରିତ TTS ଯାହାକି CPU, GPU, କିମ୍ବା lama.cpp ଏବଂ Transformers.js ମାଧ୍ୟମରେ ବ୍ରାଉଜରରେ ଚଲାଇଥାଏ।

ଧୀରେ · 2GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

VibeVoice

ବହୁ-ସ୍ପିକର 90 ମିନିଟ ପର୍ଯ୍ୟନ୍ତ Podcast ନିର୍ମାଣ ବକ୍ତା ସ୍ଥିରତା 200ms ପ୍ରବାହ

ପୋଡକାଷ୍ଟ ଏବଂ ଧ୍ୱନି ପୁସ୍ତକ ଭଳି ଲମ୍ବା-ଫର୍ମ ବହୁ-ବକ୍ତା ବିଷୟବସ୍ତୁ ପାଇଁ Microsoft ମଡେଲ।

ସ୍ଥିର · 4GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

Pocket TTS

ପ୍ରାଚଳଗୁଡ଼ିକ CPU ଅନୁମାନ ଧ୍ୱନି କ୍ଲୋନିଂ ଏକକ-ଉଦାହରଣ କ୍ଲୋନିଂ ଅଂଶ-ସଜ୍ଜିତ

ଗୋଟିଏ ନମୁନାରୁ ସ୍ୱର କ୍ଲୋନିଂ ସହିତ Kyutai ଦ୍ୱାରା ହଳଦିଆ 100M ପରିମାପକ ମଡେଲ ।

ସ୍ଥିର · 1GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

Kitten TTS

କେବଳ CPU ଅନୁମାନ 80MB ମଡେଲ ଆକାର ତଳେName 8 ସ୍ଥାପନୀୟ ଧ୍ୱନିName ବେଗ ନିୟନ୍ତ୍ରଣ ONNX ଆଧାରିତ 24kHz ନିର୍ଗମ

80MB ତଳେ ଅତ୍ୟନ୍ତ ହଳଦିଆ TTS। GPU ବିନା CPU ଉପରେ ଚାଲୁଛି।

ସ୍ଥିର · 0GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

CosyVoice3

ଦୁଇ-ପ୍ରବାହ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଧ୍ୱନି କ୍ଲୋନିଂ ବେଗ/ଆକାର ନିୟନ୍ତ୍ରଣ ନିର୍ଦ୍ଦେଶ ଅନୁଯାୟୀ

ଦ୍ୱି-ପ୍ରବାହ, ଅନୁଭୂତି ନିୟନ୍ତ୍ରଣ, ଏବଂ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂ ସହିତ ପରବର୍ତ୍ତୀ-ପୀଢ଼ିର ବହୁଭାଷା TTS।

ସ୍ଥିର · 4GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

NAMAA Saudi TTS

ସାଉଦି ଆରବୀ ଭାଷାName ଆଧୁନିକ ମାନକ ଆରବୀ ଶୂନ୍ୟ-ଶଟ ଧ୍ୱନି କ୍ଲୋନିଂ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ସ୍ଥାନୀୟ ଉଚ୍ଚାରଣ

ପ୍ରଥମ ଖୋଲା ସାଉଦି-ଆରବୀ TTS। ଚାଟରବକ୍ସ-ଗୁଣବତ୍ତା ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ ସ୍ଥାନୀୟ ସାଉଦି ଭାଷା।

ମଧ୍ଯମ · 6GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

Darwin TTS

ଧ୍ୱନି କ୍ଲୋନିଂ କ୍ରସ-ଭାଷାName FFN-ମିଶ୍ରିତ 4 ମୂଳ ଭାଷା Qwen3 ପୃଷ୍ଠଭୂମି

FFN ଓଜନ ସହିତ କ୍ରସ-ମୋଡାଲ Qwen3-TTS ବିକଳ୍ପଟି Qwen3-1.7B ଭାଷା ମଡେଲରୁ ଶକ୍ତ ବହୁଭାଷୀ କ୍ଲୋନିଂ ପାଇଁ ମିଶ୍ରିତ ହୋଇଛି । Name

ମଧ୍ଯମ · 7GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

MOSS-TTSD

ବହୁ-ବକ୍ତା ସଂଳାପ 5 ଯାଏଁ ସ୍ଵରକ 60ମିନିଟ ସମନ୍ୱିତ ଧ୍ୱନି ଧ୍ୱନି କ୍ଲୋନିଂ ପୋଡକାଷ୍ଟ ଅନୁକୂଳକରଣ

ବହୁ-ବକ୍ତା ଆଲୋଚନା ନିରନ୍ତର ମଡେଲ -5ବକ୍ତା ଏବଂ 60 ମିନିଟ ସମନ୍ୱିତ ଧ୍ୱନି ସହିତ ପୋଡକାଷ୍ଟ-ଶୈଳୀ କଥାବାର୍ତ୍ତା ସୃଷ୍ଟି କରନ୍ତୁ।

ମଧ୍ଯମ · 12GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

Ming-Omni TTS

44.1kHz ନିର୍ଗମ ଧ୍ୱନି କ୍ଲୋନିଂ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଭାଷା ନିୟନ୍ତ୍ରଣKCharselect unicode block name BGM ଉତ୍ପାଦନ ସଂକଳ୍ପ 0.5B

ଉଚ୍ଚ-ସତ୍ୟତା 44.1kHz ନିର୍ଗମ ଏବଂ ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନିଂ ସହିତ inclusionAI ରୁ ସଙ୍କଟ 0.5B ଅମ୍ନି-ମୋଡାଲ ଭାଷା ମଡେଲ ।

ମଧ୍ଯମ · 3GB VRAM ଚେଷ୍ଟାକରନ୍ତୁ

MOSS-TTS Nano