ତ୍ରୁଟି ଖବର କରନ୍ତୁ / ବିଶେଷତା ଅନୁରୋଧ

AI ପାଠ୍ୟରୁ ଭାଷଣName

ପାଠ୍ୟକୁ ମୁକ୍ତ-ସୋର୍ସ AI ନମୁନା ସହିତ ପ୍ରାକୃତିକ-ସଙ୍ଗୀତ ଭାଷଣକୁ ପରିବର୍ତ୍ତନ କରନ୍ତୁ। ବ୍ୟବହାର ପାଇଁ ମୁକ୍ତ, କୌଣସି ଖାତା ଆବଶ୍ୟକ ନାହିଁ।

ମୁକ୍ତ ଭାବରେ ପଞ୍ଜିକୃତ ହୁଅନ୍ତୁ

ଆପଣଙ୍କ ଭାଷାରେ ଆମ ପାଖରେ ବର୍ତ୍ତମାନ TTS ଧ୍ୱନି ନାହିଁ । ଆମକୁ ଆପଣଙ୍କର ଯୋଗ କରିବାରେ ସହାୟତା କରନ୍ତୁ! ଆପଣଙ୍କର ସ୍ୱର ବିକ୍ରି କରନ୍ତୁ

0/500 ଅକ୍ଷର · ପ୍ରତି ପିଢ଼ି ପାଇଁ 5000 ଟଙ୍କାର ପଞ୍ଜିକରଣ →

ସଦସ୍ୟତା ନିଅନ୍ତୁ 5,000 ଅକ୍ଷରରୂପ ସୀମା ପାଇଁ

SSML ଅବସ୍ଥା (ଭଲ ନିୟନ୍ତ୍ରଣ ପାଇଁ ଭାଷା ସଂଶ୍ଳୋଧନ ଚିହ୍ନିତ ଭାଷାName)

ସଠିକ ନିୟନ୍ତ୍ରଣ ପାଇଁ SSML ଟ୍ୟାଗଗୁଡ଼ିକରେ ଆପଣଙ୍କର ପାଠ୍ୟକୁ ଲଗାନ୍ତୁ:

<speak><prosody rate="slow">Slow speech</prosody></speak>

ଅନୁଭୂତି / ଶୈଳୀ ସୂଚକଗୁଡ଼ିକ

ପ୍ରଦାନକୁ ପ୍ରଭାବିତ କରିବା ପାଇଁ ଭାବପ୍ରବଣ ଚିହ୍ନକଗୁଡ଼ିକୁ ଯୋଗ କରନ୍ତୁ (ମଡେଲ ସମର୍ଥନ ଭିନ୍ନ ଭିନ୍ନ):

ଉଚ୍ଚାରଣ ଅଭିଧାନName

ଇଚ୍ଛାରୂପୀ ଉଚ୍ଚାରଣକୁ ବର୍ଣ୍ଣନା କରନ୍ତୁ (ଶବ୍ଦ = ଉଚ୍ଚାରଣ):

ପୀଚ 0

-12 +12

AI ଆକାର

ଧ୍ୱନି

ଭାଷାName

ନିର୍ଗମ ଶୈଳୀ

ବେଗ 1.0x

0.5x 2.0x

Piper, VITS, MeloTTS ସହିତ ମୁକ୍ତ

ଆପଣଙ୍କର ନିର୍ମିତ ଧ୍ୱନି ଏଠାରେ ଦେଖାଯିବ। ଗୋଟିଏ ନମୂନା ବାଛନ୍ତୁ, ପାଠ୍ୟ ଭରଣ କରନ୍ତୁ, ଏବଂ ନିର୍ମାଣ କରନ୍ତୁ କ୍ଲିକ କରନ୍ତୁ।

ଆକାର ବିବରଣୀ

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

ବିକାଶକାରୀ:	KittenML
ଅନୁମତିପତ୍ର:	Apache 2.0
ବେଗ	Fast
ଗୁଣବତ୍ତା:
ଭାଷାଗୁଡ଼ିକName	1 ଭାଷା
VRAM	0GB
ଧ୍ୱନି କ୍ଲୋନିଂName	ସମର୍ଥିତ ନୁହେଁ

ବିଶେଷତ୍ୱଗୁଡିକ:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

ଏହା ପାଇଁ ଉତ୍ତମ:: Fast lightweight TTS, edge deployment, low-latency applications

ଉତ୍ତମ ଫଳାଫଳ ପାଇଁ ଟିପ୍ପଣୀ

ପ୍ରାକୃତିକ ବିରାମ ଏବଂ ଢଙ୍ଗ ପାଇଁ ଉପଯୁକ୍ତ ବିରାମ ଚିହ୍ନ ବ୍ୟବହାର କରନ୍ତୁ
ସ୍ପଷ୍ଟ ଉଚ୍ଚାରଣ ପାଇଁ ସଂଖ୍ୟା ଏବଂ ସଂକ୍ଷିପ୍ତ ନାମଗୁଡ଼ିକୁ ବନାନ କରନ୍ତୁ
ବାକ୍ୟଗୁଡ଼ିକ ମଧ୍ୟରେ ସଂକ୍ଷିପ୍ତ ବିରାମ ସୃଷ୍ଟି କରିବା ପାଇଁ କମା ଯୋଗ କରନ୍ତୁ
ଲମ୍ବା ନାଟକୀୟ ବିରାମ ପାଇଁ ତ୍ରିଭୁଜ (...) ବ୍ୟବହାର କରନ୍ତୁ
ସବୁଠାରୁ ପ୍ରାକୃତିକ ଫଳାଫଳ ପାଇଁ Kokoro କିମ୍ବା CosyVoice2କୁ ଚେଷ୍ଟାକରନ୍ତୁ
Dia କୁ ବହୁ-ବକ୍ତା ସଂଳାପ ଏବଂ Podcast ବିଷୟବସ୍ତୁ ପାଇଁ ବ୍ୟବହାର କରନ୍ତୁ

ଅକ୍ଷର ବ୍ୟବହାର ବିଧି

ତିଆର	ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ
ମୁକ୍ତ	0 କ୍ରେଡିଟ (ଅସୀମିତ)
ପୂର୍ବନିର୍ଦ୍ଧାରିତ	2 କ୍ରେଡିଟ / 1K ଅକ୍ଷର
ପ୍ରୀମିୟମ	ଅକ୍ଷର

ଅଧିକ ଅକ୍ଷରଗୁଡ଼ିକୁ ଗ୍ରହଣ କରନ୍ତୁ

AI ପାଠ୍ୟରୁ ଭାଷଣ କିପରି କାର୍ଯ୍ୟ କରେ

ତିନୋଟି ସରଳ ପର୍ଯ୍ୟାୟରେ ପେସାଦାର-ଗୁଣମାନର ସ୍ୱର ଉତ୍ପାଦନ କରନ୍ତୁ। କୌଣସି ବୈଷୟିକ ଜ୍ଞାନ ଆବଶ୍ୟକ ନାହିଁ।

ପର୍ଯ୍ୟାୟ 1

ଆପଣଙ୍କର ପାଠ୍ୟ ଭରଣ କରନ୍ତୁ

ଆପଣ ବାକ୍ୟକୁ ପରିବର୍ତ୍ତନ କରିବାକୁ ଚାହୁଁଥିବା ପାଠ୍ୟକୁ ଟାଇପ କରନ୍ତୁ, ଲଗାନ୍ତୁ କିମ୍ବା ଅଦ୍ୟତନ କରନ୍ତୁ। ଲଗଇନ ଚାଳକମାନଙ୍କ ପାଇଁ ପ୍ରତି ପିଢ଼ିରେ 5,000 ଅକ୍ଷର ପର୍ଯ୍ୟନ୍ତ ସମର୍ଥନ କରିଥାଏ। ଉଚ୍ଚାରଣ, ବିରାମ ଏବଂ ଗୁରୁତ୍ୱ ଉପରେ ଉନ୍ନତ ନିୟନ୍ତ୍ରଣ ପାଇଁ ସରଳ ପାଠ୍ୟ ବ୍ୟବହାର କରନ୍ତୁ କିମ୍ବା SSML ଟ୍ୟାଗଗୁଡ଼ିକୁ ଯୋଗ କରନ୍ତୁ।

ପଦକ୍ଷେପ ୨

ଆକାର ଏବଂ ଧ୍ୱନି ବାଛନ୍ତୁ

ତିନୋଟି ସ୍ତରରେ 20+ AI ନମୂନାରୁ ଚୟନ କରନ୍ତୁ। ଆପଣଙ୍କର ବିଷୟବସ୍ତୁ ସହିତ ମେଳ ଖାଉଥିବା ଗୋଟିଏ ସ୍ୱର ବାଛନ୍ତୁ, ଆପଣଙ୍କର ଲକ୍ଷ୍ୟ ଭାଷାକୁ ବାଛନ୍ତୁ, 0.5x ରୁ 2.0x କୁ ଚାଳନା ବେଗକୁ ସଜାଇଦିଅନ୍ତୁ, ଏବଂ ଆପଣଙ୍କର ପସନ୍ଦଯୋଗ୍ୟ ନିର୍ଗମ ଶୈଳୀକୁ ବାଛନ୍ତୁ (MP3, WAV, OGG, କିମ୍ବା FLAC)।

ପଦକ୍ଷେପ 3

ଆହରଣ କରନ୍ତୁ

ନିର୍ମାଣ କରନ୍ତୁ କ୍ଲିକ କରନ୍ତୁ ଏବଂ ଆପଣଙ୍କର ଧ୍ୱନି ସେକଣ୍ଡଗୁଡ଼ିକରେ ପ୍ରସ୍ତୁତ ହୋଇଯିବ। ସ୍ଥାପିତ ଚାଳକ ସହିତ ପ୍ରାକଦର୍ଶନ କରନ୍ତୁ, ଆପଣଙ୍କର ବଚ୍ଛିତ ଶୈଳୀରେ ଆହରଣ କରନ୍ତୁ, କିମ୍ବା ଗୋଟିଏ ଅଂଶଗ୍ରହଣଯୋଗ୍ୟ ସଂଯୋଗକୁ ନକଲ କରନ୍ତୁ। ଆପଣଙ୍କର କାର୍ଯ୍ୟ ପ୍ରବାହରେ ବ୍ୟାଚ ପ୍ରକ୍ରିୟାକରଣ ଏବଂ ଏକୀକରଣ ପାଇଁ API କୁ ବ୍ୟବହାର କରନ୍ତୁ।

ପାଠ୍ୟରୁ ବାକ୍ୟ ବ୍ୟବହାର ମାମଲାName

ଏଆଇ-ସମର୍ଥିତ ଟେକ୍ସଟ-ଟୁ-ସ୍ପିକର ଦଶ ହଜାରରୁ ଅଧିକ ଉଦ୍ୟୋଗରେ ଲୋକମାନେ କିପରି ଭାବେ ଅଡିଓ ବିଷୟବସ୍ତୁ ନିର୍ମାଣ, ଉପଭୋଗ ଏବଂ ଆଦାନପ୍ରଦାନ କରୁଛନ୍ତି ତାହାକୁ ପରିବର୍ତ୍ତନ କରୁଛି ।

ଧ୍ୱନି ପୁସ୍ତକଗୁଡ଼ିକ

ଷ୍ଟୁଡିଓ-ଗୁଣବତ୍ତା ବର୍ଣ୍ଣନା ସହିତ ସମ୍ପୂର୍ଣ୍ଣ ପୁସ୍ତକଗୁଡ଼ିକୁ ପ୍ରାକୃତିକ-ସ୍ୱର ଧ୍ୱନି ପୁସ୍ତକଗୁଡ଼ିକରେ ପରିବର୍ତ୍ତନ କରନ୍ତୁ। ଅକ୍ଷର ସଂଳାପ ପାଇଁ Dia ସହିତ ବହୁ-ବକ୍ତା ସମର୍ଥନ।

ଭିଡିଓ ଭାଷା

YouTube, TikTok, Instagram Reels, ଏବଂ Shorts ପାଇଁ ବୈଷୟିକ ସ୍ୱର ନିର୍ମାଣ କରନ୍ତୁ। 100+ ସ୍ୱର କିମ୍ବା ଆପଣଙ୍କର ନିଜକୁ କ୍ଲୋନ କରନ୍ତୁ।

ପୋଡକାଷ୍ଟଗୁଡ଼ିକ

ଏକାଧିକ AI ଧ୍ୱନି ସହିତ ସ୍କ୍ରିପ୍ଟଗୁଡ଼ିକରୁ ପୋଡକାଷ୍ଟ ଅଧ୍ୟାୟଗୁଡ଼ିକୁ ନିର୍ମାଣ କରନ୍ତୁ। ପ୍ରାକୃତିକ ଦୁଇ-ବକ୍ତା ବାର୍ତ୍ତାଳାପ ପାଇଁ Dia କୁ ବ୍ୟବହାର କରନ୍ତୁ।

ଖେଳName

ଇଣ୍ଡିଆନ କ୍ରୀଡ଼ା, ଦୃଶ୍ୟମାନ ନୋବେଲ, ଏବଂ ପ୍ରତିକ୍ରିୟାଶୀଳ କାଳ୍ପନିକ ପାଇଁ AI ଧ୍ୱନି ଅଭିନୟ। NPC ସଂଳାପ, କଟସିନ ଧ୍ୱନି, 30+ ଭାଷା।

ଇ-ଶିକ୍ଷାName

ପାଠ୍ୟ ପୁସ୍ତକ, ଉପନ୍ୟାସ ଏବଂ ପ୍ରଶିକ୍ଷଣ ବିଷୟବସ୍ତୁକୁ ଧ୍ୱନିରେ ପରିବର୍ତ୍ତନ କରନ୍ତୁ। ବିଶ୍ୱବ୍ୟାପି ପ୍ଲାଟଫର୍ମଗୁଡ଼ିକ ପାଇଁ ବହୁଭାଷା ସମର୍ଥନ।

ସୁଗମତା

ୱେବସାଇଟ, ଦଲିଲ, ଏବଂ ପ୍ରୟୋଗଗୁଡ଼ିକୁ ସୁଗମ କରନ୍ତୁ। ପରଦା ପାଠକ API ଏକୀକରଣ ଏବଂ ଲେଖା-ରୁ-ଧ୍ୱନି ପରିବର୍ତ୍ତନ।

IVR ଏବଂ ଫୋନ ତନ୍ତ୍ରName

ପ୍ରାକୃତିକ AI ସ୍ୱର ସହିତ IVR ପ୍ରଣାଳୀ, ଫୋନ ତାଲିକା, ଏବଂ ଗ୍ରାହକ ସେବାକୁ ଶକ୍ତି ଦିଅନ୍ତୁ । କଲ ସେଣ୍ଟର ପାଇଁ କମ-ଲାଟେନ୍ସି ଷ୍ଟ୍ରୀମିଂ ।

ସାମାଜିକ ଗଣମାଧ୍ୟମName

ଟିକଟୋକ ବର୍ଣ୍ଣନା, ଇନଷ୍ଟାଗ୍ରାମ ରିଲ୍ସ, ଟ୍ୱିଟର/ଏକ୍ସ ଟିପ୍ପଣୀ, ୟୁଟ୍ୟୁବ ଶର୍ଟସ. ମୁକ୍ତ ମଡେଲ ସହିତ ଦ୍ରୁତ ଉତ୍ପାଦନ।

ପ୍ରବାହ

Twitch TTS ସଚେତନତା, ବାକ୍ୟ-କୁ-ବାକ୍ୟ, AI ସହ-ହୋଷ୍ଟ, ଏବଂ Discord ବଟନଗୁଡ଼ିକ। କମ ଲାଟେନସି, 100+ ଧ୍ୱନି, StreamElements ସୁସଂଗତି।

ବିକ୍ରୟ

Ad voiceovers, explainer videos, product demos, ଏବଂ ବିକ୍ରୟ ଉପସ୍ଥାପନା । ପ୍ରଚାର ଅଭିଯାନ ମଧ୍ୟରେ ଧ୍ୱନି ବିଷୟବସ୍ତୁ ଉତ୍ପାଦନକୁ ମାପନ୍ତୁ ।

ସ୍ଥାନୀୟକରଣName

ଭାଷା-ସଂଗେଚିତ AI ସହିତ 30+ ଭାଷାରେ ଭିଡିଓ ଅନୁବାଦ କରନ୍ତୁ ଏବଂ ଡବଲ କରନ୍ତୁ। ସ୍ୱୟଂଚାଳିତ ଅନୁବାଦ ଏବଂ ବକ୍ତା ଅନୁସନ୍ଧାନ।

ଧ୍ୟାନ ଏବଂ ସୁସ୍ଥତା

ଆଲଟିମେଟ ଆଇ ଦ୍ଵାରା ଆୟୋଜିତ ମନୋମୈଥୁନ, ନିଦର କାହାଣୀ, ଶ୍ୱାସ ପ୍ରଶ୍ୱାସର ଅଭ୍ୟାସ ଏବଂ ଶାନ୍ତିପୂର୍ଣ୍ଣ, ଆରାମଦାୟକ ସ୍ୱରରେ ଆଶ୍ୱାସନା ।

ସମସ୍ତ ବ୍ୟବହାର ବିଧି ଏବଂ ସାଧନଗୁଡ଼ିକୁ ଦେଖନ୍ତୁ

ସମସ୍ତ ପାଠ୍ୟରୁ ବାକ୍ୟ ନମୂନାଗୁଡ଼ିକName

TTS.ai ରେ ଉପଲବ୍ଧ ପ୍ରତ୍ୟେକ AI ମଡେଲ ପାଇଁ ବିସ୍ତୃତ ବିବରଣୀ। ଆପଣଙ୍କ ପ୍ରକଳ୍ପ ପାଇଁ ଉତ୍ତମ ମଡେଲ ଖୋଜିବା ପାଇଁ ଗୁଣବତ୍ତା, ବେଗ, ଭାଷା ସମର୍ଥନ ଏବଂ ବିଶେଷତାଗୁଡ଼ିକୁ ତୁଳନା କରନ୍ତୁ।

Kokoro

Free

Kokoro ଗୋଟିଏ 82 ମିଲିୟନ ମାପଦଣ୍ଡ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ଏହାର ଓଜନ ଶ୍ରେଣୀର ଉର୍ଦ୍ଧରେ ଭଲ ଭାବରେ କାମ କରେ। ଏହାର ଛୋଟ ଆକାର ସତ୍ତ୍ୱେ, ଏହା ଅତ୍ୟନ୍ତ ପ୍ରାକୃତିକ ଏବଂ ଅଭିବ୍ୟକ୍ତିଶୀଳ ଭାଷା ଉତ୍ପାଦନ କରେ। Kokoro ଏକାଧିକ ଭାଷା ସମର୍ଥନ କରେ, ଯେଉଁଥିରେ ଇଂରାଜୀ, ଜାପାନୀ, ଚାଇନିଜ ଏବଂ କୋରିଆନ ବିଭିନ୍ନ ପ୍ରକାର ଅଭିବ୍ୟକ୍ତିଶୀଳ ସ୍ୱର ସହିତ। ଏହା ଅତ୍ୟନ୍ତ ଦ୍ରୁତ ଭାବରେ ଚଳାଇଥାଏ - GPU ରେ ପ୍ରକୃତ ସମୟ ଅପେକ୍ଷା ପ୍ରାୟ 100x ଦ୍ରୁତ ଧ୍ୱନି ଉତ୍ପାଦନ କରିଥାଏ।

ବିକାଶକାରୀ::
Hexgrad

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
ମୁକ୍ତ

82M ପ୍ରାଚଳଗୁଡ଼ିକ ଅତ୍ୟନ୍ତ ଶୀଘ୍ର ଅଭିବ୍ୟକ୍ତିଶୀଳ ଧ୍ୱନିଗୁଡ଼ିକ ବହୁଭାଷୀName ପ୍ରବାହ ସମର୍ଥନ

ଏହା ପାଇଁ ଉତ୍ତମ:: ସର୍ବନିମ୍ନ ଲାଟେନସି ସହିତ ଉଚ୍ଚ ଗୁଣବତ୍ତା TTS, ପ୍ରବାହିତ ପ୍ରୟୋଗଗୁଡ଼ିକName

ଚେଷ୍ଟାକରନ୍ତୁ Kokoro

Piper

Free

Piper ଗୋଟିଏ ହାଲୁକା ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଯନ୍ତ୍ର ଯାହାକି Rhasspy ଦ୍ୱାରା ବିକଶିତ ହୋଇଛି ଯାହାକି VITS ଏବଂ larynx ସ୍ଥାପତ୍ୟକୁ ବ୍ୟବହାର କରେ। ଏହା ସମ୍ପୂର୍ଣ୍ଣ ଭାବରେ CPU ଉପରେ ଚାଲୁଛି, ଏହାକୁ ଅଂଶ ଉପକରଣ, ଘର ସ୍ୱୟଂଚାଳିତ, ଏବଂ ଅଫଲାଇନ TTS ଆବଶ୍ୟକ କରୁଥିବା ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ କରିଥାଏ। 30+ ଭାଷାରେ 100ରୁ ଅଧିକ ଧ୍ୱନି ସହିତ, Piper ଗୋଟିଏ Raspberry Pi4ରେ ମଧ୍ୟ ପ୍ରକୃତ ସମୟ ଗତିରେ ପ୍ରାକୃତିକ-ଧ୍ୱନି ବାକ୍ୟ ପ୍ରଦାନ କରେ।

ବିକାଶକାରୀ::
Rhasspy

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
ମୁକ୍ତ

CPU- ସହଜ ଅଫଲାଇନ ସକ୍ଷମ 100+ ଧ୍ୱନି 30+ ଭାଷା SSML ସମର୍ଥନ

ଏହା ପାଇଁ ଉତ୍ତମ:: ଦ୍ରୁତ ପ୍ରାକଦର୍ଶନ, ସୁଗମତା, ଏବଂ ସନ୍ନିବେଶିତ ପ୍ରୟୋଗଗୁଡ଼ିକName

ଚେଷ୍ଟାକରନ୍ତୁ Piper

VITS

Free

VITS (ଅନୁସରଣୀୟ ସନ୍ଧାନ ସହିତ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା ଜ୍ଞାନ ପାଇଁ ଶେଷ-ରୁ-ଶେଷ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ) ଏକ ସମତଳ ଶେଷ-ରୁ-ଶେଷ TTS ପଦ୍ଧତି ଯାହାକି ବର୍ତ୍ତମାନ ଦୁଇ-ସ୍ତରୀୟ ମଡେଲ ଅପେକ୍ଷା ଅଧିକ ପ୍ରାକୃତିକ ସ୍ୱର ଧ୍ୱନି ସୃଷ୍ଟି କରିଥାଏ। ଏହା ପ୍ରାକୃତିକତାରେ ଏକ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ ଉନ୍ନତି ହାସଲ କରିବା ପାଇଁ ସାଧାରଣକରଣ ପ୍ରବାହ ଏବଂ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା ପ୍ରଶିକ୍ଷା ପ୍ରକ୍ରିୟା ସହିତ ବୃଦ୍ଧି ପାଇଥିବା ଅନୁସରଣୀୟ ସନ୍ଧାନକୁ ଗ୍ରହଣ କରିଥାଏ।

ବିକାଶକାରୀ::
Jaehyeon Kim et al.

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

VRAM:
1GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
ମୁକ୍ତ

ଶେଷ-ରୁ-ଶେଷ ସଂଶ୍ଲେଷଣ ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି ଦ୍ରୁତ ଅନୁମାନ ଏକାଧିକ ବକ୍ତା

ଏହା ପାଇଁ ଉତ୍ତମ:: ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି ସହିତ ସାଧାରଣ- ଉଦ୍ଦେଶ୍ୟ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟName

ଚେଷ୍ଟାକରନ୍ତୁ VITS

MeloTTS

Free

MyShell.ai ଦ୍ୱାରା MeloTTS ଏକ ବହୁଭାଷୀ TTS ଲାଇବ୍ରେରୀ ଯାହାକି ଇଂରାଜୀ (ଆମେରିକୀୟ, ବ୍ରିଟିଶ, ଭାରତୀୟ, ଅଷ୍ଟ୍ରେଲିଆନ), ସ୍ପେନିସ, ଫ୍ରେଞ୍ଚ, ଚାଇନିଜ, ଜାପାନୀ, ଏବଂ କୋରିଆନକୁ ସମର୍ଥନ କରେ। ଏହା ଅତ୍ୟନ୍ତ ଦ୍ରୁତ, କେବଳ CPU ଉପରେ ପାଖାପାଖି ରିୟଲ-ଟାଇମ ବେଗରେ ପାଠ୍ୟକୁ ପ୍ରକ୍ରିୟା କରିଥାଏ। MeloTTS ଉତ୍ପାଦନ ବ୍ୟବହାର ପାଇଁ ନିର୍ମିତ ଏବଂ CPU ଏବଂ GPU ଉଭୟକୁ ସମର୍ଥନ କରେ।

ବିକାଶକାରୀ::
MyShell.ai

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
ମୁକ୍ତ

CPU- ଅନୁକୂଳିତ ବହୁଭାଷୀName ଏକାଧିକ ଉଚ୍ଚାରଣ ଚିହ୍ନKCharselect unicode block name ଉତ୍ପାଦନ-ସଜ୍ଜିତ ନିମ୍ନ ବିଳମ୍ବ

ଏହା ପାଇଁ ଉତ୍ତମ:: ଉତ୍ପାଦନ ପ୍ରୟୋଗଗୁଡ଼ିକୁ ଦ୍ରୁତ, ବହୁଭାଷୀ TTS ଆବଶ୍ୟକ

ଚେଷ୍ଟାକରନ୍ତୁ MeloTTS

Bark

Standard

ସୁନୋ ଦ୍ୱାରା ବାର୍କ ଏକ ପରିବର୍ତ୍ତକ ଆଧାରିତ ପାଠ୍ୟ-ରୁ-ଧ୍ୱନି ମଡେଲ ଯାହାକି ଅତ୍ୟନ୍ତ ବାସ୍ତବବାଦୀ, ବହୁଭାଷୀ ଭାଷଣ ଏବଂ ଅନ୍ୟାନ୍ୟ ଧ୍ୱନି ଯେପରିକି ସଂଗୀତ, ପୃଷ୍ଠଭୂମି ଶବ୍ଦ, ଏବଂ ଧ୍ୱନି ପ୍ରଭାବ ସୃଷ୍ଟି କରିପାରେ। ଏହା ହସିବା, ଚିତ୍କାର କରିବା ଏବଂ କାନ୍ଦିବା ଭଳି ଅବାଚନୀୟ ସଂଚାର ସୃଷ୍ଟି କରିପାରେ। ବାର୍କ 100ରୁ ଅଧିକ ବକ୍ତା ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଏବଂ 13+ ଭାଷାକୁ ସମର୍ଥନ କରିଥାଏ।

ବିକାଶକାରୀ::
Suno

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Slow

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ଧ୍ୱନି ପ୍ରଭାବ ହସିବା/ହସିବା ସଂଗୀତ ନିର୍ମାଣ ସ୍ପିକରName ବହୁଭାଷୀName

ଏହା ପାଇଁ ଉତ୍ତମ:: ସୃଜନଶୀଳ ଧ୍ୱନି ବିଷୟବସ୍ତୁ, ଅନୁଭୂତି ସହିତ ଧ୍ୱନି ପୁସ୍ତକ, ଧ୍ୱନି ପ୍ରଭାବ

ଚେଷ୍ଟାକରନ୍ତୁ Bark

Bark Small

Standard

Bark Small Bark ମଡେଲର ଗୋଟିଏ ବିଶୋଧିତ ସଂସ୍କରଣ ଯାହାକି କିଛି ଧ୍ୱନି ଗୁଣବତ୍ତାକୁ ଦ୍ରୁତ ଧାରଣା ଗତି ଏବଂ କମ ସ୍ମୃତି ଆବଶ୍ୟକତା ପାଇଁ ବଦଳାଇଥାଏ। ଏହା Bark ର ଭାଷା ସୃଷ୍ଟି କରିବା ପାଇଁ କ୍ଷମତାକୁ ଭାବପ୍ରବଣତା, ହସ ଏବଂ ବହୁଭାଷା ସହିତ ରକ୍ଷା କରିଥାଏ।

ବିକାଶକାରୀ::
Suno

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ହଳଦିଆ ସମ୍ପୂର୍ଣ୍ଣ ବର୍କ୍ ଠାରୁ ଶୀଘ୍ର ଭାବପ୍ରବଣ ବକ୍ତବ୍ୟ ବହୁଭାଷୀName

ଏହା ପାଇଁ ଉତ୍ତମ:: ସମ୍ପୂର୍ଣ୍ଣ Bark ବହୁତ ଧିରେ ଥିବା ସମୟରେ ଶୀଘ୍ର ସୃଜନଶୀଳ ଧ୍ୱନି

ଚେଷ୍ଟାକରନ୍ତୁ Bark Small

CosyVoice 2

Standard

Alibaba's Tongyi Lab ଦ୍ୱାରା CosyVoice2ମାନବ-ସମାନ ଭାଷା ଗୁଣବତ୍ତା ଅତ୍ୟନ୍ତ କମ ଲାଟେନସି ସହିତ ହାସଲ କରିଥାଏ, ଏହାକୁ ରିୟଲ-ଟାଇମ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ କରିଥାଏ। ଏହା ଷ୍ଟ୍ରିମିଂ ସଂଶ୍ଲେଷଣ ପାଇଁ ଏକ ସୀମିତ ସ୍କେଲର କୁଆଣ୍ଟିଜେସନ ପଦ୍ଧତିକୁ ବ୍ୟବହାର କରେ ଏବଂ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂକୁ ସମର୍ଥନ କରେ, କ୍ରସ-ଭାଷା ସଂଶ୍ଲେଷଣ, ଏବଂ ଫାଇନ-ଗ୍ରେନ ଇମୋସନ ନିୟନ୍ତ୍ରଣ। ଏହା ଅନେକ ବାଣିଜ୍ୟିକ TTS ତନ୍ତ୍ରଗୁଡ଼ିକୁ ବିଷୟବସ୍ତୁ ମୂଲ୍ୟାୟନରେ ଅଗ୍ରସର କରିଥାଏ।

ବିକାଶକାରୀ::
Alibaba (Tongyi Lab)

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ପ୍ରବାହ ଶୂନ୍ୟ-ଶଟ କ୍ଲୋନିଂ କ୍ରସ-ଭାଷାName ଅନୁଭୂତି ନିୟନ୍ତ୍ରଣ ମାନବ-ସମାନତା

ଏହା ପାଇଁ ଉତ୍ତମ:: ରିୟଲ-ଟାଇମ ପ୍ରୟୋଗ, ଷ୍ଟ୍ରିମିଂ TTS, ଧ୍ୱନି ସହାୟକ

ଚେଷ୍ଟାକରନ୍ତୁ CosyVoice 2

Dia TTS

Standard

Nari Labs ଦ୍ୱାରା Dia ଏକ 1.6B ପରିମାପକ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ବିଶେଷ ଭାବରେ ବହୁ-ବକ୍ତା ସଂଳାପ ସୃଷ୍ଟି କରିବା ପାଇଁ ନିର୍ମିତ ହୋଇଛି। ଏହା ଦୁଇ ଜଣ ବକ୍ତା ମଧ୍ୟରେ ଉପଯୁକ୍ତ ଥର-ନେବା, ପ୍ରୋସୋଡି ଏବଂ ଭାବପ୍ରବଣ ଅଭିବ୍ୟକ୍ତି ସହିତ ପ୍ରାକୃତିକ-ସଙ୍ଗୀତ ସଂଳାପ ସୃଷ୍ଟି କରିପାରେ। Dia ପୋଡକାଷ୍ଟ-ଶୈଳୀ ବିଷୟବସ୍ତୁ, ଅଡିଓବାଇକ ସଂଳାପ ଏବଂ ଅନ୍ତରଙ୍ଗ ସଂଳାପ AI ନିର୍ମାଣ କରିବା ପାଇଁ ସମ୍ପୂର୍ଣ୍ଣ।

ବିକାଶକାରୀ::
Nari Labs

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ବହୁ-ସ୍ପିକର ସଂଳାପ ସୃଷ୍ଟି ପ୍ରାକୃତିକ ତରଙ୍ଗ-ଗ୍ରହଣ ଭାବପ୍ରବଣ ଅଭିବ୍ୟକ୍ତି ପ୍ରାଚଳଗୁଡ଼ିକ

ଏହା ପାଇଁ ଉତ୍ତମ:: ପଡକଡ଼, ଧ୍ୱନି ପୁସ୍ତକ ସଂଳାପ, କଥାବାର୍ତ୍ତା ବିଷୟବସ୍ତୁ

ଚେଷ୍ଟାକରନ୍ତୁ Dia TTS

Parler TTS

Standard

Parler TTS ଗୋଟିଏ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ଉତ୍ପନ୍ନ ବାକ୍ୟକୁ ନିୟନ୍ତ୍ରଣ କରିବା ପାଇଁ ପ୍ରାକୃତିକ ଭାଷା ସ୍ୱର ବର୍ଣ୍ଣନାକୁ ବ୍ୟବହାର କରେ। ପୂର୍ବନିର୍ଦ୍ଧାରିତ ସ୍ୱରଗୁଡ଼ିକରୁ ଚୟନ କରିବା ବଦଳରେ, ଆପଣ ଚାହୁଁଥିବା ସ୍ୱରକୁ ବର୍ଣ୍ଣନା କରନ୍ତୁ (ଯେପରିକି, "ସମସ୍ତେ ବ୍ରିଟିଶ ଉଚ୍ଚାରଣ ସହିତ ଏକ ଉଷ୍ମ ମହିଳା ସ୍ୱର, ଧୀରେ ଧୀରେ ଏବଂ ସ୍ପଷ୍ଟ ଭାବରେ କଥାବାର୍ତ୍ତା ହେଉଛନ୍ତି") ଏବଂ Parler ସେହି ବର୍ଣ୍ଣନା ସହିତ ମେଳ ଖାଉଥିବା ବାକ୍ୟ ସୃଷ୍ଟି କରିଥାଏ। ଏହା ଏହାକୁ ସୃଜନଶୀଳ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଭିନ୍ନ ଭିନ୍ନ ଭାବରେ ନମନୀୟ କରିଥାଏ।

ବିକାଶକାରୀ::
Hugging Face

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ଧ୍ୱନି ବର୍ଣ୍ଣନା ପ୍ରାକୃତିକ ଭାଷା ନିୟନ୍ତ୍ରଣ ନମନୀୟ ସ୍ୱର ନିର୍ମାଣ କୌଣସି ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଧ୍ୱନି ଆବଶ୍ୟକ ନାହିଁ

ଏହା ପାଇଁ ଉତ୍ତମ:: ସୃଜନଶୀଳ ପ୍ରୟୋଗଗୁଡ଼ିକ ଯେଉଁଠାରେ ଆପଣ ଇଚ୍ଛାରୂପୀ ସ୍ୱର ଗୁଣଧର୍ମ ଆବଶ୍ୟକ କରନ୍ତିName

ଚେଷ୍ଟାକରନ୍ତୁ Parler TTS

GLM-TTS

Standard

Zhipu AI ଦ୍ୱାରା GLM-TTS ଗୋଟିଏ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ତନ୍ତ୍ର ଯାହାକି ଲମା ସ୍ଥାପତ୍ୟ ଉପରେ ନିର୍ମିତ ହୋଇଛି ଏବଂ ଫ୍ଲୋ ମେଚିଂ ସହିତ। ଏହା ମୁକ୍ତ ଉତ୍ସ TTS ମଡେଲ ମଧ୍ୟରେ ସର୍ବନିମ୍ନ ଅକ୍ଷର ତ୍ରୁଟି ହାରକୁ ହାସଲ କରିଥାଏ, ଅର୍ଥାତ୍ ଏହା ସବୁଠାରୁ ସଠିକ ଉଚ୍ଚାରଣ ସୃଷ୍ଟି କରିଥାଏ। GLM-TTS ଇଂରାଜୀ ଏବଂ ଚାଇନିଜକୁ 3-10 ସେକେଣ୍ଡ ଧ୍ୱନି ନମୁନାରୁ ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ ସମର୍ଥନ କରିଥାଏ।

ବିକାଶକାରୀ::
Zhipu AI

ଅନୁମତିପତ୍ର::
GLM-4 License

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ସର୍ବନିମ୍ନ ତ୍ରୁଟି ହାର ଧ୍ୱନି କ୍ଲୋନିଂ ପ୍ରବାହ ମେଳକ ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି

ଏହା ପାଇଁ ଉତ୍ତମ:: ସର୍ବାଧିକ ଉଚ୍ଚାରଣ ସଠିକତା ଆବଶ୍ୟକ କରୁଥିବା ପ୍ରୟୋଗଗୁଡ଼ିକName

ଚେଷ୍ଟାକରନ୍ତୁ GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 ଏକ ଉନ୍ନତ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ତନ୍ତ୍ର ଯାହାକି ଶୂନ୍ୟ-ଶଟ ସ୍ୱର ସଂଶ୍ଲେଷଣରେ ଉତ୍ତମ ଅଟେ ଏବଂ ସରଳ-ଗୋଲାକାର ଭାବନା ନିୟନ୍ତ୍ରଣ ସହିତ। ଏହା ଭାବନା-ନିର୍ଦ୍ଦିଷ୍ଟ ତାଲିମ ତଥ୍ୟର ଆବଶ୍ୟକତା ନକରି ବିଶେଷ ଭାବନାଗତ ଧ୍ୱନି ସହିତ ବାକ୍ୟ ସୃଷ୍ଟି କରିପାରେ ଯେପରିକି ଖୁସି, ଦୁଃଖ, କ୍ରୋଧିତ, କିମ୍ବା ଭୟଭୀତ। ମଡେଲଟି ଉତ୍ପନ୍ନ ବାକ୍ୟର ଭାବନାଗତ ଅଭିବ୍ୟକ୍ତିକୁ ସଠିକ ଭାବରେ ନିୟନ୍ତ୍ରଣ କରିବା ପାଇଁ ଭାବନାଗତ ଭେକଟରଗୁଡ଼ିକୁ ବ୍ୟବହାର କରିଥାଏ।

ବିକାଶକାରୀ::
Index Team

ଅନୁମତିପତ୍ର::
Bilibili Model License

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଶୂନ୍ୟ-ଶଟ ଭାବପ୍ରବଣ ଭେକଟରଗୁଡ଼ିକ ଅଭିବ୍ୟକ୍ତ ଭାଷଣKCharselect unicode block name ଫାଇନ- ଗ୍ରେନ ନିୟନ୍ତ୍ରଣ

ଏହା ପାଇଁ ଉତ୍ତମ:: ଭାବପ୍ରବଣ ବିଷୟବସ୍ତୁ, ଧ୍ୱନି ପୁସ୍ତକ, ଆଭାସୀ ସହାୟକName

ଚେଷ୍ଟାକରନ୍ତୁ IndexTTS-2

Spark TTS

Standard

SparkAudio ଦ୍ଵାରା Spark TTS ଗୋଟିଏ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ନିୟନ୍ତ୍ରଣଶୀଳ ଭାବନା ଏବଂ କଥାବାର୍ତ୍ତା ଶୈଳୀ ସହିତ ସ୍ୱର କ୍ଲୋନିଂକୁ ସଂଯୋଜିତ କରିଥାଏ। କେବଳ5ସେକେଣ୍ଡର ଅନୁସରଣ ଧ୍ୱନି ବ୍ୟବହାର କରି, ଏହା ଗୋଟିଏ ସ୍ୱରକୁ କ୍ଲୋନ କରିପାରେ ଏବଂ ତା'ପରେ ଭିନ୍ନ ଭିନ୍ନ ଭାବନା, ବେଗ ଏବଂ ଶୈଳୀ ସହିତ କଥାବାର୍ତ୍ତା ସୃଷ୍ଟି କରିଥାଏ। Spark TTS ଗୋଟିଏ ପରାମର୍ଶ ଆଧାରିତ ନିୟନ୍ତ୍ରଣ ତନ୍ତ୍ରକୁ ବ୍ୟବହାର କରିଥାଏ।

ବିକାଶକାରୀ::
SparkAudio

ଅନୁମତିପତ୍ର::
CC BY-NC-SA 4.0

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ଧ୍ୱନି କ୍ଲୋନିଂ ଅନୁଭୂତି ନିୟନ୍ତ୍ରଣ ଶୈଳୀ ନିୟନ୍ତ୍ରଣ ପ୍ରମୋଟ- ଆଧାରିତ 5-ସେକଣ୍ଡ କ୍ଲୋନ

ଏହା ପାଇଁ ଉତ୍ତମ:: କ୍ଲୋନ ଧ୍ୱନି ଏବଂ ଭାବଗତ ନିୟନ୍ତ୍ରଣ ସହିତ ବିଷୟବସ୍ତୁ ସୃଷ୍ଟିName

ଚେଷ୍ଟାକରନ୍ତୁ Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS ଶକ୍ତିଶାଳୀ କିଛି-ଶଟ ସ୍ୱର କ୍ଲୋନିଂ ପାଇଁ SoVITS (ସଂବାଦ ଓ ସଂଶ୍ଳୋଧନ ମାଧ୍ୟମରେ ଗୀତ ଗାଇବାର ଅନୁମାନ) ସହିତ GPT-ଶୈଳୀ ଭାଷା ମଡେଲିଂକୁ ସଂଯୋଜିତ କରିଥାଏ।5ସେକେଣ୍ଡ ସଂରକ୍ଷିତ ସଂଦୃଶ ଧ୍ୱନି ସହିତ, ଏହା ସଠିକ୍ ଭାବରେ ଗୋଟିଏ ସ୍ୱରକୁ କ୍ଲୋନ କରିପାରେ ଏବଂ ବକ୍ତାଙ୍କ ଭିନ୍ନ ଭିନ୍ନ ଗୁଣଧର୍ମକୁ ସଂରକ୍ଷଣ କରି ନୂତନ ବକ୍ତବ୍ୟ ସୃଷ୍ଟି କରିପାରେ। ଏହା ଉଭୟ ବକ୍ତବ୍ୟ ଏବଂ ଗୀତ ଗାଇବାର ସ୍ୱର ସଂଶ୍ଳୋଧନରେ ଉତ୍ତମ।

ବିକାଶକାରୀ::
RVC-Boss

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Slow

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh, ja, ko

VRAM:
6GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

5-ସେକଣ୍ଡ କ୍ଲୋନ ଗୀତ ଗାଇଥିବା ସ୍ୱର କିଛି-ଶଟ ଶିଖିବା ଉଚ୍ଚ ସତ୍ୟତା କ୍ରସ-ଭାଷାName

ଏହା ପାଇଁ ଉତ୍ତମ:: ଧ୍ୱନି କ୍ଲୋନିଂ, ଗୀତ ସଂଯୋଜକ, ବିଷୟବସ୍ତୁ ନିର୍ମାତା ଧ୍ୱନି ପ୍ରତିଲିପିକରଣ

ଚେଷ୍ଟାକରନ୍ତୁ GPT-SoVITS

Orpheus

Standard

Orpheus ଏକ ବୃହତ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ମାନବ-ସ୍ତରୀୟ ଭାବପ୍ରବଣ ଅଭିବ୍ୟକ୍ତିକୁ ହାସଲ କରିଥାଏ। 100,000 ଘଣ୍ଟାରୁ ଅଧିକ ବିବିଧ ଭାଷା ତଥ୍ୟ ଉପରେ ପ୍ରଶିକ୍ଷଣପ୍ରାପ୍ତ, ଏହା ପ୍ରାକୃତିକ ଭାବପ୍ରବଣତା, ଗୁରୁତ୍ୱ, ଏବଂ ଭାଷା ଶୈଳୀ ସହିତ ଭାଷା ଉତ୍ପାଦନ କରିବାରେ ଉତ୍ତମ। Orpheus ବାକ୍ୟ ଉତ୍ପାଦନ କରିପାରେ ଯାହାକି ମାନବ ରେକର୍ଡରୁ ବାସ୍ତବରେ ଅଲଗା ଅଲଗା ଅଟେ।

ବିକାଶକାରୀ::
Canopy Labs

ଅନୁମତିପତ୍ର::
Llama 3.2 Community

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ମାନବ-ସ୍ତରୀୟ ଭାବନା 100K ଘଣ୍ଟା ପ୍ରଶିକ୍ଷଣ ପ୍ରାକୃତିକ ଜୋର ଅଭିବ୍ୟକ୍ତ ଭାଷଣKCharselect unicode block name

ଏହା ପାଇଁ ଉତ୍ତମ:: ଉଚ୍ଚ ଗୁଣବତ୍ତା ଭାବପ୍ରବଣ ଭାଷଣ, ଧ୍ୱନି ପୁସ୍ତକ, ଧ୍ୱନି ଅଭିନୟ

ଚେଷ୍ଟାକରନ୍ତୁ Orpheus

Chatterbox

Premium

Resemble AI ଦ୍ୱାରା ଚାଟରବକ୍ସ ଏକ ଅତ୍ୟାଧୁନିକ ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନ ମଡେଲ। ଏହା ଗୋଟିଏ ଧ୍ୱନି ନମୁନାରୁ କୌଣସି ସ୍ୱରକୁ ଅତ୍ୟନ୍ତ ସଠିକତା ସହିତ ନକଲ କରିପାରେ, କେବଳ ତୀବ୍ରତା ନୁହେଁ ବରଂ କଥାବାର୍ତ୍ତା ଶୈଳୀ ଏବଂ ଭାବପ୍ରବଣତାକୁ ମଧ୍ୟ ଗ୍ରହଣ କରିଥାଏ। ଚାଟରବକ୍ସ ମଧ୍ୟ ସ୍ପଷ୍ଟ-ଗୋଲାକାର ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ବିଶେଷତାଗୁଡ଼ିକୁ ଧାରଣ କରିଥାଏ, ଯାହାକି ଆପଣଙ୍କୁ ସ୍ୱର ପରିଚୟରୁ ସ୍ୱତନ୍ତ୍ର ଭାବରେ ଉତ୍ପନ୍ନ ଭାଷାର ଭାବପ୍ରବଣତାକୁ ସଜାଇବାକୁ ଅନୁମତି ଦେଇଥାଏ।

ବିକାଶକାରୀ::
Resemble AI

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
4x

ଶୂନ୍ୟ-ଶଟ କ୍ଲୋନିଂ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଉଚ୍ଚ ସତ୍ୟତା ଶୈଳୀ ସ୍ଥାନାନ୍ତରଣ ଏକକ ନମୁନା କ୍ଲୋନିଂ

ଏହା ପାଇଁ ଉତ୍ତମ:: ଭାବପ୍ରବଣ ନିୟନ୍ତ୍ରଣ ସହିତ ବୈଷୟିକ ଧ୍ୱନି କ୍ଲୋନିଂ, ବିଷୟବସ୍ତୁ ନିର୍ମାଣ

ଚେଷ୍ଟାକରନ୍ତୁ Chatterbox

Tortoise TTS

Premium

Tortoise TTS ଗୋଟିଏ ସ୍ୱୟଂ-ପୃଥକୀକରଣ ବହୁ-ବାକ୍ୟ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ତନ୍ତ୍ର ଯାହାକି ଗତି ଉପରେ ଧ୍ୱନି ଗୁଣବତ୍ତାକୁ ପ୍ରାଥମିକତା ଦେଇଥାଏ। ଏହା DALL-E-ପ୍ରେରିତ ସ୍ଥାପତ୍ୟକୁ ଉତ୍ତମ ପ୍ରୋସୋଡି ଏବଂ ବକ୍ତା ଭଳି ଅତ୍ୟନ୍ତ ପ୍ରାକୃତିକ ଭାଷା ସୃଷ୍ଟି କରିବା ପାଇଁ ବ୍ୟବହାର କରିଥାଏ। ଅନେକ ବୈକଳ୍ପିକ ଠାରୁ ଧିରେ, Tortoise ଖୋଲା ଉତ୍ସ ଇକୋସିଷ୍ଟମରେ ଉପଲବ୍ଧ କିଛି ସବୁଠାରୁ ପ୍ରକୃତିର ସଂଯୋଜକ ଭାଷା ସୃଷ୍ଟି କରିଥାଏ।

ବିକାଶକାରୀ::
James Betker

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Slow

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en

VRAM:
8GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
4x

ସର୍ବାଧିକ ଗୁଣବତ୍ତା ବହୁ-ଧ୍ୱନି DALL-E ସ୍ଥାପତ୍ୟ ଧ୍ୱନି କ୍ଲୋନିଂ ସ୍ୱୟଂ-ପୃଥକୀକରଣ

ଏହା ପାଇଁ ଉତ୍ତମ:: ଧ୍ୱନି ପୁସ୍ତକ, ପ୍ରୀମିୟମ ବିଷୟବସ୍ତୁ, ଗୁଣବତ୍ତା-ପ୍ରଥମ ପ୍ରୟୋଗଗୁଡ଼ିକ

ଚେଷ୍ଟାକରନ୍ତୁ Tortoise TTS

StyleTTS 2

Premium

StyleTTS2ବଡ଼ ଭାଷା ମଡେଲ ବ୍ୟବହାର କରି ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା ପ୍ରଶିକ୍ଷା ସହିତ ଶୈଳୀ ବିସ୍ତାରକୁ ସଂଯୋଜିତ କରି ମାନବ-ସ୍ତର TTS ସଂଶ୍ଲେଷଣକୁ ହାସଲ କରିଥାଏ । ଏହା ଏକକ-ବକ୍ତା ମଡେଲ ମଧ୍ୟରେ ସବୁଠାରୁ ପ୍ରାକୃତିକ ସ୍ୱରଯୁକ୍ତ ଭାଷା ସୃଷ୍ଟି କରେ, ଯାହାକି ମାନବ ରେକର୍ଡିଂ ସହିତ ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତା କରେ । StyleTTS2ମାନବ ଭାଷାର ବିଭିନ୍ନତାର ସମ୍ପୂର୍ଣ୍ଣ ପରିସରକୁ ଗ୍ରହଣ କରିବା ପାଇଁ ବିସ୍ତାର-ଆଧାରିତ ଶୈଳୀ ମଡେଲିଂକୁ ବ୍ୟବହାର କରେ ।

ବିକାଶକାରୀ::
Columbia University

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
4x

ମାନବ-ସ୍ତର ଶୈଳୀ ବିସ୍ତାର ପ୍ରତିଦ୍ୱନ୍ଦ୍ୱିତାପୂର୍ଣ୍ଣ ପ୍ରଶିକ୍ଷଣ ପ୍ରାକୃତିକ ପରିବର୍ତ୍ତନ ଉଚ୍ଚ ସତ୍ୟତା

ଏହା ପାଇଁ ଉତ୍ତମ:: ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ଏକକ-ବକ୍ତା ସଂଶ୍ଲେଷଣ, ବୈଷୟିକ ବର୍ଣ୍ଣନା

ଚେଷ୍ଟାକରନ୍ତୁ StyleTTS 2

OpenVoice

Premium

MyShell.ai ଦ୍ୱାରା OpenVoice ସ୍ୱର ଶୈଳୀ, ଭାବନା, ଉଚ୍ଚାରଣ, ରୀତି, ବିରାମ ଏବଂ ଭାବପ୍ରବଣତା ଉପରେ ଗ୍ରେନାଲ ନିୟନ୍ତ୍ରଣ ସହିତ ତୁରନ୍ତ ସ୍ୱର କ୍ଲୋନକୁ ସକ୍ଷମ କରିଥାଏ। ଏହା ଗୋଟିଏ ସଂକ୍ଷିପ୍ତ ଧ୍ୱନି କଲିପରୁ ଗୋଟିଏ ସ୍ୱର କ୍ଲୋନ କରିପାରେ ଏବଂ ବକ୍ତା ପରିଚୟକୁ ବଜାୟ ରଖିବା ସମୟରେ ବହୁଭାଷାରେ ଭାଷା ସୃଷ୍ଟି କରିପାରେ। OpenVoice ଗୋଟିଏ ସ୍ୱର ପରିବର୍ତ୍ତକ ଭାବରେ ମଧ୍ୟ କାର୍ଯ୍ୟ କରିଥାଏ, ରିୟଲ-ଟାଇମ ସ୍ୱର ପରିବର୍ତ୍ତନକୁ ଅନୁମତି ଦେଇଥାଏ।

ବିକାଶକାରୀ::
MyShell.ai / MIT

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh, ja, ko, fr, es

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
4x

ତୁରନ୍ତ କ୍ଲୋନ ଧ୍ୱନି ପରିବର୍ତ୍ତନ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଉଚ୍ଚାରଣ ନିୟନ୍ତ୍ରଣ ବହୁଭାଷୀName

ଏହା ପାଇଁ ଉତ୍ତମ:: ଫାଇନ-ଗ୍ରେନ ଶୈଳୀ ନିୟନ୍ତ୍ରଣ ସହିତ ଧ୍ୱନି କ୍ଲୋନିଂ, ଧ୍ୱନି ପରିବର୍ତ୍ତନ

ଚେଷ୍ଟାକରନ୍ତୁ OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS ହେଉଛି ଅଲିବାବା'ର Qwen ଦଳର 1.7 ବିଲିୟନ ମାପଦଣ୍ଡ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ। ଏହା ତିନୋଟି ଅବସ୍ଥାକୁ ସମର୍ଥନ କରେ: ଭାବନା ନିୟନ୍ତ୍ରଣ ସହିତ ପୂର୍ବନିର୍ଦ୍ଧାରିତ ସ୍ୱର (9 ବକ୍ତା), ଧ୍ୱନିର ମାତ୍ର3ସେକେଣ୍ଡରୁ ସ୍ୱର କ୍ଲୋନିଂ, ଏବଂ ଏକ ଭିନ୍ନ ସ୍ୱର ଡିଜାଇନ ଅବସ୍ଥା ଯେଉଁଠାରେ ଆପଣ ପ୍ରାକୃତିକ ଭାଷାରେ ଆପଣ ଚାହୁଁଥିବା ସ୍ୱରକୁ ବର୍ଣ୍ଣନା କରିପାରିବେ। ଏହା ଉଚ୍ଚ ଅଭିବ୍ୟକ୍ତି ଏବଂ ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି ସହିତ 10ଟି ଭାଷାକୁ ଆବରଣ କରିଥାଏ।

ବିକାଶକାରୀ::
Alibaba (Qwen)

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ଧ୍ୱନି କ୍ଲୋନିଂ 9 ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଧ୍ୱନି ପାଠ୍ୟରୁ ଧ୍ୱନି ଡିଜାଇନ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଭାଷାName

ଏହା ପାଇଁ ଉତ୍ତମ:: ଭାଷା କ୍ଲୋନିଂ କିମ୍ବା ଇଚ୍ଛାରୂପୀ ଭାଷା ଡିଜାଇନ ସହିତ ବହୁଭାଷୀ ବିଷୟବସ୍ତୁName

ଚେଷ୍ଟାକରନ୍ତୁ Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) ହେଉଛି ଗୋଟିଏ 1 ବିଲିୟନ ପରିମାପକ ମଡେଲ ଯାହାକି ବିଶେଷକରି କଥାବାର୍ତ୍ତା ବକ୍ତବ୍ୟ ଉତ୍ପାଦନ କରିବା ପାଇଁ ନିର୍ମାଣ କରାଯାଇଛି। ଏହା ମାନବ କଥାବାର୍ତ୍ତାର ପ୍ରାକୃତିକ ନମୁନାଗୁଡ଼ିକୁ ମଡେଲ କରେ ଯାହାକି ଟର୍ଣ୍ଣ-ଟେକିଂ ଟାଇମିଂ, ବ୍ୟାକଚ୍ୟାନେଲ ପ୍ରତିକ୍ରିୟା, ଭାବପ୍ରବଣ ପ୍ରତିକ୍ରିୟା, ଏବଂ କଥାବାର୍ତ୍ତା ପ୍ରବାହକୁ ଅନ୍ତର୍ଭୁକ୍ତ କରିଥାଏ। CSM ସଂଯୋଜିତ ବକ୍ତବ୍ୟ ବଦଳରେ ପ୍ରାକୃତିକ ମନୁଷ୍ୟ କଥାବାର୍ତ୍ତା ଭଳି ଶବ୍ଦ ସୃଷ୍ଟି କରେ।

ବିକାଶକାରୀ::
Sesame

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Slow

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en

VRAM:
8GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
4x

କଥାବାର୍ତ୍ତାName ପ୍ରାକୃତିକ ସମୟ ଥର ନେବା ପଛ ଚ୍ୟାନେଲ 1B ପ୍ରାଚଳଗୁଡ଼ିକ

ଏହା ପାଇଁ ଉତ୍ତମ:: AI ସହାୟକ, ଚାଟବଟ, କଥାବାର୍ତ୍ତା AI ପ୍ରୟୋଗଗୁଡ଼ିକ

ଚେଷ୍ଟାକରନ୍ତୁ Sesame CSM

Chatterbox Turbo

Standard

Resemble AI ଦ୍ୱାରା ଚାଟରବକ୍ସ ଟର୍ବୋ ଚାଟରବକ୍ସ ପାଇଁ 350M ପରିମାପକ ଅଗ୍ରଗତି, 200ms ଅନ୍ତର୍ଗତ 6x ସତ୍ୟକାଳୀନ ଗତି ସହିତ ପ୍ରଦାନ କରିଥାଏ। ଏହା [ହସିବା], [କଫା] ଏବଂ [ଚୁକିବା] ପରି ପାଠ୍ୟରେ ସିଧାସଳଖ ପାରାଲିଙ୍ଗୁଇଷ୍ଟିକ ଟ୍ୟାଗଗୁଡ଼ିକୁ ସମର୍ଥନ କରେ। ପ୍ରୋଭେନ୍ସ ଟ୍ରାକିଂ ପାଇଁ ସମସ୍ତ ଉତ୍ପନ୍ନ ଧ୍ୱନିରେ ପର୍ଟ ପାନୀୟ ଚିହ୍ନକୁ ଅନ୍ତର୍ଭୁକ୍ତ କରିଥାଏ।

ବିକାଶକାରୀ::
Resemble AI

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en

VRAM:
2GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ଅଧି-200ms ଲାଟେନସି ପାରାଲିଙ୍ଗୁଇଷ୍ଟିକ ଟ୍ୟାଗଗୁଡିକKCharselect unicode block name 6x ସତ୍ୟକାଳୀନ ଧ୍ୱନି କ୍ଲୋନିଂ ପାନ ଚିହ୍ନ

ଏହା ପାଇଁ ଉତ୍ତମ:: ପ୍ରକୃତ-କାଳ ସ୍ୱର ପ୍ରତିନିଧି, ପ୍ରାକୃତିକ ଧ୍ୱନି ସହିତ ଅଭିବ୍ୟକ୍ତିଗତ ଭାଷଣ

ଚେଷ୍ଟାକରନ୍ତୁ Chatterbox Turbo

VoxCPM

Standard

OpenBMB ଦ୍ୱାରା VoxCPM 1.5 ଏକ ନୂତନ ଟୋକେନାଇଜର-ମୁକ୍ତ TTS ମଡେଲ ଯାହାକି ଅଲଗା ଟୋକେନଗୁଡ଼ିକ ବଦଳରେ ନିରନ୍ତର ସ୍ଥାନରେ କାର୍ଯ୍ୟ କରିଥାଏ। ଏହା ଉଚ୍ଚ-ସତ୍ୟତା 44.1kHz ଧ୍ୱନି ଉତ୍ପାଦନ କରେ, 3-10 ସେକେଣ୍ଡରୁ ଶୂନ୍ୟ-ଶଟ ଧ୍ୱନି କ୍ଲୋନକୁ ସମର୍ଥନ କରେ, ଏବଂ ଅନୁଚ୍ଛେଦଗୁଡ଼ିକରେ ସ୍ଥିରତା ବଜାୟ ରଖିଥାଏ। କ୍ରସ-ଭାଷା କ୍ଲୋନିଂ ଆପଣଙ୍କୁ ଚାଇନିଜ ଭାଷାରେ ଇଂରାଜୀ ଧ୍ୱନି ପ୍ରୟୋଗ କରିବା ପାଇଁ ଅନୁମତି ଦେଇଥାଏ ଏବଂ ବିପରୀତ ଦିଗରେ।

ବିକାଶକାରୀ::
OpenBMB

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ଧ୍ୱନି ଟୋକେନାଇଜର-ମୁକ୍ତ କ୍ରସ-ଭାଷା କ୍ଲୋନିଂ ସାରାଂଶ-ସଚେତନ LoRA ଫାଇନ-ଟୁନିଙ୍ଗ

ଏହା ପାଇଁ ଉତ୍ତମ:: ଉଚ୍ଚ-ସତ୍ୟତା ଧ୍ୱନି, ଧ୍ୱନି ପୁସ୍ତକ, ଧ୍ୱନି ସ୍ଥିରତା ସହିତ ଲମ୍ବା-ଫର୍ମ ବିଷୟବସ୍ତୁ

ଚେଷ୍ଟାକରନ୍ତୁ VoxCPM

Kani TTS 2

Free

Kani-TTS-2 by NineNineSix ଗୋଟିଏ NVIDIA NanoCodec ସହିତ Liquid AI LFM2 backbone ଉପରେ ନିର୍ମିତ ଏକ ଅତ୍ୟନ୍ତ ହଳଦିଆ 400M ପରିମାପକ ମଡେଲ। ଏହା କେବଳ 3GB VRAM ରେ ଚଲାଇଥାଏ ଏବଂ A100 (RTF 0.2) ରେ ~2 ସେକେଣ୍ଡରେ ~10 ସେକେଣ୍ଡର ଭାଷଣ ଉତ୍ପାଦନ କରିଥାଏ। ବର୍ତ୍ତମାନର ସାର୍ବଜନୀନ ରିଲିଜ କେବଳ ଇଂରାଜୀ `kani-tts-2-en` ଯାଞ୍ଚ ବିନ୍ଦୁକୁ ପ୍ରଦାନ କରେ ଏବଂ ଭାଷା କ୍ଲୋନିଂ ପାଇଁ ଆବଶ୍ୟକୀୟ ସ୍ଵରକ-ସମୃଦ୍ଧି ହକ୍କୁ ପ୍ରଦର୍ଶନ କରେ ନାହିଁ - କ୍ଲୋନିଂ ପାଇଁ Chatterbox / IndexTTS2 / F5-TTS ବ୍ୟବହାର କରନ୍ତୁ, କିମ୍ବା Kokoro / MeloTTS ଅଣ-ଇଂରାଜୀ ପାଇଁ।

ବିକାଶକାରୀ::
NineNineSix

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en

VRAM:
3GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
ମୁକ୍ତ

3GB VRAM ଅତ୍ୟନ୍ତ ଶୀଘ୍ର ହଳଦିଆ ନାନୋ- କୋଡେକName ମୁକ୍ତ

ଏହା ପାଇଁ ଉତ୍ତମ:: କମ୍-VRAM ହାର୍ଡୱେର ଉପରେ ଦ୍ରୁତ ଇଂରାଜୀ ଉତ୍ପାଦନ, ଦ୍ରୁତ ପ୍ରାକଦର୍ଶନ

ଚେଷ୍ଟାକରନ୍ତୁ Kani TTS 2

OuteTTS

Free

OuteTTS ବଡ଼ ଭାଷା ମଡେଲଗୁଡ଼ିକୁ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ କ୍ଷମତା ସହିତ ବଢ଼ାଇଥାଏ, କିନ୍ତୁ ପ୍ରକୃତ ସ୍ଥାପତ୍ୟକୁ ସଂରକ୍ଷଣ କରିଥାଏ। ଏହା llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, ଏବଂ Transformers.js ମାଧ୍ୟମରେ ବ୍ରାଉଜର ସନ୍ଧାନକୁ ସମର୍ଥନ କରେ। JSON ଭାବରେ ସଂରକ୍ଷିତ ସ୍ଵର ପ୍ରୋଫାଇଲଗୁଡ଼ିକ ମାଧ୍ୟମରେ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂର ବିଶେଷତା।

ବିକାଶକାରୀ::
OuteAI

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en

VRAM:
2GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
ମୁକ୍ତ

CPU ଅନୁମାନ ବ୍ରାଉଜର ଅନୁମାନ ଧ୍ୱନି କ୍ଲୋନିଂ ଏକାଧିକ ପୃଷ୍ଠଭୂମି ବକ୍ତା ରୂପରେଖଗୁଡ଼ିକ

ଏହା ପାଇଁ ଉତ୍ତମ:: ଆଡ଼ଜଷ୍ଟମେଣ୍ଟ, ବ୍ରାଉଜର ଆଧାରିତ TTS, କମ୍-ସମ୍ପଦ ପରିବେଶଗୁଡ଼ିକName

ଚେଷ୍ଟାକରନ୍ତୁ OuteTTS

VibeVoice

Standard

Microsoft ଦ୍ଵାରା VibeVoice ଦୁଇଟି ପରିବର୍ତ୍ତନରେ ଆସିଥାଏ: ଲମ୍ବା-ପ୍ରକାର ବିଷୟବସ୍ତୁ ପାଇଁ ଗୋଟିଏ 1.5B ମଡେଲ (90 ମିନିଟ ପର୍ଯ୍ୟନ୍ତ,4ସ୍ପିକର) ଏବଂ ~200ms ପ୍ରଥମ ଧ୍ୱନି ଲାଟେନସି ସହିତ ଷ୍ଟ୍ରୀମିଂ ପାଇଁ ଗୋଟିଏ ରିଅଲଟାଇମ 0.5B ମଡେଲ। 1.5B ପରିବର୍ତ୍ତନଟି ପୋଡକାଷ୍ଟ ଏବଂ ଧ୍ୱନି ପୁସ୍ତକଗୁଡ଼ିକରେ ଲମ୍ବା ପାଦଗୁଡ଼ିକ ଉପରେ ସ୍ପିକର ସ୍ଥିରତା ସହିତ ଉତ୍ତମ। ଟିପ୍ପଣୀ: Microsoft ରିପୋଜିଟରରୁ TTS ସଂକେତକୁ ହଟାଏ ଏବଂ ଉତ୍ପାଦିତ ଧ୍ୱନିରେ ଶୁଣାଯାଉଥିବା AI ନିବୃତ୍ତି ଅନ୍ତର୍ଭୁକ୍ତ ହୋଇଥାଏ।

ବିକାଶକାରୀ::
Microsoft

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ବହୁ-ସ୍ପିକର 90 ମିନିଟ ପର୍ଯ୍ୟନ୍ତ Podcast ନିର୍ମାଣ ବକ୍ତା ସ୍ଥିରତା 200ms ପ୍ରବାହ

ଏହା ପାଇଁ ଉତ୍ତମ:: ପଡକଡ଼, ଧ୍ୱନି ପୁସ୍ତକ, ଲମ୍ବା-ଫର୍ମ ବହୁ-ବକ୍ତା ବିଷୟବସ୍ତୁ

ଚେଷ୍ଟାକରନ୍ତୁ VibeVoice

Pocket TTS

Free

Kyutai (Moshi ର ନିର୍ମାତା) ଦ୍ୱାରା ପକେଟ TTS ଏକ ସଂକଳ୍ପ 100M ପରିମାପ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ଏହାର ଓଜନଠାରୁ ଅଧିକ ଭଲ ଭାବରେ ସ୍ପର୍ଶ କରିଥାଏ। ଏହା CPU ଉପରେ ଦକ୍ଷତା ସହିତ ଚାଲୁଛି, ଗୋଟିଏ ସ୍ୱର ନମୁନାରୁ ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନକୁ ସମର୍ଥନ କରେ, ଏବଂ ପ୍ରାକୃତିକ-ସ୍ୱର ଭାଷା ଉତ୍ପାଦନ କରେ। ଛୋଟ ମଡେଲ ଆକାର ଏହାକୁ ଅଂଶ ବିସ୍ତାର ଏବଂ କମ୍-ସମ୍ପଦ ପରିବେଶଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ କରିଥାଏ।

ବିକାଶକାରୀ::
Kyutai

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, fr

VRAM:
1GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
ମୁକ୍ତ

ପ୍ରାଚଳଗୁଡ଼ିକ CPU ଅନୁମାନ ଧ୍ୱନି କ୍ଲୋନିଂ ଏକକ-ଉଦାହରଣ କ୍ଲୋନିଂ ଅଂଶ-ସଜ୍ଜିତ

ଏହା ପାଇଁ ଉତ୍ତମ:: ହଳଦିଆ ବିସ୍ତାର, CPU-କେବଳ ପରିବେଶ, ଶୀଘ୍ର ଧ୍ୱନି କ୍ଲୋନିଂName

ଚେଷ୍ଟାକରନ୍ତୁ Pocket TTS

Kitten TTS

Free

KittenML ଦ୍ୱାରା Kitten TTS ଗୋଟିଏ ଅତ୍ୟନ୍ତ ହଳଦିଆ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ONNX ଉପରେ ନିର୍ମିତ ହୋଇଛି । 15M ରୁ 80M ପରିମାପକ (ଡିସ୍କରେ 25-80 MB) ସହିତ, ଏହା GPU ଆବଶ୍ୟକ ନକରି CPU ଉପରେ ଉଚ୍ଚ ଗୁଣବତ୍ତା ବାକ୍ୟ ସଂଶ୍ଲେଷଣ ପ୍ରଦାନ କରିଥାଏ । 8ଟି ସ୍ଥାପିତ ବାକ୍ୟ, ସଜେଇ ହେଉଥିବା ବାକ୍ୟ ବେଗ, ଏବଂ ସଂଖ୍ୟା, ମୁଦ୍ରା ଏବଂ ଏକକଗୁଡ଼ିକ ପାଇଁ ସ୍ଥାପିତ ପାଠ୍ୟ ପୂର୍ବପ୍ରକ୍ରିୟାକରଣ ବିଶେଷତାଗୁଡ଼ିକ । ସର୍ଭର ଶେଷଭାଗରେ ବିସ୍ତାର ଏବଂ କମ-ଅଧିକାର ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ ।

ବିକାଶକାରୀ::
KittenML

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en

VRAM:
0GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ନାଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
ମୁକ୍ତ

କେବଳ CPU ଅନୁମାନ 80MB ମଡେଲ ଆକାର ତଳେName 8 ସ୍ଥାପନୀୟ ଧ୍ୱନିName ବେଗ ନିୟନ୍ତ୍ରଣ ONNX ଆଧାରିତ 24kHz ନିର୍ଗମ

ଏହା ପାଇଁ ଉତ୍ତମ:: ଦ୍ରୁତ ହଳଦିଆ TTS, ଅଂଶ ବିସ୍ତାର, କମ- ଲାଟେନସି ପ୍ରୟୋଗଗୁଡ଼ିକName

ଚେଷ୍ଟାକରନ୍ତୁ Kitten TTS

CosyVoice3

Standard

CosyVoice3 ଅଲିବାବା'ର FunAudioLLM ଦଳର ନୂତନ ବିକାଶ। ଏହା ~150ms ଲାଟେନସି ସହିତ ଦୁଇ-ପ୍ରବାହ ଧାରଣର ବିଶେଷତା, ଅନୁଦେଶ-ଆଧାରିତ ନିୟନ୍ତ୍ରଣ ପାଇଁ ଭାବନା/ଗତି/ବ୍ଯସ୍ତତା, ଏବଂ ଶୂନ୍ୟ-ଶଟ କ୍ଲୋନିଂ ପାଇଁ ଉନ୍ନତ ବକ୍ତା ସମାନତା।9ଭାଷା ଏବଂ 18 ଚୀନୀୟ ଭାଷାକୁ ସମର୍ଥନ କରିଥାଏ। RL-ଟ୍ୟୁନଡ ଭାରିଏଣ୍ଟ ଅତ୍ୟାଧୁନିକ ପ୍ରୋସୋଡି ପ୍ରଦାନ କରିଥାଏ।

ବିକାଶକାରୀ::
Alibaba (FunAudioLLM)

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ଦୁଇ-ପ୍ରବାହ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଧ୍ୱନି କ୍ଲୋନିଂ ବେଗ/ଆକାର ନିୟନ୍ତ୍ରଣ ନିର୍ଦ୍ଦେଶ ଅନୁଯାୟୀ

ଏହା ପାଇଁ ଉତ୍ତମ:: ବହୁଭାଷୀ ଉତ୍ପାଦନ TTS, ରିଅଲ-ଟାଇମ ପ୍ରୟୋଗ, ଧ୍ୱନି କ୍ଲୋନିଂ

ଚେଷ୍ଟାକରନ୍ତୁ CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS ହେଉଛି Resemble AI's ChatterboxMultilingualର ଗୋଟିଏ ସାଉଦି ଆରବୀ ଫାଇନ-ଟ୍ୟୁନ। NAMAA Space ଦ୍ୱାରା ପ୍ରମାଣିତ ପ୍ରଚଳିତ ସାଉଦି-ଭାଷାରେ ଭାଷଣ, ଏହା ପ୍ରାକୃତିକ ଆଧୁନିକ ମାନକ ଆରବ ଏବଂ ସାଉଦି କଲୋକାଲ ଉଚ୍ଚାରଣ ସୃଷ୍ଟି କରିଥାଏ ଯାହାକି ସାଧାରଣ ବହୁଭାଷା ମଡେଲ ସହିତ ମେଳ ଖାଉନାହିଁ। Chatterboxର ଶୂନ୍ୟ-ଶଟ ସ୍ୱର କ୍ଲୋନିଂ ଏବଂ ଅନୁସରଣ ଧ୍ୱନି ପ୍ରୋମ୍ପଟ ମାଧ୍ୟମରେ ଭାବନା ନିୟନ୍ତ୍ରଣକୁ ଗ୍ରହଣ କରିଥାଏ। ପ୍ରଥମ ଖୋଲା-ବ୍ୟାସ ଆରବୀ TTS TTS.ai ରେ ବିସ୍ତାରିତ ହୋଇଛି।

ବିକାଶକାରୀ::
NAMAA Space

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
ar

VRAM:
6GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ସାଉଦି ଆରବୀ ଭାଷାName ଆଧୁନିକ ମାନକ ଆରବୀ ଶୂନ୍ୟ-ଶଟ ଧ୍ୱନି କ୍ଲୋନିଂ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ସ୍ଥାନୀୟ ଉଚ୍ଚାରଣ

ଏହା ପାଇଁ ଉତ୍ତମ:: ସାଉଦି ଦର୍ଶକମାନଙ୍କ ପାଇଁ ଆରବୀ ବିଷୟବସ୍ତୁ, MSA ବର୍ଣ୍ଣନା, ଖଲିଜି-ଭାଷାର ସ୍ୱର ପ୍ରତିନିଧି, ଆରବୀ ଅଡିଓବାଇକ୍ସ

ଚେଷ୍ଟାକରନ୍ତୁ NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1.7B-Cross by FINAL-Bench Qwen3-TTS-1.7B ର ଗୋଟିଏ ଗବେଷଣା ବିକଳ୍ପ ଯେଉଁଠି 84 ଟାକର-FFN ଟେନସର (8.6%) କୁ Qwen3-1.7B-Base ରୁ ମେଳ ଖାଉଥିବା ଟେନସର ସହିତ α=3% ରେ ମିଶାଇଥାଏ। ମିଶ୍ରଣଟି ପୁନଃପ୍ରଶିକ୍ଷା ବିନା ନିର୍ମିତ ହୋଇଥାଏ ଏବଂ କୋରିଆ, ଇଂରାଜୀ, ଜାପାନୀ ଏବଂ ଚାଇନିଜରେ ପରିଲକ୍ଷିତ ଭାବରେ crisper cross-language ସ୍ୱର କ୍ଲୋନିଂ ଉତ୍ପାଦନ କରେ। ଶୂନ୍ୟ-ଶଟ ସ୍ୱର-କ୍ଲୋନ ଅବସ୍ଥାରେ କାର୍ଯ୍ୟ କରେ (3 ସେକେଣ୍ଡ ସଂଯୋଗ ଧ୍ୱନି)।

ବିକାଶକାରୀ::
FINAL-Bench

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, ko, ja, zh

VRAM:
7GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ଧ୍ୱନି କ୍ଲୋନିଂ କ୍ରସ-ଭାଷାName FFN-ମିଶ୍ରିତ 4 ମୂଳ ଭାଷା Qwen3 ପୃଷ୍ଠଭୂମି

ଏହା ପାଇଁ ଉତ୍ତମ:: ଗୋଟିଏ ସଂଯୋଗ ଧ୍ୱନି ସହିତ ଇଂରାଜୀ / କୋରିଆନ / ଜାପାନୀ / ଚାଇନିଜ ମଧ୍ୟରେ କ୍ରସ-ଭାଷା ଧ୍ୱନି କ୍ଲୋନିଂName

ଚେଷ୍ଟାକରନ୍ତୁ Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 OpenMOSS ରୁ ଗୋଟିଏ 7B ସଂଳାପ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲ ଯାହାକି ଗୋଟିଏ ସଂକ୍ଷିପ୍ତ ଧ୍ୱନି ପ୍ରୋମୋଟରୁ କଥାବାର୍ତ୍ତା ଜାରି ରଖିଥାଏ। [S1]/[S2] ଟ୍ୟାଗ ମାଧ୍ୟମରେ5ଜଣ ଏକସଙ୍ଗେ ବକ୍ତାଙ୍କୁ ସମର୍ଥନ କରେ, 3-10s ସଂଯୋଗ ଧ୍ୱନିରୁ ଶୂନ୍ୟ-ଶଟ ଧ୍ୱନି କ୍ଲୋନିଂ, ଏବଂ 20 ଭାଷାରେ 60 ମିନିଟ ପର୍ଯ୍ୟନ୍ତ ସମନ୍ୱିତ ବହୁ-ପଥ ସଂଳାପ। MOSS-TTS ରୁ ଭିନ୍ନ — TTSD ପୋଡକାଷ୍ଟ/ଦ୍ୱିତୀୟ ପୁସ୍ତକ/ଦ୍ୱିତୀୟ ଭାଷା କାର୍ଯ୍ଯପ୍ରବାହ ପାଇଁ ବିଶେଷଜ୍ଞ।

ବିକାଶକାରୀ::
OpenMOSS

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh

VRAM:
12GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
2x

ବହୁ-ବକ୍ତା ସଂଳାପ 5 ଯାଏଁ ସ୍ଵରକ 60ମିନିଟ ସମନ୍ୱିତ ଧ୍ୱନି ଧ୍ୱନି କ୍ଲୋନିଂ ପୋଡକାଷ୍ଟ ଅନୁକୂଳକରଣ

ଏହା ପାଇଁ ଉତ୍ତମ:: ପୋଡକାଷ୍ଟ, ଧ୍ୱନି ପୁସ୍ତକ, ଡବଲଡ ଡାଇଲଗ, ବହୁଭାଷୀ ବିଷୟବସ୍ତୁ ସହିତ କଥାବାର୍ତ୍ତା

ଚେଷ୍ଟାକରନ୍ତୁ MOSS-TTSD

Ming-Omni TTS

Free

inclusionAI ଦ୍ୱାରା Ming-omni-tts-0.5B ଏକ ସଙ୍କଟ omni-modal ଭାଷା ମଡେଲ ଯାହାକି BailingMM ଘନ backbone ଉପରେ ନିର୍ମିତ ହୋଇଛି ଗୋଟିଏ Patch-by-Patch ଫ୍ଲୋ-ମେଚିଂ ଧ୍ୱନି ବିକୋଡର ସହିତ । 44.1kHz ନିର୍ଗମନ (CD ଗୁଣବତ୍ତା ପାଖାପାଖି),3+ ସେକେଣ୍ଡ ସଂଦର୍ଭରୁ ଶୂନ୍ୟ-ଶଟ ଭାଷା କ୍ଲୋନିଂକୁ ସମର୍ଥନ କରେ, ଏବଂ JSON ନିର୍ଦ୍ଦେଶନାମା ମାଧ୍ୟମରେ ସ୍ଥାପିତ ଭାବନା / ଭାଷା / BGM ନିୟନ୍ତ୍ରଣକୁ ଅନ୍ତର୍ଭୁକ୍ତ କରେ । ଚାଇନିଜ ବେଞ୍ଚମାର୍କରେ ଉତ୍ତମ ସ୍ଥିରତା — 0.83% WER ।

ବିକାଶକାରୀ::
inclusionAI

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Medium

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName:
en, zh

VRAM:
3GB

ଧ୍ୱନି କ୍ଲୋନିଂName:
ହଁ

ପ୍ରତି 1K ଅକ୍ଷର ମୂଲ୍ୟ:
ମୁକ୍ତ

44.1kHz ନିର୍ଗମ ଧ୍ୱନି କ୍ଲୋନିଂ ଭାବପ୍ରବଣତା ନିୟନ୍ତ୍ରଣ ଭାଷା ନିୟନ୍ତ୍ରଣKCharselect unicode block name BGM ଉତ୍ପାଦନ ସଂକଳ୍ପ 0.5B

ଏହା ପାଇଁ ଉତ୍ତମ:: ଉଚ୍ଚ-ସତ୍ୟତା ଦ୍ୱିଭାଷୀ ବର୍ଣ୍ଣନା, ଭାବନା ନିୟନ୍ତ୍ରିତ ସ୍ୱର ଅଭିନୟ, ଚାଇନିଜ ଅଡିଓବାଇକ ବିଷୟବସ୍ତୁ

ଚେଷ୍ଟାକରନ୍ତୁ Ming-Omni TTS

Kokoro

ମୁକ୍ତ

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

ବିକାଶକାରୀ::
Hexgrad

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName: en, ja, zh, fr, it, pt, es, hi

ଏହା ପାଇଁ ଉତ୍ତମ:: High-quality TTS with minimal latency, streaming applications

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

Piper

ମୁକ୍ତ

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

ବିକାଶକାରୀ::
Rhasspy

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ଏହା ପାଇଁ ଉତ୍ତମ:: Quick previews, accessibility, and embedded applications

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

VITS

ମୁକ୍ତ

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

ବିକାଶକାରୀ::
Jaehyeon Kim et al.

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

ଏହା ପାଇଁ ଉତ୍ତମ:: General-purpose text-to-speech with natural prosody

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

MeloTTS

ମୁକ୍ତ

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

ବିକାଶକାରୀ::
MyShell.ai

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName: en, es, fr, zh, ja, ko

ଏହା ପାଇଁ ଉତ୍ତମ:: Production applications needing fast, multilingual TTS

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

Kani TTS 2

ମୁକ୍ତ

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

ବିକାଶକାରୀ::
NineNineSix

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName: en

ଏହା ପାଇଁ ଉତ୍ତମ:: Fast English generation on low-VRAM hardware, quick previews

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

OuteTTS

ମୁକ୍ତ

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

ବିକାଶକାରୀ::
OuteAI

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName: en

ଏହା ପାଇଁ ଉତ୍ତମ:: Edge deployment, browser-based TTS, low-resource environments

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

Pocket TTS

ମୁକ୍ତ

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

ବିକାଶକାରୀ::
Kyutai

ଅନୁମତିପତ୍ର::
MIT

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName: en, fr

ଏହା ପାଇଁ ଉତ୍ତମ:: Lightweight deployment, CPU-only environments, quick voice cloning

ମୁକ୍ତ ଭାବରେ ଚେଷ୍ଟାକରନ୍ତୁ

Kitten TTS

ମୁକ୍ତ

ବିକାଶକାରୀ::
KittenML

ଅନୁମତିପତ୍ର::
Apache 2.0

ବେଗ:
Fast

ଗୁଣବତ୍ତା::

ଭାଷାଗୁଡ଼ିକName: en

ଏହା ପାଇଁ ଉତ୍ତମ:: Fast lightweight TTS, edge deployment, low-latency applications

ଆକାର	ବିକାଶକାରୀ:	ତିଆର	ବେଗ	ଭାଷାଗୁଡ଼ିକName	VRAM	ଅନୁମତିପତ୍ର:	କ୍ରେଡିଟସ
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	ମୁକ୍ତ	ବ୍ୟବହାର କରନ୍ତୁ
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	ମୁକ୍ତ	ବ୍ୟବହାର କରନ୍ତୁ
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	ମୁକ୍ତ	ବ୍ୟବହାର କରନ୍ତୁ
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	ମୁକ୍ତ	ବ୍ୟବହାର କରନ୍ତୁ
Bark	Suno	Standard	Slow	13	5GB	MIT	2	ବ୍ୟବହାର କରନ୍ତୁ
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	ବ୍ୟବହାର କରନ୍ତୁ
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	ବ୍ୟବହାର କରନ୍ତୁ
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	ବ୍ୟବହାର କରନ୍ତୁ
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	ବ୍ୟବହାର କରନ୍ତୁ
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	ବ୍ୟବହାର କରନ୍ତୁ
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	ବ୍ୟବହାର କରନ୍ତୁ
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	ବ୍ୟବହାର କରନ୍ତୁ
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	ବ୍ୟବହାର କରନ୍ତୁ
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	ବ୍ୟବହାର କରନ୍ତୁ
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	ବ୍ୟବହାର କରନ୍ତୁ
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	ବ୍ୟବହାର କରନ୍ତୁ
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	ବ୍ୟବହାର କରନ୍ତୁ
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	ବ୍ୟବହାର କରନ୍ତୁ
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	ବ୍ୟବହାର କରନ୍ତୁ
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	ବ୍ୟବହାର କରନ୍ତୁ
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	ବ୍ୟବହାର କରନ୍ତୁ
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	ବ୍ୟବହାର କରନ୍ତୁ
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	ମୁକ୍ତ	ବ୍ୟବହାର କରନ୍ତୁ
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	ମୁକ୍ତ	ବ୍ୟବହାର କରନ୍ତୁ
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	ବ୍ୟବହାର କରନ୍ତୁ
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	ମୁକ୍ତ	ବ୍ୟବହାର କରନ୍ତୁ
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	ମୁକ୍ତ	ବ୍ୟବହାର କରନ୍ତୁ
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	ବ୍ୟବହାର କରନ୍ତୁ
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	ବ୍ୟବହାର କରନ୍ତୁ
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	ବ୍ୟବହାର କରନ୍ତୁ
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	ବ୍ୟବହାର କରନ୍ତୁ
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	ମୁକ୍ତ	ବ୍ୟବହାର କରନ୍ତୁ

ସବୁଠାରୁ ବ୍ୟାପକ AI ପାଠ୍ୟରୁ ଭାଷଣ ପ୍ଲାଟଫର୍ମ

ପାଠରୁ ଭାଷା ପାଇଁ TTS.ai କାହିଁକି ବାଛିବେ?

TTS.ai ବିଶ୍ୱର ଶ୍ରେଷ୍ଠ ମୁକ୍ତ ଉତ୍ସ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ମଡେଲଗୁଡ଼ିକୁ ଏକକ, ବ୍ୟବହାର କରିବାରେ ସହଜ ପ୍ଲାଟଫର୍ମରେ ଏକତ୍ରିତ କରିଥାଏ। ସ୍ୱତନ୍ତ୍ର ସେବା ଠାରୁ ଭିନ୍ନ ଭାବରେ ଯାହାକି ଆପଣଙ୍କୁ ଗୋଟିଏ ସ୍ୱର ଇଞ୍ଜିନରେ ବନ୍ଦ କରିଥାଏ, TTS.ai ଆପଣଙ୍କୁ Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University ଏବଂ ଅଧିକ ସମେତ ପ୍ରମୁଖ ଗବେଷଣା ପ୍ରୟୋଗଶାଳାରୁ 20+ ମଡେଲକୁ ପ୍ରବେଶ ପ୍ରଦାନ କରିଥାଏ।

ପ୍ରତିଟି ନମୁନା MIT, Apache 2.0, କିମ୍ବା ସମାନ ଅନୁମତିପ୍ରଦାନକାରୀ ଲାଇସେନ୍ସ ଅନ୍ତର୍ଗତ ମୁକ୍ତ ଉତ୍ସ, ଯାହାକି ଆପଣଙ୍କ ପ୍ରକଳ୍ପରେ ଉତ୍ପନ୍ନ ଧ୍ୱନିକୁ ବ୍ୟବହାର କରିବା ପାଇଁ ଆପଣଙ୍କର ସମ୍ପୂର୍ଣ୍ଣ ବାଣିଜ୍ୟିକ ଅଧିକାରକୁ ନିଶ୍ଚିତ କରିଥାଏ। ଆପଣ ଦ୍ରୁତ, ହଳଦିଆ ସଂଶ୍ଲେଷଣର ଆବଶ୍ୟକତା ପାଉଥିବେ, ବା ରିୟଲ-ଟାଇମ ପ୍ରୟୋଗ କିମ୍ବା ଅଡିଓବାଇକ ଏବଂ ପୋଡକାଷ୍ଟ ପାଇଁ ପ୍ରୀମିୟମ ଷ୍ଟୁଡିଓ-ଗୁଣମାନର ନିର୍ଗମ, TTS.ai ରେ ପ୍ରତ୍ୟେକ ବ୍ୟବହାର ମାମଲା ପାଇଁ ସଠିକ ନମୁନା ଅଛି।

ମୁକ୍ତ ନମୂନା, କୌଣସି ଖାତା ଆବଶ୍ୟକ ନାହିଁ

ତିନୋଟି ମୁକ୍ତ TTS ନମୂନା ସହିତ ତୁରନ୍ତ ଆରମ୍ଭ କରନ୍ତୁ: Piper (ଅତ୍ୟନ୍ତ ଶୀଘ୍ର, ହଳଦିଆ), VITS (ଉଚ୍ଚ ଗୁଣବତ୍ତା ନ୍ୟୁରାଲ ସଂଯୋଜକତା), ଏବଂ MeloTTS (ବହୁଭାଷା ସମର୍ଥନ) । କୌଣସି ସଦସ୍ୟତା ନାହିଁ, କୌଣସି କ୍ରେଡିଟ କାର୍ଡ ନାହିଁ, ପିଢ଼ିରେ କୌଣସି ସୀମା ନାହିଁ । ମୁକ୍ତ ନମୂନାଗୁଡ଼ିକ ଇଂରାଜୀ ଏବଂ ଅଧିକାଂଶ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଉପଯୁକ୍ତ ପ୍ରାକୃତିକ-ସଙ୍ଗୀତ ନିର୍ଗମ ସହିତ ବହୁଭାଷାକୁ ସମର୍ଥନ କରିଥାଏ ।

GPU- ତ୍ୱରିତ ପ୍ରକ୍ରିୟାକରଣ

ସମସ୍ତ TTS ମଡେଲଗୁଡ଼ିକ ଦ୍ରୁତ, ନିରନ୍ତର ଉତ୍ପାଦନ ସମୟ ପାଇଁ ସମର୍ପିତ NVIDIA GPUs ଉପରେ ଚାଲନ୍ତି। ମୁକ୍ତ ମଡେଲଗୁଡ଼ିକ ସାଧାରଣତଃ2ସେକେଣ୍ଡରେ ଧ୍ୱନି ଉତ୍ପାଦନ କରିଥାଏ। Kokoro, CosyVoice2ଆବଶ୍ୟକତା ଅନୁଯାୟୀ ମଡେଲଗୁଡ଼ିକ, ଏବଂ Bark ହାରାହାରି3-5 ସେକେଣ୍ଡରେ। ସର୍ବୋଚ୍ଚ ଗୁଣବତ୍ତା ସହିତ ପ୍ରୀମିୟମ ମଡେଲଗୁଡ଼ିକ, ଯେପରିକି Tortoise ଏବଂ Chatterbox, ପାଠ୍ୟ ଲମ୍ବ ଉପରେ ନିର୍ଭର କରି5-15 ସେକେଣ୍ଡରେ ପ୍ରକ୍ରିୟା କରନ୍ତି।

30+ ଭାଷା ସମର୍ଥିତName

ଇଂରାଜୀ, ସ୍ପେନିସ, ଫ୍ରେଞ୍ଚ, ଜର୍ମାନ, ଇଟାଲିଆନ, ପୋର୍ତ୍ତୁଗୀ, ଚାଇନିଜ, ଜାପାନୀ, କୋରିଆନ, ଆରବୀ, ହିନ୍ଦୀ, ରୁଷିଆନ ଏବଂ ଅଧିକାଂଶ ଭାଷା ସମେତ 30ରୁ ଅଧିକ ଭାଷାରେ ଭାଷଣ ସୃଷ୍ଟି କରନ୍ତୁ। ଅନେକ ମଡେଲ କ୍ରସ-ଭାଷା ସଂଶ୍ଲେଷଣକୁ ସମର୍ଥନ କରିଥାଏ, ଅର୍ଥାତ୍‌ ଆପଣ ଗୋଟିଏ ଭାଷାରେ ଭାଷଣ ସୃଷ୍ଟି କରିପାରିବେ ଯାହାକୁ ପ୍ରକୃତ ଭାଷାରେ କେବେ ପ୍ରଶିକ୍ଷିତ କରାଯାଇନାହିଁ। CosyVoice2ଆବ GPT-SoVITS କ୍ରସ-ଭାଷା ଭାଷା କ୍ଲୋନିଂରେ ଉତ୍ତମ।

ବିକାଶକାରୀ-ସଜ୍ଜିତ API

ଆମ OpenAI-ସଂଗଠିତ REST API ସହିତ ଆପଣଙ୍କର ପ୍ରୟୋଗରେ TTS.aiକୁ ଏକୀକୃତ କରନ୍ତୁ । ସମସ୍ତ 20+ ମଡେଲ ପାଇଁ ଗୋଟିଏ ଶେଷ ବିନ୍ଦୁ । Python, JavaScript, cURL, ଏବଂ Go SDKs । ରିୟଲ-ଟାଇମ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଷ୍ଟ୍ରିମିଂ ସମର୍ଥନ । ବଡ଼ ପରିମାଣର ବିଷୟବସ୍ତୁ ଉତ୍ପାଦନ ପାଇଁ ବ୍ୟାଚ ପ୍ରକ୍ରିୟା । ଅସଂଯୋଜକ ବିଜ୍ଞପ୍ତି ପାଇଁ Webhooks । API ସୁବିଧା ମୁକ୍ତ ସମେତ ପ୍ରତ୍ୟେକ ଯୋଜନାରେ ସାମିଲ ।

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

ପାଠ୍ୟରୁ ବାକ୍ୟ (TTS) ଏକ AI ପ୍ରଯୁକ୍ତି ଯାହାକି ଲିଖିତ ପାଠ୍ୟକୁ ପ୍ରାକୃତିକ-ସଙ୍ଗୀତ ବାକ୍ୟ ଧ୍ୱନିରେ ପରିବର୍ତ୍ତନ କରିଥାଏ। ଆଧୁନିକ ନ୍ୟୁରାଲ TTS ମଡେଲ ଯେପରିକି କୋକୋରୋ, ଚାଟରବକ୍ସ, ଏବଂ କୋସିଭାୟସ2ଗୁଡ଼ିକ ଗଭୀର ଜ୍ଞାନକୁ ବ୍ୟବହାର କରି ବକ୍ତବ୍ୟ ଉତ୍ପାଦନ କରିଥାଏ ଯାହାକି ଅତ୍ୟନ୍ତ ମାନବୀୟ ଭାବରେ ଶୁଣାଯାଏ, ପ୍ରାକୃତିକ ପ୍ରୋସୋଡି, ଭାବନା, ଏବଂ ରଥମ ସହିତ।

ଏହା ଆପଣଙ୍କର ଆବଶ୍ୟକତା ଉପରେ ନିର୍ଭର କରେ। ଦ୍ରୁତ ପ୍ରାକଦର୍ଶନ ପାଇଁ, Piper କିମ୍ବା MeloTTS (ମୁକ୍ତ, ଦ୍ରୁତ) ବ୍ୟବହାର କରନ୍ତୁ। ଉଚ୍ଚ ଗୁଣବତ୍ତା ପାଇଁ, Kokoro କିମ୍ବା CosyVoice2(ମାନକ ସ୍ତର) ବ୍ୟବହାର କରନ୍ତୁ। ଭାଷା କ୍ଲୋନିଂ ପାଇଁ, Chatterbox କିମ୍ବା GPT-SoVITS (ପ୍ରିମିଆମ) ବ୍ୟବହାର କରନ୍ତୁ। ସଂଳାପ/ପଡକାଷ୍ଟ ବିଷୟବସ୍ତୁ ପାଇଁ, Dia TTS ବ୍ୟବହାର କରନ୍ତୁ। ପ୍ରତ୍ୟେକ ନମୂନାରେ ଭିନ୍ନ ଭିନ୍ନ ଶକ୍ତି ଅଛି - ଶ୍ରେଷ୍ଠ ମେଳଖାଉଥିବାକୁ ଖୋଜିବା ପାଇଁ ଅନୁଭବ କରନ୍ତୁ।

ହଁ! TTS.ai Kokoro, Piper, VITS, ଏବଂ MeloTTS ମଡେଲ ସହିତ ମୁକ୍ତ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ପ୍ରଦାନ କରେ । 500 ଅକ୍ଷର ଏବଂ ପ୍ରତି ଘଣ୍ଟାରେ3ପ୍ରଜନନ ପାଇଁ କୌଣସି ଖାତା ଆବଶ୍ୟକ ନୁହଁ । 15 କ୍ରେଡିଟ ଏବଂ ସମସ୍ତ ମଡେଲକୁ ବ୍ୟବହାର କରିବା ପାଇଁ ମୁକ୍ତ ଖାତା ପାଇଁ ସଦସ୍ୟତା ନିଅନ୍ତୁ ।

ଆମର TTS ମଡେଲ ସମୂହରେ 30+ ଭାଷା ସମର୍ଥନ କରେ ଯେଉଁଥିରେ ଇଂରାଜୀ, ସ୍ପେନିସ, ଫ୍ରେଞ୍ଚ, ଜର୍ମାନ, ଇଟାଲିଆନ, ପୋର୍ତ୍ତୁଗାଲି, ଚାଇନିଜ, ଜାପାନୀ, କୋରିଆନ, ଆରବୀ, ରୁଷିଆନ, ହିନ୍ଦୀ ଏବଂ ଅନେକ ଅଧିକ ଭାଷା ସାମିଲ ଅଛି । ଭାଷା ଉପଲବ୍ଧତା ମଡେଲ ଅନୁଯାୟୀ ଭିନ୍ନ ଭିନ୍ନ ହୋଇଥାଏ ।

ହଁ, TTS.ai ମାଧ୍ୟମରେ ନିର୍ମିତ ଧ୍ୱନିକୁ ବାଣିଜ୍ୟିକ ଭାବରେ ବ୍ୟବହାର କରାଯାଇପାରିବ। ଆମର ସମସ୍ତ ନମୁନା ଖୋଲା ଉତ୍ସ ଲାଇସେନ୍ସଗୁଡ଼ିକୁ ବ୍ୟବହାର କରିଥାଏ (MIT, Apache 2.0)। ନିର୍ଦ୍ଦିଷ୍ଟ ଶବ୍ଦଗୁଡ଼ିକ ପାଇଁ ବ୍ୟକ୍ତିଗତ ନମୁନା ଲାଇସେନ୍ସଗୁଡ଼ିକୁ ଯାଞ୍ଚ କରନ୍ତୁ। ଆମେ ଆପଣଙ୍କ ପ୍ରକଳ୍ପ ପାଇଁ ବ୍ୟବହାର କରୁଥିବା ନିର୍ଦ୍ଦିଷ୍ଟ ନମୁନା ଲାଇସେନ୍ସକୁ ଯାଞ୍ଚ କରିବା ପାଇଁ ପରାମର୍ଶ ଦେଉଛୁ।

TTS.ai MP3, WAV, OGG, ଏବଂ FLAC ନିର୍ଗମ ଶୈଳୀଗୁଡ଼ିକୁ ସମର୍ଥନ କରିଥାଏ। MP3 ୱେବ ଚାଳନା ପାଇଁ ପୂର୍ବନିର୍ଦ୍ଧାରିତ। WAVକୁ ଅଧିକ ଧ୍ୱନି ପ୍ରକ୍ରିୟାକରଣ ପାଇଁ ପରାମର୍ଶ ଦିଆଯାଏ। ଆପଣ ଆମର ଧ୍ୱନି ପରିବର୍ତ୍ତକ ସାଧନକୁ ବ୍ୟବହାର କରି ଶୈଳୀଗୁଡ଼ିକ ମଧ୍ୟରେ ପରିବର୍ତ୍ତନ କରିପାରିବେ।

ଧ୍ୱନି କ୍ଲୋନିଂ ଗୋଟିଏ ସଂକ୍ଷିପ୍ତ ଧ୍ୱନି ନମୁନାରୁ ଗୋଟିଏ ନିର୍ଦ୍ଦିଷ୍ଟ ଧ୍ୱନିକୁ ନକଲ କରିବା ପାଇଁ AI କୁ ବ୍ୟବହାର କରେ (ସାଧାରଣତଃ 5-30 ସେକଣ୍ଡ)। ଲକ୍ଷ୍ୟ ଧ୍ୱନିର ଗୋଟିଏ ସ୍ୱଚ୍ଛ ରେକର୍ଡକୁ ଅପଲୋଡ କରନ୍ତୁ, ଏବଂ Chatterbox, GPT-SoVITS, କିମ୍ବା OpenVoice ଭଳି ନମୂନାଗୁଡ଼ିକ ସେହି ଧ୍ୱନିରେ ନୂତନ ବକ୍ତବ୍ୟ ସୃଷ୍ଟି କରିବ। ସ୍ୱଚ୍ଛ, ଦୀର୍ଘ ଅନୁସରଣ ଧ୍ୱନି ସହିତ ଗୁଣବତ୍ତା ଉନ୍ନତ ହୋଇଥାଏ।

ମୁକ୍ତ ଚାଳକମାନେ ପ୍ରତି ଅନୁରୋଧରେ 500 ଅକ୍ଷର ପର୍ଯ୍ୟନ୍ତ ସୃଷ୍ଟି କରିପାରିବେ। ପଞ୍ଜିକୃତ ଚାଳକମାନେ ପ୍ରତି ଅନୁରୋଧରେ 5,000 ଅକ୍ଷର ପର୍ଯ୍ୟନ୍ତ ପାଇବେ। ଲମ୍ବା ପାଠ୍ୟ ପାଇଁ, ଧ୍ୱନିକୁ ଚୁକ୍ସରେ ସୃଷ୍ଟି କରାଯାଏ ଏବଂ ସ୍ୱୟଂଚାଳିତ ଭାବରେ ଏକାଠି କରାଯାଇଥାଏ। API ଚାଳକମାନେ ପ୍ରତି ଅନୁରୋଧରେ 10,000 ଅକ୍ଷର ପର୍ଯ୍ୟନ୍ତ ପ୍ରକ୍ରିୟା କରିପାରିବେ।

SSML (ଭାଷା ସଂଶ୍ଳୋଧନ ମାର୍କଅପ ଭାଷା) ସମର୍ଥନ ମଡେଲ ଅନୁଯାୟୀ ପରିବର୍ତ୍ତିତ ହୋଇଥାଏ। Piper ଏବଂ କିଛି ଅନ୍ୟ ମଡେଲ ବିରାମ, ଗୁରୁତ୍ୱ ଏବଂ ଉଚ୍ଚାରଣ ନିୟନ୍ତ୍ରଣ ପାଇଁ ମୂଳ SSML ଟ୍ୟାଗକୁ ସମର୍ଥନ କରିଥାଏ। ମଡେଲଗୁଡ଼ିକ ପାଇଁ ଯେଉଁଥିରେ SSML ସମର୍ଥନ ନାହିଁ, ଆପଣ ପ୍ରାକୃତିକ ବିରାମ ଚିହ୍ନ ଏବଂ ଧାଡ଼ି ବିଚ୍ଛିନ୍ନତାକୁ ପ୍ରଭାବିତ କରିବା ପାଇଁ ବ୍ୟବହାର କରିପାରିବେ।

ହଁ, ଅଧିକାଂଶ ମଡେଲଗୁଡ଼ିକ 0.5x ରୁ 2.0x ପର୍ଯ୍ୟନ୍ତ ବେଗ ସଂରଚନାକୁ ସମର୍ଥନ କରିଥାଏ। କିଛି ମଡେଲଗୁଡ଼ିକ ଯେପରିକି Bark ଏବଂ Parler ମଧ୍ୟ ପିଚ ଏବଂ ଶୈଳୀ ନିୟନ୍ତ୍ରଣକୁ ଅନୁମତି ଦେଇଥାଏ। ଆପଣ ଉନ୍ନତ ବିନ୍ୟାସ ଫଳକ କିମ୍ବା API ବେଗ ପରିମାପକ ମାଧ୍ୟମରେ ବେଗ ପରିମାପକଗୁଡ଼ିକୁ ବିନ୍ୟାସ କରିପାରିବେ।

ହଁ, ବ୍ୟାଚ ପ୍ରକ୍ରିୟାକରଣ ଆମର API ମାଧ୍ୟମରେ ଉପଲବ୍ଧ। ଆପଣ ଗୋଟିଏ API କଲ କିମ୍ବା ସ୍କ୍ରିପ୍ଟ ମାଧ୍ୟମରେ ଏକାଧିକ ପାଠ୍ୟ ଅଂଶକୁ ଦାଖଲ କରିପାରିବେ, ଏବଂ ପ୍ରତ୍ୟେକଟି ପ୍ରକ୍ରିୟାକରଣ ହୋଇଯିବ ଏବଂ ସ୍ୱତନ୍ତ୍ର ଧ୍ୱନି ଫାଇଲ ଭାବରେ ଫେରାଇ ଦିଆଯିବ। ଏହା ଧ୍ୱନି ପୁସ୍ତକ ଅଧ୍ୟାୟ, ଇ-ଶିକ୍ଷା ଏକକାଂଶ, କିମ୍ବା ଖେଳ ସଂଳାପ ସ୍କ୍ରିପ୍ଟଗୁଡ଼ିକ ପାଇଁ ଉପଯୁକ୍ତ।

ଆପଣଙ୍କର ଖାତା ଡେସ୍କଟପରୁ ଗୋଟିଏ API କି ନିର୍ମାଣ କରନ୍ତୁ, ତା'ପରେ ଆପଣଙ୍କର ପାଠ୍ୟ, ନମୂନା, ଏବଂ ଭାଷା ପରିମାପ ସହିତ ଆମର REST API ଅନ୍ତିମ ବିନ୍ଦୁକୁ POST ଅନୁରୋଧ ପଠାନ୍ତୁ। ଆମେ Python, JavaScript, ଏବଂ cURL ରେ କୋଡ ଉଦାହରଣ ପ୍ରଦାନ କରୁଛୁ। APIଟି OpenAI-ସଂଗଠିତ, ତେଣୁ ଅବସ୍ଥିତ ଏକୀକରଣଗୁଡ଼ିକ ସର୍ବନିମ୍ନ ପରିବର୍ତ୍ତନ ସହିତ କାର୍ଯ୍ୟ କରିଥାଏ।

5.0/5 (4)

ପାଠ୍ୟକୁ ବାକ୍ୟକୁ ପରିବର୍ତ୍ତନ କରିବା ଆରମ୍ଭ କରନ୍ତୁ

TTS.ai ବ୍ୟବହାର କରି ହଜାର ହଜାର ନିର୍ମାତାମାନଙ୍କ ସହିତ ଯୋଗଦାନ କରନ୍ତୁ। ଗୋଟିଏ ନୂତନ ଖାତା ସହିତ 15,000 ମୁକ୍ତ ଅକ୍ଷର ଗ୍ରହଣ କରନ୍ତୁ। ମୁକ୍ତ ନମୂନାଗୁଡ଼ିକ ସଦସ୍ୟତା ନକରି ଉପଲବ୍ଧ।

ମୁକ୍ତ ଭାବରେ ପଞ୍ଜିକୃତ ହୁଅନ୍ତୁ ମୂଲ୍ୟାଙ୍କନ ଦେଖନ୍ତୁ

AI ପାଠ୍ୟରୁ ଭାଷଣName

TTS.ai କୁ ଭଲପାଆନ୍ତି? ଆପଣଙ୍କ ବନ୍ଧୁମାନଙ୍କୁ ଜଣାଇ ଦିଅନ୍ତୁ!

ଆକାର ବିବରଣୀ

Kitten TTS

ଉତ୍ତମ ଫଳାଫଳ ପାଇଁ ଟିପ୍ପଣୀ

ଅକ୍ଷର ବ୍ୟବହାର ବିଧି

AI ପାଠ୍ୟରୁ ଭାଷଣ କିପରି କାର୍ଯ୍ୟ କରେ

ଆପଣଙ୍କର ପାଠ୍ୟ ଭରଣ କରନ୍ତୁ

ଆକାର ଏବଂ ଧ୍ୱନି ବାଛନ୍ତୁ

ଆହରଣ କରନ୍ତୁ

ପାଠ୍ୟରୁ ବାକ୍ୟ ବ୍ୟବହାର ମାମଲାName

ଧ୍ୱନି ପୁସ୍ତକଗୁଡ଼ିକ

ଭିଡିଓ ଭାଷା

ପୋଡକାଷ୍ଟଗୁଡ଼ିକ

ଖେଳName

ଇ-ଶିକ୍ଷାName

ସୁଗମତା

IVR ଏବଂ ଫୋନ ତନ୍ତ୍ରName

ସାମାଜିକ ଗଣମାଧ୍ୟମName

ପ୍ରବାହ

ବିକ୍ରୟ

ସ୍ଥାନୀୟକରଣName

ଧ୍ୟାନ ଏବଂ ସୁସ୍ଥତା

ସମସ୍ତ ପାଠ୍ୟରୁ ବାକ୍ୟ ନମୂନାଗୁଡ଼ିକName

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3