ରିଅଲଟାଇମ TTS

ଉପ-ସେକଣ୍ଡ ପ୍ରଥମ-ଧ୍ୱନି ଲାଟେନସି ସହିତ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟକୁ ପ୍ରବାହ କରନ୍ତୁ। ଧ୍ୱନି ପ୍ରତିନିଧି ଏବଂ ସକ୍ରିୟ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ନିର୍ମିତ।

ଆପଣଙ୍କ ଭାଷାରେ ଆମ ପାଖରେ ବର୍ତ୍ତମାନ TTS ଧ୍ୱନି ନାହିଁ । ଆମକୁ ଆପଣଙ୍କର ଯୋଗ କରିବାରେ ସହାୟତା କରନ୍ତୁ! ଆପଣଙ୍କର ସ୍ୱର ବିକ୍ରି କରନ୍ତୁ

ପାଠ୍ୟ

ପ୍ରବାହ
0/5,000 ଅକ୍ଷର ~0.3s ପ୍ରଥମ ଧ୍ୱନି

ଧ୍ୱନି ବିନ୍ୟାସଗୁଡ଼ିକ (S)

କେବଳ ପ୍ରବାହ-ସକ୍ଷମ ଆକାର।

ସ୍ତର ଲାଟେନସି

ପ୍ରଥମ ଧ୍ୱନି ଲାଟେନସିକୁ ମାପିବା ପାଇଁ ପ୍ରବାହକୁ କ୍ଲିକ କରନ୍ତୁ

ନିର୍ଗମ

ଧ୍ୱନି ଚକ୍କଗୁଡ଼ିକ ଏଠାରେ ଚାଲାଇବେ ଯେପରି ସେମାନେ ପ୍ରବାହିତ ହୋଇଥାନ୍ତି।

0:00
ପ୍ରଥମ ଅଂଶ:
ମୋଟ ଚୁକ୍ସ: 0
ମୋଟ ସମୟ:

ଷ୍ଟ୍ରିମିଂ TTS କିପରି କାମ କରେ

1. ପାଠ୍ୟ ପଠାନ୍ତୁ

/v1/tts/stream/ କୁ POST ପାଠ୍ୟକୁ ସର୍ଭର-ପ୍ରେରିତ ଘଟଣା ଅନୁରୋଧ ଭାବରେ।

2. ନମୂନା ସୃଷ୍ଟିକରୁଅଛି

Kokoro ପାଠ୍ୟକୁ ଛୋଟ ଛୋଟ କରିଥାଏ ଏବଂ GPU ଉପରେ ଧ୍ୱନି ନମୁନା-ଦ୍ୱାରା-ନମୁନା ସୃଷ୍ଟି କରିଥାଏ।

3. ପ୍ରବାହ ଚୁକ୍ସ

Base64-ସଂକେତିତ WAV ଚୁକ୍ SSE ରେ ପହଞ୍ଚିଥାଏ ଏବଂ ତୁରନ୍ତ ଚାଲାଇବା ଆରମ୍ଭ କରିଥାଏ।

4. ଜୀବନ୍ତ ଶୁଣନ୍ତୁ

ଚାଳକ ଗୋଟିଏ ସେକେଣ୍ଡରୁ କମ ସମୟ ମଧ୍ୟରେ ବାକ୍ୟ ଆରମ୍ଭ ଶୁଣେ, ଏପରିକି ଲମ୍ବା ନିବେଶ ଉପରେ ମଧ୍ୟ।

ବ୍ୟବହାର ବିଧି

ଯେଉଁଠାରେ ଉପ-ସେକେଣ୍ଡ ଲାଟେନସି ନୂତନ ଅନୁଭୂତିକୁ ଖୋଲିଥାଏ ।

ଭାଷା ପ୍ରତିନିଧିName

କଥାବାର୍ତ୍ତା ବାଟଗୁଡ଼ିକ ଯେପରି ଜଣେ ମାନବ ଭଳି ଦ୍ରୁତ ଭାବରେ ଉତ୍ତର ଦେଇଥାଏ।

ଜୀବନ୍ତ ଦୂଷଣ

ବଫର ବିରତି ବିନା ପ୍ରକୃତ ସମୟରେ ଗୋଟିଏ ପ୍ରବାହକୁ ଅନୁବାଦ କରନ୍ତୁ ଏବଂ ଡବଲ କରନ୍ତୁ।

ଖେଳName

NPC ସଂଳାପ ଯାହାକି ଖେଳାଳିଙ୍କ ଚୟନକୁ ତୁରନ୍ତ ପ୍ରତିକ୍ରିୟା କରେ, କୌଣସି ପୂର୍ବ ନିର୍ଦ୍ଧାରିତ VO ନାହିଁ।

ସୁଗମତା

ପରଦା ପାଠକ ଏବଂ ସହାୟତା ସାଧନଗୁଡ଼ିକ ଯାହାକି ଚାଳକ କ୍ଲିକ କରିବା ସମୟରେ କହିବା ଆରମ୍ଭ କରିଥାଏ।

ରିଅଲଟାଇମ TTS ଯୋଜନାଗୁଡ଼ିକ

ମୁକ୍ତ ଭାବରେ ଆରମ୍ଭ କରନ୍ତୁ, ଅଧିକ ଆବଶ୍ୟକ ହେଲେ ଅଗ୍ରଗତି କରନ୍ତୁ

ମୁକ୍ତ
  • Kokoro ପ୍ରବାହ (ମୁକ୍ତ ଆକାର)
  • ପ୍ରତି ଉତ୍ପତ୍ତିରେ 500 ଅକ୍ଷର
  • ପ୍ରତି ଅଜ୍ଞାତ ଚାଳକ ପ୍ରତି 10 ମୁକ୍ତ ପ୍ରବାହ/ଦିନ
  • ଉପ-ସେକଣ୍ଡ ପ୍ରଥମ-ଧ୍ୱନି ଲାଟେନସି
  • HTTPS ଉପରେ SSE ପ୍ରବାହ
ସବୁଠାରୁ ଲୋକପ୍ରିୟ
ମୁକ୍ତ ଖାତା
  • ରେଜିଷ୍ଟ୍ରେସନ ସମୟରେ 15,000 ଅକ୍ଷର
  • ପ୍ରତି ପ୍ରବାହରେ 5,000 ଅକ୍ଷର
  • ପ୍ରଗ୍ରାମାଗତ ସୁଗମତା ପାଇଁ API କି
  • ଉତ୍ପନ୍ନ ଇତିହାସ
  • ଦିନିକିଆ ପ୍ରବାହ ସୀମା ନାହିଁ
ମୁକ୍ତ ଭାବରେ ପଞ୍ଜୀକୃତ ହୁଅନ୍ତୁ
ପ୍ରୋ
  • MOSS-TTS-ସତ୍ୟକାଳୀନ (ସଂପୂର୍ଣ୍ଣ ସମୟରେ)
  • ପ୍ରତି ପ୍ରବାହରେ 100,000 ଅକ୍ଷର
  • ଅଗ୍ରତା GPU ଧାଡ଼ି
  • ଭାଷା ପ୍ରତିନିଧି + Twilio ଏକୀକରଣ
  • ଉଚ୍ଚ ହାର ସୀମା
ଅଦ୍ୟତନ କରନ୍ତୁ

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

ରିୟଲ-ଟାଇମ ପାଠ୍ୟ-ରୁ-ବାକ୍ୟ ଧ୍ୱନି ଚୁକ୍କଗୁଡ଼ିକୁ ଉତ୍ପନ୍ନ କରିବା ସମୟରେ ପ୍ରବାହିତ କରେ, ସମ୍ପୂର୍ଣ୍ଣ ବାକ୍ୟ ସମ୍ପୂର୍ଣ୍ଣ ହେବା ପାଇଁ ଅପେକ୍ଷା କରିବା ବଦଳରେ। ପ୍ରଥମ ଧ୍ୱନି ନମୁନା ଗୋଟିଏ ସେକେଣ୍ଡରେ ପହଞ୍ଚିଥାଏ, ଏହାକୁ ସକ୍ରିୟ ଧ୍ୱନି ପ୍ରତିନିଧି, ଡବିଂ ଏବଂ ଅନ୍ତରାପୃଷ୍ଠ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଉପଯୁକ୍ତ କରିଥାଏ ଯେଉଁଠାରେ ଲାଟେନସି ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ।

ନିୟମିତ TTS କିଛି ଫେରାଇବା ପୂର୍ବରୁ ସମ୍ପୂର୍ଣ୍ଣ ଧ୍ୱନି ଫାଇଲକୁ ସୃଷ୍ଟିକରେ - ଆପଣ ଅପେକ୍ଷା କରନ୍ତୁ, ତାପରେ ସମ୍ପୂର୍ଣ୍ଣ ବାକ୍ୟଟିକୁ ଏକାଥରକେ ଶୁଣନ୍ତୁ। ରିୟଲଟାଇମ TTS ସର୍ଭର-ପ୍ରେରିତ ଘଟଣାଗୁଡ଼ିକୁ (SSE) ବ୍ୟବହାର କରି କ୍ଷୁଦ୍ର ଧ୍ୱନି ଚୁକ୍କଗୁଡ଼ିକୁ ନମୁନା ଦ୍ୱାରା ନିର୍ଗତ କରିବା ପାଇଁ ବ୍ୟବହାର କରିଥାଏ। ଚାଳକ ବାକ୍ୟଟିର ଆରମ୍ଭକୁ ପ୍ରାୟତଃ ତୁରନ୍ତ ଶୁଣନ୍ତି, ଲମ୍ବା ନିବେଶ ଉପରେ ମଧ୍ୟ।

Kokoro ପୂର୍ବନିର୍ଦ୍ଧାରିତ ପୃଷ୍ଠଭୂମି - ଏହା ଆଧୁନିକ GPU ରେ ପ୍ରକୃତ ସମୟ ଅପେକ୍ଷା ପ୍ରାୟ 100x ଦ୍ରୁତ ଧ୍ୱନି ସୃଷ୍ଟି କରିଥାଏ। ଆମେ MOSS-TTS-Realtime କୁ ଉଚ୍ଚ-ଗୁଣମାନ ବିକଳ୍ପ ଭାବରେ ଏକୀକୃତ କରୁଛୁ; ଚାଳକମାନେ ଗୋଟିଏ ଅନୁରୋଧରେ ଗୋଟିଏ ଥର ଚୟନ କରିପାରିବେ।

Kokoro ରେ ସାର୍ବଜନୀନ ସଂଯୋଗ ଉପରେ ସାମାନ୍ୟ ପ୍ରଥମ-ଧ୍ୱନି ଲାଟେନସି 300-800ms। ଏହାପରେ ନେଟୱର୍କ ରାଉଣ୍ଡ-ଟ୍ରିପ ଅଗ୍ରଣୀ। ପୃଷ୍ଠା UI ରେ ସକ୍ରିୟ ମାପିତ ପ୍ରଥମ-ଧ୍ୱନି ପର୍ଯ୍ୟନ୍ତ ସମୟକୁ ଉପରମୁହାଁ କରିଥାଏ ଯେପରି ଆପଣ ସଠିକ ଭାବରେ ଦେଖିପାରିବେ ଯେ ପ୍ରତ୍ୟେକ ଅନୁରୋଧ କେତେ ସମୟ ନେଲା।

ବାକ୍ୟ ପ୍ରତିନିଧିମାନେ କଥାବାର୍ତ୍ତା ମାଧ୍ୟମରେ ଉତ୍ତର ଦିଅନ୍ତି, ଷ୍ଟ୍ରିମିଂ ମିଡିଆ ପାଇଁ ସକ୍ରିୟ ଡବିଂ, ଅନ୍ତରଙ୍ଗ ଖେଳ NPCs, ଉପଲବ୍ଧତା ପାଠକମାନେ ଯେଉଁମାନେ ବ୍ୟବହାରକାରୀ କ୍ଲିକ କରିବା ସମୟରେ କଥାବାର୍ତ୍ତା ଆରମ୍ଭ କରନ୍ତି, ଏବଂ କୌଣସି ପ୍ରୟୋଗ ଯେଉଁଠାରେ ଦୁଇ କିମ୍ବା ତିନି ସେକେଣ୍ଡ ପାଇଁ ଅଡିଓ ପାଇଁ ଅପେକ୍ଷା କରିଥାଏ ତାହା ଧିରେ ଧିରେ ଅନୁଭବ କରିଥାଏ ।

ହଁ। POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. The response is an SSE stream of base64-encoded WAV chunks. The free tier supports 10 generations per day per anonymous user; authified users get the full per-account character allowance.

Kokoro ପୂର୍ବ-ଶିକ୍ଷିତ ଧ୍ୱନିଗୁଡ଼ିକୁ ବ୍ୟବହାର କରେ ଏବଂ କ୍ଲୋନ କରେ ନାହିଁ। MOSS-TTS-Realtime (ଯଦି ସଂଯୋଜିତ)3ସେକେଣ୍ଡ ସଂଦର୍ଭରୁ ଶୂନ୍ୟ-ଶଟ ଧ୍ୱନି କ୍ଲୋନକୁ ସମର୍ଥନ କରେ। ଆଜିର ସମ୍ପୂର୍ଣ୍ଣ ଧ୍ୱନି କ୍ଲୋନ ପାଇଁ, Chatterbox କିମ୍ବା GPT-SoVITS ସହିତ ନିୟମିତ /text-to-speech/ ପୃଷ୍ଠାକୁ ବ୍ୟବହାର କରନ୍ତୁ - ସେମାନେ ପ୍ରବାହ-ସକ୍ଷମ ନୁହନ୍ତି କିନ୍ତୁ ଇଚ୍ଛାରୂପୀ ଧ୍ୱନିଗୁଡ଼ିକୁ ନିର୍ମାଣ କରନ୍ତି।

ନିୟମିତ TTS ଶେଷ ବିନ୍ଦୁ ପରି ସମାନ ଅକ୍ଷର ମୂଲ୍ୟ। Kokoro ମୁକ୍ତ-ସ୍ତର (1x ମୂଲ୍ୟ)। MOSS-TTS-ରିୟଲଟାଇମ ସକ୍ରିୟ ହେବା ସମୟରେ ମାନକ ସ୍ତର (2x ମୂଲ୍ୟ) ରେ ଚଲାଇବ। ଷ୍ଟ୍ରିମିଂ ପ୍ରୋଟୋକଲ କୌଣସି ମୂଲ୍ୟ ବୃଦ୍ଧିକୁ ଯୋଗ କରିନଥାଏ।

ହଁ — ଗୋଟିଏ ଫୋନ କଲରେ ସକ୍ରିୟ ଧ୍ୱନି ଯୋଗାଇବା ପାଇଁ Twilio ସ୍ୱର ୱେବହୁକ ସହିତ ଷ୍ଟ୍ରିମିଂ ଶେଷ ବିନ୍ଦୁକୁ ଯୋଡିବା । ଆମର ସ୍ୱର ଏଜେଣ୍ଟ ପ୍ଲାଟଫର୍ମ ପୂର୍ବରୁ IVR ଏବଂ ବାହାରୁ କଲ କରିବା ପାଇଁ ଏହା କରିଥାଏ । ଗୋଟିଏ ଫୋନ କଲରେ ଶେଷ-ଶେଷ ଲାଟେନସି ସାଧାରଣତଃ STT ଏବଂ LLM ଉତ୍ତର ସମେତ 1-2 ସେକେଣ୍ଡ ହୋଇଥାଏ ।

ଯଦି ଆପଣଙ୍କର ନେଟୱର୍କ ପରିବହନରେ ଗୋଟିଏ ଅଂଶକୁ ଛାଡିଥାଏ, ତେବେ ପ୍ରବାହିତ ଚାଳକ ଅଟକିଯିବା ବଦଳରେ ଆଗକୁ ବଢ଼ିବ। ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଯେଉଁମାନେ ଅନ୍ତରାପୃଷ୍ଠକୁ ସହ୍ୟ କରିପାରିବେ ନାହିଁ, ନିୟମିତ ଅ-ପ୍ରବାହିତ ଶେଷ ବିନ୍ଦୁକୁ ଫେରନ୍ତୁ, କିମ୍ବା ଚାଳନା ଆରମ୍ଭ କରିବା ପୂର୍ବରୁ ଧ୍ୱନିର 500ms ବଫର କରନ୍ତୁ।
5.0/5 (1)

ଆମେ କଣ ସୁଧାରିପାରିବା? ଆପଣଙ୍କର ପ୍ରତିକ୍ରିୟା ଆମକୁ ସମସ୍ୟାର ସମାଧାନ କରିବାରେ ସହାୟକ ହୋଇଥାଏ ।

ରିୟଲ-ଟାଇମରେ ଭାଷଣକୁ ପ୍ରବାହିତ କରନ୍ତୁName

ଦିନକୁ ପ୍ରଥମ 10ଟି ପିଢ଼ି ପାଇଁ ମୁକ୍ତ। ସମ୍ପୂର୍ଣ୍ଣ ଅକ୍ଷର ଅନୁମତି ଏବଂ API ସୁବିଧାକୁ ଖୋଲିବା ପାଇଁ ସଦସ୍ୟତା ନିଅନ୍ତୁ।