ବିକାଶକାରୀମାନଙ୍କ ପାଇଁ ପାଠ୍ୟରୁ ବାକ୍ୟ APIName

ଆମର REST API ସହିତ ଭାଷା-ସକ୍ଷମ ପ୍ରୟୋଗଗୁଡ଼ିକୁ ନିର୍ମାଣ କରନ୍ତୁ। ପ୍ରାକୃତିକ ପାଠ୍ୟ-ରୁ-ଭାଷା, ଭାଷା କ୍ଲୋନିଂ, ଭାଷା-ରୁ-ପାଠ୍ୟ, ଏବଂ ଧ୍ୱନି ପ୍ରକ୍ରିୟାକରଣକୁ ଆପଣଙ୍କର ପ୍ରୟୋଗ, ଚାଟବଟ, ଭାଷା ସହାୟକ, ଏବଂ SaaS ଉତ୍ପାଦଗୁଡ଼ିକରେ ଯୋଗ କରନ୍ତୁ। OpenAI-ସହଜ ଶୈଳୀ, 20+ ମଡେଲ, ସରଳ ଏକୀକରଣ।

REST API ଚାଟବଟଗୁଡ଼ିକName ଧ୍ୱନି ପ୍ରୟୋଗଗୁଡ଼ିକName SaaS ଉତ୍ପାଦ ସ୍ୱୟଂଚାଳନ

ବର୍ତ୍ତମାନ ଚେଷ୍ଟାକରନ୍ତୁ

Kokoro, Piper, VITS, MeloTTS ସହିତ ମୁକ୍ତ
ଆପଣଙ୍କର ନିର୍ମିତ ଧ୍ୱନି ଏଠାରେ ଦର୍ଶାଯିବ
ସୃଷ୍ଟିକର୍ତ୍ତା
ଆହରଣ କରନ୍ତୁ
TTS.ai କୁ ଭଲପାଆନ୍ତି? ଆପଣଙ୍କ ବନ୍ଧୁମାନଙ୍କୁ ଜଣାଇ ଦିଅନ୍ତୁ!

ବିକାଶକାରୀମାନଙ୍କ ପାଇଁ API ବିଶେଷତାଗୁଡ଼ିକName

ଭାଷା-ସକ୍ଷମ ପ୍ରୟୋଗଗୁଡ଼ିକୁ ନିର୍ମାଣ କରିବା ପାଇଁ ଆପଣଙ୍କୁ ଯାହା ଆବଶ୍ୟକ

ସରଳ REST API

ବକ୍ତବ୍ୟ ସୃଷ୍ଟି କରିବା ପାଇଁ ଗୋଟିଏ POST ଅନୁରୋଧ। JSON ଅନୁରୋଧ, ଧ୍ୱନି ଉତ୍ତର। ଯେକୌଣସି ପ୍ରଗ୍ରାମିଂ ଭାଷା ସହିତ କାମ କରେ ଯାହା HTTPକୁ ସମର୍ଥନ କରେ।

OpenAI- ସୁସଂଗତ

OpenAI TTS API ପାଇଁ ଡ୍ରୋପ-ଇନ ବଦଳାନ୍ତୁ। ଆପଣଙ୍କର ଆଧାର_url ଏବଂ API କିକୁ ପରିବର୍ତ୍ତନ କରନ୍ତୁ - ଅବସ୍ଥିତ ସଂକେତ ତୁରନ୍ତ କାମ କରେ।

24+ ନମୂନା ଉପଲବ୍ଧ

ଗୋଟିଏ API ମାଧ୍ୟମରେ ପ୍ରତ୍ୟେକ ନମୁନାକୁ ପହଞ୍ଚାନ୍ତୁ। ଗୋଟିଏ ପରିମାପକକୁ ପରିବର୍ତ୍ତନ କରି ନମୁନାକୁ ପରିବର୍ତ୍ତନ କରନ୍ତୁ। ଗୁଣବତ୍ତା, ବେଗ ଏବଂ ମୂଲ୍ୟକୁ ତୁଳନା କରନ୍ତୁ।

ଉପ-ସେକଣ୍ଡ ଲାଟେନସି

Kokoro 1 ସେକଣ୍ଡରୁ କମ ସମୟ ମଧ୍ୟରେ ଧ୍ୱନି ସୃଷ୍ଟି କରିଥାଏ। ସତ୍ୟକାଳୀନ ଚାଟବଟ, ଧ୍ୱନି ସହାୟକ ଏବଂ ଅନ୍ତରାପୃଷ୍ଠ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ସମ୍ପୂର୍ଣ୍ଣ।

ଧ୍ୱନି କ୍ଲୋନିଙ୍ଗ API

API ମାଧ୍ୟମରେ ଗୋଟିଏ ସଂକ୍ଷିପ୍ତ ଧ୍ୱନି ନମୁନାରୁ ଯେକୌଣସି ଧ୍ୱନିକୁ କ୍ଲୋନ କରନ୍ତୁ। ସମସ୍ତ ପରବର୍ତ୍ତୀ ପିଢ଼ି ପାଇଁ କ୍ଲୋନ ଧ୍ୱନିଗୁଡ଼ିକୁ ବ୍ୟବହାର କରନ୍ତୁ।

ଏକାଧିକ ଶୈଳୀName

WAV, MP3, OGG, କିମ୍ବା FLAC ଭାବରେ ନିର୍ଗମ କରନ୍ତୁ। ନମୁନା ହାର ଏବଂ ବିଟ ଗଭୀରତା ବାଛନ୍ତୁ। ରିୟଲ-ଟାଇମ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଧ୍ୱନି ସମର୍ଥନ ପ୍ରବାହ କରନ୍ତୁ।

ବିକାଶକାରୀ ସଂଯୋଜକ ପାଇଁ ଶ୍ରେଷ୍ଠ ନମୂନାଗୁଡ଼ିକName

ଆପଣଙ୍କ ପ୍ରୟୋଗର ବେଗ, ଗୁଣବତ୍ତା ଏବଂ ଖର୍ଚ୍ଚ ଆବଶ୍ୟକତା ପାଇଁ ସଠିକ ମଡେଲ ବାଛନ୍ତୁ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ଏହା ପାଇଁ ଉତ୍ତମ: ଦ୍ରୁତତମ ମଡେଲ - ଉପ-ସେକଣ୍ଡ ଲାଟେନସି, ରିୟଲ-ଟାଇମ ପ୍ରୟୋଗ ଏବଂ ଚାଟବଟଗୁଡ଼ିକ ପାଇଁ ଆଦର୍ଶ

ଚେଷ୍ଟାକରନ୍ତୁ Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ଧ୍ୱନି କ୍ଲୋନିଂName

ଏହା ପାଇଁ ଉତ୍ତମ: ଧ୍ୱନି ସହାୟକ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଧ୍ୱନି କ୍ଲୋନିଂ ସହିତ TTSକୁ ପ୍ରବାହିତ କରନ୍ତୁ

ଚେଷ୍ଟାକରନ୍ତୁ CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

ଏହା ପାଇଁ ଉତ୍ତମ: ଚାଟବଟ ଏବଂ ସହାୟକ ସ୍ୱର ପାଇଁ ପ୍ରାକୃତିକ ସମୟ ସହିତ କଥାବାର୍ତ୍ତା AI

ଚେଷ୍ଟାକରନ୍ତୁ Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

ଏହା ପାଇଁ ଉତ୍ତମ: ଶୂନ୍ୟ କ୍ରେଡିଟ ମୂଲ୍ୟ ସହିତ ଉଚ୍ଚ-ଆକାର ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ମୁକ୍ତ, CPU-କେବଳ ମଡେଲ

ଚେଷ୍ଟାକରନ୍ତୁ Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

ଏହା ପାଇଁ ଉତ୍ତମ: ସୃଜନଶୀଳ ଏବଂ ମନୋରଞ୍ଜନ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଧ୍ୱନି ପ୍ରଭାବ ସହିତ ଧ୍ୱନି ଉତ୍ପାଦନ କରନ୍ତୁ

ଚେଷ୍ଟାକରନ୍ତୁ Bark

TTS API କୁ କିପରି ଏକୀକୃତ କରାଯିବ

ପ୍ରଥମ API କଲକୁ5ମିନିଟ ତଳେ ସଦସ୍ୟତାରୁ

1

ଆପଣଙ୍କର API କି ଗ୍ରହଣ କରନ୍ତୁ

ମୁକ୍ତ ଭାବରେ ଲଗଇନ କରନ୍ତୁ ଏବଂ ଆପଣଙ୍କର ଖାତା ଡେସ୍କଟପରୁ ଗୋଟିଏ API କି ଉତ୍ପାଦନ କରନ୍ତୁ। 15,000 ଅକ୍ଷର ଅନ୍ତର୍ଭୁକ୍ତ।

2

ଆପଣଙ୍କର ପ୍ରଥମ ଫୋନ କରନ୍ତୁ

ପାଠ୍ୟ, ନମୂନା ଏବଂ ସ୍ୱର ସହିତ /v1/tts କୁ POST କରନ୍ତୁ। ଧ୍ୱନି ବାଇଟଗୁଡ଼ିକୁ ଫେରାଇ ନିଅନ୍ତୁ। ସଂକେତର5ରେଖା ଅନ୍ତର୍ଗତ।

3

ଆପଣଙ୍କର ଆକାର ବାଛନ୍ତୁ

ଆପଣଙ୍କର ବ୍ୟବହାର ମାମଲା ପାଇଁ ଭିନ୍ନ ଭିନ୍ନ ନମୂନା ପରୀକ୍ଷଣ କରନ୍ତୁ। ଗତି, ଗୁଣବତ୍ତା ଏବଂ ପ୍ରତି ଉତ୍ପାଦନ ମୂଲ୍ୟକୁ ତୁଳନା କରନ୍ତୁ।

4

ଉତ୍ପାଦନକୁ ପଠାନ୍ତୁ

ପଇସା-ଯେପରି-ତୁମେ-ଯାଅ ଅକ୍ଷର ସହିତ ମାପନ୍ତୁ। ପଇସା ପ୍ଲାନ ଉପରେ କୌଣସି ହାର ସୀମା ନାହିଁ। ଆପଣଙ୍କର ଡେସ୍କଟପରେ ବ୍ୟବହାରକୁ ନିରୀକ୍ଷଣ କରନ୍ତୁ।

ଶୀଘ୍ର ଆରମ୍ଭ ସଂକେତ ଉଦାହରଣଗୁଡ଼ିକName

ଆମର REST API ସହିତ ଯେକୌଣସି ଭାଷାରେ TTS.aiକୁ ଏକୀକୃତ କରନ୍ତୁ

Python ଲୋକପ୍ରିୟ
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL ସାର୍ବଜନୀନ
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI-ସଂଗତିଶୀଳ ଶୈଳୀ ଡ୍ରପ-ଇନ
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

ବିକାଶକାରୀମାନେ TTS.ai ସହିତ କଣ ନିର୍ମାଣ କରନ୍ତିName

ସାଧାରଣ ଏକୀକରଣ ପଦ୍ଧତି ଏବଂ ପ୍ରୟୋଗ

AI ଚାଟବଟ ଏବଂ ସହାୟକName

ଆପଣଙ୍କର ଚାଟବଟ କିମ୍ବା AI ସହାୟକକୁ ଧ୍ୱନି ନିର୍ଗମକୁ ଯୋଗ କରନ୍ତୁ। ଧ୍ୱନି-ସକ୍ଷମ ଅନ୍ତରାପୃଷ୍ଠଗୁଡ଼ିକ ପାଇଁ TTS ମାଧ୍ୟମରେ LLM ଉତ୍ତରଗୁଡ଼ିକୁ ପାଇପ କରନ୍ତୁ। Kokoro ସତ୍ୟକାଳୀନ ବାର୍ତ୍ତାଳାପ ପାଇଁ ଉପ-ସେକଣ୍ଡ ଲାଟେନସି ପ୍ରଦାନ କରିଥାଏ। Sesame CSM ପ୍ରାକୃତିକ ସମୟ ସହିତ ବାର୍ତ୍ତାଳାପ ଭାଷାକୁ ସୃଷ୍ଟି କରିଥାଏ।

  • ଭାଷଣ ପାଇପଲାଇନକୁ LLM ଉତ୍ତର
  • Kokoro ସହିତ ଉପ-ସେକଣ୍ଡ ଲାଟେନସି
  • ସେସମ ସିଏସଏମ ସହିତ କଥାବାର୍ତ୍ତା
  • ଧ୍ୱନି ନିର୍ଗମକୁ ପ୍ରବାହ କରନ୍ତୁ

ମୋବାଇଲ ଏବଂ ଧ୍ୱନି ପ୍ରୟୋଗଗୁଡ଼ିକName

ସ୍ୱର-ସକ୍ଷମ ମୋବାଇଲ ପ୍ରୟୋଗ, ସୁଗମତା ସାଧନ, ପାଠନ ପ୍ରୟୋଗ, ଏବଂ ଭାଷା ଶିକ୍ଷା ପ୍ଲେଟଫର୍ମ ନିର୍ମାଣ କରନ୍ତୁ। ଆମର REST API ଯେକୌଣସି ମୋବାଇଲ ଫ୍ରେମୱର୍କ ସହିତ କାମ କରେ। ଧ୍ୱନି ଫାଇଲଗୁଡ଼ିକୁ ଡାଉନଲୋଡ କରନ୍ତୁ କିମ୍ବା ସିଧାସଳଖ ଗ୍ରାହକକୁ ପ୍ରବାହିତ କରନ୍ତୁ।

  • React Native, Flutter, Swift, KotlinName
  • ସୁଗମତା ଏବଂ ପଢିବା ପ୍ରୟୋଗଗୁଡ଼ିକName
  • ଭାଷା ଶିକ୍ଷା ପ୍ଲାଟଫର୍ମ
  • ଧ୍ୱନି ବିଷୟବସ୍ତୁ ସୃଷ୍ଟି

SaaS ଉତ୍ପାଦ

ଆପଣଙ୍କ SaaS ଉତ୍ପାଦରେ ହ୍ୱାଇଟ-ଲେବଲ ସ୍ୱର କ୍ଷମତା । TTS, STT, ସ୍ୱର କ୍ଲୋନିଂ, ଏବଂ ଧ୍ୱନି ପ୍ରକ୍ରିୟାକରଣକୁ ଆପଣଙ୍କ ପ୍ଲାଟଫର୍ମରେ ବିଶେଷତା ଭାବରେ ଯୋଗ କରନ୍ତୁ । GPU ଭିତ୍ତିଭୂମି ପରିଚାଳନା ନକରି ଆପଣଙ୍କର ସ୍ୱର ପୃଷ୍ଠଭୂମି ଭାବରେ ଆମ API କୁ ବ୍ୟବହାର କରନ୍ତୁ ।

  • White-label ଧ୍ୱନି ବିଶେଷତାଗୁଡ଼ିକ
  • କୌଣସି GPU ଭିତ୍ତିଭୂମି ଆବଶ୍ୟକ ନାହିଁ
  • ବ୍ୟବହାର ଅନୁଯାୟୀ ମୂଲ୍ୟ ନିର୍ଦ୍ଧାରଣ
  • ଆପଣଙ୍କର ଗ୍ରାହକମାନଙ୍କୁ ପ୍ରଦାନ କରିବା ପାଇଁ 20+ ନମୂନା

ସ୍ୱୟଂଚାଳିତ ପାଇପଲାଇନଗୁଡ଼ିକ

CI/CD ପାଇପଲାଇନ, ବିଷୟବସ୍ତୁ ସ୍ୱୟଂଚାଳନ, ଏବଂ ବ୍ୟାଚ ପ୍ରକ୍ରିୟା କାର୍ଯ୍ଯପ୍ରବାହରେ ସ୍ୱର ଉତ୍ପାଦନକୁ ଏକୀକୃତ କରନ୍ତୁ। ସ୍ପ୍ରେଡସିଟ ତଥ୍ୟରୁ ହଜାର ହଜାର ଧ୍ୱନି ଫାଇଲଗୁଡ଼ିକୁ ସୃଷ୍ଟି କରନ୍ତୁ, ସ୍ୱୟଂଚାଳିତ ପଡୋସ ଉତ୍ପାଦନ କରନ୍ତୁ, କିମ୍ବା ବିଷୟବସ୍ତୁ ସ୍ଥାନୀୟକରଣ ପାଇପଲାଇନ ନିର୍ମାଣ କରନ୍ତୁ।

  • API ମାଧ୍ୟମରେ ବ୍ୟାଚ ପ୍ରକ୍ରିୟାକରଣ
  • ବିଷୟବସ୍ତୁ ସ୍ଥାନୀୟକରଣ ପାଇପଲାଇନଗୁଡ଼ିକ
  • CI/CD ଏକୀକରଣ
  • ସ୍ୱୟଂଚାଳିତ ଧ୍ୱନି ପାଇଁ ସ୍ପ୍ରେଡ଼ସିଟ

API ନିର୍ଦ୍ଦିଷ୍ଟିକରଣଗୁଡ଼ିକ

ଉତ୍ପାଦନ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ନିର୍ମିତName

20+

TTS ନମୂନାଗୁଡ଼ିକ

100+

ଧ୍ୱନିName

30+

ଭାଷାName

<1s

ବିଳମ୍ବ (Kokoro)

ପ୍ରାୟ ପଚରାଯାଉଥିବା ପ୍ରଶ୍ନName

TTS.ai ବିକାଶକାରୀ API ବିଷୟରେ ସାଧାରଣ ପ୍ରଶ୍ନଗୁଡ଼ିକ

ହଁ। ଆମର API OpenAI ଧ୍ୱନି ଭାଷଣ ଶୈଳୀକୁ ଅନୁସରଣ କରିଥାଏ। ଯଦି ଆପଣ OpenAI Python କିମ୍ବା JavaScript ଗ୍ରାହକ ଲାଇବ୍ରେରୀକୁ ବ୍ୟବହାର କରୁଛନ୍ତି, ତେବେ ଆପଣ base_url ଏବଂ api_key ପ୍ରାଚଳଗୁଡ଼ିକୁ ପରିବର୍ତ୍ତନ କରି TTS.ai କୁ ପରିବର୍ତ୍ତନ କରିପାରିବେ। ଆପଣଙ୍କର ବର୍ତ୍ତମାନର କୋଡ ପରିବର୍ତ୍ତନ ବିନା କାର୍ଯ୍ୟ କରିଥାଏ।

Kokoro ସାମାନ୍ୟ ବାକ୍ୟଗୁଡ଼ିକ ପାଇଁ 1 ସେକେଣ୍ଡରୁ କମ୍ ସମୟରେ ଧ୍ୱନି ସୃଷ୍ଟି କରିଥାଏ। CosyVoice2ଅତି କମରେ ଅନୁଭବ କରାଯାଇଥିବା ଲାଟେନସି ପାଇଁ ପ୍ରବାହିତ ନିର୍ଗମକୁ ସମର୍ଥନ କରିଥାଏ। ଚାଟବଟ ଏବଂ ଧ୍ୱନି ସହାୟକଙ୍କ ପାଇଁ, ମୋଟ ଚାରିପଟେ ଯାତ୍ରା ସମୟ ସାମାନ୍ୟ ଭାବରେ ପାଠ୍ୟ ଲମ୍ବ ଏବଂ ମଡେଲ ଚୟନ ଉପରେ ନିର୍ଭର କରିଥାଏ।

ମୁକ୍ତ ମଡେଲ (Kokoro, Piper, VITS, MeloTTS) ସମ୍ପୂର୍ଣ୍ଣ ମୁକ୍ତ । ମାନକ ମଡେଲ ପ୍ରତି 1K ପାଠ୍ୟରେ 2x ଅକ୍ଷର ବ୍ୟବହାର କରିଥାଏ । ପ୍ରୀମିୟମ ମଡେଲ ପ୍ରତି 1K ପାଠ୍ୟରେ 4x ଅକ୍ଷର ବ୍ୟବହାର କରିଥାଏ । 15,000 ଅକ୍ଷର ସହିତ ମୁକ୍ତ ଭାବରେ ଯୋଗଦାନ କରନ୍ତୁ । 500,000 ଅକ୍ଷର ପାଇଁ ଯୋଜନା $9/ମାସରେ ଆରମ୍ଭ ହୋଇଥାଏ ।

ହଁ। ଗୋଟିଏ ସଂଯୋଗ ଧ୍ୱନି ନମୁନା (5-30 ସେକଣ୍ଡ) କୁ ଧ୍ୱନି କ୍ଲୋନିଂ ଅନ୍ତିମ ବିନ୍ଦୁକୁ ଅପଲୋଡ କରନ୍ତୁ, ତା'ପରେ ପରବର୍ତ୍ତୀ TTS ଅନୁରୋଧଗୁଡ଼ିକରେ କ୍ଲୋନ ହୋଇଥିବା ଧ୍ୱନି ID କୁ ବ୍ୟବହାର କରନ୍ତୁ। କ୍ଲୋନିଂକୁ ସମର୍ଥନ କରୁଥିବା ନମୂନାଗୁଡ଼ିକ ମଧ୍ୟରେ CosyVoice2, Chatterbox, Fish Speech, ଏବଂ GPT-SoVITS ରହିଛି।

ମୁକ୍ତ ସ୍ତରରେ ମୌଳିକ ହାର ସୀମା ରହିଛି (ଖାତା ବିନା ପ୍ରତି ଘଣ୍ଟାରେ3ଆବେଦନ) । ପୈଠିତ ଯୋଜନାରେ ଉତ୍ପାଦନ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ଉପଯୁକ୍ତ ଉଦାର ହାର ସୀମା ରହିଛି । କମ୍ପାନୀ ସ୍ତରୀୟ ହାରାହାରି ଆବଶ୍ୟକତା ପାଇଁ ଆମକୁ ଯୋଗାଯୋଗ କରନ୍ତୁ ।

WAV (ଅସଂକୁଚିତ, ସର୍ବାଧିକ ଗୁଣବତ୍ତା), MP3 (ସଂକୁଚିତ, ଛୋଟ ଫାଇଲ), OGG (ଖୋଲି ଶୈଳୀ), ଏବଂ FLAC (ନଷ୍ଟହୀନ ସଙ୍କୋଚନ) । ଆପଣଙ୍କର ଅନୁରୋଧରେ ଶୈଳୀକୁ ଉଲ୍ଲେଖ କରନ୍ତୁ । ପୂର୍ବନିର୍ଦ୍ଧାରିତ ଅଟେ WAV ଆକାରର ସ୍ଥାନୀୟ ନମୁନା ହାର ।

ହଁ। ଗୋଟିଏ ସମ୍ପୂର୍ଣ୍ଣ ସ୍ୱର ସହାୟକ ପାଇପଲାଇନ ନିର୍ମାଣ କରିବା ପାଇଁ ଆମର TTS APIକୁ ଗୋଟିଏ ଭାଷା-ରୁ-ପାଠ୍ୟ ମଡେଲ ଏବଂ ଗୋଟିଏ LLM ସହିତ ସଂଯୋଜିତ କରନ୍ତୁ। Kokoro ସବ-ସେକେଣ୍ଡ ଲାଟେନସି ପ୍ରଦାନ କରିଥାଏ ଯାହାକି ପ୍ରକୃତ ସମୟ କଥାବାର୍ତ୍ତା ପାଇଁ ଉପଯୁକ୍ତ। CosyVoice2ଅତି କମ ଅନୁଭୂତ ଉତ୍ତର ସମୟ ପାଇଁ ଷ୍ଟ୍ରିମିଂ ଆଉଟପୁଟକୁ ସମର୍ଥନ କରିଥାଏ।

CosyVoice2ଆଉ Kokoro ପ୍ରବାହିତ ଧ୍ୱନି ନିର୍ଗମକୁ ସମର୍ଥନ କରିଥାଏ ଯେଉଁଠାରେ ଧ୍ୱନି ଚୁକ୍ଗୁଡ଼ିକ ଉତ୍ପନ୍ନ ହେବା ସମୟରେ ପ୍ରଦାନ କରାଯାଏ। ଏହା ବାକ୍ୟ ସହାୟକ ଏବଂ ଅନ୍ତରାପୃଷ୍ଠ ଅନୁଭୂତି ପରି ସତ୍ୟକାଳୀନ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ ପ୍ରଥମ-ବାଇଟ ସମୟକୁ ହ୍ରାସ କରିଥାଏ।

API ମାନକ HTTP ସ୍ଥିତି ସଂକେତକୁ ଫେରାଇଥାଏ। 5xx ତ୍ରୁଟି ଏବଂ ହାର ସୀମା ଉତ୍ତର ପାଇଁ ଦ୍ରୁତ ବଦଳକୁ କାର୍ଯ୍ୟକାରୀ କରନ୍ତୁ। ମିଶନ-ସଙ୍କଟଜନକ ପ୍ରୟୋଗଗୁଡ଼ିକ ପାଇଁ, ପୁନଃପ୍ରୟାସ ତାର୍କିକ ସହିତ ଗୋଟିଏ ଧାଡ଼ି ଯୋଗ କରନ୍ତୁ। ଆମ API ରେ ଉଚ୍ଚ ଉପସ୍ଥାନ ସମୟ ଅଛି କିନ୍ତୁ ତ୍ରୁଟି ପରିଚାଳନାକୁ ସବୁବେଳେ ପରାମର୍ଶ ଦିଆଯାଏ।

ହଁ। /v1/voices ଏବଂ /v1/models ସମାପ୍ତି ବିନ୍ଦୁଗୁଡ଼ିକ ସେମାନଙ୍କର ମେଟାଡାଟା ସହିତ ସମସ୍ତ ଉପଲବ୍ଧ ଧ୍ୱନି ଏବଂ ମଡେଲଗୁଡ଼ିକର JSON ତାଲିକାକୁ ଫେରାଇଥାଏ (ଭାଷା ସମର୍ଥନ, ଗୁଣବତ୍ତା ରେଟିଂ, ବେଗ ରେଟିଂ, ଏବଂ ମୂଲ୍ୟ ସ୍ତର)। ଏହାକୁ ଆପଣଙ୍କ ପ୍ରୟୋଗରେ ଗତିଶୀଳ ମଡେଲ ଚୟନକର୍ତ୍ତା ନିର୍ମାଣ କରିବା ପାଇଁ ବ୍ୟବହାର କରନ୍ତୁ।

ମୁକ୍ତ ମଡେଲଗୁଡ଼ିକ (Kokoro, Piper, VITS, MeloTTS) ଗୋଟିଏ ପ୍ରଭାବୀ ସାଣ୍ଡବକ୍ସ ଭାବରେ କାର୍ଯ୍ୟ କରିଥାଏ କାରଣ ସେମାନେ ଶୂନ୍ୟ କ୍ରେଡିଟ ଖର୍ଚ୍ଚ କରନ୍ତି। ମୁକ୍ତ ମଡେଲଗୁଡ଼ିକ ସହିତ ଆପଣଙ୍କର ଏକୀକରଣକୁ ପରୀକ୍ଷଣ କରନ୍ତୁ, ତା'ପରେ ମଡେଲ ପରିମାପକୁ ପରିବର୍ତ୍ତନ କରି ଉତ୍ପାଦନରେ ପ୍ରୀମିୟମ ମଡେଲଗୁଡ଼ିକୁ ପରିବର୍ତ୍ତନ କରନ୍ତୁ। କୌଣସି ସ୍ୱତନ୍ତ୍ର ପରୀକ୍ଷଣ ପରିବେଶର ଆବଶ୍ୟକତା ନାହିଁ।

ଆମର ଅଧିକାଂଶ ମଡେଲ ମୁକ୍ତ ଉତ୍ସ ଏବଂ ସ୍ୱୟଂ-ହୋଷ୍ଟ କରାଯାଇପାରେ । ତଥାପି, ସ୍ୱୟଂ-ହୋଷ୍ଟିଂ ପାଇଁ ଗୁରୁତ୍ୱପୂର୍ଣ୍ଣ GPU ସମ୍ବଳ ଆବଶ୍ୟକ (ଆମମାନେ 4x NVIDIA Tesla P40 ଏବଂ ମୋଟ 96GB VRAM ବ୍ୟବହାର କରୁଛୁ) । API ଭିତ୍ତିଭୂମି ପରିଚାଳନା ବିନା ଏକ ବ୍ୟୟ-ପ୍ରତିଫଳକ ବିକଳ୍ପ ପ୍ରଦାନ କରିଥାଏ ।
5.0/5 (1)

ଆମେ କଣ ସୁଧାରିପାରିବା? ଆପଣଙ୍କର ପ୍ରତିକ୍ରିୟା ଆମକୁ ସମସ୍ୟାର ସମାଧାନ କରିବାରେ ସହାୟକ ହୋଇଥାଏ ।

ଭାଷା AI ସହିତ ନିର୍ମାଣ କରିବାକୁ ପ୍ରସ୍ତୁତ କି?

ଆପଣଙ୍କର ମୁକ୍ତ API କି ଗ୍ରହଣ କରନ୍ତୁ ଏବଂ ନିର୍ମାଣ ଆରମ୍ଭ କରନ୍ତୁ । ସଦସ୍ୟତା ଗ୍ରହଣରେ 15 କ୍ରେଡିଟ, ମୁକ୍ତ ନମୂନା ଉପଲବ୍ଧ, ବ୍ୟାପକ ଦଲିଲିକରଣ ।