ৰিয়েলটাইম TTS

উপ-ছেকেণ্ড প্ৰথম-অডিঅ' লেটেন্সিৰ সৈতে টেক্সট-টু-স্পীচ ষ্ট্ৰীমিং। শব্দ এজেন্ট আৰু জীৱিত এপ্লিকেচনৰ বাবে নিৰ্মিত।

টেক্সট

ষ্ট্ৰীমিং
0/5,000 আখৰ ~0.3s প্ৰথম অডিঅ'

শব্দৰ বৈশিষ্ট্য (S)

কেৱল ষ্ট্ৰীমিং-সক্ষম মডেলসমূহ।

স্থায়ী লেটেন্সী

প্ৰথম অডিঅ' লেটেন্সি মাপিবলৈ স্ট্ৰিম ক্লিক কৰক

আউটপুট

অডিঅ' চুঙ্কসমূহ ইয়াত বজোৱা হ'ব যেতিয়াই সিবোৰ স্ট্ৰিমিং হ'ব।

0:00
প্ৰথম খণ্ড:
সৰ্বমোট খণ্ড: 0
সৰ্বমোট সময়:

ষ্ট্ৰীমিং TTS কিদৰে কাম কৰে

1. টেক্সট প্ৰেৰণ কৰক

/v1/tts/stream/ লে POST টেক্সটক এটা চাৰ্ভাৰ-প্ৰেৰণ কৰা ঘটনা অনুৰোধ হিচাপে।

২. মডেল সৃষ্টি কৰে

Kokoro এ টেক্সট চুঙ্ক কৰে আৰু GPU ত অডিঅ' নমুনা-বিনা-নমুনা সৃষ্টি কৰে।

৩. স্ট্ৰিম চুঙ্ক

Base64-এংকেড WAV চুঙ্কসমূহ SSE ৰ ওপৰত প্ৰৱেশ কৰে আৰু লগে লগে বজোৱা আৰম্ভ কৰে।

4. লাইভ শুনিব

ব্যৱহাৰকাৰীয়ে এটা ছেকেণ্ডত বাক্যাংশৰ আৰম্ভণি শুনিব পাৰে, লম্বা ইনপুটৰ ক্ষেত্ৰতো।

ব্যৱহাৰৰ ঘটনাসমূহ

যেতিয়া উপ-ছেকেণ্ডৰ লেটেন্সিয়ে নতুন অভিজ্ঞতাসমূহ আনলক কৰে।

শব্দৰ এজেন্টসমূহ

এটা মানৱৰ দৰেই দ্রুত উত্তৰ দিয়া কথোপকথন বটসমূহ।

লাইভ ডুবিং

বাফাৰিং স্থগিত নকৰি ৰিয়েল-টাইমত এটা স্ট্ৰিম অনুবাদ কৰক আৰু ডুব কৰক।

খেলা

খেলোয়াড়ৰ পছন্দৰ প্ৰতি তাৎক্ষণিকভাৱে প্ৰতিক্ৰিয়া কৰা NPC ডাইলগ, কোনো পূৰ্বৰ VO নথিপত্ৰ নাই।

অভিগম

ব্যৱহাৰকাৰীৰ ক্লিক কৰাৰ লগে লগে কথা ক'ব আৰম্ভ কৰা পৰ্দ্দা পঢ়ক আৰু সহায়ক সঁজুলি।

ৰিয়েলটাইম TTS পৰিকল্পনাসমূহ

বিনামূল্যে আৰম্ভ কৰক, আরো প্ৰয়োজন হ'লে উন্নত কৰক

মুক্ত
  • Kokoro ষ্ট্ৰীমিং (মুক্ত মডেল)
  • প্ৰতি প্ৰজন্মত ৫০০ আখৰ
  • প্ৰতিজন বেনামী ব্যৱহাৰকাৰীৰ বাবে ১০ মুক্ত স্ট্ৰিম/দিন
  • উপ-ছেকেণ্ড প্ৰথম-অডিঅ' লেটেন্সী
  • HTTPS ৰ ওপৰত SSE ষ্ট্ৰীমিং
সৰ্বাধিক জনপ্ৰিয়
মুক্ত একাওন্ট
  • 15,000 আখৰ
  • প্ৰতি স্ট্ৰিম ৫,০০০ আখৰ
  • প্ৰগ্ৰামিক অভিগম ব্যৱহাৰৰ বাবে API চাবি
  • সৃষ্টিৰ ইতিহাস
  • দিনত স্ট্ৰিমৰ সীমা নাই
বিনামূল্যে নিবন্ধন কৰক
প্ৰো
  • MOSS-TTS-Realtime (সত্য সময়ত)
  • প্ৰতি স্ট্ৰিম ১০০,০০০ আখৰ
  • অগ্ৰাধিকাৰ GPU লাইন
  • শব্দ এজেন্ট + Twilio একত্ৰিত
  • উচ্চ হাৰ সীমা
উন্নত কৰক

সদায় সোধা প্ৰশ্নসমূহ

ৰিয়েল-টাইম টেক্সট-টু-স্পীচ-এ অডিঅ' চুঙ্কসমূহ সৃষ্টি কৰাৰ সময়ত স্ট্ৰিম কৰে, সম্পূৰ্ণ বাক্য সম্পূৰ্ণ হোৱাৰ বাবে অপেক্ষা কৰাৰ পৰিবৰ্তে। প্ৰথম অডিঅ' নমুনা এটা ছেকেণ্ডত উপস্থিত হয়, যিটো লাইভ ভয়েস এজেন্ট, ডুবিং, আৰু প্ৰতিক্ৰিয়াশীল এপ্লিকেচনসমূহৰ বাবে উপযুক্ত কৰে য'ত লেটেন্সি গুৰুত্বপূৰ্ণ।

নিয়মিত TTS-এ কোনো বস্তু প্ৰদান কৰাৰ পূৰ্বে সম্পূৰ্ণ অডিঅ' নথিপত্ৰ সৃষ্টি কৰে — আপুনি অপেক্ষা কৰে, তাৰ পিছত সম্পূৰ্ণ বাক্য একবাৰত শুনিব। ৰিয়েলটাইম TTS-এ মডেলে যিদৰে অডিঅ' চঙ্কসমূহ প্ৰস্তুত কৰে সেইদৰে সৰু অডিঅ' চঙ্কসমূহ স্ট্ৰিম কৰিবলৈ চাৰ্ভাৰৰ পৰা প্ৰেৰিত ঘটনা (SSE) ব্যৱহাৰ কৰে। ব্যৱহাৰকাৰীয়ে বাক্য আৰম্ভণি প্ৰায় তাৎক্ষণিকভাৱে শুনিব, দীঘল ইনপুটসমূহতও।

Kokoro অবিকল্পিত বেকএন্ড - ই আধুনিক GPU ৰ ৰিয়েল টাইমৰ তুলনাত প্ৰায় ১০০x দ্ৰুত অডিঅ' সৃষ্টি কৰে। আমি উচ্চ-গুণমানৰ বিকল্প হিচাপে MOSS-TTS-Realtime একত্ৰিত কৰিছো; ব্যৱহাৰকাৰীসকলে সেইটো প্ৰেৰণ কৰাৰ পিছত প্ৰতিটো অনুৰোধত বাছনি কৰিব পাৰিব।

Kokoro ৰ প্ৰথম অডিঅ'ৰ লেটেন্সী সাধাৰণতে ৩০০-৮০০ মিছেচ। ইয়াৰ পিছত নেটৱাৰ্কৰ ৰেন্ডম ট্ৰিপ প্ৰধান। পৃষ্ঠাত UI ত প্ৰথম অডিঅ'ৰ বাবে সময়ৰ মান প্ৰদৰ্শিত হয় যাতে আপুনি সঠিকভাৱে প্ৰতিটো অনুৰোধ কেনেকৈ সময় ল'ব সেয়া চাব পাৰে।

কথোপকথনমূলকভাৱে উত্তৰ দিয়া শব্দ এজেন্ট, ষ্ট্ৰীমিং মিডিয়াৰ বাবে লাইভ ডাবিং, প্ৰতিক্ৰিয়াশীল খেল NPCs, ব্যৱহাৰকাৰীয়ে ক্লিক কৰাৰ লগে লগে কথা ক’বলৈ আৰম্ভ কৰা অভিগম্যতা পাঠক, আৰু যিকোনো এপ্লিকেচন য'ত অডিঅ'ৰ বাবে দুটা বা তিনিটা ছেকেণ্ড অপেক্ষা কৰা হয়, সেইবোৰ ধীৰে ধীৰে কাম কৰিব।

হ্যাঁ। POST to https://api.tts.ai/v1/tts/stream/ regular /v1/tts/ endpoint ৰ দৰে একেই বডিৰ সৈতে। উত্তৰ এটা base64-encoded WAV chunks ৰ SSE স্ট্ৰিম। মুক্ত স্তৰ প্ৰতিদিনে প্ৰতি বেনামী ব্যৱহাৰকাৰীৰ ১০ প্ৰজন্ম সমৰ্থন কৰে; প্ৰমাণিত ব্যৱহাৰকাৰীসকলে প্ৰতি-একাউন্টৰ সম্পূৰ্ণ আখৰ অনুমতি লাভ কৰে।

Kokoro এ প্ৰশিক্ষিত শব্দ ব্যৱহাৰ কৰে আৰু ক্লোন নকৰে। MOSS-TTS-Realtime (সমৃদ্ধ হ'লে) ৩-ছেকেণ্ডৰ পৰা শূণ্য-শট শব্দ ক্লোনিং সমৰ্থন কৰে। আজিৰ দিনত সম্পূৰ্ণ শব্দ ক্লোনিংৰ বাবে, Chatterbox বা GPT-SoVITS ৰ সৈতে সাধাৰণ /text-to-speech/ পৃষ্ঠা ব্যৱহাৰ কৰক — সেইবোৰ ষ্ট্ৰীমিং-সক্ষম নহয় কিন্তু স্বনিৰ্বাচিত শব্দসমূহ সৃষ্টি কৰে।

নিয়মিত TTS অন্তবিন্দুৰ দৰে একে আখৰৰ মূল্য। Kokoro মুক্ত-স্তর (১x মূল্য)। সক্ৰিয় কৰা হ'লে MOSS-TTS-Realtime প্ৰমিত স্তৰত (২x মূল্য) চলিব। ষ্ট্ৰীমিং প্ৰটোকল কোনো মূল্য সংযোজন নকৰে।

হ্যাঁ — এটা ফোন কলত সঁচা অডিঅ' যোগ কৰিবলৈ এটা Twilio শব্দ webhook ৰ সৈতে ষ্ট্ৰীমিং এন্ডপয়েন্টৰ পেয়াৰিং। আমাৰ শব্দ এজেন্ট প্লেটফৰ্মে ইতিমধ্যে IVR আৰু আউটবউন্ড কলৰ বাবে এইটো কৰে। এটা ফোন কলৰ এন্ড-টু-এন্ড লেটেন্সি সাধাৰণতে STT আৰু LLM প্ৰতিক্ৰিয়া অন্তৰ্ভুক্ত 1-2 ছেকেণ্ড।

যদি আপোনাৰ নেটৱাৰ্কে পৰিবহনৰ সময়ত এটা অংশ হেৰুৱায়, ষ্ট্ৰিমিং প্লেয়াৰ স্থগিত হোৱাৰ পৰিবৰ্তে আগবাঢ়িব। গলদ সহ্য কৰিব নোৱাৰা এপ্লিকেচনসমূহৰ বাবে, নিয়মিত নন-ষ্ট্ৰিমিং অন্তবিন্দুলৈ ঘূৰি যাওক, অথবা প্লেয়াৰ আৰম্ভ কৰাৰ পূৰ্বে অডিঅ'ৰ ৫০০ms বাফাৰ কৰক।
5.0/5 (1)

আমি কি উন্নত কৰিব পাৰো? আপোনাৰ মতামত আমাক সমস্যা সমাধানত সহায় কৰে।

ৰিয়েল টাইমত কথোপকথন প্ৰবাহিত কৰক

দিনত প্ৰথম ১০টা প্ৰজন্মৰ বাবে বিনামূলীয়া। সম্পূৰ্ণ আখৰ অনুমতি আৰু API অভিগম আনলক কৰিবলৈ সাবস্ক্ৰাইব কৰক।