বাস্তব সময়ের TTS

সাব-সেকেন্ড প্রথম অডিও লেটেন্সির সাথে টেক্সট-টু-স্পিকার স্ট্রিমিং। ভয়েস এজেন্ট এবং লাইভ অ্যাপ্লিকেশনের জন্য নির্মিত।

আপনার ভাষায় এখনো TTS শব্দ নেই। আমাদের আপনার শব্দ যোগ করতে সাহায্য করুন! আপনার কণ্ঠ বিক্রি করুন

টেক্সট

স্ট্রিমিং
0/5,000 অক্ষর ~0.3s প্রথম অডিও

শব্দ সেটিংস

শুধুমাত্র স্ট্রিমিং-সক্ষম মডেল।

লাইভ লেটেন্সি

প্রথম অডিও লেটেন্সি পরিমাপ করতে স্ট্রিম ক্লিক করুন

আউটপুট

অডিও চ্যাঙ্কস এখানে বাজানো হবে যখন তারা স্ট্রিম করা হবে।

0:00
প্রথম খণ্ড:
মোট খণ্ড: 0
মোট সময়:

স্ট্রিমিং TTS কিভাবে কাজ করে

১. পাঠ্য পাঠাও

সার্ভার-প্রেরিত ইভেন্ট অনুরোধ হিসাবে /v1/tts/stream/-এ POST টেক্সট পাঠান।

২. মডেল তৈরি করা হচ্ছে

কোকোরো টেক্সটকে ছোট ছোট অংশে ভাগ করে এবং GPU-তে অডিও নমুনা-নির্মাণ করে।

৩. স্ট্রিম চ্যাঙ্কস

Base64-এঙ্কোড করা WAV চুঙ্ক SSE-এর মাধ্যমে আসে এবং তাৎক্ষণিকভাবে চালানো শুরু করে।

৪. লাইভ শোনা

ব্যবহারকারীরা এক সেকেন্ডের মধ্যেই বাক্যটির শুরু শুনতে পাচ্ছে, এমনকি দীর্ঘ ইনপুট হলেও।

ব্যবহারের ক্ষেত্রে

যেখানে সাব-সেকেন্ডের বিরতি নতুন অভিজ্ঞতার উন্মোচন করে।

ভয়েস এজেন্ট

কথা বলার জন্য তৈরি রোবট যারা মানুষের মত দ্রুত উত্তর দেয়।

লাইভ ডুবিং

বাফারিং বিরতি ছাড়া বাস্তব সময়ে একটি স্ট্রিম অনুবাদ এবং ডুব করুন।

খেলাName

NPC ডায়ালগ যা খেলোয়াড়ের পছন্দের প্রতি তাৎক্ষণিকভাবে প্রতিক্রিয়া জানায়, কোন পূর্ব-রেন্ডার করা VO নেই।

প্রবেশযোগ্যতা

স্ক্রিন রিডার এবং সহায়ক সরঞ্জাম যা ব্যবহারকারী ক্লিক করার সাথে সাথেই কথা বলতে শুরু করে।

বাস্তব সময়ের TTS পরিকল্পনা

বিনামূল্যে শুরু করুন, আরো প্রয়োজন হলে আপগ্রেড করুন

মুক্ত
  • Kokoro স্ট্রিমিং (মুক্ত মডেল)
  • প্রতি প্রজন্মে ৫০০ অক্ষর
  • প্রতি বেনামী ব্যবহারকারী প্রতিদিন ১০টি বিনামূল্যে স্ট্রিম
  • সাব-সেকেন্ড প্রথম অডিও লেটেন্সী
  • HTTPS এর উপর SSE স্ট্রিমিং
সবচেয়ে জনপ্রিয়
ফ্রি অ্যাকাউন্ট
  • সাইন- আপ করার সময় ১৫,০০০ অক্ষর
  • প্রতি স্ট্রিমে ৫,০০০ অক্ষর
  • প্রোগ্রামিং ব্যবহারের জন্য API কী
  • প্রজন্ম ইতিহাস
  • প্রতিদিনের স্ট্রিম সীমা নেই
নিবন্ধন করুন
প্রফেশনাল
  • MOSS-TTS-Realtime (সরাসরি ব্যবহারের সময়)
  • প্রতি স্ট্রিমে ১০০,০০০ অক্ষর
  • অগ্রাধিকারযুক্ত GPU কলাম
  • ভয়েস এজেন্ট + Twilio সংযোগ
  • উচ্চতর হারের সীমা
উন্নীতকরণ

প্রায়শ জিজ্ঞাসিত প্রশ্ন

বাস্তব সময়ের টেক্সট-টু-স্পিকার অডিও চ্যুট তৈরি করে, পুরো বাক্যটি শেষ করার জন্য অপেক্ষা করার পরিবর্তে। প্রথম অডিও নমুনা এক সেকেন্ডের মধ্যে আসে, এটি লাইভ ভয়েস এজেন্ট, ডুবিং এবং মিথস্ক্রিয় অ্যাপ্লিকেশনের জন্য উপযুক্ত করে তোলে যেখানে লেটেন্সির গুরুত্ব আছে।

নিয়মিত TTS কিছু ফিরিয়ে আনার আগে পুরো অডিও ফাইল তৈরি করে — আপনি অপেক্ষা করেন, তারপর একবার পুরো বাক্যটি শুনেন। বাস্তব সময়ের TTS সার্ভার-প্রেরিত ইভেন্ট (SSE) ব্যবহার করে মডেল তাদের উৎপাদন করার সময় অডিও ছোট ছোট অংশ স্ট্রিম করতে। ব্যবহারকারী বাক্যটির শুরু প্রায় তৎক্ষণাৎ শুনতে পাবেন, দীর্ঘ ইনপুট থাকলেও।

Kokoro ডিফল্ট ব্যাকএন্ড — এটি আধুনিক GPU-তে বাস্তব সময়ের চেয়ে প্রায় ১০০ গুণ দ্রুত অডিও উৎপাদন করে। আমরা MOSS-TTS-Realtime-কে উচ্চমানের বিকল্প হিসেবে একীভূত করছি; ব্যবহারকারীরা এটি চালু হলে প্রতিটি অনুরোধের জন্য একটি নির্বাচন করতে পারবেন।

Kokoro-এর সাধারণ প্রথম অডিও লেটেন্সী হল ৩০০-৮০০ মিসেস একটি পাবলিক সংযোগের মাধ্যমে। এরপর নেটওয়ার্ক রান-ট্রিপ প্রবল হয়ে ওঠে। পৃষ্ঠাটি UI-এ প্রথম অডিও-র জন্য সরাসরি পরিমাপকৃত সময়ের উপর ভিত্তি করে দেখায় যাতে আপনি দেখতে পারেন যে প্রতিটি অনুরোধ কতক্ষণ সময় নেয়।

ভয়েস এজেন্ট যারা কথা বলার সময়ে উত্তর দেয়, স্ট্রিমিং মিডিয়ার জন্য লাইভ ডাবিং, মিথস্ক্রিয় গেম এনপিসি, ব্যবহারকারী যখন ক্লিক করে তখনই কথা বলা শুরু করে এমন অ্যাক্সেসবিলিটি রিডার এবং যে কোন অ্যাপ্লিকেশন যেখানে অডিও পাওয়ার জন্য দুই বা তিন সেকেন্ড অপেক্ষা করাটা ধীরে ধীরে অনুভূত হয়।

হ্যাঁ। POST to https://api.tts.ai/v1/tts/stream/ regular /v1/tts/ endpoint এর মতই শরীর সহ। প্রতিক্রিয়া base64-encoded WAV chunks এর একটি SSE স্ট্রিম। বিনামূল্যে স্তর প্রতিদিন প্রতি বেনামী ব্যবহারকারীর জন্য ১০ প্রজন্ম সমর্থন করে; অনুমোদিত ব্যবহারকারীরা প্রতি অ্যাকাউন্টে অক্ষর অনুমোদন প্রাপ্ত করে।

Kokoro পূর্বে প্রশিক্ষিত কন্ঠ ব্যবহার করে এবং ক্লোন করে না। MOSS-TTS-Realtime (যখন সংযুক্ত থাকে) ৩ সেকেন্ডের রেফারেন্স থেকে শূন্য-শট কন্ঠ ক্লোন সমর্থন করে। আজকের পূর্ণ কন্ঠ ক্লোন করার জন্য, Chatterbox বা GPT-SoVITS এর সাথে নিয়মিত /text-to-speech/ পাতা ব্যবহার করুন - তারা স্ট্রিমিং-সক্ষম নয় কিন্তু স্বনির্বাচিত কন্ঠ তৈরি করে।

নিয়মিত TTS শেষ বিন্দুর মত অক্ষরের খরচ। Kokoro ফ্রি-টিয়ার (১x খরচ)। সক্রিয় করা হলে MOSS-TTS-Realtime প্রমিত টাইরে (২x খরচ) চলবে। স্ট্রিমিং প্রোটোকল কোন মূল্য সংযোজন করে না।

হ্যাঁ — স্ট্রিমিং এন্ডপয়েন্টের সাথে টুইলিয়াও ভয়েস ওয়েবহুককে জুড়ে দিয়ে ফোন কলের মধ্যে সরাসরি অডিও প্রদান করা যায়। আমাদের ভয়েস এজেন্ট প্ল্যাটফর্ম আইভিআর এবং আউটব্যান্ড কলের জন্য ইতিমধ্যেই এই কাজটি করে থাকে। ফোন কলের শেষ থেকে শেষ পর্যন্ত সময়ের ব্যবধান সাধারণত ১-২ সেকেন্ড, যার মধ্যে STT এবং LLM প্রতিক্রিয়া অন্তর্ভুক্ত।

আপনার নেটওয়ার্কের পরিবহনের সময় যদি কোন অংশ বাদ পড়ে, স্ট্রিমিং প্লেয়ারটি থামবার পরিবর্তে সামনের দিকে চলে যাবে। যেসব অ্যাপ্লিকেশনের জন্য ফাঁক সহ্য করা সম্ভব নয়, তাদের জন্য নিয়মিত স্ট্রিমিং-বিহীন শেষ বিন্দুতে ফিরে যান, অথবা প্লেব্যাক শুরু করার পূর্বে ৫০০ এমএস অডিও বাফার করুন।
5.0/5 (1)

আমরা কি উন্নতি করতে পারি? আপনার ফিডব্যাক আমাদের সমস্যা সমাধানে সাহায্য করে।

বাস্তব সময়ে বক্তৃতা প্রবাহিত করুন

প্রতিদিন প্রথম ১০টি প্রজন্মের জন্য বিনামূল্যে। পূর্ণ অক্ষর অনুমতি এবং API ব্যবহারের জন্য নিবন্ধন করুন।