বাস্তব সময়ের TTS

সাব-সেকেন্ড প্রথম অডিও লেটেন্সির সাথে টেক্সট-টু-স্পিকার স্ট্রিমিং। ভয়েস এজেন্ট এবং লাইভ অ্যাপ্লিকেশনের জন্য নির্মিত।

নিবন্ধন করুন

আপনার ভাষায় এখনো TTS শব্দ নেই। আমাদের আপনার শব্দ যোগ করতে সাহায্য করুন! আপনার কণ্ঠ বিক্রি করুন

টেক্সট

স্ট্রিমিং

0/5,000 অক্ষর ~0.3s প্রথম অডিও

শব্দ সেটিংস

মডেল শুধুমাত্র স্ট্রিমিং-সক্ষম মডেল।

ভয়েস

গতি 1.0x

লাইভ লেটেন্সি

—

প্রথম অডিও লেটেন্সি পরিমাপ করতে স্ট্রিম ক্লিক করুন

আউটপুট

অডিও চ্যাঙ্কস এখানে বাজানো হবে যখন তারা স্ট্রিম করা হবে।

স্ট্রিমিং TTS কিভাবে কাজ করে

১. পাঠ্য পাঠাও

সার্ভার-প্রেরিত ইভেন্ট অনুরোধ হিসাবে /v1/tts/stream/-এ POST টেক্সট পাঠান।

২. মডেল তৈরি করা হচ্ছে

কোকোরো টেক্সটকে ছোট ছোট অংশে ভাগ করে এবং GPU-তে অডিও নমুনা-নির্মাণ করে।

৩. স্ট্রিম চ্যাঙ্কস

Base64-এঙ্কোড করা WAV চুঙ্ক SSE-এর মাধ্যমে আসে এবং তাৎক্ষণিকভাবে চালানো শুরু করে।

৪. লাইভ শোনা

ব্যবহারকারীরা এক সেকেন্ডের মধ্যেই বাক্যটির শুরু শুনতে পাচ্ছে, এমনকি দীর্ঘ ইনপুট হলেও।

ব্যবহারের ক্ষেত্রে

যেখানে সাব-সেকেন্ডের বিরতি নতুন অভিজ্ঞতার উন্মোচন করে।

ভয়েস এজেন্ট

কথা বলার জন্য তৈরি রোবট যারা মানুষের মত দ্রুত উত্তর দেয়।

লাইভ ডুবিং

বাফারিং বিরতি ছাড়া বাস্তব সময়ে একটি স্ট্রিম অনুবাদ এবং ডুব করুন।

খেলাName

NPC ডায়ালগ যা খেলোয়াড়ের পছন্দের প্রতি তাৎক্ষণিকভাবে প্রতিক্রিয়া জানায়, কোন পূর্ব-রেন্ডার করা VO নেই।

প্রবেশযোগ্যতা

স্ক্রিন রিডার এবং সহায়ক সরঞ্জাম যা ব্যবহারকারী ক্লিক করার সাথে সাথেই কথা বলতে শুরু করে।

বাস্তব সময়ের TTS পরিকল্পনা

বিনামূল্যে শুরু করুন, আরো প্রয়োজন হলে আপগ্রেড করুন

মুক্ত

Kokoro স্ট্রিমিং (মুক্ত মডেল)
প্রতি প্রজন্মে ৫০০ অক্ষর
প্রতি বেনামী ব্যবহারকারী প্রতিদিন ১০টি বিনামূল্যে স্ট্রিম
সাব-সেকেন্ড প্রথম অডিও লেটেন্সী
HTTPS এর উপর SSE স্ট্রিমিং

সবচেয়ে জনপ্রিয়

ফ্রি অ্যাকাউন্ট

সাইন- আপ করার সময় ১৫,০০০ অক্ষর
প্রতি স্ট্রিমে ৫,০০০ অক্ষর
প্রোগ্রামিং ব্যবহারের জন্য API কী
প্রজন্ম ইতিহাস
প্রতিদিনের স্ট্রিম সীমা নেই

নিবন্ধন করুন

প্রফেশনাল

MOSS-TTS-Realtime (সরাসরি ব্যবহারের সময়)
প্রতি স্ট্রিমে ১০০,০০০ অক্ষর
অগ্রাধিকারযুক্ত GPU কলাম
ভয়েস এজেন্ট + Twilio সংযোগ
উচ্চতর হারের সীমা

উন্নীতকরণ

প্রায়শ জিজ্ঞাসিত প্রশ্ন

বাস্তব সময়ের টেক্সট-টু-স্পিকার অডিও চ্যুট তৈরি করে, পুরো বাক্যটি শেষ করার জন্য অপেক্ষা করার পরিবর্তে। প্রথম অডিও নমুনা এক সেকেন্ডের মধ্যে আসে, এটি লাইভ ভয়েস এজেন্ট, ডুবিং এবং মিথস্ক্রিয় অ্যাপ্লিকেশনের জন্য উপযুক্ত করে তোলে যেখানে লেটেন্সির গুরুত্ব আছে।

নিয়মিত TTS কিছু ফিরিয়ে আনার আগে পুরো অডিও ফাইল তৈরি করে — আপনি অপেক্ষা করেন, তারপর একবার পুরো বাক্যটি শুনেন। বাস্তব সময়ের TTS সার্ভার-প্রেরিত ইভেন্ট (SSE) ব্যবহার করে মডেল তাদের উৎপাদন করার সময় অডিও ছোট ছোট অংশ স্ট্রিম করতে। ব্যবহারকারী বাক্যটির শুরু প্রায় তৎক্ষণাৎ শুনতে পাবেন, দীর্ঘ ইনপুট থাকলেও।

Kokoro ডিফল্ট ব্যাকএন্ড — এটি আধুনিক GPU-তে বাস্তব সময়ের চেয়ে প্রায় ১০০ গুণ দ্রুত অডিও উৎপাদন করে। আমরা MOSS-TTS-Realtime-কে উচ্চমানের বিকল্প হিসেবে একীভূত করছি; ব্যবহারকারীরা এটি চালু হলে প্রতিটি অনুরোধের জন্য একটি নির্বাচন করতে পারবেন।

Kokoro-এর সাধারণ প্রথম অডিও লেটেন্সী হল ৩০০-৮০০ মিসেস একটি পাবলিক সংযোগের মাধ্যমে। এরপর নেটওয়ার্ক রান-ট্রিপ প্রবল হয়ে ওঠে। পৃষ্ঠাটি UI-এ প্রথম অডিও-র জন্য সরাসরি পরিমাপকৃত সময়ের উপর ভিত্তি করে দেখায় যাতে আপনি দেখতে পারেন যে প্রতিটি অনুরোধ কতক্ষণ সময় নেয়।

ভয়েস এজেন্ট যারা কথা বলার সময়ে উত্তর দেয়, স্ট্রিমিং মিডিয়ার জন্য লাইভ ডাবিং, মিথস্ক্রিয় গেম এনপিসি, ব্যবহারকারী যখন ক্লিক করে তখনই কথা বলা শুরু করে এমন অ্যাক্সেসবিলিটি রিডার এবং যে কোন অ্যাপ্লিকেশন যেখানে অডিও পাওয়ার জন্য দুই বা তিন সেকেন্ড অপেক্ষা করাটা ধীরে ধীরে অনুভূত হয়।

হ্যাঁ। POST to https://api.tts.ai/v1/tts/stream/ regular /v1/tts/ endpoint এর মতই শরীর সহ। প্রতিক্রিয়া base64-encoded WAV chunks এর একটি SSE স্ট্রিম। বিনামূল্যে স্তর প্রতিদিন প্রতি বেনামী ব্যবহারকারীর জন্য ১০ প্রজন্ম সমর্থন করে; অনুমোদিত ব্যবহারকারীরা প্রতি অ্যাকাউন্টে অক্ষর অনুমোদন প্রাপ্ত করে।

Kokoro পূর্বে প্রশিক্ষিত কন্ঠ ব্যবহার করে এবং ক্লোন করে না। MOSS-TTS-Realtime (যখন সংযুক্ত থাকে) ৩ সেকেন্ডের রেফারেন্স থেকে শূন্য-শট কন্ঠ ক্লোন সমর্থন করে। আজকের পূর্ণ কন্ঠ ক্লোন করার জন্য, Chatterbox বা GPT-SoVITS এর সাথে নিয়মিত /text-to-speech/ পাতা ব্যবহার করুন - তারা স্ট্রিমিং-সক্ষম নয় কিন্তু স্বনির্বাচিত কন্ঠ তৈরি করে।

নিয়মিত TTS শেষ বিন্দুর মত অক্ষরের খরচ। Kokoro ফ্রি-টিয়ার (১x খরচ)। সক্রিয় করা হলে MOSS-TTS-Realtime প্রমিত টাইরে (২x খরচ) চলবে। স্ট্রিমিং প্রোটোকল কোন মূল্য সংযোজন করে না।

হ্যাঁ — স্ট্রিমিং এন্ডপয়েন্টের সাথে টুইলিয়াও ভয়েস ওয়েবহুককে জুড়ে দিয়ে ফোন কলের মধ্যে সরাসরি অডিও প্রদান করা যায়। আমাদের ভয়েস এজেন্ট প্ল্যাটফর্ম আইভিআর এবং আউটব্যান্ড কলের জন্য ইতিমধ্যেই এই কাজটি করে থাকে। ফোন কলের শেষ থেকে শেষ পর্যন্ত সময়ের ব্যবধান সাধারণত ১-২ সেকেন্ড, যার মধ্যে STT এবং LLM প্রতিক্রিয়া অন্তর্ভুক্ত।

আপনার নেটওয়ার্কের পরিবহনের সময় যদি কোন অংশ বাদ পড়ে, স্ট্রিমিং প্লেয়ারটি থামবার পরিবর্তে সামনের দিকে চলে যাবে। যেসব অ্যাপ্লিকেশনের জন্য ফাঁক সহ্য করা সম্ভব নয়, তাদের জন্য নিয়মিত স্ট্রিমিং-বিহীন শেষ বিন্দুতে ফিরে যান, অথবা প্লেব্যাক শুরু করার পূর্বে ৫০০ এমএস অডিও বাফার করুন।

5.0/5 (1)

বাস্তব সময়ে বক্তৃতা প্রবাহিত করুন

প্রতিদিন প্রথম ১০টি প্রজন্মের জন্য বিনামূল্যে। পূর্ণ অক্ষর অনুমতি এবং API ব্যবহারের জন্য নিবন্ধন করুন।

নিবন্ধন করুন মূল্য প্রদর্শন

বাস্তব সময়ের TTS

টেক্সট

শব্দ সেটিংস

লাইভ লেটেন্সি

আউটপুট

স্ট্রিমিং TTS কিভাবে কাজ করে

১. পাঠ্য পাঠাও

২. মডেল তৈরি করা হচ্ছে

৩. স্ট্রিম চ্যাঙ্কস

৪. লাইভ শোনা

ব্যবহারের ক্ষেত্রে

ভয়েস এজেন্ট

লাইভ ডুবিং

খেলাName

প্রবেশযোগ্যতা

বাস্তব সময়ের TTS পরিকল্পনা

প্রায়শ জিজ্ঞাসিত প্রশ্ন

রিয়েলটাইম TTS কি?

রিয়ালটাইম টিটিএস কিভাবে নিয়মিত টিটিএস থেকে আলাদা?

কোন মডেল রিয়ালটাইম পেজ চালায়?

প্রথম অডিও লেটেন্সি কত দ্রুত?

আমি কিভাবে রিয়েলটাইম TTS তৈরি করতে পারি?

রিয়ালটাইম TTS-এর জন্য কি কোন API আছে?

এটা কি ভয়েস ক্লোনিং সমর্থন করে?

রিয়েলটাইম টিটিএস এর খরচ কত?

আমি কি এটা ফোন কলের জন্য ব্যবহার করতে পারি?

কেন মাঝে মাঝে শব্দের মাঝখানে অডিও বন্ধ হয়ে যায়?

বাস্তব সময়ে বক্তৃতা প্রবাহিত করুন