বাস্তব সময়ের TTS
সাব-সেকেন্ড প্রথম অডিও লেটেন্সির সাথে টেক্সট-টু-স্পিকার স্ট্রিমিং। ভয়েস এজেন্ট এবং লাইভ অ্যাপ্লিকেশনের জন্য নির্মিত।
স্ট্রিমিং TTS কিভাবে কাজ করে
১. পাঠ্য পাঠাও
সার্ভার-প্রেরিত ইভেন্ট অনুরোধ হিসাবে /v1/tts/stream/-এ POST টেক্সট পাঠান।
২. মডেল তৈরি করা হচ্ছে
কোকোরো টেক্সটকে ছোট ছোট অংশে ভাগ করে এবং GPU-তে অডিও নমুনা-নির্মাণ করে।
৩. স্ট্রিম চ্যাঙ্কস
Base64-এঙ্কোড করা WAV চুঙ্ক SSE-এর মাধ্যমে আসে এবং তাৎক্ষণিকভাবে চালানো শুরু করে।
৪. লাইভ শোনা
ব্যবহারকারীরা এক সেকেন্ডের মধ্যেই বাক্যটির শুরু শুনতে পাচ্ছে, এমনকি দীর্ঘ ইনপুট হলেও।
ব্যবহারের ক্ষেত্রে
যেখানে সাব-সেকেন্ডের বিরতি নতুন অভিজ্ঞতার উন্মোচন করে।
ভয়েস এজেন্ট
কথা বলার জন্য তৈরি রোবট যারা মানুষের মত দ্রুত উত্তর দেয়।
লাইভ ডুবিং
বাফারিং বিরতি ছাড়া বাস্তব সময়ে একটি স্ট্রিম অনুবাদ এবং ডুব করুন।
খেলাName
NPC ডায়ালগ যা খেলোয়াড়ের পছন্দের প্রতি তাৎক্ষণিকভাবে প্রতিক্রিয়া জানায়, কোন পূর্ব-রেন্ডার করা VO নেই।
প্রবেশযোগ্যতা
স্ক্রিন রিডার এবং সহায়ক সরঞ্জাম যা ব্যবহারকারী ক্লিক করার সাথে সাথেই কথা বলতে শুরু করে।
বাস্তব সময়ের TTS পরিকল্পনা
বিনামূল্যে শুরু করুন, আরো প্রয়োজন হলে আপগ্রেড করুন
- Kokoro স্ট্রিমিং (মুক্ত মডেল)
- প্রতি প্রজন্মে ৫০০ অক্ষর
- প্রতি বেনামী ব্যবহারকারী প্রতিদিন ১০টি বিনামূল্যে স্ট্রিম
- সাব-সেকেন্ড প্রথম অডিও লেটেন্সী
- HTTPS এর উপর SSE স্ট্রিমিং
- সাইন- আপ করার সময় ১৫,০০০ অক্ষর
- প্রতি স্ট্রিমে ৫,০০০ অক্ষর
- প্রোগ্রামিং ব্যবহারের জন্য API কী
- প্রজন্ম ইতিহাস
- প্রতিদিনের স্ট্রিম সীমা নেই
- MOSS-TTS-Realtime (সরাসরি ব্যবহারের সময়)
- প্রতি স্ট্রিমে ১০০,০০০ অক্ষর
- অগ্রাধিকারযুক্ত GPU কলাম
- ভয়েস এজেন্ট + Twilio সংযোগ
- উচ্চতর হারের সীমা
প্রায়শ জিজ্ঞাসিত প্রশ্ন
আমরা কি উন্নতি করতে পারি? আপনার ফিডব্যাক আমাদের সমস্যা সমাধানে সাহায্য করে।
বাস্তব সময়ে বক্তৃতা প্রবাহিত করুন
প্রতিদিন প্রথম ১০টি প্রজন্মের জন্য বিনামূল্যে। পূর্ণ অক্ষর অনুমতি এবং API ব্যবহারের জন্য নিবন্ধন করুন।