زمان واقعی TTS

متن به گفتار با تأخیر صدای اول زیر ثانیه. برای کارگزاران صدا و برنامه‌های کاربردی زنده ساخته شده است.

هنوز صداهای TTS برای زبان شما نداریم. به ما کمک کنید تا صداهای خودتان را اضافه کنیم! فروش صدای خود

متن

جریان
0/5,000 نویسه‌ها ~0.3s صدای اول

& تنظیمات صدا‌

تنها مدل‌های قابل پخش هستند.

تأخیر زنده

برای اندازه‌گیری تأخیر صدای اول، روی جریان کلیک کنید

خروجی

صوت‌هاي زير همينطور که وارد ميشه پخش ميشه

0:00
تکه اول:
مجموع تکه‌ها: 0
زمان کل:

چگونه جریان TTS کار می‌کند

۱. ارسال متن

متن POST به /v1/tts/stream/ به عنوان درخواست رویدادهای فرستاده شده توسط سرور.

۲. مدل تولید می‌کند

کوکورو متن را به تکه‌های کوچک تقسیم می‌کند و نمونه به نمونه صدا را در GPU تولید می‌کند.

3. تکه‌های جریان

فشرده سازی WAV با کدگذاری Base64 از طریق SSE به دست می‌آید و بلافاصله پخش می‌شود.

گوش دادن زنده

این روش در ابتدای کار با یک تابع تابعی را در یک تابع دیگر، حتی در یک تابع چندجمله‌ای، وارد می‌کند.

موارد استفاده

جایی که تأخیر زیر ثانیه ای تجربه های جدیدی را باز می کند.

کارگزاران صدا

. روبات هاي مکالمه اي که به سرعتي که يه انسان ميکنه جواب ميدن

دوبله زنده

ترجمه و دوبله یک جریان در زمان واقعی بدون توقف بافر.

بازیها

NPCها در بازی به صورت پیش‌فرض در بازی حضور ندارند و بازیکنان می‌توانند به صورت آزادانه انتخاب شوند.

دسترسی‌پذیری

خواننده‌های صفحه و ابزارهای کمکی که در لحظه کلیک کاربر شروع به صحبت می‌کنند.

نقشه‌های TTS زمان واقعی

شروع مجانی، ارتقاء وقتی که بیشتر نیاز دارید

آزاد
  • Kokoro stream (مدل آزاد)
  • ۵۰۰ نویسه در هر نسل
  • ۱۰ جریان رایگان/روز برای هر کاربر ناشناس
  • تأخیر صدای اول زیر ثانیه
  • جریان SSE در HTTPS
محبوب‌ترین
حساب آزاد
  • ۱۵۰۰۰ کاراکتر در ثبت نام
  • 5000 کاراکتر در هر جریان
  • کلید API برای دسترسی برنامه‌ریزی شده
  • تاریخچه نسل
  • هیچ محدودیت جریان روزانه
ثبت نام
حرفه اي
  • MOSS- TTS- Realtime (وقتی زنده است)
  • ۱۰ کاراکتر در هر جریان
  • صف اولویت GPU
  • عامل صدا + یکپارچه‌سازی Twilio
  • حداکثر نرخ
ارتقا

پرسشهای متداول

اولین نمونه صوتی در کمتر از یک ثانیه به دست می‌آید، که این امر آن را برای صداهای زنده، دوبلاژ و برنامه‌های کاربردی تعاملی که تأخیر اهمیت دارد مناسب می‌سازد.

TTS معمولی قبل از بازگرداندن هر چیزی، پروندۀ صوتی کامل را تولید می‌کند — شما صبر می‌کنید، سپس جملۀ کامل را یکبار می‌شنوید. TTS زمان واقعی از رویدادهای فرستاده شده توسط سرور (SSE) برای پخش قطعات صوتی کوتاه هنگامی که مدل آنها را تولید می‌کند استفاده می‌کند. کاربر شروع جمله را تقریباً بلافاصله می‌شنود، حتی در ورودی‌های طولانی.

Kokoro پشته پیش‌فرض است — صدا را حدود ۱۰۰ برابر سریع‌تر از زمان واقعی در یک GPU مدرن تولید می‌کند. ما MOSS-TTS-Realtime را به عنوان یک جایگزین با کیفیت بالاتر ادغام کرده‌ایم؛ کاربران می‌توانند هنگامی که این ارسال می‌شود، بر اساس درخواست انتخاب کنند.

تأخیر معمول اولین صدا در Kokoro ۳۰۰-۸۰۰ میلی‌ثانیه در یک اتصال عمومی است. پس از آن، چرخش شبکه غالب می‌شود. صفحه زمان سنجیده شده زنده تا اولین صدا را در رابط کاربری نشان می‌دهد، بنابراین می‌توانید دقیقاً ببینید که هر درخواست چقدر طول کشید.

عامل‌های صدایی که به صورت مکالمه‌ای پاسخ می‌دهند، دوبلاژ زنده برای رسانه‌های جریانی، NPCهای بازی‌های تعاملی، خوانندگان دسترسی که در لحظه کلیک کاربر شروع به صحبت می‌کنند، و هر برنامه‌ای که انتظار دو یا سه ثانیه برای صدا کند به نظر می‌رسد.

بله. POST به https://api.tts.ai/v1/tts/stream/ با بدنه مشابه نقطه پایانی /v1/tts/ عادی. پاسخ یک جریان SSE از تکه‌های WAV کدگذاری شده با base64 است. سطح رایگان از ۱۰ نسل در روز برای هر کاربر ناشناس پشتیبانی می‌کند؛ کاربران با هویت تأیید شده اجازه کاراکتر کامل برای هر حساب را دریافت می‌کنند.

Kokoro از صداهای پیش‌آموزیده استفاده می‌کند و شبیه سازی نمی‌کند. MOSS-TTS-Realtime (وقتی یکپارچه شود) از شبیه سازی صدای صفر-شلیک از یک مرجع ۳ ثانیه پشتیبانی می‌کند. برای شبیه سازی کامل صدا امروزه ، از صفحه /text-to-speech/ با Chatterbox یا GPT-SoVITS استفاده کنید — آنها قابلیت پخش را ندارند اما صداهای سفارشی تولید می‌کنند.

همان هزینه کاراکتر مانند نقطه پایانی TTS عادی. Kokoro سطح آزاد است (۱x هزینه). MOSS-TTS-Realtime هنگام فعال‌سازی در سطح استاندارد (۲x هزینه) اجرا می‌شود. پروتکل جریان هیچ هزینه اضافی قیمتی اضافه نمی‌کند.

بله — نقطه پایانی جریان را با یک Webhook صدای Twilio جفت کنید تا صدای زنده را به یک تماس تلفنی تغذیه کنید. پلتفرم عامل صدای ما از قبل این کار را برای IVR و تماس‌های خروجی انجام می‌دهد. تأخیر پایان به پایان در یک تماس تلفنی معمولاً ۱-۲ ثانیه است که شامل پاسخ STT و LLM است.

اگر شبکه شما یک قطعه را در انتقال از دست بدهد ، پخش‌کننده جریان به جای متوقف شدن به جلو پرش می‌کند. برای کاربردهایی که نمی‌توانند شکاف‌ها را تحمل کنند ، به نقطه پایانی غیر جریان عادی برگردید ، یا ۵۰۰ میلی‌ثانیه صدا را قبل از شروع پخش بین‌دست کنید.
5.0/5 (1)

چه چیزی میتونیم بهتر کنیم؟ بازخورد شما به ما کمک میکنه مشکلات رو حل کنیم.

جریان گفتار در زمان واقعی

برای ۱۰ نسل اول در روز رایگان است. برای باز کردن اجازهٔ کاراکتر کامل و دسترسی API ثبت نام کنید.