گزارش اشکال / درخواست ویژگی

زمان واقعی TTS

متن به گفتار با تأخیر صدای اول زیر ثانیه. برای کارگزاران صدا و برنامه‌های کاربردی زنده ساخته شده است.

ثبت نام

هنوز صداهای TTS برای زبان شما نداریم. به ما کمک کنید تا صداهای خودتان را اضافه کنیم! فروش صدای خود

متن

جریان

0/5,000 نویسه‌ها ~0.3s صدای اول

& تنظیمات صدا‌

مدل تنها مدل‌های قابل پخش هستند.

صدا

سرعت 1.0x

تأخیر زنده

—

برای اندازه‌گیری تأخیر صدای اول، روی جریان کلیک کنید

خروجی

صوت‌هاي زير همينطور که وارد ميشه پخش ميشه

چگونه جریان TTS کار می‌کند

۱. ارسال متن

متن POST به /v1/tts/stream/ به عنوان درخواست رویدادهای فرستاده شده توسط سرور.

۲. مدل تولید می‌کند

کوکورو متن را به تکه‌های کوچک تقسیم می‌کند و نمونه به نمونه صدا را در GPU تولید می‌کند.

3. تکه‌های جریان

فشرده سازی WAV با کدگذاری Base64 از طریق SSE به دست می‌آید و بلافاصله پخش می‌شود.

گوش دادن زنده

این روش در ابتدای کار با یک تابع تابعی را در یک تابع دیگر، حتی در یک تابع چندجمله‌ای، وارد می‌کند.

موارد استفاده

جایی که تأخیر زیر ثانیه ای تجربه های جدیدی را باز می کند.

کارگزاران صدا

. روبات هاي مکالمه اي که به سرعتي که يه انسان ميکنه جواب ميدن

دوبله زنده

ترجمه و دوبله یک جریان در زمان واقعی بدون توقف بافر.

بازیها

NPCها در بازی به صورت پیش‌فرض در بازی حضور ندارند و بازیکنان می‌توانند به صورت آزادانه انتخاب شوند.

دسترسی‌پذیری

خواننده‌های صفحه و ابزارهای کمکی که در لحظه کلیک کاربر شروع به صحبت می‌کنند.

نقشه‌های TTS زمان واقعی

شروع مجانی، ارتقاء وقتی که بیشتر نیاز دارید

آزاد

Kokoro stream (مدل آزاد)
۵۰۰ نویسه در هر نسل
۱۰ جریان رایگان/روز برای هر کاربر ناشناس
تأخیر صدای اول زیر ثانیه
جریان SSE در HTTPS

محبوب‌ترین

حساب آزاد

۱۵۰۰۰ کاراکتر در ثبت نام
5000 کاراکتر در هر جریان
کلید API برای دسترسی برنامه‌ریزی شده
تاریخچه نسل
هیچ محدودیت جریان روزانه

ثبت نام

حرفه اي

MOSS- TTS- Realtime (وقتی زنده است)
۱۰ کاراکتر در هر جریان
صف اولویت GPU
عامل صدا + یکپارچه‌سازی Twilio
حداکثر نرخ

ارتقا

پرسشهای متداول

اولین نمونه صوتی در کمتر از یک ثانیه به دست می‌آید، که این امر آن را برای صداهای زنده، دوبلاژ و برنامه‌های کاربردی تعاملی که تأخیر اهمیت دارد مناسب می‌سازد.

TTS معمولی قبل از بازگرداندن هر چیزی، پروندۀ صوتی کامل را تولید می‌کند — شما صبر می‌کنید، سپس جملۀ کامل را یکبار می‌شنوید. TTS زمان واقعی از رویدادهای فرستاده شده توسط سرور (SSE) برای پخش قطعات صوتی کوتاه هنگامی که مدل آنها را تولید می‌کند استفاده می‌کند. کاربر شروع جمله را تقریباً بلافاصله می‌شنود، حتی در ورودی‌های طولانی.

Kokoro پشته پیش‌فرض است — صدا را حدود ۱۰۰ برابر سریع‌تر از زمان واقعی در یک GPU مدرن تولید می‌کند. ما MOSS-TTS-Realtime را به عنوان یک جایگزین با کیفیت بالاتر ادغام کرده‌ایم؛ کاربران می‌توانند هنگامی که این ارسال می‌شود، بر اساس درخواست انتخاب کنند.

تأخیر معمول اولین صدا در Kokoro ۳۰۰-۸۰۰ میلی‌ثانیه در یک اتصال عمومی است. پس از آن، چرخش شبکه غالب می‌شود. صفحه زمان سنجیده شده زنده تا اولین صدا را در رابط کاربری نشان می‌دهد، بنابراین می‌توانید دقیقاً ببینید که هر درخواست چقدر طول کشید.

عامل‌های صدایی که به صورت مکالمه‌ای پاسخ می‌دهند، دوبلاژ زنده برای رسانه‌های جریانی، NPCهای بازی‌های تعاملی، خوانندگان دسترسی که در لحظه کلیک کاربر شروع به صحبت می‌کنند، و هر برنامه‌ای که انتظار دو یا سه ثانیه برای صدا کند به نظر می‌رسد.

بله. POST به https://api.tts.ai/v1/tts/stream/ با بدنه مشابه نقطه پایانی /v1/tts/ عادی. پاسخ یک جریان SSE از تکه‌های WAV کدگذاری شده با base64 است. سطح رایگان از ۱۰ نسل در روز برای هر کاربر ناشناس پشتیبانی می‌کند؛ کاربران با هویت تأیید شده اجازه کاراکتر کامل برای هر حساب را دریافت می‌کنند.

Kokoro از صداهای پیش‌آموزیده استفاده می‌کند و شبیه سازی نمی‌کند. MOSS-TTS-Realtime (وقتی یکپارچه شود) از شبیه سازی صدای صفر-شلیک از یک مرجع ۳ ثانیه پشتیبانی می‌کند. برای شبیه سازی کامل صدا امروزه ، از صفحه /text-to-speech/ با Chatterbox یا GPT-SoVITS استفاده کنید — آنها قابلیت پخش را ندارند اما صداهای سفارشی تولید می‌کنند.

همان هزینه کاراکتر مانند نقطه پایانی TTS عادی. Kokoro سطح آزاد است (۱x هزینه). MOSS-TTS-Realtime هنگام فعال‌سازی در سطح استاندارد (۲x هزینه) اجرا می‌شود. پروتکل جریان هیچ هزینه اضافی قیمتی اضافه نمی‌کند.

بله — نقطه پایانی جریان را با یک Webhook صدای Twilio جفت کنید تا صدای زنده را به یک تماس تلفنی تغذیه کنید. پلتفرم عامل صدای ما از قبل این کار را برای IVR و تماس‌های خروجی انجام می‌دهد. تأخیر پایان به پایان در یک تماس تلفنی معمولاً ۱-۲ ثانیه است که شامل پاسخ STT و LLM است.

اگر شبکه شما یک قطعه را در انتقال از دست بدهد ، پخش‌کننده جریان به جای متوقف شدن به جلو پرش می‌کند. برای کاربردهایی که نمی‌توانند شکاف‌ها را تحمل کنند ، به نقطه پایانی غیر جریان عادی برگردید ، یا ۵۰۰ میلی‌ثانیه صدا را قبل از شروع پخش بین‌دست کنید.

5.0/5 (1)

جریان گفتار در زمان واقعی

برای ۱۰ نسل اول در روز رایگان است. برای باز کردن اجازهٔ کاراکتر کامل و دسترسی API ثبت نام کنید.

ثبت نام نمایش قیمت

زمان واقعی TTS

متن

& تنظیمات صدا‌

تأخیر زنده

خروجی

چگونه جریان TTS کار می‌کند

۱. ارسال متن

۲. مدل تولید می‌کند

3. تکه‌های جریان

گوش دادن زنده

موارد استفاده

کارگزاران صدا

دوبله زنده

بازیها

دسترسی‌پذیری

نقشه‌های TTS زمان واقعی

پرسشهای متداول

تئوری زمان واقعی چیست؟

TTS واقعیت مجازی چگونه با TTS معمولی متفاوت است؟

کدوم مدل صفحه رو در زمان واقعي فعال ميکنه؟

زمان تاخیر اول صدا چقدره؟

با TTS زمان واقعی چه میتونم بسازم؟

آیا یک API برای TTS واقعی وجود دارد؟

از شبيه سازي صدا پشتیبانی ميکنه؟

چقدر زمان لازم است تا یک TTS واقعی به دست آید؟

ميتونم ازش براي تماس تلفني استفاده کنم؟

چرا گاهی صدا در وسط کلمه قطع میشه؟

جریان گفتار در زمان واقعی