زمان واقعی TTS
متن به گفتار با تأخیر صدای اول زیر ثانیه. برای کارگزاران صدا و برنامههای کاربردی زنده ساخته شده است.
چگونه جریان TTS کار میکند
۱. ارسال متن
متن POST به /v1/tts/stream/ به عنوان درخواست رویدادهای فرستاده شده توسط سرور.
۲. مدل تولید میکند
کوکورو متن را به تکههای کوچک تقسیم میکند و نمونه به نمونه صدا را در GPU تولید میکند.
3. تکههای جریان
فشرده سازی WAV با کدگذاری Base64 از طریق SSE به دست میآید و بلافاصله پخش میشود.
گوش دادن زنده
این روش در ابتدای کار با یک تابع تابعی را در یک تابع دیگر، حتی در یک تابع چندجملهای، وارد میکند.
موارد استفاده
جایی که تأخیر زیر ثانیه ای تجربه های جدیدی را باز می کند.
کارگزاران صدا
. روبات هاي مکالمه اي که به سرعتي که يه انسان ميکنه جواب ميدن
دوبله زنده
ترجمه و دوبله یک جریان در زمان واقعی بدون توقف بافر.
بازیها
NPCها در بازی به صورت پیشفرض در بازی حضور ندارند و بازیکنان میتوانند به صورت آزادانه انتخاب شوند.
دسترسیپذیری
خوانندههای صفحه و ابزارهای کمکی که در لحظه کلیک کاربر شروع به صحبت میکنند.
نقشههای TTS زمان واقعی
شروع مجانی، ارتقاء وقتی که بیشتر نیاز دارید
- Kokoro stream (مدل آزاد)
- ۵۰۰ نویسه در هر نسل
- ۱۰ جریان رایگان/روز برای هر کاربر ناشناس
- تأخیر صدای اول زیر ثانیه
- جریان SSE در HTTPS
- ۱۵۰۰۰ کاراکتر در ثبت نام
- 5000 کاراکتر در هر جریان
- کلید API برای دسترسی برنامهریزی شده
- تاریخچه نسل
- هیچ محدودیت جریان روزانه
- MOSS- TTS- Realtime (وقتی زنده است)
- ۱۰ کاراکتر در هر جریان
- صف اولویت GPU
- عامل صدا + یکپارچهسازی Twilio
- حداکثر نرخ
پرسشهای متداول
چه چیزی میتونیم بهتر کنیم؟ بازخورد شما به ما کمک میکنه مشکلات رو حل کنیم.
جریان گفتار در زمان واقعی
برای ۱۰ نسل اول در روز رایگان است. برای باز کردن اجازهٔ کاراکتر کامل و دسترسی API ثبت نام کنید.