الترجمة الفورية
تدفق النص إلى الكلام مع تأخير صوت أول دون الثانية.
كيف يعمل البث TTS
1 - إرسال النص
POST النص إلى /v1/tts/stream/ كطلب أحداث مرسلة من الخادم.
2 - النموذج يولد
كوكورو يقطع النص ويولد عينة صوتية عينة بعينتها على وحدة المعالجة المركزية.
3 - قطع تدفق البيانات
تصل قطع WAV المشفرة بـ Base64 عبر SSE وتبدأ اللعب فوراً.
4 - استمع مباشرة
يسمع المستخدم بداية الجملة في أقل من ثانية، حتى في المدخلات الطويلة.
حالات الاستخدام
حيث تأخر أقل من الثانية يفتح تجارب جديدة.
وكلاء الصوت
الروبوتات المحادثة التي تستجيب بسرعة مثل الإنسان.
صوت حية
ترجمة وتسجيل مقطع فيديو في الوقت الحقيقي دون توقف.
الألعاب
حوار NPC الذي يتفاعل مع خيارات اللاعبين فورا، لا VO مسبقة الصنع.
إمكانية الوصول
(ج) قارئات الشاشة والأدوات المساعدة التي تبدأ في الكلام في اللحظة التي ينقر فيها المستخدم على زر.
خطط النقل والتوزيع في الوقت الحقيقي
ابدأ مجانا، وارتفع عندما تحتاج إلى المزيد
- كوكورو (نموذج مجاني)
- 500 حرف لكل جيل
- 10 قنوات مجانية/يوم لكل مستخدم مجهول الهوية
- تأخير في الصوت الأول دون الثانية
- SSE تدفق عبر HTTPS
- 000 15 حرف عند التسجيل
- 000 5 شار لكل تيار
- مفتاح واجهة برمجة التطبيقات للوصول البرنامجي
- تاريخ الأجيال
- لا يوجد حد أقصى للتدفق اليومي
- MOSS-TTS-Realtime (عندما يكون قيد التشغيل)
- 000 100 شار لكل تيار
- صف أولوية وحدة المعالجة الرسومية
- الوكيل الصوتي + تكامل تويليو
- الحدود العليا للمعدلات
الأسئلة المتكررة
ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.
تدفق الكلام في الوقت الحقيقي
مجاني لعشرة أجيال يوميا. انضم لفتح كامل السماح بالحروف والوصول إلى API.