الترجمة الفورية

تدفق النص إلى الكلام مع تأخير صوت أول دون الثانية.

النص

البث
0/5,000 حروف ~0.3s أول صوت

إعدادات الصوت

النماذج القادرة على التدفق فقط.

التأخير الحي

انقر على تدفق لقياس التأخير الأول للصوت

الناتج

ستظهر قطع صوتية هنا عندما تدخل

0:00
الجزء الأول:
مجموع القطع: 0
مجموع الوقت:

كيف يعمل البث TTS

1 - إرسال النص

POST النص إلى /v1/tts/stream/ كطلب أحداث مرسلة من الخادم.

2 - النموذج يولد

كوكورو يقطع النص ويولد عينة صوتية عينة بعينتها على وحدة المعالجة المركزية.

3 - قطع تدفق البيانات

تصل قطع WAV المشفرة بـ Base64 عبر SSE وتبدأ اللعب فوراً.

4 - استمع مباشرة

يسمع المستخدم بداية الجملة في أقل من ثانية، حتى في المدخلات الطويلة.

حالات الاستخدام

حيث تأخر أقل من الثانية يفتح تجارب جديدة.

وكلاء الصوت

الروبوتات المحادثة التي تستجيب بسرعة مثل الإنسان.

صوت حية

ترجمة وتسجيل مقطع فيديو في الوقت الحقيقي دون توقف.

الألعاب

حوار NPC الذي يتفاعل مع خيارات اللاعبين فورا، لا VO مسبقة الصنع.

إمكانية الوصول

(ج) قارئات الشاشة والأدوات المساعدة التي تبدأ في الكلام في اللحظة التي ينقر فيها المستخدم على زر.

خطط النقل والتوزيع في الوقت الحقيقي

ابدأ مجانا، وارتفع عندما تحتاج إلى المزيد

مجاني
  • كوكورو (نموذج مجاني)
  • 500 حرف لكل جيل
  • 10 قنوات مجانية/يوم لكل مستخدم مجهول الهوية
  • تأخير في الصوت الأول دون الثانية
  • SSE تدفق عبر HTTPS
الأكثر شعبية
حساب مجاني
  • 000 15 حرف عند التسجيل
  • 000 5 شار لكل تيار
  • مفتاح واجهة برمجة التطبيقات للوصول البرنامجي
  • تاريخ الأجيال
  • لا يوجد حد أقصى للتدفق اليومي
انضم مجانا
المؤيدون
  • MOSS-TTS-Realtime (عندما يكون قيد التشغيل)
  • 000 100 شار لكل تيار
  • صف أولوية وحدة المعالجة الرسومية
  • الوكيل الصوتي + تكامل تويليو
  • الحدود العليا للمعدلات
التحسين

الأسئلة المتكررة

إن تحويل النص إلى صوت في الوقت الحقيقي يقوم بتدفق قطع صوتية عند توليدها، بدلاً من الانتظار حتى تكتمل الجملة بالكامل. وتصل العينة الصوتية الأولى في أقل من ثانية واحدة، مما يجعلها مناسبة لعملاء الصوت الحي، والترجمة، والتطبيقات التفاعلية حيث يشكل التأخير أهمية كبيرة.

يقوم نظام ترجمة النصوص إلى صوت عادي بإنشاء الملف الصوتي الكامل قبل إعادة أي شيء - انتظر، ثم اسمع الجملة بأكملها في وقت واحد. يستخدم نظام ترجمة النصوص إلى صوت في الوقت الحقيقي أحداث الخادم المرسلة (SSE) لتدفق قطع صوتية قصيرة كما ينتجها النموذج. يسمع المستخدم بداية الجملة على الفور تقريبا، حتى على المدخلات الطويلة.

كوكورو هو البرنامج الافتراضي — وهو يولد الصوت بسرعة 100 مرة أسرع من الوقت الحقيقي على وحدة المعالجة المركزية الحديثة. ونحن نقوم بإدماج MOSS-TTS-Realtime كبديل عالي الجودة؛ وسيكون المستخدمون قادرين على الاختيار حسب الطلب بمجرد إطلاقه.

تأخر الصوت الأول النموذجي على كوكورو هو 300-800 مللي ثانية على اتصال عام. وتهيمن رحلة الذهاب والإياب عبر الشبكة بعد ذلك. وتظهر الصفحة الوقت المقيس الحي إلى الصوت الأول في واجهة المستخدم بحيث يمكنك أن ترى بالضبط كم استغرق كل طلب.

وكلاء الصوت الذين يستجيبون في المحادثة، والترجمة الفورية للوسائط المتدفقة، وشخصيات الألعاب التفاعلية، وقراء إمكانية الوصول الذين يبدأون في الكلام في اللحظة التي ينقر فيها المستخدم، وأي تطبيق حيث الانتظار لمدة ثانيتين أو ثلاث ثوان للصوت سيشعر بالبطء.

نعم. POST إلى https://api.tts.ai/v1/tts/stream/ مع نفس الجسم كنقطة النهاية العادية /v1/tts/. والرد هو تدفق SSE من قطع WAV المشفرة بـ base64. ويدعم المستوى المجاني 10 أجيال في اليوم لكل مستخدم مجهول الهوية؛ ويحصل المستخدمون الموثوق بهم على كامل السماح بالحروف لكل حساب.

كوكورو يستخدم أصوات مدربة مسبقاً ولا يستنسخ. MOSS-TTS-Realtime (عندما يكون متكاملاً) يدعم استنساخ الصوت من نقطة صفر من مرجع 3 ثوان. للاستنساخ الكامل للصوت اليوم، استخدم الصفحة العادية /text-to-speech/ مع Chatterbox أو GPT-SoVITS — هذه ليست قادرة على التدفق ولكنها تنتج أصوات مخصصة.

نفس تكلفة الشخصية كنقطة نهاية TTS العادية. كوكورو هو طبقة مجانية (تكلفة x1). MOSS-TTS-Realtime سيعمل على المستوى القياسي (تكلفة x2) عندما يتم تمكينه. بروتوكول التدفق لا يضيف أي تكلفة إضافية للتسعير.

نعم - نقطة النهاية المتدفقة مزدوجة مع صوت تويليو Webhook لتغذية الصوت الحي في مكالمة هاتفية. منصة وكيل الصوت لدينا بالفعل يفعل ذلك لنظام الاستجابة الفورية للمكالمات والمكالمات الخارجة. التأخير من النهاية إلى النهاية على مكالمة هاتفية هو عادة 1-2 ثانية بما في ذلك STT و LLM استجابة.

إذا خسرت شبكتك جزءا من البيانات أثناء النقل، فإن مشغل الفيديو سيقفز إلى الأمام بدلا من التوقف. وبالنسبة للتطبيقات التي لا تستطيع تحمل الفجوات، عد إلى نقطة النهاية العادية غير المتداولة، أو ضع 500 مللي ثانية من الصوت في المخزن المؤقت قبل بدء التشغيل.
5.0/5 (1)

ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.

تدفق الكلام في الوقت الحقيقي

مجاني لعشرة أجيال يوميا. انضم لفتح كامل السماح بالحروف والوصول إلى API.