رئیل ٹائم TTS

سب-سیکنڈ پہلے آڈیو لاٹیسی کے ساتھ ٹیکس-تو-زبان کی اسٹریمنگ۔ وائٹس ایجنٹ اور لائیو ایپلیکیشنز کے لیے بنایا گیا۔

آپ کی زبان میں اب تک ہمارے پاس TTS آوازیں نہیں ہیں. ہمیں آپ کی آوازیں شامل کرنے میں مدد کریں! آپ کی آواز فروخت کریں

متن

سٹریمنگ
0/5,000 حروف ~0.3s پہلی آڈیو

آواز کی ترتیبات

صرف اسٹریمنگ-قادر ماڈل.

لائیو لیٹنسی

اول-آڈیو لاٹینس مچنے کے ليے سٹريم کلک کريں

خروجی

آڈیو ٹکڑے یہاں کھیلے گا جیسے کہ وہ اندر بہاؤ.

0:00
پہلا ٹکڑا:
مجموعی ٹکڑے: 0
مجموعی وقت:

سٹریمنگ TTS کیسے کام کرتا ہے

متن بھیجیں

/v1/tts/stream/ پر POST متن سرور- بھیجے ہوئے واقعات کی درخواست کے طور پر.

ماڈل پیدا کرتا ہے

Kokoro متن کو ٹکڑے کر تا هے اور GPU پر او ديو نمونے بنا تا هے

3. سٹریم چنکس

Base64-encoded WAV chunks SSE پر آتے ہیں اور فوراً بھڑکتے ہیں

4. لائیو سنیں

صارف کو ایک سیکنڈ کے اندر جملے کی شروعات سنائی جاتی ہے، حتیٰ کہ طویل انپٹوں پر بھی۔

استعمال کے حالات

جہاں سب سیکنڈ latency نئے تجربات کو کھولتا ہے.

آواز کے ایجنٹس

ایک انسان کی طرح تیزی سے جواب دینے کے لئے گفتگو روبوٹ.

لائي و ڈوبنگ

ترجمہ اور ریئل ٹائم میں ایک اسٹریم کو بفرنگ توقف کے بغیر ڈب کریں.

کھیل

NPC ڈائيلاگ جو کھلا ڑي کے انتخاب کو فوري طور پر رد عمل ديتا هے ، کوئی پرينڈرڈ VO نهيں

رسائی

اسکرین ریڈر اور مددگار اوزار جو استعمال کرنے والے کے کلک کرنے کے وقت بولنا شروع کرتے ہیں.

ریل ٹائم TTS منصوبے

مفت شروع کریں، آپ کو مزید ضرورت ہو تو اپگریڈ کریں

مفت
  • Kokoro سٹریمینگ (آزاد ماڈل)
  • 500 حروف پر نسل
  • 10 مفت اسٹریمس/دن ہر نامعلوم صارف
  • سب سیکنڈ پہلے آڈیو لاٹینسی
  • HTTPS پر SSE اسٹریمنگ
سب سے زیادہ مقبول
مفت اکاؤنٹ
  • 15,000 حروف پر سائن اپ
  • 5000 حروف پر سٹریم
  • پروگرامیٹک رسائی کے لیے API کلید
  • گزشتہ تاریخ
  • کوئی روزانہ سٹریم کیپ نہیں
مفت میں رجسٹر کریں
پرو
  • MOSS-TTS-Realtime (جب زندہ ہو)
  • 100,000 حروف پر سٹریم
  • GPU کی ترجیح
  • آواز ایجنٹ + Twilio انٹیگریشن
  • اعلی حد
بہتری

بار بار پوچھے گئے سوالات

ریئل ٹائم ٹیکس-تو-سپیچ سٹریم اوڈیو چانکس جیسے وہ پیدا کیے جاتے ہیں، اس کے بجائے کہ پورے جملے کو مکمل کرنے کے لیے انتظار کرتے ہیں. پہلا اوڈیو نمونہ ایک سیکنڈ کے اندر آتا ہے، اسے لائیو وائٹس ایجنٹس کے لیے مناسب بناتا ہے، ڈبلینگ، اور تعاملی ایپلیکیشنیں جہاں لاٹینس اہم ہے.

ريگلر TTS تمام او ديو فائل کو رلٹ کرنے سے پہلے پيدا کر تا هے - آپ انتظار کريں ، پھر پورا جملہ ایک بار ميں سنيں ريل ٹائم TTS سرور سے بھیجے گئے واقعات (SSE) کو استعمال کر تا هے مختصر او ديو چانکس کو سٹريم کر نے کے ليے جیسے ماڈل ان کو بناتا هے صارف تقريبا فوري طور پر جملے کا آغاز سنتا هے ، طويل ان پٹ پر بھی

کوکورو دیفالٹ بیک اینڈ ہے - یہ ایک جدید GPU پر ریئل ٹائم سے تقریباً 100x تیزی سے آڈیو پیدا کرتا ہے. ہم MOSS-TTS-Realtime کو ایک اعلیٰ معیار کے متبادل کے طور پر شامل کر رہے ہیں؛ صارفین ایک بار کہ اس کے ساتھ بھیجنے کے بعد ہر درخواست کے مطابق انتخاب کرنے کے قابل ہوں گے۔

Kokoro پر عام پہلی آڈیو لیٹنچ ایک عام اتصال پر 300-800ms ہے. نیٹ ورک راؤنڈ-ٹریپ اس کے بعد غالب ہوتا ہے. صفحہ UI میں پہلی آڈیو کے لیے زندگی کا وقت مچاتا ہے تاکہ آپ دیکھ سکیں کہ ہر درخواست کتنی دیر لے گی.

وائٹس ایجنٹ جو گفتگو کے ذریعے جواب دیتے ہیں، اسٹریم میڈیا کے لئے لائف ڈبلینگ، انٹریکٹیو گیم این پی سیز، رسائی ریڈر جو ایک صارف کے کلک کرنے کے وقت بات کرنا شروع کرتے ہیں، اور کوئی بھی ایپلیکیشن جہاں دو یا تین سیکنڈ کی انتظار آڈیو کے لئے سست محسوس ہو گا.

ہاں. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. The response is an SSE stream of base64-encoded WAV chunks. مفت سطح ہر دن ہر نامعلوم صارف کے لیے 10 نسلوں کی حمایت کرتی ہے؛ توثیق شدہ صارفوں کو ہر ایک اکاؤنٹ کے لیے مکمل کرکٹر اذیت ملتی ہے۔

Kokoro پہلے سے تربيت پا ئے گئے آوازوں کا استعمال کرتا ہے اور کلون نہیں کرتا MOSS-TTS-Realtime (جب انضمام کر يا جاتا ہے) 3 سيکنڈ کے حوالے سے صفر شوٹ آواز کلوننگ کو مدد دیتا ہے آج پورے آواز کلوننگ کے ليے ، Chatterbox يا GPT-SoVITS کے ساتھ معمولي /text-to-speech/ پيج کا استعمال کريں - وہ سٹريمنگ کے قابل نهيں هے مگر خاص آوازیں بناتے هيں

روا TTS انتہا پوائنٹ کے طور پر ایک ہی کرکٹر کوسٹ. Kokoro فری-تیئر (1x کوسٹ) ہے. MOSS-TTS-ریل ٹائم معیاری ٹیئر (2x کوسٹ) پر چلے گا جب فعال کیا جائے گا. اسٹریمنگ پروٹوکول کوئی قیمت اضافی خرچ نہیں کرتا.

ہاں - ایک فون کال میں لائی وائٹ اوڈیو کو فوڈ کرنے کے لئے ایک Twilio وائٹ ویب ہوک کے ساتھ اسٹریمنگ اینڈ پوائنٹ کو جوڑیں. ہمارا وائٹ ایجنٹ پلیٹ فارم پہلے ہی IVR اور آؤٹ بانڈ کال کے لئے یہ کرتا ہے. ایک فون کال پر اینڈ-ٹو-اینڈ لیٹنسی عام طور پر 1-2 سیکنڈ ہے اس میں STT اور LLM جواب شامل ہیں.

اگر آپ کا نیٹ ورک ٹرانسپورٹ میں ایک ٹانک ڈال دے تو، اسٹریم پلیئر وقفہ کی بجائے آگے بڑھ جائے گا. ان ایپلیکیشنوں کے لیے جو فاصلے برداشت نہیں کرسکتے، معمولی غیر اسٹریمنگ انتہا پوائنٹ پر واپس جائیں، یا بفٹر 500ms اوڈیو کی پلے بینگ شروع کرنے سے پہلے.
5.0/5 (1)

ہم کیا بہتر کر سکتے ہیں؟ آپ کا رائے ہمیں مسائل حل کرنے میں مدد کرتا ہے.

رئیل ٹائم میں بولنا

دن میں پہلی دس نسلوں کے لیے مفت. مکمل کریٹر اجازہ اور API رسائی کو کھولنے کے لیے رجسٹر کریں.