بگ / خصوصیت کی درخواست رپورٹ کریں

رئیل ٹائم TTS

سب-سیکنڈ پہلے آڈیو لاٹیسی کے ساتھ ٹیکس-تو-زبان کی اسٹریمنگ۔ وائٹس ایجنٹ اور لائیو ایپلیکیشنز کے لیے بنایا گیا۔

مفت میں رجسٹر کریں

آپ کی زبان میں اب تک ہمارے پاس TTS آوازیں نہیں ہیں. ہمیں آپ کی آوازیں شامل کرنے میں مدد کریں! آپ کی آواز فروخت کریں

متن

سٹریمنگ

0/5,000 حروف ~0.3s پہلی آڈیو

آواز کی ترتیبات

ماڈل صرف اسٹریمنگ-قادر ماڈل.

آواز

رفتار 1.0x

لائیو لیٹنسی

—

اول-آڈیو لاٹینس مچنے کے ليے سٹريم کلک کريں

خروجی

آڈیو ٹکڑے یہاں کھیلے گا جیسے کہ وہ اندر بہاؤ.

سٹریمنگ TTS کیسے کام کرتا ہے

متن بھیجیں

/v1/tts/stream/ پر POST متن سرور- بھیجے ہوئے واقعات کی درخواست کے طور پر.

ماڈل پیدا کرتا ہے

Kokoro متن کو ٹکڑے کر تا هے اور GPU پر او ديو نمونے بنا تا هے

3. سٹریم چنکس

Base64-encoded WAV chunks SSE پر آتے ہیں اور فوراً بھڑکتے ہیں

4. لائیو سنیں

صارف کو ایک سیکنڈ کے اندر جملے کی شروعات سنائی جاتی ہے، حتیٰ کہ طویل انپٹوں پر بھی۔

استعمال کے حالات

جہاں سب سیکنڈ latency نئے تجربات کو کھولتا ہے.

آواز کے ایجنٹس

ایک انسان کی طرح تیزی سے جواب دینے کے لئے گفتگو روبوٹ.

لائي و ڈوبنگ

ترجمہ اور ریئل ٹائم میں ایک اسٹریم کو بفرنگ توقف کے بغیر ڈب کریں.

کھیل

NPC ڈائيلاگ جو کھلا ڑي کے انتخاب کو فوري طور پر رد عمل ديتا هے ، کوئی پرينڈرڈ VO نهيں

رسائی

اسکرین ریڈر اور مددگار اوزار جو استعمال کرنے والے کے کلک کرنے کے وقت بولنا شروع کرتے ہیں.

ریل ٹائم TTS منصوبے

مفت شروع کریں، آپ کو مزید ضرورت ہو تو اپگریڈ کریں

مفت

Kokoro سٹریمینگ (آزاد ماڈل)
500 حروف پر نسل
10 مفت اسٹریمس/دن ہر نامعلوم صارف
سب سیکنڈ پہلے آڈیو لاٹینسی
HTTPS پر SSE اسٹریمنگ

سب سے زیادہ مقبول

مفت اکاؤنٹ

15,000 حروف پر سائن اپ
5000 حروف پر سٹریم
پروگرامیٹک رسائی کے لیے API کلید
گزشتہ تاریخ
کوئی روزانہ سٹریم کیپ نہیں

مفت میں رجسٹر کریں

پرو

MOSS-TTS-Realtime (جب زندہ ہو)
100,000 حروف پر سٹریم
GPU کی ترجیح
آواز ایجنٹ + Twilio انٹیگریشن
اعلی حد

بہتری

بار بار پوچھے گئے سوالات

ریئل ٹائم ٹیکس-تو-سپیچ سٹریم اوڈیو چانکس جیسے وہ پیدا کیے جاتے ہیں، اس کے بجائے کہ پورے جملے کو مکمل کرنے کے لیے انتظار کرتے ہیں. پہلا اوڈیو نمونہ ایک سیکنڈ کے اندر آتا ہے، اسے لائیو وائٹس ایجنٹس کے لیے مناسب بناتا ہے، ڈبلینگ، اور تعاملی ایپلیکیشنیں جہاں لاٹینس اہم ہے.

ريگلر TTS تمام او ديو فائل کو رلٹ کرنے سے پہلے پيدا کر تا هے - آپ انتظار کريں ، پھر پورا جملہ ایک بار ميں سنيں ريل ٹائم TTS سرور سے بھیجے گئے واقعات (SSE) کو استعمال کر تا هے مختصر او ديو چانکس کو سٹريم کر نے کے ليے جیسے ماڈل ان کو بناتا هے صارف تقريبا فوري طور پر جملے کا آغاز سنتا هے ، طويل ان پٹ پر بھی

کوکورو دیفالٹ بیک اینڈ ہے - یہ ایک جدید GPU پر ریئل ٹائم سے تقریباً 100x تیزی سے آڈیو پیدا کرتا ہے. ہم MOSS-TTS-Realtime کو ایک اعلیٰ معیار کے متبادل کے طور پر شامل کر رہے ہیں؛ صارفین ایک بار کہ اس کے ساتھ بھیجنے کے بعد ہر درخواست کے مطابق انتخاب کرنے کے قابل ہوں گے۔

Kokoro پر عام پہلی آڈیو لیٹنچ ایک عام اتصال پر 300-800ms ہے. نیٹ ورک راؤنڈ-ٹریپ اس کے بعد غالب ہوتا ہے. صفحہ UI میں پہلی آڈیو کے لیے زندگی کا وقت مچاتا ہے تاکہ آپ دیکھ سکیں کہ ہر درخواست کتنی دیر لے گی.

وائٹس ایجنٹ جو گفتگو کے ذریعے جواب دیتے ہیں، اسٹریم میڈیا کے لئے لائف ڈبلینگ، انٹریکٹیو گیم این پی سیز، رسائی ریڈر جو ایک صارف کے کلک کرنے کے وقت بات کرنا شروع کرتے ہیں، اور کوئی بھی ایپلیکیشن جہاں دو یا تین سیکنڈ کی انتظار آڈیو کے لئے سست محسوس ہو گا.

ہاں. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. The response is an SSE stream of base64-encoded WAV chunks. مفت سطح ہر دن ہر نامعلوم صارف کے لیے 10 نسلوں کی حمایت کرتی ہے؛ توثیق شدہ صارفوں کو ہر ایک اکاؤنٹ کے لیے مکمل کرکٹر اذیت ملتی ہے۔

Kokoro پہلے سے تربيت پا ئے گئے آوازوں کا استعمال کرتا ہے اور کلون نہیں کرتا MOSS-TTS-Realtime (جب انضمام کر يا جاتا ہے) 3 سيکنڈ کے حوالے سے صفر شوٹ آواز کلوننگ کو مدد دیتا ہے آج پورے آواز کلوننگ کے ليے ، Chatterbox يا GPT-SoVITS کے ساتھ معمولي /text-to-speech/ پيج کا استعمال کريں - وہ سٹريمنگ کے قابل نهيں هے مگر خاص آوازیں بناتے هيں

روا TTS انتہا پوائنٹ کے طور پر ایک ہی کرکٹر کوسٹ. Kokoro فری-تیئر (1x کوسٹ) ہے. MOSS-TTS-ریل ٹائم معیاری ٹیئر (2x کوسٹ) پر چلے گا جب فعال کیا جائے گا. اسٹریمنگ پروٹوکول کوئی قیمت اضافی خرچ نہیں کرتا.

ہاں - ایک فون کال میں لائی وائٹ اوڈیو کو فوڈ کرنے کے لئے ایک Twilio وائٹ ویب ہوک کے ساتھ اسٹریمنگ اینڈ پوائنٹ کو جوڑیں. ہمارا وائٹ ایجنٹ پلیٹ فارم پہلے ہی IVR اور آؤٹ بانڈ کال کے لئے یہ کرتا ہے. ایک فون کال پر اینڈ-ٹو-اینڈ لیٹنسی عام طور پر 1-2 سیکنڈ ہے اس میں STT اور LLM جواب شامل ہیں.

اگر آپ کا نیٹ ورک ٹرانسپورٹ میں ایک ٹانک ڈال دے تو، اسٹریم پلیئر وقفہ کی بجائے آگے بڑھ جائے گا. ان ایپلیکیشنوں کے لیے جو فاصلے برداشت نہیں کرسکتے، معمولی غیر اسٹریمنگ انتہا پوائنٹ پر واپس جائیں، یا بفٹر 500ms اوڈیو کی پلے بینگ شروع کرنے سے پہلے.

5.0/5 (1)

رئیل ٹائم میں بولنا

دن میں پہلی دس نسلوں کے لیے مفت. مکمل کریٹر اجازہ اور API رسائی کو کھولنے کے لیے رجسٹر کریں.

مفت میں رجسٹر کریں قیمت دیکھیں

رئیل ٹائم TTS

متن

آواز کی ترتیبات

لائیو لیٹنسی

خروجی

سٹریمنگ TTS کیسے کام کرتا ہے

متن بھیجیں

ماڈل پیدا کرتا ہے

3. سٹریم چنکس

4. لائیو سنیں

استعمال کے حالات

آواز کے ایجنٹس

لائي و ڈوبنگ

کھیل

رسائی

ریل ٹائم TTS منصوبے

بار بار پوچھے گئے سوالات

ریل ٹائم TTS کیا ہے؟

ریل ٹائم TTS منظم TTS سے کیسے مختلف ہے؟

ریل ٹائم صفحے کو کس ماڈل سے طاقت ملتی ہے؟

پہلی آڈیو کی دیر کتنی تیز ہے؟

میں ریل ٹائم TTS کے ساتھ کیا بنا سکتا ہوں؟

کیا ریل ٹائم TTS کے لئے ایک API ہے؟

کیا یہ آواز کلوننگ کو مدد دے گا؟

ریل ٹائم ٹی ٹی ایس کی قیمت کتنی ہے؟

میں اسے فون کالوں پر استعمال کر سکتا ہوں؟

کیوں بعض اوقات اوڈیو لفظ کے درمیان کاٹ دیتی ہے؟

رئیل ٹائم میں بولنا