ريئل ٽائيم TTS

متن کان ڳالھائڻ تائين سٽنگ سان سيڪنڊ جي هيٺان پهريون آڊيو لاٽائي. آواز جي ايجنٽن ۽ لاڳاپيل ايپليڪيشنن لاءِ ٺهيل.

متن

ڊرائنگ
0/5,000 نشان ~0.3s پهريون آڊيو

آواز جون پوزيشنون

صرف اسٽريمنگ-سائٽيبل ماڊل.

لاٽنسي

پهرين آڊيو لاٽنس جي ماپڻ لاءِ واھ تي ڪلڪ ڪريو

آءٌ

آڊيو ٽُڪرا جيئن ئي داخل ٿيندا ته اتي وڄايا ويندا.

0:00
پهريون ٽڪرو:
مجموعي ٽڪرا: 0
ڪل وقت:

TTS ڪيئن ڪم ڪري ٿو

1. متن موڪليو

POST متن /v1/tts/stream/ ڏانهن سرور-پيغمبر واقعن جي درخواست طور.

2. ماڊل پيدا ڪري ٿو

ڪوڪورو متن کي ٽڪرن ۾ ورهايو ۽ آڊيو نموني-آڊيو نموني جي پيدائش جي GPU تي.

3. ٽارگيٽ

Base64-encoded WAV ٽڪرا SSE تي اچن ٿا ۽ فوري طور تي وڄائڻ شروع ڪن ٿا.

ٻڌو

صارف ثانيءَ جي تري ۾ جملي جي شروعات ٻڌندو آهي، جيتوڻيڪ ڊگهي انٽيگريشن تي.

استعمال جا ڪيس

جتي سيڪنڊ جي دير سان نئون تجربو کوليو وڃي.

آواز جا ايجنٽ

گفتگو وارا بوٽ جيڪي انسان جيترو جلدي جواب ڏين ٿا.

لائف ڊوبنگ

ترجمو ۽ ڊبلنگ جي هڪ لنڪ حقيقي وقت ۾ بغير buffering وقفن.

رانديون

NPC دؤران جو دؤران جواب ڏيندڙ رانديگر جي چونڊن تي، ڪوبه اڳ ۾ رنڊل VO.

رسائي

اسڪرين پڙهندڙ ۽ مددگار وسيلن جيڪي استعمال ڪندڙ جي ڪلڪ ڪرڻ جي وقت ڳالهائڻ شروع ڪن ٿا.

ريئل ٽائيم TTS منصوبا

مفت شروع ڪريو، جڏھن توھان کي وڌيڪ گھرجي تڏھن اپ گريڊ ڪريو

مفت
  • ڪوڪورو ڊرائنگ (آزاد ماڊل)
  • 500 نشان
  • 10 مفت اسٽريم / ڏينهن هر نامعلوم استعمال ڪندڙ
  • سيڪنڊ جي هيٺان پهريون آڊيو دير
  • HTTPS تي SSE ڊرائنگ
تمام مشهور
اڪائونٽ
  • 15000 ڪارڪنن تي رجسٽريشن
  • 5000 نشان
  • پروگرامن جي رسائي لاءِ API ڪوڊ
  • پيدائش جي تاريخ
  • ڪو به روزانو واھ جو حد نه
رجسٽر ڪريو
پرو
  • MOSS-TTS-Realtime (جيڪڏھن جيئرو)
  • 100,000 ڪارا هر ٽارگيٽ
  • GPU جي ترجيح واري قطار
  • آواز ايجنٽ + Twilio گڏجاڻي
  • مٿيون شرح حدون
اپ گريڊ

گھڻا پڇيا ويندا سوال

ريئل ٽائيم ٽيڪس-ٽو-سپيچ آڊيو ٽڪرن کي جيئن ئي پيدا ڪيو ويندو آهي، ان جي بدران سڄي جملي کي مڪمل ٿيڻ جي انتظار ۾. پهريون آڊيو نمونو هڪ سيڪنڊ ۾ اچي ويندو آهي، ان کي سڌو آواز ايجنٽ، ڊبلنگ، ۽ مقابلي واريون ايپليڪيشنون جتي لاٽنس اهميت رکي ٿي.

عادي TTS پوري آڊيو فائل پيدا ڪري ٿو اڳيان ته ڪجھ به واپس ڪري — توھان انتظار ڪريو، پوءِ پورو جملو هڪ ڀيرو ٻڌو. ريئل ٽائيم TTS سرور-پيغمبر واقعن (SSE) کي استعمال ڪري ٿو مختصر آڊيو ٽڪرن کي ھلائڻ لاءِ جيئن ماڊل انھن کي پيدا ڪري ٿو. استعمال ڪندڙ جملي جي شروعات تقريبن فوري طور ٻڌي ٿو، جيتوڻيڪ ڊگھي انپٽ تي.

ڪوڪورو ڊفالٽ بيڪ اينڊ آھي - اھو ھڪ جديد GPU تي ريٽل ٽائيم کان تقريبن 100x تيز آواز پيدا ڪري ٿو. اسان MOSS-TTS-Realtime کي ھڪ اعليٰ معيار جي متبادل طور شامل ڪري رهيا آھيون؛ استعمال ڪندڙ درخواست تي چونڊ ڪري سگھندا جڏھن اھو لانچ ٿئي.

ڪوڪورو تي عام طور تي پهريون آڊيو دير 300-800ms عام ڳنڍڻ تي آهي. ان کان پوءِ نيٽ ورڪ round-trip غالب آهي. صفحو UI ۾ پهريون آڊيو تائين جي زندگي جي وقت کي ماپيندو آهي ته جيئن توهان ڏسي سگهو ته هر درخواست ڪيترو وقت وٺي ٿي.

آواز جا ايجنٽ جيڪي گفتگو ۾ جواب ڏين ٿا، اسٽريمنگ ميڊيا لاءِ لاڳاپيل ڊبلنگ، مقابلي واري راند NPCs، رسائي وارا پڙهندڙ جيڪي استعمال ڪندڙ ڪلڪ ڪرڻ جي وقت ڳالهائڻ شروع ڪن ٿا، ۽ ڪنهن به ايپليڪيشن جتي ٻه يا ٽي سيڪنڊن جي انتظار ۾ آڊيو تي سست محسوس ٿيندو.

ها. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. The response is an SSE stream of base64-encoded WAV chunks. مفت ٽائر 10 نسلن کي هر ڏينهن هر نامعلوم استعمال ڪندڙ لاءِ مدد ڏئي ٿو؛ تصديق ٿيل استعمال ڪندڙن کي مڪمل هر اڪائونٽ لاءِ ڪردار جي اجازت ملي ٿي.

ڪوڪورو اڳ ۾ تربيت ڏنل آواز استعمال ڪندو آهي ۽ کلون نه ڪندو آهي. MOSS-TTS-Realtime (جيڪڏھن گڏيل آھي) 3 سيڪنڊن جي حوالي کان صفر-شوٽ آواز کلوننگ کي مدد ڏيندو آھي. مڪمل آواز کلوننگ لاءِ اڄ، معمولي /text-to-speech/ صفحي کي چاٽربڪس يا GPT-SoVITS سان استعمال ڪريو - اھي اسٽريمنگ-سڀني نه آھن پر پسنديده آواز پيدا ڪندا آھن.

ڪوڪورو مفت-ترتيب (1x قيمت) آهي. MOSS-TTS-Realtime معياري ترتيب (2x قيمت) تي هلندو جڏهن فعال ڪيو ويندو. سٽريمنگ پروٽوڪول ڪابه قيمت اضافو نه ڪندو.

ها - هڪ ٽيلي فون ڪالن ۾ زنده آڊيو کي فوڊ ڪرڻ لاءِ هڪ ٽوليو آواز ويبوڪ سان گڏ اسٽريمنگ انڊپائنٽ جو جوڙو. اسان جو آواز ايجنٽ پليٽ فارم اڳ ۾ ئي IVR ۽ ٻاهرين ڪالن لاءِ اهو ڪري ٿو. هڪ فون ڪالن تي انڊ-ٽائي-انڊ ليٽنس عام طور تي 1-2 سيڪنڊن ۾ شامل آهي STT ۽ LLM جواب.

جيڪڏھن اوھان جو نيٽ ورڪ منتقلي دوران ٽڪرو ڇڏيندو، ته سٽنگ پليئر سٽ ڪرڻ جي بدران اڳتي هلي ويندو. انيڪ ايپليڪيشنن لاءِ جيڪي فاصلا برداشت نه ڪري سگھن ٿيون، سٽنگ کانسواءِ عام آخري نقطي تي موٽڻ يا پلي ڪرڻ شروع ڪرڻ کان اڳ آڊيو جي 500ms بفٽ ڪرڻ.
5.0/5 (1)

ڇا بهتر ڪري سگھون ٿا؟ توھان جي راءِ اسان کي مسئلا حل ڪرڻ ۾ مدد ڏيندي.

سچي وقت ۾ ڳالهائڻ

هڪ ڏينهن جي پهرين 10 نسلن لاءِ مفت. مڪمل ڪارڪنن جي اجازت ۽ API رسائي کي کولڻ لاءِ رجسٽر ڪريو.