वास्तविक समय TTS

उप-सेकेन्ड पहिलो अडियो लाटेन्सीसँग पाठ-देखि-भाषण स्ट्रिमिङ । आवाज एजेन्ट र प्रत्यक्ष अनुप्रयोगहरूका लागि निर्माण गरिएको ।

पाठ

स्ट्रिमिङ
0/5,000 क्यारेक्टर ~0.3s पहिलो अडियो

आवाज सेटिङ

यसको क्षमता ४ मेगावाट छ।

लेटेन्सी स्तर

पहिलो अडियो लाटेन्सी मापन गर्न स्ट्रिम क्लिक गर्नुहोस्

निर्गत

अडियो टुक्राहरू यहाँ प्ले हुनेछन् जतिबेला तिनीहरू प्रवाहमा आउँदछन् ।

0:00
पहिलो टुक्रा:
कूल टुक्रा: 0
कूल समय:

कसरी स्ट्रिमिंग TTS काम गर्दछ

१. पाठ पठाउनुहोस्

/v1/tts/stream/ मा सर्भर-प्रेषित घटना अनुरोधको रूपमा पोस्ट पाठ ।

२. नमूना उत्पन्न गर्दछ

कोकोरोले पाठलाई टुक्रा पार्दछ र GPU मा अडियो नमूना-द्वारा-नमूना उत्पन्न गर्दछ ।

३. स्ट्रिम टुक्राहरू

यो पत्रिकाको प्रकाशक एफ.एम. रेडियो हो।

4. लाइभ सुन्न

प्रयोगकर्ताले लामो आगतहरूमा पनि, सेकेन्डमा वाक्यको सुरु सुन्दछ।

केस प्रयोग गर्नुहोस्

जहाँ उप-सेकेन्ड लाटेन्सी नयाँ अनुभवहरू अनलक गर्दछ।

आवाज एजेन्ट

यसले मानवको जीवनलाई सहज र सहज बनाइदिन्छ ।

लाइभ डुबिङ

बफरिङ विराम बिना वास्तविक समयमा एक प्रवाह अनुवाद र डब गर्नुहोस्।

खेलName

NPC संवाद जसले खेलाडीको विकल्पमा तत्काल प्रतिक्रिया गर्दछ, कुनै पूर्व-रेन्डर गरिएको VO छैन ।

पहुँचता

प्रयोगकर्ताले क्लिक गरेको क्षणमा बोल्न सुरु गर्ने पर्दा पाठक र सहायक उपकरणहरू ।

वास्तविक समय TTS योजना

तपाईँलाई थप आवश्यक पर्दा निःशुल्क सुरु गर्नुहोस्, स्तरवृद्धि गर्नुहोस्

स्वतन्त्र
  • कोकोरो स्ट्रिमिङ (मुफ्त नमूना)
  • प्रति उत्पादन ५०० क्यारेक्टर
  • 10 नि: शुल्क प्रवाह / दिन प्रति बेनामी प्रयोगकर्ता
  • उप-सेकेन्ड पहिलो अडियो लास्टेन्सी
  • HTTPS माथि SSE स्ट्रिमिङ
सबैभन्दा लोकप्रिय
खाता
  • साइन अप मा १५,००० क्यारेक्टर
  • प्रति स्ट्रिम ५,००० क्यारेक्टर
  • कार्यक्रमिक पहुँचका लागि API कुञ्जी
  • सिर्जना इतिहास
  • दैनिक स्ट्रिम क्याप छैन
निःशुल्क दर्ता गर्नुहोस्
प्रो
  • MOSS-TTS-रियलटाइम (जब प्रत्यक्ष)
  • प्रति स्ट्रिम १००,००० क्यारेक्टर
  • प्राथमिकता GPU लाम
  • आवाज एजेन्ट + Twilio एकीकरण
  • उच्च दर सीमा
स्तरबृद्धि गर्नुहोस्

प्राय सोधिने प्रश्नहरू

वास्तविक समय पाठ-देखि-भाषण प्रवाहहरू तिनीहरूले उत्पन्न रूपमा अडियो टुक्राहरू, पूरा गर्न सम्पूर्ण वाक्यको लागि प्रतीक्षाको सट्टा। पहिलो अडियो नमूना एक सेकेन्डमा आउँछ, लाइभ आवाज एजेन्टहरू, डबिंग र अन्तरक्रियात्मक अनुप्रयोगहरूको लागि उपयुक्त बनाउँदै जहाँ लाटेन्सी कुराहरू छन्।

नियमित TTS केही फर्कनु अघि पूरा अडियो फाइल उत्पन्न - तपाईं प्रतिक्षा, त्यसपछि एक पटकमा सम्पूर्ण वाक्य सुन्न. वास्तविक समय TTS प्रयोग सर्भर-पठाएको घटना (SSE) स्ट्रिम गर्न छोटो अडियो chunks रूपमा मोडेल तिनीहरूलाई उत्पादन. प्रयोगकर्ता वाक्यको सुरु लगभग तुरुन्तै सुन्नुहुन्छ, लामो आगत मा पनि.

Kokoro पूर्वनिर्धारित ब्याकएन्ड छ - यो आधुनिक GPU मा वास्तविक समय भन्दा लगभग 100x छिटो अडियो उत्पन्न गर्दछ। हामी उच्च गुणस्तरको विकल्पको रूपमा MOSS-TTS-Realtime एकीकृत गर्दैछौं; प्रयोगकर्ताहरूले एक पटक त्यो जहाजहरू प्रति अनुरोध रोज्न सक्षम हुनेछन्।

कोकोरो मा सामान्य पहिलो-अडियो लाटेन्सी सार्वजनिक जडान भन्दा 300-800ms छ। सञ्जाल राउन्ड-ट्रिप पछि प्रभुत्व। पृष्ठले यूआईमा प्रत्यक्ष मापन समय-प्रथम-अडियो सतहहरू ताकि तपाईं सही देख्न सक्नुहुन्छ प्रत्येक अनुरोध कति लामो भयो।

Voice agents that respond conversationally, live dubbing for streaming media, interactive game NPCs, accessibility readers that start speaking the moment a user clicks, and any application where waiting two or three seconds for audio would feel sluggish.

हो। नियमित / v1 / tts / अन्त बिन्दु रूपमा एउटै शरीर संग https://api.tts.ai/v1/tts/stream/ मा पोस्ट गर्नुहोस्। प्रतिक्रिया base64-कोड गरिएको WAV chunks को एक SSE प्रवाह हो। निःशुल्क तहले प्रति दिन प्रति बेनामी प्रयोगकर्ता १० पुस्ता समर्थन गर्दछ; प्रमाणित प्रयोगकर्ताहरूले प्रति खाता क्यारेक्टर अनुदान प्राप्त गर्दछ।

कोकोरोले पूर्व-प्रशिक्षक आवाजहरू प्रयोग गर्दछ र क्लोन गर्दैन । MOSS-TTS-Realtime (एकीकृत हुँदा) ले ३-सेकेन्ड सन्दर्भबाट शून्य-शट आवाज क्लोनिङ समर्थन गर्दछ । आजको पूर्ण आवाज क्लोनिङका लागि, नियमित / पाठ-देखि-भाषण/ पृष्ठ प्रयोग गर्नुहोस् च्याटरबाकस वा GPT-SoVITS सँग — ती स्ट्रिमिङ-सक्षम छैनन् तर अनुकूल आवाजहरू उत्पादन गर्दछन् ।

नियमित TTS अन्त बिन्दुको रूपमा उही क्यारेक्टर लागत। कोकोरो निःशुल्क तह (१x लागत) हो। सक्षम पारिएको बेला MOSS-TTS-रियलटाइम मानक तह (२x लागत) मा चल्नेछ। स्ट्रिमिङ प्रोटोकलले कुनै मूल्य थप्न सक्दैन।

हो - एक फोन कलमा प्रत्यक्ष अडियो फिड गर्न एक ट्विलियो आवाज वेबहुक संग स्ट्रिमिङ अन्त बिन्दु जोडी। हाम्रो आवाज एजेन्ट प्लेटफर्मले पहिले नै आईभीआर र आउटबाउन्ड कलको लागि यो गर्दछ। एक फोन कलमा अन्त-अन्तको लाटेन्सी सामान्यतया एसटीटी र एलएलएम प्रतिक्रिया सहित 1-2 सेकेन्ड हो।

यदि तपाईँको सञ्जालले ट्रान्सिटमा टुक्रा छोड्यो भने, स्ट्रिमिङ प्लेयरले स्टल गर्नुको सट्टा अगाडि फड्कनेछ । अनुप्रयोगहरूका लागि जुन खाली स्थानहरू सहन सक्दैन, नियमित स्ट्रिमिङ नभएको अन्त्य बिन्दुमा फर्कनुहोस्, वा प्लेब्याक सुरु गर्नु अघि अडियोको ५०० एमएस बफर गर्नुहोस् ।
5.0/5 (1)

हामी के सुधार गर्न सक्छन्? आफ्नो प्रतिक्रिया हामीलाई समस्या समाधान गर्न मद्दत गर्दछ.

वास्तविक समयमा भाषण प्रवाह गर्नुहोस्

पहिलो लागि निःशुल्क 10 पुस्ता एक दिन. पूर्ण क्यारेक्टर अनुदान र API पहुँच अनलक गर्न साइन अप.