रियलटाइम TTS

पाठ्य- ते- वक्तव्य स्ट्रीमिंग सह उप- सेकंद प्रथम- ऑडिओ लेटेसी. आवाज प्रतिनिधी व प्रत्यक्ष अनुप्रयोग करीता बनविले. Name

आम्हाला अद्याप तुमच्या भाषेतील TTS आवाज उपलब्ध नाही. आम्हाला तुमचे जोडण्यास मदत करा! Sell Your Voice

पाठ्य

स्ट्रीमिंग
0/5,000 अक्षरे ~0.3s पहिले ऑडिओ

आवाज संयोजना (S)

फक्त लिंगभाव-आधारित भेदभाव.

लेटेन्सी स्तर

प्रथम-ऑडिओ लेटेंसी मोजण्याकरीता स्ट्रीमवर क्लिक करा

आऊटपुट

नंतर ते हळूहळू हळद, हळद-कुंकू यांचे मिश्रण करून त्याचे मिश्रण करतात.

0:00
पहिला तुकडा:
एकूण खंड: 0
एकूण वेळ:

How Streaming TTS Works

पाठ्य पाठवा

या योजनेत /v1/tts/stream/ याला सर्वर-सेंड इव्हेंट अनुरोध म्हणून POST पाठवा.

2. मॉडेल निर्माण करते

कोकोरो हा लेख खंडित करतो आणि GPU वर ऑडिओ साॅम्पल-बाय-साॅम्पल तयार करतो.

3. प्रवाह खंड

1440 च्या सुमारास इथल्या स्थापत्यकलेचा प्रारंभ झाला आणि नंतर त्याचे विस्तार होण्यास सुरुवात झाली.

4. लाईव्ह ऐका

या वेळी प्रेक्षकांच्या संख्येनुसार एक किंवा दोन तासांच्या आतच कार्यक्रम सुरू होतो.

वापरा प्रकरणे

नंतरच्या काळात ॲरिस्टॉटलने नवीन सिद्धांत मांडले.

आवाज प्रतिनिधी

याचा अर्थ असा की, मानवी शरीरात द्रवरूपात असलेली ऊर्जा त्वरित बाहेर पडते.

लाइव्ह डबिंग

याचा अर्थ असा की, याचा वापर केवळ तात्पुरता व तात्पुरत्या स्वरूपातच केला जातो.

खेळName

एफसी गोवा संघाने स्पर्धेतील पहिलेच सामने जिंकले, पण अंतिम फेरीत पोहोचले नाही.

प्रवेशीयता

याचा वापर करून वापरकर्त्याने कळविलेल्या संदेशांना प्रत्युत्तर देणे आणि संदेश पाठविणे शक्य होते.

Realtime TTS Plans

मोफत सुरू करा, तुम्हाला जास्त हवे असल्यास अद्ययावत करा

मोकळे
  • Kokoro स्ट्रीमिंग (मुफ्त मॉडेल)
  • 500 अक्षरे प्रति निर्मिती
  • १० मुक्त प्रवाह/दिवस प्रति अनामिक वापरकर्ता
  • उप- सेकंद प्रथम- ऑडिओ लेटेन्सी
  • HTTPS वर SSE स्ट्रीमिंग
सर्वात लोकप्रिय
मोकळे खाते
  • नोंदणीवेळी 15,000 अक्षरे
  • 5,000 अक्षरे प्रति स्ट्रीम
  • प्रोग्राम प्रवेश करीता API कि
  • निर्मितीचा इतिहास
  • दिवसा स्ट्रीम कमाल नाही
नोंदणी करा
प्रो
  • MOSS- TTS- रियलटाइम (जर प्रत्यक्ष असेल)
  • 100,000 अक्षरे प्रति स्ट्रीम
  • प्राधान्यता GPU कतार
  • आवाज प्रतिनिधी + Twilio एकत्रीकरण
  • उच्च दर मर्यादा
अद्ययावत करा

वारंवार विचारले जाणारे प्रश्न

Realtime text-to-speech streams audio chunks as they are generated, instead of waiting for the entire sentence to complete. The first audio sample arrives in under one second, making it suitable for live voice agents, dubbing, and interactive applications where latency matters.

नियमित TTS पूर्ण ऑडिओ फाइल निर्माण करते जे काही परत करण्यापूर्वी - तुम्ही थांबा, मग संपूर्ण वाक्य एकाचवेळी ऐका. वास्तविक वेळ TTS सर्वर- पाठविलेले घटना (SSE) वापरते जेणेकरून मॉडेल त्यांना तयार करते तसे लहान ऑडिओ तुकडे स्ट्रीम करण्यासाठी. वापरकर्ता वाक्याची सुरुवात जवळजवळ तत्काळ ऐकतो, लांब इनपुटवरही.

कोकोरो हे मुलभूत बॅकएंड आहे - ते आधुनिक GPU वर वास्तविक वेळेपेक्षा सुमारे 100x वेगाने ऑडिओ तयार करते. आम्ही MOSS-TTS-Realtime ला उच्च दर्जाच्या पर्याय म्हणून एकत्रित करत आहोत; वापरकर्ते एकदा ते शिपिंग केल्यावर प्रति विनंती निवडू शकतील.

Kokoro वरील सामान्य प्रथम-ऑडिओ लाटेन्सी सार्वजनिक जुळवणी द्वारे 300-800ms आहे. त्यानंतर संजाळ राउंड-ट्रिप प्रभावी आहे. पान UI मध्ये प्रत्यक्ष मोजलेले वेळ-प्रथम-ऑडिओ दर्शविते जेणेकरून तुम्ही प्रत्येक विनंती किती वेळ घेते हे निश्चितपणे पाहू शकता.

वृत्तपत्रे, दूरचित्रवाणी, इंटरनेट, वृत्तपत्रे

होय. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. the response is an SSE stream of base64-encoded WAV chunks. मोफत स्तर प्रति दिन प्रति अनामिक वापरकर्ता 10 जनरेशन्स समर्थन करते; अधिप्रमाणित वापरकर्त्यांना पूर्ण प्रति-खाते अक्षर परवानगी मिळते.

कोकोरो पूर्व- प्रशिक्षण आवाज वापरतो व क्लोन करत नाही. MOSS- TTS- Realtime (एकत्रित केल्यावर) ३ सेकंद संदर्भापासून शून्य- शॉट आवाज क्लोन करीता समर्थन देते. पूर्ण आवाज क्लोन करीता आज, नियमित /text-to-speech/ पानाचा वापर करा चॅटरबॉक्स किंवा GPT- SoVITS सह - ते स्ट्रीमिंग-योग्य नाहीत पण इच्छिक आवाज तयार करतात.

नियमित TTS अंतबिंदूप्रमाणेच अक्षर खर्च. Kokoro मोफत स्तर (1x खर्च). MOSS-TTS-रियलटाइम कार्यान्वीत केल्यावर मानक स्तरावर (2x खर्च) चालेल. स्ट्रीमिंग प्रोटोकॉल कोणत्याही किंमतीची अतिरिक्त फी जोडत नाही.

होय - एक फोन कॉलमध्ये प्रत्यक्ष ऑडिओ पुरवण्यासाठी ट्विलियो आवाज वेबहॉकसह स्ट्रीमिंग एंडपॉइंट जोडा. आमचे आवाज एजंट प्लॅटफॉर्म आधीच आयव्हीआर आणि आउटबॅक कॉलसाठी हे करते. एसटीटी आणि एलएलएम प्रतिसादसह फोन कॉलवर एंड-टू-एंड लेटेंसी सामान्यतः 1-2 सेकंद असते.

संजाळ ट्रान्सपोर्ट मध्ये एक भाग सोडले तर, स्ट्रीमिंग प्लेयर स्टॉल करण्याऐवजी पुढे सरकते. अनुप्रयोग जे अंतर सहन करू शकत नाही, नियमित नॉन- स्ट्रीमिंग अंतबिंदूकडे परत जा, किंवा प्लेबॅक सुरू करण्यापूर्वी ऑडिओचे 500ms बफर करा.
5.0/5 (1)

आपण काय सुधारू शकतो? तुमचा प्रतिसाद आम्हाला समस्या सोडवण्यात मदत करतो.

वास्तविक वेळेत भाषण प्रवाहName

दिवसातील पहिल्या १० पिढ्यांसाठी मोफत. पूर्ण अक्षरांची परवानगी व API प्रवेशासाठी नोंदणी करा.