बग/ विशेषता निवेदन रिपोर्ट करें

बोलने का पाठ क्या है (टीएस)?

बोलने के लिए पाठ वह तकनीक है जो लिखित ऑडियो को कृत्रिम बुद्धि का प्रयोग करने के लिए परिवर्तित करती है। शुरू से ही रोबोटों से आज के तंत्रिका नेटवर्कों में ध्वनि बदल गया है, TTSS ने हम किस प्रकार तकनीक के साथ व्यवहार करते हैं, सामग्री से निपटने, और पहुँच जानकारी बनाने के लिए।

तकनीक इतिहास यह कैसे कार्य करता है तंत्रिका नेटवर्क एवोल्यूशन

शुरू हो जाओ मुक्त विन्यास (S)

पाठ में वाक्यों को बोलने के लिए कुंजी

आधुनिक बोली के निर्माण पिण्डों को समझना

कौन - सी मिसालें हमारे लिए मायने रखती हैं?

TTS पाठ- से- वार्ता के लिए खड़ा होता है — जो कि लिखित पाठ को कंप्यूटर के उपयोग से बोलने के लिए परिवर्तित करता है.

तंत्रिका - विज्ञान कैसे काम करता है

आधुनिक टी. वी.

स्पीच सिंथिस का इतिहास

1960 से 1990 के कानून आधारित सिस्टमों से 1990 के तंत्रिका मॉडलों के लिए एक सहवासित किया जा रहा है — कैसे TTScacacs 6 दशकों से अधिक।

आधुनिक एआई मॉडल

आज के मॉडल कोकोरो, बारक, और कोस्टीटी 2 का उपयोग करनेवाले, डिफ्यून, और मानव स्तर- स्तरीय भाषण गुणवत्ता को प्राप्त करने के लिए परिवर्तनों का उपयोग करते हैं।

सामान्य अनुप्रयोग

TTS शक्‍तियों के स्क्रीन रीडर, जीपीएस नेविगेशन, आभासी सहायक, ऑडियोबुक, ग्राहक सेवा बॉट्स, ई - सुधार मंच, और सामग्री बनाने के लिए.

स्रोत vs व्यावसायिक खोलें

ओपन-source मॉडल (एमटीटी, 2. 0) स्वतंत्र, स्व-hostेबल टीएस प्रदान करता है जबकि व्यावसायिक सेवाओं को एसएल के साथ मदद और समर्थन के साथ बनाया जा सकता है.

TTS मॉडल TTS.ai पर उपलब्ध

तेज से तथा तेज़ गति से तंत्रिका - तंत्र की आवाज़ में अध्ययन करने के लिए

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

फास्ट 5/5

के लिए उत्तम: राज्य- आधारित छोटा मॉडल दिखाता है कि क्या दूर से तंत्रिका टीएस आ गया है

कोशिश करें Kokoro

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

धीमा 4/5

के लिए उत्तम: स्केलर आधारित मॉडल को बोलने के अलावा ऑडियो पीढ़ी को दिखाता है

कोशिश करें Bark

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

मध्यम 5/5 आवाज कोलोन

के लिए उत्तम: मानव-पारीय गुणवत्ता और शून्य शॉट के साथ जारी

कोशिश करें CosyVoice 2

Chatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

मध्यम 5/5 आवाज कोलोन

के लिए उत्तम: शून्य- स्नेपशॉट आवाज खरगोश आवाज सिंथेसिस के सामने दिखाया जा रहा है

कोशिश करें Chatterbox

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

धीमा 5/5 आवाज कोलोन

के लिए उत्तम: अधिकतम ऑडियो गुणवत्ता को पुनःपुनित करने से पहले रीग्रेसिव डिजाइन

कोशिश करें Tortoise TTS

तंत्रिका - विज्ञान कैसे काम करता है

आज की बोली, चार चरणों में तैयार की गयी है

मूल समझे

आज के तंत्र हज़ारों घंटों से मानव भाषा रिकॉर्डिंग के दौरान प्रशिक्षित तंत्रिका नेटवर्कों का प्रयोग करते हैं ।

अलग - अलग मॉडलों की तुलना कीजिए

प्रत्येक TTS मॉडल एक भिन्‍न रचना का प्रयोग करता है (पुष्टि, डिफ्यूशन, परिवर्तन) जो गति, गुणवत्ता, और विशेषताएँ रखता है ।

खुद की जाँच कीजिए

TTS को समझने का सबसे अच्छा तरीका है इसका इस्तेमाल करना ।

अपनी परियोजना में एकीकृत करें

एक बार जब आप एक मॉडल पाते हैं, तो हमारे एपीआई का इस्तेमाल करके आपके अनुप्रयोगों, उत्पादों या वस्तुओं को बेहतर बनाने के लिए कीजिए ।

पाठ का संक्षिप्त इतिहास बोलने के लिए

तंत्रिका नेटवर्क के लिए सजावटी मशीनों से

प्रारंभिक दिन (1950s- 1980s)

प्रथम कम्प्यूटर- से- निर्मित भाषण - तारीख़ 1961 से 1961 तक, जब आईबीएम

नहीं, तंत्र: Wix (१९७०), टैटीक (१९४), स्टीफन हक्स द्वारा इस्तेमाल किया गया

कॉनस्टेंट सिंथिस (1990s- 2000)

Caconconctic एक वास्तविक मानव आवाज रिकॉर्ड करता है, फिर सही वर्ग के साथ बारी पर scents. यह और अधिक प्राकृतिक भाषा विकसित किया लेकिन महत्वपूर्ण भारी डाटाबेस (कभी एक स्वर के 10-20 घंटे) करने के लिए जरूरी था. गुणवत्ता पर निर्भर था टुकड़े के बीच में आसानी से शामिल होना.

द्वारा उपयोग:

स्टेटमेंटल/ पाकिक्स (2000- 2010)

याद करने के बजाय, इंस्टार मॉडलों ने भाषण का आंकड़ा- मॉडल (HMovs) सीखा. गुप्त मार्क मॉडल (HMs) और बाद में गहरे तंत्रिका नेटवर्क चैनल पैरामीटर (Povover, अवधि, saltidids) जो एक sviver के माध्यम से पोषित किया गया है. इस असीमित शब्द और आवाज आसान बनाने की अनुमति दी गई, लेकिन वे अक्सर एक कदम उत्पन्न किया गया

कुंजी मॉडल: HTS, मरलिन, आरंभिक DNN आधारित तंत्र.

तंत्रिका टीएक्सईएस (16- पाइंट)

आज के ज़माने में लहरों के साथ (ड्रिड, २०१६), जो नमूना के द्वारा ऑडियो नमूना बनाया गया है. यह टाइटन (Golele, 2017) के बाद, जो आज के पाठ को सीधे चित्र के रूप में प्रदर्शित करना सीख गया.

कुंजी सफलता: वेवॉट, गॉटोन, तेज सेब, बारके, कोकोरो ।

आधुनिक न्यूक्लीयस की कोशिश कीजिए

आधुनिक शब्द कैसे काम करते हैं

प्राकृतिक ध्वनि के पीछे इमारतीय एआई की आवाज

पाठ विश्लेषण (N)

रॉ पाठ साफ और सामान्य किया जा रहा है: संख्या शब्दों बन जाती है (\)

ध्वनि मॉडल (प्रयोगिकग्राम से पाठ)

साइक्लिटिक मॉडल (कभी एक ट्रांसपरर या स्वचालित नेटवर्क) फोनम अनुक्रम लेता है और एक मेपल स्पेसग्राम का वर्णन करता है — कैसे ऑडियो का दृश्‍य प्रतिनिधित्व करता है

वोकोडर ( ऑडियो के लिए रीफ्राग्राम)

"वोवोशीट प्रमोद प्रक्षेपक को वास्तविक ऑडियो तरंगयों में परिवर्तित करता है. पहली बार Goviens ने रोबोटों की तरह निर्माण किया. आधुनिक तंत्रिकाएँ (Hiovi-Gien, बिगवी, Wivivien, Wivivien) उच्चतमता या 44: उच्च ध्वनि या 44.

अंत- अंत मॉडल को ख़त्म करें

VITS, कोकोरो, और बार्ट दो मंचो को पूरी तरह बंद करते हैं. वे सीधे एक तंत्रिका नेटवर्क में ऑडियो से जाते हैं, और कम प्राकृतिक परिणाम उत्पन्‍न कर सकते हैं. कुछ मॉडल (जैसे बार बारक) भी गैर-ट ध्वनि, हँसी, और संगीत की आवाज़ पैदा कर सकते हैं.

अनुभव से खुद

तुलना में निकट आता है

TTS तकनीक की चार पीढ़ियों की तुलना

नीचे जाएँ	सा.	डाटा आवश्यक
फॉर्मीन सिंथ्स नियम आधारित आवृत्ति मॉडलिंग	1960s-1990s	कुछ नहीं
मनपसंद गलत ऑडियो खण्ड	1990s-2010s	10- 20+ घंटे
पैरामीमी (HM/DNn) सांख्यिकीय बोली मॉडल	2000s-2016	1- 5 घंटे
तंत्रिका अंत-से- अंत गहरा सीखने (VITS, कोकोरो, बारk)	2016-वर्तमान	घंटे में मिनट

न्यूक्लीयस फ्री करने की कोशिश करें

डीटीएस के सामान्य अनुप्रयोग

जिस पाठ का आज इस्तेमाल किया जाता है

पहुँच

स्क्रीन रीडर्स, मददगार उपकरणों, और उन लोगों के लिए उपकरण जिन पर दृश्य - शक्‍तियाँ हैं या जिन्हें पढ़ने की असमर्थताओं पर निर्भर करता है, वे सभी के लिए डिजिटल सामग्री बनाने के लिए उपकरण बनाते हैं ।

विषयवस्तु बनाने का निर्माण

समाचार माध्यमों, समाचार माध्यमों, समाचार - माध्यमों, और सामग्री के उत्पादन के लिए टीएसएस इस्तेमाल करते हैं ।

आभासी सहायक

महोदय, एलेक्सा, गूगल सहायक, और ग्राहक सेवा गपशप सभी स्वाभाविक रूप से उपभोक्ताओं को जवाब देने के लिए इस्तेमाल करते हैं।

पाठ को अभी बोलने की कोशिश करें

बार बार पूछे जाने वाले प्रश्न

भाषा तकनीक में पाठ के बारे में आम सवाल

TTS पाठ- से- वार्ता के लिए खड़ा है. यह तकनीक का उल्लेख करती है जो कि लिखित पाठ को बोलने में परिवर्तित करती है जो कि स्वरों में बोलने के लिए शब्दों को परिवर्तित करती है. शब्द का प्रयोग तकनीकी साहित्य में "संग्रेड" के साथ सामान्य रूप से किया जाता है.

आधुनिक टीस सिस्टम तीन चरणों में कार्य करते हैं: पाठ विश्लेषण (प्राधाता, कोई सामान्य परिवर्तन, प्रोटेस्टंट धर्म - परिवर्तन, प्रोटेस्टंट), प्रोटेस्टंट भविष्यवाणी (क्शन, दबाव, तनाव, और ठहराव) । नेल मॉडलों से सभी तीन चरणों को प्रशिक्षित करना सीख रहा है ।

Caseconcons एक साथ व्यवस्थित भाषण टुकड़े, जो संक्रमण पर ध्वनि कटौती कर सकते हैं. नेल टीस गहरी सीखने के उपयोग से भाषण बनाता है, चिकनी ध्वनि, और अधिक scirs और भावना के साथ अधिक प्राकृतिक ध्वनि बनाता है.

एसटीएमएल (स्पीसीफ़ीयल एक्स- आधारित मार्कअप भाषा) यह एक XML आधारित मार्कअप भाषा है जो आपको नियंत्रित करता है कि टीटीएस तंत्र पाठ का वर्णन कैसे करता है. आप रोक सकते हैं, ज़ोर, उच्चारण, और दर अपने पाठ इनपुट के भीतर एसएमएल टैग के उपयोग से.

पहुँच के लिए TTS का प्रयोग किया जाता है (चौजी, एलेक्सी, गूगल सहायक, गूगल सहायक), ऑडियोबुक उत्पादन, ई-मेलिंग, जीपीएस नेविगेशन, ग्राहक सेवा मैं सिस्टमों, सामग्री, और भाषा सीखने के लिए उपयोग किया जाता है.

सन्‌ 1960 में रोबोटिक नियम- आधारित व्यवस्थाओं से लेकर 1990 के दशक के बीच में सहवासिकी के लिए, सन्‌ 2000 के दशक में, लहर टीस के साथ 2016 में तंत्रिका टीएसटी के साथ, आज की कायापलट करने वाले और डिफेंस मॉडल जो मानव गुणवत्ता को प्राप्त करते हैं।

प्राकृतिक ध्वनि - ध्वनि टीस के लिए सही प्रोफिक्स की आवश्यकता होती है (अंग्रेजी, तनाव, तनाव, उचित, फोन - संबंधी पहचान, और अटल आवाज पहचान के बीच। नेल मॉडल इन पैटर्नों को प्राकृतिक संचार रिकॉर्डिंग के बड़े डेटा से सीख लिया है।

चैटर बक्से और कोस 2 के रूप में कम से कम के रूप में एक विशिष्ट आवाज को फिर से तैयार कर सकते हैं संदर्भ ऑडियो के लिए 5-30 सेकंड. क्लोन आवाज टर्टम, उच्चारण, और शैली, हालांकि नैतिक और कानूनी विचार दूसरों की आवाजों पर लागू करते हैं.

आधुनिक टीस मॉडल सामूहिक रूप से 30+ भाषाओं का समर्थन करते हैं. कुछ मॉडल विशिष्ट भाषा में विशेष रूप से विशिष्ट हैं, जबकि अन्य भाषाएँ हैं. अंग्रेजी में सबसे अधिक उपलब्ध मॉडल और आवाज़ है, लेकिन चीनी, जापानी, कोरियाई, और यूरोपीय भाषा अच्छी तरह से असमर्थित हैं.

TTS एक एआई आवाज पीढ़ी का उन्नत है. TTSTS विशेष रूप से पाठ इनपुट को बोलने के लिए परिवर्तित करता है. एआई आवाज शब्दकोश एक विस्तृत शब्द है जिसमें आवाज़, वार्तालाप, आवाज- वार्ता, और ध्वनि प्रभाव पीढ़ी भी शामिल है.

यह आपकी जरूरत पर निर्भर करता है. कोकोरो गति और सामान्य उपयोग के लिए गुणवत्ता का सर्वोत्तम संतुलन प्रदान करता है. या-हंफ़ॉर्टस भावात्मक अभिव्यक्ति पर हमारी दिशा में ले जाता है. वैसे ही 2 स्वाभाविक भाषा में सबसे अधिक स्वाभाविक संवाद उत्पन्‍न करता है. वहाँ सभी मामलों के लिए कोई भी "सबसे अच्छा" मॉडल नहीं है.

जी हाँ, TTS.ai पर सभी मॉडल खुले-source हैं और खुद पर निर्भर किया जा सकता है. सीपीयू-बार मॉडल जैसे कि किसी भी कंप्यूटर पर पाइपर की तरह। कोकोरोरो और बारकिम को एक NVIIGGG की जरूरत है। हमारे मंच पर भी सुविधा प्रदान करता है ताकि आप एमिलीना में काम नहीं कर रहे हैं।

5.0/5 (1)

अनुभव आप पर

मुफ्त के लिए 20+18-से-थ्ड आवाज मॉडल कोशिश करें. देखें कि बोली के लिए कितनी दूर तक पाठ आ गया है.

मुक्त पर हस्ताक्षर करें विन्यास (S)

बोलने का पाठ क्या है (टीएस)?

पाठ में वाक्यों को बोलने के लिए कुंजी

कौन - सी मिसालें हमारे लिए मायने रखती हैं?

तंत्रिका - विज्ञान कैसे काम करता है

स्पीच सिंथिस का इतिहास

आधुनिक एआई मॉडल

सामान्य अनुप्रयोग

स्रोत vs व्यावसायिक खोलें

TTS मॉडल TTS.ai पर उपलब्ध

Kokoro

Bark

CosyVoice 2

Chatterbox

Tortoise TTS

तंत्रिका - विज्ञान कैसे काम करता है

मूल समझे

अलग - अलग मॉडलों की तुलना कीजिए

खुद की जाँच कीजिए

अपनी परियोजना में एकीकृत करें

पाठ का संक्षिप्त इतिहास बोलने के लिए

प्रारंभिक दिन (1950s- 1980s)

कॉनस्टेंट सिंथिस (1990s- 2000)

स्टेटमेंटल/ पाकिक्स (2000- 2010)

तंत्रिका टीएक्सईएस (16- पाइंट)

आधुनिक शब्द कैसे काम करते हैं

पाठ विश्लेषण (N)

ध्वनि मॉडल (प्रयोगिकग्राम से पाठ)

वोकोडर ( ऑडियो के लिए रीफ्राग्राम)

अंत- अंत मॉडल को ख़त्म करें

तुलना में निकट आता है

डीटीएस के सामान्य अनुप्रयोग

पहुँच

विषयवस्तु बनाने का निर्माण

आभासी सहायक

बार बार पूछे जाने वाले प्रश्न

टी.

पाठ से वार्ता कार्य कैसे करता है?

तंत्रिका टी. वी.

एसटीएमएल क्या है और इसे टीएस के साथ कैसे प्रयोग किया जाता है?

टी.नेवाली तकनीक का मुख्य अनुप्रयोग क्या है?

टी. वी.

कौन - सी बात ध्वनि स्वाभाविक बनाती है?

क्या कोई इंसान किसी तरह की आवाज़ को दोहरा सकता है?

टी. वी.

क्या एआई आवाज पीढ़ी के समान है?

आज सबसे बढ़िया मिसाल क्या है?

क्या मैं अपने कंप्यूटर पर टीएस मॉडल चला सकता हूँ?

अनुभव आप पर