बोलने का पाठ क्या है (टीएस)?

बोलने के लिए पाठ वह तकनीक है जो लिखित ऑडियो को कृत्रिम बुद्धि का प्रयोग करने के लिए परिवर्तित करती है। शुरू से ही रोबोटों से आज के तंत्रिका नेटवर्कों में ध्वनि बदल गया है, TTSS ने हम किस प्रकार तकनीक के साथ व्यवहार करते हैं, सामग्री से निपटने, और पहुँच जानकारी बनाने के लिए।

तकनीक इतिहास यह कैसे कार्य करता है तंत्रिका नेटवर्क एवोल्यूशन

पाठ में वाक्यों को बोलने के लिए कुंजी

आधुनिक बोली के निर्माण पिण्डों को समझना

कौन - सी मिसालें हमारे लिए मायने रखती हैं?

TTS पाठ- से- वार्ता के लिए खड़ा होता है — जो कि लिखित पाठ को कंप्यूटर के उपयोग से बोलने के लिए परिवर्तित करता है.

तंत्रिका - विज्ञान कैसे काम करता है

आधुनिक टी. वी.

स्पीच सिंथिस का इतिहास

1960 से 1990 के कानून आधारित सिस्टमों से 1990 के तंत्रिका मॉडलों के लिए एक सहवासित किया जा रहा है — कैसे TTScacacs 6 दशकों से अधिक।

आधुनिक एआई मॉडल

आज के मॉडल कोकोरो, बारक, और कोस्टीटी 2 का उपयोग करनेवाले, डिफ्यून, और मानव स्तर- स्तरीय भाषण गुणवत्ता को प्राप्त करने के लिए परिवर्तनों का उपयोग करते हैं।

सामान्य अनुप्रयोग

TTS शक्‍तियों के स्क्रीन रीडर, जीपीएस नेविगेशन, आभासी सहायक, ऑडियोबुक, ग्राहक सेवा बॉट्स, ई - सुधार मंच, और सामग्री बनाने के लिए.

स्रोत vs व्यावसायिक खोलें

ओपन-source मॉडल (एमटीटी, 2. 0) स्वतंत्र, स्व-hostेबल टीएस प्रदान करता है जबकि व्यावसायिक सेवाओं को एसएल के साथ मदद और समर्थन के साथ बनाया जा सकता है.

TTS मॉडल TTS.ai पर उपलब्ध

तेज से तथा तेज़ गति से तंत्रिका - तंत्र की आवाज़ में अध्ययन करने के लिए

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

के लिए उत्तम: राज्य- आधारित छोटा मॉडल दिखाता है कि क्या दूर से तंत्रिका टीएस आ गया है

कोशिश करें Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

के लिए उत्तम: स्केलर आधारित मॉडल को बोलने के अलावा ऑडियो पीढ़ी को दिखाता है

कोशिश करें Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 आवाज कोलोन

के लिए उत्तम: मानव-पारीय गुणवत्ता और शून्य शॉट के साथ जारी

कोशिश करें CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 आवाज कोलोन

के लिए उत्तम: शून्य- स्नेपशॉट आवाज खरगोश आवाज सिंथेसिस के सामने दिखाया जा रहा है

कोशिश करें Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 आवाज कोलोन

के लिए उत्तम: अधिकतम ऑडियो गुणवत्ता को पुनःपुनित करने से पहले रीग्रेसिव डिजाइन

कोशिश करें Tortoise TTS

तंत्रिका - विज्ञान कैसे काम करता है

आज की बोली, चार चरणों में तैयार की गयी है

1

मूल समझे

आज के तंत्र हज़ारों घंटों से मानव भाषा रिकॉर्डिंग के दौरान प्रशिक्षित तंत्रिका नेटवर्कों का प्रयोग करते हैं ।

2

अलग - अलग मॉडलों की तुलना कीजिए

प्रत्येक TTS मॉडल एक भिन्‍न रचना का प्रयोग करता है (पुष्टि, डिफ्यूशन, परिवर्तन) जो गति, गुणवत्ता, और विशेषताएँ रखता है ।

3

खुद की जाँच कीजिए

TTS को समझने का सबसे अच्छा तरीका है इसका इस्तेमाल करना ।

4

अपनी परियोजना में एकीकृत करें

एक बार जब आप एक मॉडल पाते हैं, तो हमारे एपीआई का इस्तेमाल करके आपके अनुप्रयोगों, उत्पादों या वस्तुओं को बेहतर बनाने के लिए कीजिए ।

पाठ का संक्षिप्त इतिहास बोलने के लिए

तंत्रिका नेटवर्क के लिए सजावटी मशीनों से

प्रारंभिक दिन (1950s- 1980s)

प्रथम कम्प्यूटर- से- निर्मित भाषण - तारीख़ 1961 से 1961 तक, जब आईबीएम

नहीं, तंत्र: Wix (१९७०), टैटीक (१९४), स्टीफन हक्स द्वारा इस्तेमाल किया गया

कॉनस्टेंट सिंथिस (1990s- 2000)

Caconconctic एक वास्तविक मानव आवाज रिकॉर्ड करता है, फिर सही वर्ग के साथ बारी पर scents. यह और अधिक प्राकृतिक भाषा विकसित किया लेकिन महत्वपूर्ण भारी डाटाबेस (कभी कभी कभी एक स्वर के 10-20 घंटे) करने के लिए जरूरी था. गुणवत्ता पर निर्भर था टुकड़े के बीच में आसानी से शामिल होना.

द्वारा उपयोग:

स्टेटमेंटल/ पाकिक्स (2000- 2010)

याद करने के बजाय, इंस्टार मॉडलों ने भाषण का आंकड़ा- मॉडल (HMovs) सीखा. गुप्त मार्क मॉडल (HMs) और बाद में गहरे तंत्रिका नेटवर्क चैनल पैरामीटर (Povover, अवधि, saltidids) जो एक sviver के माध्यम से पोषित किया गया है. इस असीमित शब्द और आवाज आसान बनाने की अनुमति दी गई, लेकिन वे अक्सर एक कदम उत्पन्न किया गया

कुंजी मॉडल: HTS, मरलिन, आरंभिक DNN आधारित तंत्र.

तंत्रिका टीएक्सईएस (16- पाइंट)

आज के ज़माने में लहरों के साथ (ड्रिड, २०१६), जो नमूना के द्वारा ऑडियो नमूना बनाया गया है. यह टाइटन (Golele, 2017) के बाद, जो आज के पाठ को सीधे चित्र के रूप में प्रदर्शित करना सीख गया.

कुंजी सफलता: वेवॉट, गॉटोन, तेज सेब, बारके, कोकोरो ।

आधुनिक शब्द कैसे काम करते हैं

प्राकृतिक ध्वनि के पीछे इमारतीय एआई की आवाज

पाठ विश्लेषण (N)

रॉ पाठ साफ और सामान्य किया जा रहा है: संख्या शब्दों बन जाती है (\)

ध्वनि मॉडल (प्रयोगिकग्राम से पाठ)

साइक्लिटिक मॉडल (कभी एक ट्रांसपरर या स्वचालित नेटवर्क) फोनम अनुक्रम लेता है और एक मेपल स्पेसग्राम का वर्णन करता है — कैसे ऑडियो का दृश्‍य प्रतिनिधित्व करता है

वोकोडर ( ऑडियो के लिए रीफ्राग्राम)

"वोवोशीट प्रमोद प्रक्षेपक को वास्तविक ऑडियो तरंगयों में परिवर्तित करता है. पहली बार Goviens ने रोबोटों की तरह निर्माण किया. आधुनिक तंत्रिकाएँ (Hiovi-Gien, बिगवी, Wivivien, Wivivien) उच्चतमता या 44: उच्च ध्वनि या 44.

अंत- अंत मॉडल को ख़त्म करें

VITS, कोकोरो, और बार्ट दो मंचो को पूरी तरह बंद करते हैं. वे सीधे एक तंत्रिका नेटवर्क में ऑडियो से जाते हैं, और कम प्राकृतिक परिणाम उत्पन्‍न कर सकते हैं. कुछ मॉडल (जैसे बार बारक) भी गैर-ट ध्वनि, हँसी, और संगीत की आवाज़ पैदा कर सकते हैं.

तुलना में निकट आता है

TTS तकनीक की चार पीढ़ियों की तुलना

नीचे जाएँ सा. स्वाभाविकता गतिशीलता गति डाटा आवश्यक
फॉर्मीन सिंथ्स
नियम आधारित आवृत्ति मॉडलिंग
1960s-1990s कुछ नहीं
मनपसंद
गलत ऑडियो खण्ड
1990s-2010s 10- 20+ घंटे
पैरामीमी (HM/DNn)
सांख्यिकीय बोली मॉडल
2000s-2016 1- 5 घंटे
तंत्रिका अंत-से- अंत
गहरा सीखने (VITS, कोकोरो, बारk)
2016-वर्तमान घंटे में मिनट

डीटीएस के सामान्य अनुप्रयोग

जिस पाठ का आज इस्तेमाल किया जाता है

पहुँच

स्क्रीन रीडर्स, मददगार उपकरणों, और उन लोगों के लिए उपकरण जिन पर दृश्य - शक्‍तियाँ हैं या जिन्हें पढ़ने की असमर्थताओं पर निर्भर करता है, वे सभी के लिए डिजिटल सामग्री बनाने के लिए उपकरण बनाते हैं ।

विषयवस्तु बनाने का निर्माण

समाचार माध्यमों, समाचार माध्यमों, समाचार - माध्यमों, और सामग्री के उत्पादन के लिए टीएसएस इस्तेमाल करते हैं ।

आभासी सहायक

महोदय, एलेक्सा, गूगल सहायक, और ग्राहक सेवा गपशप सभी स्वाभाविक रूप से उपभोक्ताओं को जवाब देने के लिए इस्तेमाल करते हैं।

बार बार पूछे जाने वाले प्रश्न

भाषा तकनीक में पाठ के बारे में आम सवाल

TTS पाठ- से- वार्ता के लिए खड़ा है. यह तकनीक का उल्लेख करती है जो कि लिखित पाठ को बोलने में परिवर्तित करती है जो कि स्वरों में बोलने के लिए शब्दों को परिवर्तित करती है. शब्द का प्रयोग तकनीकी साहित्य में "संग्रेड" के साथ सामान्य रूप से किया जाता है.

आधुनिक टीस सिस्टम तीन चरणों में कार्य करते हैं: पाठ विश्लेषण (प्राधाता, कोई सामान्य परिवर्तन, प्रोटेस्टंट धर्म - परिवर्तन, प्रोटेस्टंट), प्रोटेस्टंट भविष्यवाणी (क्शन, दबाव, तनाव, और ठहराव) । नेल मॉडलों से सभी तीन चरणों को प्रशिक्षित करना सीख रहा है ।

Caseconcons एक साथ व्यवस्थित भाषण टुकड़े, जो संक्रमण पर ध्वनि कटौती कर सकते हैं. नेल टीस गहरी सीखने के उपयोग से भाषण बनाता है, चिकनी ध्वनि, और अधिक sciriririrs और भावना के साथ अधिक प्राकृतिक ध्वनि बनाता है.

एसटीएमएल (स्पीसीफ़ीयल एक्स- आधारित मार्कअप भाषा) यह एक XML आधारित मार्कअप भाषा है जो आपको नियंत्रित करता है कि टीटीएस तंत्र पाठ का वर्णन कैसे करता है. आप रोक सकते हैं, ज़ोर, उच्चारण, उच्चारण, उच्चारण, और दर अपने पाठ इनपुट के भीतर एसएमएल टैग के उपयोग से.

पहुँच के लिए TTS का प्रयोग किया जाता है (चौजी, एलेक्सी, गूगल सहायक, गूगल सहायक), ऑडियोबुक उत्पादन, ई-मेलिंग, जीपीएस नेविगेशन, ग्राहक सेवा मैं सिस्टमों, सामग्री, और भाषा सीखने के लिए उपयोग किया जाता है.

सन्‌ 1960 में रोबोटिक नियम- आधारित व्यवस्थाओं से लेकर 1990 के दशक के बीच में सहवासिकी के लिए, सन्‌ 2000 के दशक में, लहर टीस के साथ 2016 में तंत्रिका टीएसटी के साथ, आज की कायापलट करने वाले और डिफेंस मॉडल जो मानव गुणवत्ता को प्राप्त करते हैं।

प्राकृतिक ध्वनि - ध्वनि टीस के लिए सही प्रोफिक्स की आवश्यकता होती है (अंग्रेजी, तनाव, तनाव, उचित, फोन - संबंधी पहचान, और अटल आवाज पहचान के बीच। नेल मॉडल इन पैटर्नों को प्राकृतिक संचार रिकॉर्डिंग के बड़े डेटा से सीख लिया है।

चैटर बक्से और कोस 2 के रूप में कम से कम के रूप में एक विशिष्ट आवाज को फिर से तैयार कर सकते हैं संदर्भ ऑडियो के लिए 5-30 सेकंड. क्लोन आवाज टर्टम, उच्चारण, और शैली, हालांकि नैतिक और कानूनी विचार दूसरों की आवाजों पर लागू करते हैं.

आधुनिक टीस मॉडल सामूहिक रूप से 30+ भाषाओं का समर्थन करते हैं. कुछ मॉडल विशिष्ट भाषा में विशेष रूप से विशिष्ट हैं, जबकि अन्य भाषाएँ हैं. अंग्रेजी में सबसे अधिक उपलब्ध मॉडल और आवाज़ है, लेकिन चीनी, जापानी, कोरियाई, और यूरोपीय भाषा अच्छी तरह से असमर्थित हैं.

TTS एक एआई आवाज पीढ़ी का उन्नत है. TTSTS विशेष रूप से पाठ इनपुट को बोलने के लिए परिवर्तित करता है. एआई आवाज शब्दकोश एक विस्तृत शब्द है जिसमें आवाज़, वार्तालाप, आवाज- वार्ता, और ध्वनि प्रभाव पीढ़ी भी शामिल है.

यह आपकी जरूरत पर निर्भर करता है. कोकोरो गति और सामान्य उपयोग के लिए गुणवत्ता का सर्वोत्तम संतुलन प्रदान करता है. या-हंफ़ॉर्टस भावात्मक अभिव्यक्ति पर हमारी दिशा में ले जाता है. वैसे ही 2 स्वाभाविक भाषा में सबसे अधिक स्वाभाविक संवाद उत्पन्‍न करता है. वहाँ सभी मामलों के लिए कोई भी "सबसे अच्छा" मॉडल नहीं है.

जी हाँ, TTS.ai पर सभी मॉडल खुले-source हैं और खुद पर निर्भर किया जा सकता है. सीपीयू-बार मॉडल जैसे कि किसी भी कंप्यूटर पर पाइपर की तरह। कोकोरोरो और बारकिकिकिम को एक NVIIGGG की जरूरत है। हमारे मंच पर भी सुविधा प्रदान करता है ताकि आप एमिलीना में काम नहीं कर रहे हैं।
5.0/5 (1)

क्या हम सुधार कर सकते हैं?

अनुभव आप पर

मुफ्त के लिए 20+18-से-थ-थ-थ्ड आवाज मॉडल कोशिश करें. देखें कि बोली के लिए कितनी दूर तक पाठ आ गया है.