बोलने का पाठ क्या है (टीएस)?
बोलने के लिए पाठ वह तकनीक है जो लिखित ऑडियो को कृत्रिम बुद्धि का प्रयोग करने के लिए परिवर्तित करती है। शुरू से ही रोबोटों से आज के तंत्रिका नेटवर्कों में ध्वनि बदल गया है, TTSS ने हम किस प्रकार तकनीक के साथ व्यवहार करते हैं, सामग्री से निपटने, और पहुँच जानकारी बनाने के लिए।
पाठ में वाक्यों को बोलने के लिए कुंजी
आधुनिक बोली के निर्माण पिण्डों को समझना
कौन - सी मिसालें हमारे लिए मायने रखती हैं?
TTS पाठ- से- वार्ता के लिए खड़ा होता है — जो कि लिखित पाठ को कंप्यूटर के उपयोग से बोलने के लिए परिवर्तित करता है.
तंत्रिका - विज्ञान कैसे काम करता है
आधुनिक टी. वी.
स्पीच सिंथिस का इतिहास
1960 से 1990 के कानून आधारित सिस्टमों से 1990 के तंत्रिका मॉडलों के लिए एक सहवासित किया जा रहा है — कैसे TTScacacs 6 दशकों से अधिक।
आधुनिक एआई मॉडल
आज के मॉडल कोकोरो, बारक, और कोस्टीटी 2 का उपयोग करनेवाले, डिफ्यून, और मानव स्तर- स्तरीय भाषण गुणवत्ता को प्राप्त करने के लिए परिवर्तनों का उपयोग करते हैं।
सामान्य अनुप्रयोग
TTS शक्तियों के स्क्रीन रीडर, जीपीएस नेविगेशन, आभासी सहायक, ऑडियोबुक, ग्राहक सेवा बॉट्स, ई - सुधार मंच, और सामग्री बनाने के लिए.
स्रोत vs व्यावसायिक खोलें
ओपन-source मॉडल (एमटीटी, 2. 0) स्वतंत्र, स्व-hostेबल टीएस प्रदान करता है जबकि व्यावसायिक सेवाओं को एसएल के साथ मदद और समर्थन के साथ बनाया जा सकता है.
TTS मॉडल TTS.ai पर उपलब्ध
तेज से तथा तेज़ गति से तंत्रिका - तंत्र की आवाज़ में अध्ययन करने के लिए
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
के लिए उत्तम: राज्य- आधारित छोटा मॉडल दिखाता है कि क्या दूर से तंत्रिका टीएस आ गया है
कोशिश करें Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
के लिए उत्तम: स्केलर आधारित मॉडल को बोलने के अलावा ऑडियो पीढ़ी को दिखाता है
कोशिश करें Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
के लिए उत्तम: मानव-पारीय गुणवत्ता और शून्य शॉट के साथ जारी
कोशिश करें CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
के लिए उत्तम: शून्य- स्नेपशॉट आवाज खरगोश आवाज सिंथेसिस के सामने दिखाया जा रहा है
कोशिश करें Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
के लिए उत्तम: अधिकतम ऑडियो गुणवत्ता को पुनःपुनित करने से पहले रीग्रेसिव डिजाइन
कोशिश करें Tortoise TTSतंत्रिका - विज्ञान कैसे काम करता है
आज की बोली, चार चरणों में तैयार की गयी है
मूल समझे
आज के तंत्र हज़ारों घंटों से मानव भाषा रिकॉर्डिंग के दौरान प्रशिक्षित तंत्रिका नेटवर्कों का प्रयोग करते हैं ।
अलग - अलग मॉडलों की तुलना कीजिए
प्रत्येक TTS मॉडल एक भिन्न रचना का प्रयोग करता है (पुष्टि, डिफ्यूशन, परिवर्तन) जो गति, गुणवत्ता, और विशेषताएँ रखता है ।
खुद की जाँच कीजिए
TTS को समझने का सबसे अच्छा तरीका है इसका इस्तेमाल करना ।
अपनी परियोजना में एकीकृत करें
एक बार जब आप एक मॉडल पाते हैं, तो हमारे एपीआई का इस्तेमाल करके आपके अनुप्रयोगों, उत्पादों या वस्तुओं को बेहतर बनाने के लिए कीजिए ।
पाठ का संक्षिप्त इतिहास बोलने के लिए
तंत्रिका नेटवर्क के लिए सजावटी मशीनों से
प्रारंभिक दिन (1950s- 1980s)
प्रथम कम्प्यूटर- से- निर्मित भाषण - तारीख़ 1961 से 1961 तक, जब आईबीएम
नहीं, तंत्र: Wix (१९७०), टैटीक (१९४), स्टीफन हक्स द्वारा इस्तेमाल किया गया
कॉनस्टेंट सिंथिस (1990s- 2000)
Caconconctic एक वास्तविक मानव आवाज रिकॉर्ड करता है, फिर सही वर्ग के साथ बारी पर scents. यह और अधिक प्राकृतिक भाषा विकसित किया लेकिन महत्वपूर्ण भारी डाटाबेस (कभी कभी कभी एक स्वर के 10-20 घंटे) करने के लिए जरूरी था. गुणवत्ता पर निर्भर था टुकड़े के बीच में आसानी से शामिल होना.
द्वारा उपयोग:
स्टेटमेंटल/ पाकिक्स (2000- 2010)
याद करने के बजाय, इंस्टार मॉडलों ने भाषण का आंकड़ा- मॉडल (HMovs) सीखा. गुप्त मार्क मॉडल (HMs) और बाद में गहरे तंत्रिका नेटवर्क चैनल पैरामीटर (Povover, अवधि, saltidids) जो एक sviver के माध्यम से पोषित किया गया है. इस असीमित शब्द और आवाज आसान बनाने की अनुमति दी गई, लेकिन वे अक्सर एक कदम उत्पन्न किया गया
कुंजी मॉडल: HTS, मरलिन, आरंभिक DNN आधारित तंत्र.
तंत्रिका टीएक्सईएस (16- पाइंट)
आज के ज़माने में लहरों के साथ (ड्रिड, २०१६), जो नमूना के द्वारा ऑडियो नमूना बनाया गया है. यह टाइटन (Golele, 2017) के बाद, जो आज के पाठ को सीधे चित्र के रूप में प्रदर्शित करना सीख गया.
कुंजी सफलता: वेवॉट, गॉटोन, तेज सेब, बारके, कोकोरो ।
आधुनिक शब्द कैसे काम करते हैं
प्राकृतिक ध्वनि के पीछे इमारतीय एआई की आवाज
पाठ विश्लेषण (N)
रॉ पाठ साफ और सामान्य किया जा रहा है: संख्या शब्दों बन जाती है (\)
ध्वनि मॉडल (प्रयोगिकग्राम से पाठ)
साइक्लिटिक मॉडल (कभी एक ट्रांसपरर या स्वचालित नेटवर्क) फोनम अनुक्रम लेता है और एक मेपल स्पेसग्राम का वर्णन करता है — कैसे ऑडियो का दृश्य प्रतिनिधित्व करता है
वोकोडर ( ऑडियो के लिए रीफ्राग्राम)
"वोवोशीट प्रमोद प्रक्षेपक को वास्तविक ऑडियो तरंगयों में परिवर्तित करता है. पहली बार Goviens ने रोबोटों की तरह निर्माण किया. आधुनिक तंत्रिकाएँ (Hiovi-Gien, बिगवी, Wivivien, Wivivien) उच्चतमता या 44: उच्च ध्वनि या 44.
अंत- अंत मॉडल को ख़त्म करें
VITS, कोकोरो, और बार्ट दो मंचो को पूरी तरह बंद करते हैं. वे सीधे एक तंत्रिका नेटवर्क में ऑडियो से जाते हैं, और कम प्राकृतिक परिणाम उत्पन्न कर सकते हैं. कुछ मॉडल (जैसे बार बारक) भी गैर-ट ध्वनि, हँसी, और संगीत की आवाज़ पैदा कर सकते हैं.
तुलना में निकट आता है
TTS तकनीक की चार पीढ़ियों की तुलना
| नीचे जाएँ | सा. | स्वाभाविकता | गतिशीलता | गति | डाटा आवश्यक |
|---|---|---|---|---|---|
| फॉर्मीन सिंथ्स नियम आधारित आवृत्ति मॉडलिंग |
1960s-1990s | कुछ नहीं | |||
| मनपसंद गलत ऑडियो खण्ड |
1990s-2010s | 10- 20+ घंटे | |||
| पैरामीमी (HM/DNn) सांख्यिकीय बोली मॉडल |
2000s-2016 | 1- 5 घंटे | |||
| तंत्रिका अंत-से- अंत गहरा सीखने (VITS, कोकोरो, बारk) |
2016-वर्तमान | घंटे में मिनट |
डीटीएस के सामान्य अनुप्रयोग
जिस पाठ का आज इस्तेमाल किया जाता है
पहुँच
स्क्रीन रीडर्स, मददगार उपकरणों, और उन लोगों के लिए उपकरण जिन पर दृश्य - शक्तियाँ हैं या जिन्हें पढ़ने की असमर्थताओं पर निर्भर करता है, वे सभी के लिए डिजिटल सामग्री बनाने के लिए उपकरण बनाते हैं ।
विषयवस्तु बनाने का निर्माण
समाचार माध्यमों, समाचार माध्यमों, समाचार - माध्यमों, और सामग्री के उत्पादन के लिए टीएसएस इस्तेमाल करते हैं ।
आभासी सहायक
महोदय, एलेक्सा, गूगल सहायक, और ग्राहक सेवा गपशप सभी स्वाभाविक रूप से उपभोक्ताओं को जवाब देने के लिए इस्तेमाल करते हैं।
बार बार पूछे जाने वाले प्रश्न
भाषा तकनीक में पाठ के बारे में आम सवाल
क्या हम सुधार कर सकते हैं?
अनुभव आप पर
मुफ्त के लिए 20+18-से-थ-थ-थ्ड आवाज मॉडल कोशिश करें. देखें कि बोली के लिए कितनी दूर तक पाठ आ गया है.