ጽሑፍ ወደ ንግግር (TTS) ምንድን ነው?

ጽሑፍ ወደ ንግግር የተጻፈ ጽሑፍን በፈጠራ ብልህነት በመጠቀም ወደ የተናገረ ድምፅ የሚለውጥ ቴክኖሎጂ ነው። ከመጀመሪያዎቹ ሮቦቲክ ሲንቴዚየሮች እስከ ዛሬ ከሰው የማይለዩ የኑሮ ኔትወርኮች ድረስ፣ TTS ከቴክኖሎጂ ጋር እንዴት እንደምንገናኝ፣ ይዘትን እንዴት እንደምንጠቀም እና መረጃን እንዴት እንደምንደርስበት አሻሽሏል።

ቴክኖሎጂ ታሪክ እንዴት እንደሚሠራ ነርቭ ኔትወርኮች አውቶማቲክ

ጽሑፍ ወደ ንግግር

የዘመናዊ የንግግር ማቀነባበሪያ መሠረታዊ ክፍሎችን ማወቅ

TTS ምን ማለት ነው?

ቲቲኤስ (Text-to-Speech) የሚለው ቃል የተጻፈ ጽሑፍን በኮምፒውተር የተፈጠሩ ድምጾችን በመጠቀም ወደ ተናገረ ድምፅ የሚለውጥ ቴክኖሎጂን ያመለክታል።

ኒውራል TTS እንዴት እንደሚሠራ

የዘመናዊው TTS ፅሁፎችን ለመለየት፣ የንግግር ቅርጾችን ለመለየት፣ እና አስደናቂ የሰው ድምፅ ያላቸውን የድምፅ waveforms ለመፍጠር ጥልቅ የነርቭ አውታሮችን ይጠቀማል።

የንግግር ስብስብ ታሪክ

ከ1960ዎቹ የሕግ-ተኮር ስርዓቶች እስከ 1990ዎቹ የኮንኬኔቲቭ ሲንቴዚሽን እስከ ዛሬው የኑሮ ሞዴሎች - TTS በ 6 ዓመታት ውስጥ እንዴት እንደተሻሻለ.

ዘመናዊ AI ሞዴሎች

የዛሬዎቹ ሞዴሎች እንደ ኮኮሮ፣ ባርክ፣ እና ኮሲቮይስ 2 ትራንስፎርሜተሮችን፣ ዲስፊዩሽንን፣ እና የሰው ደረጃ የንግግር ጥራት ለማግኘት የልዩነት ውጤቶችን ይጠቀማሉ፡፡

የተለመዱ ፕሮግራሞች

የቲቲኤስ ስክሪን አንባቢዎች፣ የጂፒኤስ መዳረሻ፣ ቪርቸራል አሳሾች፣ የድምፅ መጽሐፍት፣ የደንበኛ አገልግሎት ቦቶች፣ የኢ-ልማት መድረኮች፣ እና የይዘት መፍጠርን ያነቃቃል።

የመረጃ ምንጭ

ነፃ የሆኑት ሞዴሎች (MIT, Apache 2.0) ነፃ, ራስ-አስተናጋጅ TTS ይሰጣሉ, ነገር ግን የቢዝነስ አገልግሎቶች SLAs እና ድጋፍ ጋር የተስተዳደሩ APIs ይሰጣሉ.

የቲቲኤስ ሞዴሎች በ TTS.ai ላይ ይገኛሉ

ከፍጥነት እና ቀላል ወደ ስቱዲዮ-ጥራት ነርቭ ድምጾች

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ምርጥ ለ: የቅርብ ጊዜው ትንሽ ሞዴል - የኒውራል TTS ምን ያህል እንደደረሰ ያሳያል

ሞክሩ Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

ምርጥ ለ: የትራንስፎርመር-መሠረት ሞዴል ከንግግር ውጭ የድምፅ ማመንጫን የሚያሳየው

ሞክሩ Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 የድምፅ ክሎኒንግ

ምርጥ ለ: የ TTS ዥረት በሰው-የተጣጣመ ጥራት እና Zero-shot ክሎኒንግ

ሞክሩ CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 የድምፅ ክሎኒንግ

ምርጥ ለ: zero-shot የድምፅ ክሎኒንግ የድምፅ ማቀነባበሪያን ድንበር የሚያሳይ

ሞክሩ Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 የድምፅ ክሎኒንግ

ምርጥ ለ: አውቶማቲክ ሪግሬሽናል አርክቴክቸር ከፍተኛ የድምፅ ጥራት

ሞክሩ Tortoise TTS

ኒውራል TTS እንዴት እንደሚሠራ

የቀድሞው የንግግር ማቀነባበሪያ መስመር በአራት ደረጃዎች

1

መሠረታዊ ነገሮችን ማወቅ

TTS የተጻፈ ጽሑፍን ወደ የተናገረ ድምፅ ይለውጣል። ዘመናዊ ስርዓቶች በሺዎች ሰዓታት የሰው ንግግር መዝገቦች የተማሩ ነርቭ ኔትወርኮችን ይጠቀማሉ

2

የተለያዩ ሞዴሎችን ፈልግ

TTS ሞዴል ሁሉ በፍጥነት, ጥራት, እና ባህሪያት የተለየ ጥንካሬዎች ጋር የተለያዩ አርክቴክቸር (ትራንስፎርመር, ማሰራጨት, variational) ይጠቀማል.

3

ለራስዎ ይሞክሩት

የ TTSን ለመረዳት ምርጥ መንገድ መጠቀም ነው. ከላይ ያሉትን ነፃ ሞዴሎችን ይሞክሩ - ማንኛውንም ጽሑፍ ይጫኑ እና በሁለት ሰከንዶች ውስጥ የሚናገረውን ይሰማሉ.

4

ፕሮጀክቶች

የሚወዱትን ሞዴል ካገኙ በኋላ፣ TTSን ወደ ፕሮግራሞችዎ፣ ምርቶችዎ ወይም የይዘት መፍጠር ሥራዎ ለመቀላቀል APIችንን ይጠቀሙ።

የጽሑፍ ወደ ንግግር አጭር ታሪክ

ከሜካኒካዊ የሚናገሩ ማሽኖች ወደ ነርቭ ኔትወርኮች

የመጀመሪያዎቹ ቀናት (1950s-1980s)

የመጀመሪያው ኮምፒውተር የተፈጠረ ንግግር ወደ 1961 ተመልሷል፣ IBM

የታወቁ ሲስተሞች: Votrax (1970s), DECtalk (1984, በ Stephen Hawking የተጠቀመ), Apple

የኮንካቴኔቲቭ ሰንሰለቶች (1990s-2000s)

የቀረበው የTTS መተግበሪያ የሰው ድምፅን በመቶዎች የሚቆጠሩ የፎኔም ቅንጥቦችን በመናገር ይመዝግባል፣ ከዚያም በውጤት ጊዜ ትክክለኛ ክፍሎችን ይቀላቅላል፡፡ ይህም የበለጠ ተፈጥሯዊ የሆነ ንግግርን ያመጣል ነገር ግን ትልቅ የዳታቤዝ (በተለይም የድምፅ መዝገቦች 10-20 ሰዓቶች) ያስፈልጋል፡፡ ጥራቱ በከፍተኛ ሁኔታ በክፍሎች መካከል ብልህ የሆነ መገናኛን በመፈለግ ላይ የተመሠረተ ነው፤

የተጠቀሙት: AT&T ባዮሎጂካዊ ድምፆች, Nuance Vocalizer, የጉግል ትርጉም TTS.

ስታቲስቲካል/ፓራሜትሪክ (2000s-2010s)

ፎክተር

ቁልፍ ሞዴሎች: HTS, Merlin, የመጀመሪያው DNN ላይ የተመሠረተ ስርዓቶች.

ነርቭ TTS (2016-አሁን)

የዘመናዊው ዘመን ከ WaveNet (DeepMind, 2016) ጋር ተጀምሯል ፣ ይህም ጥልቅ የነርቭ ኔትወርኮችን በመጠቀም የድምፅ ምሳሌን በምሳሌ በመፍጠር ጀመረ። ይህም በ Tacotron (Google, 2017) ተከተለ ፣ ይህም ጽሑፉን በቀጥታ ወደ ስፔክትሮግራሞች ለመለካት ተማረ። ዛሬ

ዋና ዋናዎቹ መሻሻሎች፡- WaveNet፣ Tacotron፣ FastSpeech፣ VITS፣ Bark፣ Kokoro

የዘመናዊው ነርቭ TTS እንዴት እንደሚሠራ

የቀድሞው የድምፅ ድምፅ

የጽሑፍ ትንታኔና ማስተካከያ

የቀድሞው ጽሑፍ ተጣራ እና ተለወጠ: ቁጥሮች ቃላት ሆኑ (\

የድምፅ ሞዴል (ጽሑፍ ወደ ስፔክተሮግራም)

የድምፅ ሞዴል (ብዙውን ጊዜ ትራንስፎርመር ወይም አውቶሬግሬሲቭ ኔትወርክ) የፎኔም ተከታታይን ይይዛል እና የሜል ስፔክትሮግራም - የድምፅ ምን እንደ ሆነ የቪዥዋል መግለጫን ያመለክታል

ቮኮደር (Spectrogram ወደ ድምፅ)

ቮኮደር ሜል ስፔክትሮግራም ወደ እውነተኛ የድምፅ waveforms ይለውጣል. ቀደምት ቮኮደሮች እንደ Griffin-Lim ሮቦቲክ artifacts ፈጠረ. ዘመናዊ ነርቭ ቮኮደሮች (HiFi-GAN, BigVGAN, Vocos) ከፍተኛ-ፍቅር 24kHz ወይም 44.1kHz ድምፅ ያመነጫል ይህም የተፈጥሮ ንግግር የጥሩ ዝርዝሮችን ይይዛል, ነፋስ ድምፆች እና ጥልቅ የጥርስ እንቅስቃሴዎችን ጨምሮ.

መጨረሻ-ወደ-መጨረሻ ሞዴሎች

የቅርብ ጊዜዎቹ ሞዴሎች እንደ VITS, Kokoro, እና Bark የሁለት-ደረጃ ቧንቧን በሙሉ ይተውታል. በአንድ ነርቭ ኔትወርክ ውስጥ ከጽሑፍ ወደ ድምፅ በቀጥታ ይሄዳሉ ፣ በጥቂት አርትፌክቶች የበለጠ ተፈጥሯዊ ውጤቶችን በማምረት። አንዳንድ ሞዴሎች (እንደ Bark) ከንግግር ጋር የማይናገሩ ድምጾችን ፣ ስሜትን እና ሙዚቃን ማምረት ይችላሉ።

የቲቲኤስ ዘዴዎች ሲነፃፀሩ

የቲቲኤስ ቴክኖሎጂ አራት ትውልዶች እንዴት እንደሚወዳደሩ

አቀማመጥ ዘመን ተፈጥሯዊ መለዋወጥ ፍጥነት መረጃ ያስፈልጋል
ፎርማንት ሲንቴሲስ
የፍጥነት ሞዴሊንግ
1960s-1990s ምንም
አገናኝ
የድምፅ ክፍሎች
1990s-2010s ሰዓቶች
ፓራሜትሪ (HMM/DNN)
የድምፅ ሞዴሎች
2000s-2016 ሰዓት
መጨረሻ-ወደ-መጨረሻ
ጥልቅ መማር (VITS, Kokoro, Bark)
2016-ቅርበት ደቂቃዎች ወደ ሰዓቶች

የ TTS የተለመዱ ፕሮግራሞች

ጽሑፉ ወደ ንግግር የሚለወጥበት ቦታ

አቅላይነት

የስክሪን አንባቢዎች፣ የረዳት መሣሪያዎች፣ እና የዓይን እክል ወይም የማንበብ እክል ላላቸው ሰዎች የሚያስፈልጉ መሣሪያዎች ዲጂታል ይዘትን ለሁሉም ለማቅረብ በቲቲኤስ ላይ ያተኩራሉ፡፡

የውስጥ ዕቃዎች

የዩቲዩብ ተከታዮች፣ ፖድካስቶች፣ እና የማህበራዊ ሚዲያ ፈጣሪዎች ለድምፅ ማጉያ፣ ለዝናብ መዝናኛ እና ለራስ-ሰር የይዘት ምርት በከፍተኛ መጠን የቲቲኤስ ይጠቀማሉ፡፡

ምናባዊ ረዳቶች

Siri፣ Alexa፣ Google Assistant፣ እና የደንበኛ አገልግሎት ቻትቦቶች ሁሉ ለተጠቃሚዎች መልሶችን ለመናገር TTS ይጠቀማሉ.

ብዙ ጊዜ የሚጠየቁ ጥያቄዎች

ስለ ጽሑፍ ወደ ንግግር ቴክኖሎጂ የተለመዱ ጥያቄዎች

TTS ለ ጽሑፍ-ወደ-ንግግር የሚለው ቃል ነው. የተጻፈ ጽሑፍን በድምፅ ወይም በAI የተፈጠሩ ድምጾችን በመጠቀም ወደሚሰማ የተናገሩ ቃላት የሚለውጥ ቴክኖሎጂን ያመለክታል። ይህ ቃል በቴክኒካዊ ጽሑፎች ውስጥ "የንግግር ስብስብ" ተብሎ ይጠቀማል።

የቅርብ ጊዜው የTTS ስርዓቶች በሦስት ደረጃዎች ይሠራሉ: የጽሑፍ ትንተና (ማጣራት፣ መደበቅ፣ ፎኔም መለወጥ), prosody ትንበያ (ሪትም፣ ፒችት፣ ስቴንሽን፣ እና ማቆሞችን መወሰን), እና የድምፅ ቅንጅት (የእውነተኛውን የድምፅ waveform መፍጠር). የነርቭ ሞዴሎች ሁሉንም ሦስት ደረጃዎች ከማሰልጠኛ መረጃዎች ይማሩ.

አገናኝ TTS ከቀድሞ የተመዘገቡ የንግግር ክፍሎችን ይቀላቅላል፣ ይህም በመለዋወጫዎች ላይ ግራ የሚያጋባ ሊሆን ይችላል። ነርቭ TTS ከመጀመሪያው ጀምሮ ንግግርን በጥልቀት መማርን በመጠቀም ይፈጥራል፣ ይበልጥ ቀላል፣ የበለጠ ተፈጥሯዊ የሆነ ድምፅን በበለጠ ፕሮሶዲ እና ስሜት ጋር ይፈጥራል።

SSML (የንግግር ማቀነባበሪያ ቋንቋ) የXML-ተኮር ማሳያ ቋንቋ ነው የTTS ስርዓቶች ፅሁፍ እንዴት እንደሚናገሩ እንዲቆጣጠሩ የሚፈቅድልዎት። የጽሑፍ መዝገብዎ ውስጥ የSSML መለያዎችን በመጠቀም ማቆም፣ ማተኮር፣ ማዳመጥ፣ የድምፅ መጠን ለውጦች እና የመናገር መጠንን ማሳየት ይችላሉ።

ቲቲኤስ ለተጠቃሚዎች ችሎታ (ለተጎዱ ተጠቃሚዎች የስክሪን አንባቢዎች)፣ ለቪርቸራል አሳሾች (ሲሪ፣ አሌክስሳ፣ ግሉግ አሳሽ)፣ ለኦዲዮ መጽሐፍ ማምረት፣ ለኢ-ማስተማር፣ ለጂፒኤስ መዳረሻ፣ ለደንበኛ አገልግሎት የቪአር (IVR) ስርዓቶች፣ ለምስጢራዊነት መፍጠር፣ ለቋንቋ መማር ፕሮግራሞች ይጠቀማል።

TTS በ1960ዎቹ ከሮቦቲክ ደንቦች ላይ የተመሠረተ ስርዓት ወደ 1990ዎቹ ወደ ኮንኬኔቲቭ ሲንቴሲስ ፣ ወደ 2000ዎቹ ወደ ስታትስቲካዊ ፓራሜትሪክ ሲንቴሲስ ፣ ወደ 2016 በዌብኔት ወደ ኒውራል TTS ፣ ወደ ዛሬው ትራንስፎርመር እና የሰው ደረጃ ጥራት የሚያገኙ የዲፍፋይሽን ሞዴሎች ተሻሽሏል ፡፡

የቋንቋ ማስተላለፊያ ቴክኖሎጂ (TTS) ትክክለኛውን የቋንቋ ድምፅ (ሪትም፣ ስትሬስ፣ ኢንቶኔሽን)፣ ተገቢውን ፍጥነት፣ በፎኔሞች መካከል ያለውን ቀላል መለዋወጥ፣ እንዲሁም የድምፅን ማንነት ይጠይቃል። የነርቭ ሞዴሎች እነዚህን ንድፎች ከተፈጥሯዊ የሰው ንግግር መዝገቦች ከሚገኙት ትላልቅ መረጃ ሰጭዎች ይማሩታል።

የድምፅ ክሎኒንግ ሞዴሎች እንደ Chatterbox እና CosyVoice 2 ከ 5-30 ሰከንዶች የመዝገብ ቤት ድምፅ የተወሰነ ድምፅን ሊመልሱ ይችላሉ። የተክሎኒንግ ድምፅ ድምፅ፣ ድምፅ፣ እና የመናገር ዘይቤን ይይዛል፣ ምንም እንኳን የሌሎችን ድምጾች ክሎኒንግ ስነምግባር እና ህጋዊ ምክንያቶች ቢኖሩም ፡፡

የቅርብ ጊዜ TTS ሞዴሎች በጋራ 30+ ቋንቋዎችን ይደግፋሉ. አንዳንድ ሞዴሎች በልዩ ቋንቋዎች ውስጥ የተሰማሩ ሲሆን ሌሎች ደግሞ ብዙ ቋንቋዎች ናቸው. እንግሊዝኛ በጣም የተገኙ ሞዴሎች እና ድምጾች አሉት ፣ ግን ቻይንኛ ፣ ጃፓንኛ ፣ ኮሪያኛ ፣ ስፓኒሽ እና አውሮፓውያን ቋንቋዎች በደንብ ይደገፋሉ ፡፡

TTS የ AI ድምፅ መፍጠር ክፍል ነው. TTS በግልጽ የጽሑፍ መግቢያ ወደ ንግግር ውጤት ይለውጣል. AI ድምፅ መፍጠር የድምፅ ክሎኒንግ፣ የድምፅ መለወጥ፣ ንግግር-ወደ-ንግግር፣ እና የድምፅ ውጤት መፍጠርን ያካትታል

ይህ በፍላጎቶችዎ ላይ የተመሠረተ ነው. ኮኮሮ የፍጥነት እና የጥራት ምርጥ ሚዛንን ለሁሉም ጥቅም ያቀርባል. ቻተርቦክስ በድምፅ ክሎኒንግ ውስጥ ይመራል። ኦርፊየስ በስነ-ልቦናዊ መግለጫዎች ውስጥ ይሻላል። ስታይልቲቲኤስ 2 በጣም ተፈጥሯዊ የሆነውን የአንድ-ተናጋሪ ታሪክ ያቀርባል። ለሁሉም ጥቅም ጉዳዮች አንድ "በጣም ጥሩ" ሞዴል የለም ፡፡

አዎ. በTTS.ai ላይ ያሉት ሁሉንም ሞዴሎች የክፍል-መነሻ ናቸው እና በራሳቸው ሊስተናገዱ ይችላሉ. CPU-only ሞዴሎች እንደ Piper በየትኛውም ኮምፒውተር ላይ ይሠራሉ. እንደ Kokoro እና Bark ያሉ የጂፒዩ ሞዴሎች የ NVIDIA GPU 2-8GB VRAM ያስፈልጋሉ. የፕላትፎርማችንም የተስተናገደ መዳረሻ ይሰጣል ስለዚህ መሰረተ ልማትን መምራት አያስፈልግዎትም.
5.0/5 (1)

ምን ማሻሻል እንችላለን? አስተያየቶችዎ ችግሮችን ለመፍታት ይረዳሉ.

የዘመናዊ TTS ተሞክሮ ለራስዎ

20+ state-of-the-art AI የድምፅ ሞዴሎችን ለነፃ ይሞክሩ። ጽሑፍ ወደ ንግግር እንዴት እንደመጣ ይመልከቱ።