Text to Speech (TTS) ni nini?

Kutoka kwa roboti za mapema hadi mifumo ya kisasa ya neva inayoweza kutofautishwa na wanadamu, TTS imebadili jinsi tunavyoshughulika na teknolojia, matumizi ya vifaa vya elektroniki, na kufanya habari zipatikane kwa urahisi.

Teknolojia History Jinsi Inavyofanya Kazi Vituo vya Neva Mageuzi

Maelezo Muhimu Kuhusu Usemi

Kuelewa muundo wa maneno ya kisasa

Kinachomaanishwa na TTS

TTS ni ya Text-to-Speech faida za teknolojia inayobadili maandishi kwa kutumia sauti za kompyuta.

Jinsi Mfumo wa Neva Unavyofanya Kazi

TTS za kisasa hutumia mifumo ya neva ili kuchanganua maandishi, kutabiri miundo ya usemi, na kutokeza mawimbi ya sauti yanayosikika kama binadamu.

Historia ya Uzungumzaji

Kuanzia miaka ya 1960 mifumo ya utawala hadi miaka ya 1990 iliyounganishwa na mfumo wa neva hadi mfumo wa leo wa neva CHANTE jinsi TTS ilivyogeuka kwa zaidi ya miongo sita.

Maumbo ya Ki - Siku - Hizi

Waigaji wa leo kama vile Kokoro, Bark, na CosyVoice 2 hutumia vibadili - umbo, utiaji - maji, na ugeugeuzo ili kupata ubora wa usemi wa kibinadamu.

Matumizi ya Kawaida

TIBA za TTS zinawasaidia wasomaji, waongozaji wa GPS, wasaidizi, vitabu vya sauti, makarani ya wateja, majukwaa ya kusomea, na uumbaji wa maudhui.

Chanzo cha Pekee cha Biashara

Waigaji walio wazi (MIT, Waapache 2.0) huandaa TTS isiyo na uhuru, na yenye ubinafsi wakati huduma za kibiashara zinapomsaidia AP Iss na SLAs.

TTS Feets Yapatikana Katika TTS.ai

Sauti nyepesi na nyepesi

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Faida kwa: State-of-the-art melelezi kuhusu umbali wa mfumo wa neva wa TTS

Jaribu Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Faida kwa: Mfano wa kubadili sauti unaoonyesha kizazi cha sauti kisichoweza kusema

Jaribu Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Sauti Yaungana

Faida kwa: TEGEMEA TTS ikiwa na ubora wa usawa wa binadamu na utokezwaji wa sufuri

Jaribu CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Sauti Yaungana

Faida kwa: Sauti ya Zero-shot inayoonyesha mpaka wa sauti

Jaribu Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Sauti Yaungana

Faida kwa: Ujenzi wa kompyuta unaokazia ubora wa sauti ya juu zaidi

Jaribu Tortoise TTS

Jinsi Mfumo wa Neva Unavyofanya Kazi

Kiwambo cha kisasa cha usemi cha synthesis katika hatua nne

1

Elewa Mambo ya Msingi

Mifumo ya kisasa ya kompyuta hutumia mfumo wa neva ambao hutayarishwa kwa maelfu ya saa za mirekodi ya usemi wa kibinadamu.

2

Chunguza Maumbo Mbalimbali

Kila muundo wa TTS hutumia muundo tofauti (wa awali, ugawanyaji, utofauti - tofauti) ukiwa na uwezo wa kipekee katika mwendo, ubora, na maumbo.

3

Jijaribu Mwenyewe

Jaribuni mifano yetu isiyo na malipo juu ya nta yoyote ya maandishi na uyasikie yakisemwa kwa sekunde chache tu.

4

Chunguza Miradi Yako

Mara unapopata kiolezo unachopenda, tumia API yetu kuchanganya programu zako, bidhaa, au uumbaji wenye uradhi.

Historia Fupi ya Maandishi kwa Usemi

Kutoka mashine za maongezi hadi mifumo ya neva

Siku za Mapema (1950-1980)

Hotuba ya kwanza iliyounganishwa na kompyuta ilianza mwaka 1961, wakati ambapo IBM

Mifumo isiyoweza kuonekana: Votrax (1970s), DESPS (1984, imetumiwa na Stephen Hawking), Apple

Concatentive Synthesis (1990 -2000)

TTSS hurekodi sauti halisi ya binadamu ikizungumza maelfu ya michanganyo ya simu, kisha kushonwa pamoja sehemu zifaazo wakati wa wakati wa urukaji. Hii ilitokeza usemi wa asili lakini ilitaka mirekodio ya sauti (mara nyingi saa 10 hadi20 kwa sauti). Sifa bora ilitegemea sana kupata viungio laini kati ya visehemu.

Imetumiwa na: AT&T Natural Voices, Nuance Vocalizer, mapema Google Translate TTS.

Takwimu/Parametric (200-2010)

Badala ya kushonwa, wanamitindo wa parametric walijifunza tarakimu za usemi.

Mifano ya msingi: HUTS, Merlin, mifumo ya mapema ya DNNN.

TTS (2016-op)

Enzi ya kisasa ilianza na WaveNet (DeepMind, 2016), ambayo ilitokeza sauti kwa sampuli kwa kutumia mfumo wa neva wenye kina. Hii ilifuatiwa na Tacorot (Google, 2017), ambayo ilijifunza kuchora maandishi ya ramani moja kwa moja kwenye ramani za kompyuta.

Maendeleo makubwa: Mifugo, Tacoron, FastSpeech, VITS, Bark, Kokoro.

Jinsi TTSolojia ya Kisasa Inavyofanya Kazi

Ujenzi unaotegemeza sauti za kiasili za AI

Kuchanganua Maandiko na Kutumia Lugha ya Kawaida

Maandishi ya Raw yanasafishwa na kufanywa kuwa ya kawaida: nambari zinakuwa maneno (\

Kiooo Bandia (Kipindi cha Spectrogramu)

Muundo wa sauti (mara nyingi ni mfumo wa kubadili sauti) huchukua mfuatano wa simu na kutabiri kifaa cha kuchunguza sauti (Peter aformer au stregressigsitive) kuonyesha jinsi sauti inavyoonyeshwa

Vooder (Spectragram to Audio)

Kifaa hicho cha vocoder hugeuza kifaa hicho kuwa mawimbi halisi ya sauti. Vifaa vya kale kama Griffin-Lim vimetengenezwa kwa roboti. Vifaa vya kisasa vya kompyuta (HiFi-GAN, BigVGAN, Vocos) hutokeza sauti za hali ya juu 24fidelity au 44.1Hz ambazo hunasa habari nzuri za usemi wa asili, ikiwa ni pamoja na sauti za pumzi na miendo ya midomo isiyo dhahiri.

End-to-End Models

Waigaji wa hivi karibuni kama vile VITS, Kokoro, na Bark wanaruka bomba la jukwaa lote. Wao hutoka moja kwa moja kwenye maandishi hadi sikio katika mfumo mmoja wa neva, wakitokeza matokeo zaidi ya kiasili kwa vitu vichache vya kale. Baadhi ya violezo (kama vile Bark) hata vyaweza kutokeza sauti zisizo za kawaida, kicheko, na muziki sambamba na usemi.

TTSTS Akaribia kwa Ulinganisho

Jinsi vizazi vinne vya tekinolojia ya TTS vinavyolingana

Tafuta Enzi Asili Kubadilikana Mwendo Habari Zahitajiwa
Muundo wa Kibiolojia
Mfumo wa soli inayotawala
1960s-1990s Hakuna
Kuongeza mwendo
Sehemu za sauti zilizounganishwa
1990s-2010s Saa 10-20+
Parametric (HMM/DNN)
Waigaji wa usemi wa dharura
2000s-2016 Saa 1-5
Mfumo wa Neva wa End-to-End
Kujifunza kwa kina (VITS, Kokoro, Bark)
2016-Sasa Dakika kwa saa

Matumizi ya Kawaida ya TTS

Mahali ambapo andiko la lugha hutumiwa leo

Upatikanaji

Chunguza wasomaji, vifaa vya kusaidia, na vifaa kwa ajili ya watu wenye matatizo ya kuona au walio na kasoro za kusoma hutegemea TTS ili kufanya habari za kidijitali zipatikane kwa kila mtu.

Uumbaji Unaridhika

Vyombo vya YouTube, makadikasti, na watunga - habari wa kijamii hutumia TTS kwa ajili ya sauti, masimulizi, na uzalishaji wa maudhui kwa kiwango kikubwa.

Wasaidizi wa Karibu

Sii, Alexa, Google Helpant, na wateja wanaotumia vituo vya maongezi hutumia alama za TTS kuwasiliana kiasili na watumiaji.

Maswali Ambayo Watu Huuliza Mara Nyingi

Maswali ya kawaida kuhusu ujumbe mfupi kwa teknolojia ya usemi

TTS ni ya Text-to-Speech. Inarejezea teknolojia ambayo inageuza maandishi kuwa maneno ya sauti ya kusikika kwa kutumia sauti za kidiolojia au AI-jerearted. Neno hilo linatumiwa kupatana na "speech synthesis" katika fasihi za kiufundi.

Mifumo ya kisasa ya TTS hufanya kazi katika hatua tatu: uchanganuzi wa maandishi (kulinganisha, usukaji wa kawaida, ugeuzaji wa simu), utabiri wa kiakili (kuamua mwendo, mwendo wa sauti, mkazo, na kutua kidogo), na sauti (kutokeza mawimbi halisi ya sauti).

TTS inayochanganua sauti hugongana vipande vya usemi vilivyorekodiwa kabla ya wakati huo, ambavyo vyaweza kusikia sauti ya kukata sauti wakati wa mabadiliko.

SSML (Speech Synthesis Markup Language) ni lugha ya alama ya XML inayokufanya udhibiti namna mifumo ya TTS inavyotangaza maandishi. Unaweza kuweka wazi kutua, kutilia mkazo, matamshi, mabadiliko makubwa, na kusema kwa kutumia alama za SSML ndani ya maandishi yako.

TTS hutumiwa kwa ajili ya upatikanaji (kuwachunguza wasomaji kwa ajili ya watumiaji wenye kasoro za macho), wasaidizi (Siri, Alexa, Google Helpant), utokezaji wa kitabu cha sauti, masomo ya kupitia mfumo wa GPS, mifumo ya IVR, uumbaji wa maudhui, na programu za kujifunza lugha.

TTS ilitokana na mifumo ya sheria ya roboti katika miaka ya 1960, hadi kontenthesis ya sasa katika miaka ya 1990, hadi takwimu za takwimu za crametric synthesis katika miaka ya 2000, hadi mfumo wa neva wa TTS na WaveNet mwaka 2016, kufikia violezo vya leo vya kubadili na kuongeza idadi ya watu vinavyoweza kupata ubora wa mwanadamu.

Vitu vya asili vya kudhibiti sauti vinataka mipangilio sahihi ya sauti. Vifaa vya neva hujifunza namna hizi kutokana na takwimu kubwa za mirekodi ya kiasili ya usemi wa binadamu.

Maumbo ya kutokeza sauti kama Chatterboksi na CosyVoice 2 yanaweza kutokeza sauti ya kipekee kuanzia sekunde 5 hadi 30 za sauti ya sauti ya marejezo. Sauti iliyotokezwa hunasa sauti ya timbre, matamshi, na mtindo wa kusema, ingawa ufikirio wa kiadili na kisheria hutumika kutokeza sauti za wengine.

Baadhi ya wanamitindo wa ki - siku - hizi huunga mkono lugha 30+. Baadhi yao ni wataalamu wa lugha hususa ilhali wengine ni wa lugha za lugha za kilugha. Kiingereza kina mifano na sauti zinazopatikana kwa wingi, lakini Kichina, Kijapani, Kikorea, Kihispania, na Ulaya zinaungwa mkono sana.

TTS ni kisehemu kidogo cha sauti ya AI. TTS inabadilisha maandishi kwa kutoa hotuba. Kizazi cha AI ni neno pana ambalo pia hutia ndani kutokezwa kwa sauti, kugeuzwa sauti, kubadili sauti, kusema maneno -to-speech, na matokeo ya sauti.

Lategemea mahitaji yako. Kokoro hutoa usawaziko bora wa mwendo na ubora kwa matumizi ya ujumla.

Waigaji wote wapatao TTS.ai wako wazi na wanaweza kujiandaa wenyewe. CPU-ture ni kama Piper ambao huendesha kompyuta yoyote. GPU wanamitindo kama Kokoro na Bark wanahitaji msaada wa NVIDIA GPU na 2-8G VRAM. Jukwaa letu pia linaandaa fursa ya kuingia kwa ajili ya huduma za msingi.
5.0/5 (1)

Uwezo wako wa kutatua matatizo ni nini?

Jinsi Unavyojionea Mambo ya Kisasa

Jaribuni namna 20+ za kujieleza kwa uhuru. Ona ni kwa kiasi gani maandishi ya kujieleza yamekuja.