Beth yw Testun i Leferydd (TTS)?
Technoleg sy'n trosi testun wedi'i ysgrifennu i sain wedi'i ddweud gan ddefnyddio deallusrwydd artiffisial yw Testun i Leferydd. O gyfansoddwyr robotaidd cynnar i'r dydd heddiw
Testun i LeferyddComment
Deall blociau adeiladu cyfansoddiad siarad modern
Beth mae TTS yn ei olygu
Mae TTS yn sefyll am Testun-i-Lafaru — y dechnoleg sy'n trosi testun ysgrifenedig i sain wedi'i siarad gan ddefnyddio lleisiau a gynhyrchir gan gyfrifiadur.
Sut mae Neural TTS yn Gweithio
Mae TTS modern yn defnyddio rhwydweithiau nerfol ddwfn i ddadansoddi testun, rhagweld patrymau siarad, a chreu tonnau sain sy'n swnio'n anhygoel o ddynol.
Hanes Synthesizer LleferyddName
O systemau seiliedig ar reolau'r 1960au i gyfansoddiad cyswllt y 1990au i'r modelau nerfol presennol - sut y datblygodd TTS dros chwe degawd.
Modelau AI Modern
Mae modelau heddiw fel Kokoro, Bark, a CosyVoice 2 yn defnyddio trawsnewidyddion, lledaeniad, a dealltwriaeth amrywiol i gyflawni ansawdd siarad ar lefel dynol.
Cymhwysiadau
Mae TTS yn galluogi darllenwyr sgrin, llywio GPS, cynorthwywyr rhithwir, llyfrau sain, robotiaid gwasanaeth cwsmeriaid, platfformau e-ddysgu, a chreu cynnwys.
Cod Agored vs Masnachol
Mae modelau ffynhonnell agored (MIT, Apache 2.0) yn darparu TTS rhad ac am ddim, hunan-westeiadwy tra bod gwasanaethau masnachol yn cynnig APIau rheoli gyda SLAs a chefnogaeth.
Modelau TTS ar gael ar TTS.ai
O lais niwral cyflym ac ysgafn i lais niwral ansawdd stiwdio
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
Gorau ar gyfer: Model bach o'r radd flaenaf - yn dangos pa mor bell mae TTS nerfol wedi dod
Ceisio Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
Gorau ar gyfer: Model sy'n seiliedig ar drawsnewidydd yn dangos creu sain y tu hwnt i siarad
Ceisio Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
Gorau ar gyfer: Darlledu TTS gydag ansawdd parhad dynol a chlonio zero-shot
Ceisio CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
Gorau ar gyfer: Clonio llais zero-shot yn dangos ffiniau cyfansoddi llais
Ceisio Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
Gorau ar gyfer: Adeiladwaith awto-adferol yn blaenoriaethu ansawdd sain uchaf
Ceisio Tortoise TTSSut mae Neural TTS yn Gweithio
Y pibell gyfansoddi iaith fodern mewn pedwar cam
Deall y Sylfaenol
Mae TTS yn trosi testun ysgrifenedig i sain a lefarwyd. Mae systemau modern yn defnyddio rhwydweithiau nerfol a hyfforddwyd ar filoedd o oriau o recordiadau llais dynol.
Archwilio Modelau Amrywiol
Mae pob model TTS yn defnyddio pensaernïaeth wahanol (trawsnewidydd, lledaeniad, amrywiol) gyda grymoedd unigryw mewn cyflymder, ansawdd, a nodweddion.
Ceisiwch chi eich hun
Y ffordd orau o ddeall TTS yw ei ddefnyddio. Ceisiwch ein modelau am ddim uchod — gludwch unrhyw destun a chlywch ef yn cael ei ddweud mewn eiliad.
Cyfuno â' ch cyrsiau
Ar ôl i chi ddod o hyd i ddull rydych chi'n ei hoffi, defnyddiwch ein API i integreiddio TTS i'ch rhaglenni, cynhyrchion, neu llif gwaith creu cynnwys.
Hanes byr o Testun i LeferyddName
O beiriannau siarad mecanyddol i rwydweithiau nerfol
Diwrnodau Cynnar (1950au-1980au)
Mae'r siarad cyntaf a gynhyrchwyd gan gyfrifiadur yn dyddio'n ôl i 1961, pan oedd IBM
Systemau nodedig: Votrax (1970au), DECtalk (1984, a ddefnyddiwyd gan Stephen Hawking), Apple
Cyfansoddiad Cyfunol (1990au-2000au)
Mae TTS cydgysylltiedig yn cofnodi llais dynol go iawn yn siarad miloedd o gyfuniadau ffônema, yna'n cyfuno'r rhannau cywir wrth redeg. Cynhyrchodd hyn lais sy'n swnio'n fwy naturiol, ond roedd angen cronfeydd data mawr (yn aml 10-20 awr o recordiadau am bob llais). Roedd ansawdd yn dibynnu'n fawr ar ganfod cysylltiadau llyfn rhwng rhannau.
Defnyddir gan: AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS cynnar.
Ystadegol/Paramedrau (2000au-2010au)
Yn hytrach na chymysgu recordiadau, ddysgodd modelau paramegol gynrychioliad ystadegol o siarad. Creodd Modelau Markov Cudd (HMMs) a rhwydweithiau nerfol ddwfn yn ddiweddarach baramedrau siarad (bwlch, hyd, nodweddion sbectral) a oedd yn cael eu bwydo trwy vocoder. Caniataodd hyn geirfa ddiderfyn a chreu llais haws, ond yn aml cynhyrchodd y cam vocoder \
Modelau allweddol: HTS, Merlin, systemau cychwynnol wedi'u seilio ar DNN.
Neural TTS (2016-presennol)
Dechreuodd yr oes fodern gyda WaveNet (DeepMind, 2016), a gynhyrchodd sampl sain ar sail sampl gan ddefnyddio rhwydweithiau nerfol ddwfn. Dilynwyd hyn gan Tacotron (Google, 2017), a ddysgodd fapio testun yn uniongyrchol i sbectrogramau. Heddiw
Datblygiadau allweddol: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.
Sut mae TTS Neural Modern yn GweithioName
Y strwythur tu ôl i lais AI sy'n swnio'n naturiol
Dadansoddeg a Normaleiddio TestunName
Mae' r testun crai yn cael ei lanhau a' i normaleiddio: mae rhifau' n dod yn eiriau (\
Model Sain (Testun i Sbectrogram)
Mae'r model sain (yn aml trawsnewidydd neu rwydwaith awto-adferol) yn cymryd y dilyniant ffônema ac yn rhagweld sbectrogram mel - cynrychiolaeth weledol o sut mae'r sain yn cael ei gynhyrchu.
Vocoder (Sbectrogram i Sain)
Mae'r vocoder yn trosi'r sbectrogram mel i ffurfiau tonnau sain gwirioneddol. Cynhyrchodd vocoders cynnar fel Griffin-Lim arteffactau robotig. Mae vocoders nerfol modern (HiFi-GAN, BigVGAN, Vocos) yn creu sain 24kHz neu 44.1kHz o ddilysrwydd uchel sy'n dal y manylion bach o siarad naturiol, gan gynnwys sain anadl a symudiadau llyfn y llygaid.
Modelau Diwedd-i-Diwedd
Mae'r modelau diweddaraf fel VITS, Kokoro, a Bark yn hepgor y pibellau dau gam yn llwyr. Maent yn mynd yn uniongyrchol o destun i sain mewn rhwydwaith nerfol sengl, gan gynhyrchu canlyniadau mwy naturiol gyda llai o arteffactau. Gall rhai modelau (fel Bark) hyd yn oed greu sain nad yw'n siarad, chwerthin, a cherddoriaeth ynghyd â siarad.
Cyferbyniwyd Cyrsiau TTS
Sut mae'r pedwar cenedl o dechnoleg TTS yn cymharu
| Cyfeiriad | Era | Naturioldeb | Hyblygrwydd | Cyflymder | Angen Data |
|---|---|---|---|---|---|
| Cyfansoddiad Fformant Modelu amledd yn seiliedig ar reolau |
1960s-1990s | Dim | |||
| Cyfunol Rhannau sain wedi'u cymysgu |
1990s-2010s | 10-20+ awr | |||
| Paramedrau (HMM/DNN) Modelau Lleferydd Ystadegol |
2000s-2016 | 1-5 awr | |||
| Neural End-to-End Dysgu dwys (VITS, Kokoro, Bark) |
2016-Cyfredol | Munud i awr |
Cymhwysiadau Cyffredin TTS
Lle defnyddir testun-i-leferydd heddiw
Hygyrchedd
Mae darllenwyr sgrin, dyfeisiau cymorth, ac offer ar gyfer pobl â nam ar eu golwg neu anableddau darllen yn dibynnu ar TTS i wneud cynnwys digidol yn hygyrch i bawb.
Creu cynnwys
Defnyddir TTS gan YouTubers, podcasters, a chrëwyr cyfryngau cymdeithasol ar gyfer cyfieithiadau llais, naratifau, a chynhyrchu cynnwys awtomatig ar raddfa.
Cymorthyddion Rhithwir
Mae Siri, Alexa, Google Assistant, a chatbots gwasanaeth cwsmeriaid yn defnyddio TTS i ddweud ymatebion yn naturiol i ddefnyddwyr.
Cwestiynau a Ofynnir yn Aml
Cwestiynau cyffredin am dechnoleg testun-i-leferydd
Trafod TTS Modern Eich Hun
Ceisiwch 24+ modelau llais AI o'r radd flaenaf am ddim. Gweler pa mor bell mae testun-i-leferydd wedi dod.