Beth yw Testun i Leferydd (TTS)?

Technoleg sy'n trosi testun wedi'i ysgrifennu i sain wedi'i ddweud gan ddefnyddio deallusrwydd artiffisial yw Testun i Leferydd. O gyfansoddwyr robotaidd cynnar i'r dydd heddiw

Technoleg Hanes Sut mae'n Gweithio Rhwydweithiau NeuralName Evolution

Testun i LeferyddComment

Deall blociau adeiladu cyfansoddiad siarad modern

Beth mae TTS yn ei olygu

Mae TTS yn sefyll am Testun-i-Lafaru — y dechnoleg sy'n trosi testun ysgrifenedig i sain wedi'i siarad gan ddefnyddio lleisiau a gynhyrchir gan gyfrifiadur.

Sut mae Neural TTS yn Gweithio

Mae TTS modern yn defnyddio rhwydweithiau nerfol ddwfn i ddadansoddi testun, rhagweld patrymau siarad, a chreu tonnau sain sy'n swnio'n anhygoel o ddynol.

Hanes Synthesizer LleferyddName

O systemau seiliedig ar reolau'r 1960au i gyfansoddiad cyswllt y 1990au i'r modelau nerfol presennol - sut y datblygodd TTS dros chwe degawd.

Modelau AI Modern

Mae modelau heddiw fel Kokoro, Bark, a CosyVoice 2 yn defnyddio trawsnewidyddion, lledaeniad, a dealltwriaeth amrywiol i gyflawni ansawdd siarad ar lefel dynol.

Cymhwysiadau

Mae TTS yn galluogi darllenwyr sgrin, llywio GPS, cynorthwywyr rhithwir, llyfrau sain, robotiaid gwasanaeth cwsmeriaid, platfformau e-ddysgu, a chreu cynnwys.

Cod Agored vs Masnachol

Mae modelau ffynhonnell agored (MIT, Apache 2.0) yn darparu TTS rhad ac am ddim, hunan-westeiadwy tra bod gwasanaethau masnachol yn cynnig APIau rheoli gyda SLAs a chefnogaeth.

Modelau TTS ar gael ar TTS.ai

O lais niwral cyflym ac ysgafn i lais niwral ansawdd stiwdio

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Gorau ar gyfer: Model bach o'r radd flaenaf - yn dangos pa mor bell mae TTS nerfol wedi dod

Ceisio Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Gorau ar gyfer: Model sy'n seiliedig ar drawsnewidydd yn dangos creu sain y tu hwnt i siarad

Ceisio Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonio Llywio

Gorau ar gyfer: Darlledu TTS gydag ansawdd parhad dynol a chlonio zero-shot

Ceisio CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Clonio Llywio

Gorau ar gyfer: Clonio llais zero-shot yn dangos ffiniau cyfansoddi llais

Ceisio Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Clonio Llywio

Gorau ar gyfer: Adeiladwaith awto-adferol yn blaenoriaethu ansawdd sain uchaf

Ceisio Tortoise TTS

Sut mae Neural TTS yn Gweithio

Y pibell gyfansoddi iaith fodern mewn pedwar cam

1

Deall y Sylfaenol

Mae TTS yn trosi testun ysgrifenedig i sain a lefarwyd. Mae systemau modern yn defnyddio rhwydweithiau nerfol a hyfforddwyd ar filoedd o oriau o recordiadau llais dynol.

2

Archwilio Modelau Amrywiol

Mae pob model TTS yn defnyddio pensaernïaeth wahanol (trawsnewidydd, lledaeniad, amrywiol) gyda grymoedd unigryw mewn cyflymder, ansawdd, a nodweddion.

3

Ceisiwch chi eich hun

Y ffordd orau o ddeall TTS yw ei ddefnyddio. Ceisiwch ein modelau am ddim uchod — gludwch unrhyw destun a chlywch ef yn cael ei ddweud mewn eiliad.

4

Cyfuno â' ch cyrsiau

Ar ôl i chi ddod o hyd i ddull rydych chi'n ei hoffi, defnyddiwch ein API i integreiddio TTS i'ch rhaglenni, cynhyrchion, neu llif gwaith creu cynnwys.

Hanes byr o Testun i LeferyddName

O beiriannau siarad mecanyddol i rwydweithiau nerfol

Diwrnodau Cynnar (1950au-1980au)

Mae'r siarad cyntaf a gynhyrchwyd gan gyfrifiadur yn dyddio'n ôl i 1961, pan oedd IBM

Systemau nodedig: Votrax (1970au), DECtalk (1984, a ddefnyddiwyd gan Stephen Hawking), Apple

Cyfansoddiad Cyfunol (1990au-2000au)

Mae TTS cydgysylltiedig yn cofnodi llais dynol go iawn yn siarad miloedd o gyfuniadau ffônema, yna'n cyfuno'r rhannau cywir wrth redeg. Cynhyrchodd hyn lais sy'n swnio'n fwy naturiol, ond roedd angen cronfeydd data mawr (yn aml 10-20 awr o recordiadau am bob llais). Roedd ansawdd yn dibynnu'n fawr ar ganfod cysylltiadau llyfn rhwng rhannau.

Defnyddir gan: AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS cynnar.

Ystadegol/Paramedrau (2000au-2010au)

Yn hytrach na chymysgu recordiadau, ddysgodd modelau paramegol gynrychioliad ystadegol o siarad. Creodd Modelau Markov Cudd (HMMs) a rhwydweithiau nerfol ddwfn yn ddiweddarach baramedrau siarad (bwlch, hyd, nodweddion sbectral) a oedd yn cael eu bwydo trwy vocoder. Caniataodd hyn geirfa ddiderfyn a chreu llais haws, ond yn aml cynhyrchodd y cam vocoder \

Modelau allweddol: HTS, Merlin, systemau cychwynnol wedi'u seilio ar DNN.

Neural TTS (2016-presennol)

Dechreuodd yr oes fodern gyda WaveNet (DeepMind, 2016), a gynhyrchodd sampl sain ar sail sampl gan ddefnyddio rhwydweithiau nerfol ddwfn. Dilynwyd hyn gan Tacotron (Google, 2017), a ddysgodd fapio testun yn uniongyrchol i sbectrogramau. Heddiw

Datblygiadau allweddol: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Sut mae TTS Neural Modern yn GweithioName

Y strwythur tu ôl i lais AI sy'n swnio'n naturiol

Dadansoddeg a Normaleiddio TestunName

Mae' r testun crai yn cael ei lanhau a' i normaleiddio: mae rhifau' n dod yn eiriau (\

Model Sain (Testun i Sbectrogram)

Mae'r model sain (yn aml trawsnewidydd neu rwydwaith awto-adferol) yn cymryd y dilyniant ffônema ac yn rhagweld sbectrogram mel - cynrychiolaeth weledol o sut mae'r sain yn cael ei gynhyrchu.

Vocoder (Sbectrogram i Sain)

Mae'r vocoder yn trosi'r sbectrogram mel i ffurfiau tonnau sain gwirioneddol. Cynhyrchodd vocoders cynnar fel Griffin-Lim arteffactau robotig. Mae vocoders nerfol modern (HiFi-GAN, BigVGAN, Vocos) yn creu sain 24kHz neu 44.1kHz o ddilysrwydd uchel sy'n dal y manylion bach o siarad naturiol, gan gynnwys sain anadl a symudiadau llyfn y llygaid.

Modelau Diwedd-i-Diwedd

Mae'r modelau diweddaraf fel VITS, Kokoro, a Bark yn hepgor y pibellau dau gam yn llwyr. Maent yn mynd yn uniongyrchol o destun i sain mewn rhwydwaith nerfol sengl, gan gynhyrchu canlyniadau mwy naturiol gyda llai o arteffactau. Gall rhai modelau (fel Bark) hyd yn oed greu sain nad yw'n siarad, chwerthin, a cherddoriaeth ynghyd â siarad.

Cyferbyniwyd Cyrsiau TTS

Sut mae'r pedwar cenedl o dechnoleg TTS yn cymharu

Cyfeiriad Era Naturioldeb Hyblygrwydd Cyflymder Angen Data
Cyfansoddiad Fformant
Modelu amledd yn seiliedig ar reolau
1960s-1990s Dim
Cyfunol
Rhannau sain wedi'u cymysgu
1990s-2010s 10-20+ awr
Paramedrau (HMM/DNN)
Modelau Lleferydd Ystadegol
2000s-2016 1-5 awr
Neural End-to-End
Dysgu dwys (VITS, Kokoro, Bark)
2016-Cyfredol Munud i awr

Cymhwysiadau Cyffredin TTS

Lle defnyddir testun-i-leferydd heddiw

Hygyrchedd

Mae darllenwyr sgrin, dyfeisiau cymorth, ac offer ar gyfer pobl â nam ar eu golwg neu anableddau darllen yn dibynnu ar TTS i wneud cynnwys digidol yn hygyrch i bawb.

Creu cynnwys

Defnyddir TTS gan YouTubers, podcasters, a chrëwyr cyfryngau cymdeithasol ar gyfer cyfieithiadau llais, naratifau, a chynhyrchu cynnwys awtomatig ar raddfa.

Cymorthyddion Rhithwir

Mae Siri, Alexa, Google Assistant, a chatbots gwasanaeth cwsmeriaid yn defnyddio TTS i ddweud ymatebion yn naturiol i ddefnyddwyr.

Cwestiynau a Ofynnir yn Aml

Cwestiynau cyffredin am dechnoleg testun-i-leferydd

Mae TTS yn golygu Testun-i-Lafaru. Mae'n cyfeirio at y dechnoleg sy'n trosi testun ysgrifenedig i eiriau llafar clywadwy gan ddefnyddio lleisiau synthetig neu wedi'u creu gan AI. Defnyddir y term yn hytrach na "cymysgu llais" yn y llenyddiaeth dechnegol.

Mae systemau TTS modern yn gweithio mewn tri cam: dadansoddi testun (gramadegu, normaleiddio, trawsnewid sain), rhagolygon prosodaidd (penderfynu rhythm, uchder, pwysau, a seibiau), a chyfuniad sain (creu' r tonfedd sain wir). Mae modelau nerfol yn dysgu pob cam o ddata hyfforddi.

Mae TTS cydgysylltiedig yn cymysgu darnau o siarad wedi'u rhag- recordio, sy'n gallu swnio'n chwerthinllyd wrth drosglwyddiadau. Mae TTS nerfol yn creu siarad o'r dechrau gan ddefnyddio dysgu dwfn, gan gynhyrchu sain sy'n swnio'n fwy naturiol a mwy llyfn gyda phrosodi a teimladau gwell.

Iaith marcio seiliedig ar XML yw SSML (Speech Synthesis Markup Language) sy' n gadael i chi reoli sut mae systemau TTS yn llefaru testun. Gallwch benodi seibiau, pwyslais, llefaru, newidiadau sain, a chyfradd siarad gan ddefnyddio tagiau SSML o fewn eich mewnbwn testun.

Mae TTS yn cael ei ddefnyddio ar gyfer hygyrchedd (darllenwyr sgrin ar gyfer defnyddwyr â nam ar eu golwg), gwirfoddolwyr rhithwir (Siri, Alexa, Google Assistant), cynhyrchu llyfr sain, e-ddysgu, llywio GPS, systemau IVR gwasanaeth cwsmeriaid, creu cynnwys, a rhaglenni dysgu iaith.

Mae TTS wedi esblygu o systemau robotig sy'n seiliedig ar reolau yn y 1960au, i gyfansoddiad cydgysylltiedig yn y 1990au, i gyfansoddiad paramedrau ystadegol yn y 2000au, i TTS nerfol gyda WaveNet yn 2016, i'r modelau trawsnewidydd a lledaenu presennol sy'n cyrraedd ansawdd lefel dynol.

Mae TTS sy'n swnio'n naturiol yn gofyn am gyfansoddiad cywir (rhythm, pwyslais, cyferbyniad), cyflymder addas, trawsnewidion llyfn rhwng fonemau, a dynodiad llais cydlynol. Mae modelau nerfol yn dysgu'r patrwm yma o gronfeydd data mawr o recordiadau llais dynol naturiol.

Gall modelau clonio llais fel Chatterbox a CosyVoice 2 ail-greu llais penodol o 5-30 eiliad o sain cyfeirio. Mae'r llais cloniedig yn cofnodi'r tymheredd, yr ieithwedd, a'r arddull siarad, er bod ystyriaethau moesol a chyfreithiol yn berthnasol i gloni llais eraill.

Mae modelau TTS modern yn cynnal 30+ o ieithoedd. Mae rhai modelau'n arbenigo mewn ieithoedd penodol tra bod eraill yn aml-ieithog. Mae gan Saesneg y modelau a'r lleisiau mwyaf ar gael, ond mae Tsieinëeg, Japaneg, Corea, Sbaeneg, ac ieithoedd Ewropeaidd yn cael eu cynnal yn dda.

TTS yw is-set o greu llais AI. TTS yn benodol yn trosi mewnbwn testun i allbwn llais. Creu llais AI yw term ehangach sy'n cynnwys hefyd clôn llais, trawsnewid llais, llais-i-llais, a chreu effeithiau sain.

Mae'n dibynnu ar eich anghenion. Mae Kokoro yn cynnig y cydbwysedd gorau rhwng cyflymder a ansawdd ar gyfer defnydd cyffredinol. Mae Chatterbox yn arwain mewn clonio llais. Mae Orpheus yn rhagori wrth fynegi teimladau. Mae StyleTTS 2 yn cynhyrchu'r disgrifiad siaradwr sengl mwyaf naturiol. Nid oes un model "uchaf" ar gyfer pob achos defnydd.

Ydy. Mae pob model ar TTS.ai yn ffynhonnell agored a gellir eu hunan-gartrefu. Mae modelau CPU yn unig fel Piper yn rhedeg ar unrhyw gyfrifiadur. Mae angen modelau GPU fel Kokoro a Bark ar GPU NVIDIA gyda 2-8GB o VRAM. Mae ein platfform hefyd yn darparu mynediad cartrefi fel nad oes angen i chi reoli'r strwythur.
5.0/5 (1)

Trafod TTS Modern Eich Hun

Ceisiwch 24+ modelau llais AI o'r radd flaenaf am ddim. Gweler pa mor bell mae testun-i-leferydd wedi dod.