Mis on kõnetekst (TTS)?

Tekst kõneks on tehnoloogia, mis teisendab kirjaliku teksti kõneks tehisintellekti kasutades. Varastest robotisüntesaatoritest tänapäeva närvivõrkudeni, mis kõlavad inimestelt eristamatutena, on TTS muutnud seda, kuidas me tehnoloogiaga suhtleme, tarbime sisu ja teeme teabe kättesaadavaks.

Tehnoloogia Ajalugu Kuidas see toimib Neuraalsed võrgud Evolutsioon

Põhimõisted kõnetekstis

Nüüdisaja kõnesünteesi alustalade mõistmine

Mida TTS tähendab?

TTS tähendab teksti kõneks muutmise tehnoloogiat, mis teisendab kirjaliku teksti hääldatuks audioks arvuti loodud häälte abil.

Kuidas Neural TTS toimib

Modern TTS kasutab sügavaid närvivõrke teksti analüüsimiseks, kõnemustrite prognoosimiseks ja helilainevormide genereerimiseks, mis kõlavad märkimisväärselt inimese moodi.

Kõneteooria ajalugu

Alates 1960ndate reeglitel põhinevad süsteemid kuni 1990ndatel koosmõju sünteesi tänapäeva närvimudelid ~ kuidas TTS arenenud kuue aastakümne jooksul.

Kaasaegsed AI mudelid

Tänapäeva mudelid nagu Kokoro, Bark, ja CosyVoice 2 kasutavad trafod, difusiooni ja variational järeldus saavutada inimese tasemel kõne kvaliteeti.

Ühised taotlused

TTS volitused ekraani lugejad, GPS navigation, virtuaalne assistendid, audioraamatud, klienditeenindus robotid, e-õppe platvormid, ja sisu loomine.

Avatud Allikas vs. kaubandus

Avatud lähtekoodiga mudelid (MIT, Apache 2.0) pakuvad tasuta, isemajandatavaid TTS-sid, samas kui kommertsteenused pakuvad juhitavaid API-sid SLA-de ja toetusega.

TTS mudelid saadaval TTS.ai

Kiiretest ja kergetest kuni stuudio kvaliteediga närvihäälteni

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Parim: Uusim väike mudel näitab, kui kaugele närviline TTS on jõudnud.

Proovi Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Parim: Transformeril põhinev mudel, mis näitab audio genereerimist väljaspool kõnet

Proovi Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Hääle kloonimine

Parim: Trimmimine transformaatoritega, mille kvaliteet on inimlik, ja nullkuuma kloonimine

Proovi CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Hääle kloonimine

Parim: Null-kuus hääl kloonimine näitab piiri hääl sünteesi

Proovi Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Hääle kloonimine

Parim: Automaatselt regressiivne arhitektuur, mis seab prioriteediks maksimaalse helikvaliteedi

Proovi Tortoise TTS

Kuidas Neural TTS toimib

Kaasaegne kõnesünteesijuhe neljas etapis

1

Mõista põhitõdesid

TTS teisendab kirjaliku teksti kõneks. Tänapäeva süsteemid kasutavad närvivõrgustikke, mis on treenitud tuhandetel tundidel inimeste kõnesalvestistel.

2

Uuri erinevaid mudeleid

Iga TTS mudel kasutab erinevat arhitektuuri (transformaator, difusiooni, variational), millel on unikaalsed tugevused kiiruses, kvaliteedis ja omadustes.

3

Proovi ise.

Parim viis TTS-i mõistmiseks on seda kasutada. Proovige meie tasuta mudeleid üle ® kleepige mis tahes tekst ja kuulake seda sekunditega.

4

Integreeri oma projektidesse

Kui leiate mudeli, mis teile meeldib, kasutage meie API integreerida TTS oma rakendustesse, toodetesse, või sisu loomine töövoog.

Lühiajalugu kõnetekstist

Mehhaanilistest rääkimismasinatest närvivõrkudeni

Varajased päevad (1900-1980)

Esimene arvutipõhine kõne pärineb 1961. aastast, mil IBM

Märkimisväärsed süsteemid: Votrax (1970), DECtalk (1984, kasutab Stephen Hawking), Apple

Concatenative Synthesis (1990-2000)

Kontainatiivne TTS salvestab inimese tõelise hääle, mis kõneleb tuhandetest telefonikombinatsioonidest, siis õmbleb kokku õigeid segmente runtime'i ajal. See tekitas rohkem loomulikku kõlavat kõnet, kuid nõudis massiivseid andmebaase (sageli 10-20 tundi salvestusi hääle kohta). Kvaliteet sõltus suuresti segmentide vahel sujuvate ühenduste leidmisest.

Kasutatakse: AT&T Natural Voices, Nuance Vocalizer, varajase Google Translate TTS.

Statistiline/parameetriline (2000.-2010.)

Salvestuste õmblemise asemel õppisid parameetrilised mudelid kõne statistilisi esitusi. Varjatud Markovi mudelid (HMMid) ja hilisemad sügavad närvivõrgud tekitasid kõneparameetreid (pigi, kestus, spektraaljooned), mida söödeti läbi vocoderi. See võimaldas piiramatut sõnavara ja lihtsamat hääleloomist, kuid vocoderi samm andis sageli tulemuseks \

Põhimudelid: HTS, Merlin, varajased DNN-põhised süsteemid.

Neural TTS (2016 - Present)

Nüüdisaegne ajastu algas WaveNet'iga (DeepMind, 2016), mis tekitas audioproovi süvaneuraalvõrkude abil. Sellele järgnes Tacotron (Google, 2017), kes õppis teksti kaardistama otse spektrogrammidega.

Peamised läbimurded: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Kuidas nüüdisaegne neuroneutraalne TTS toimib

Arhitektuur loomuliku kõlava tehisintellekti häälte taga

Teksti analüüs ja normaliseerimine

Toortekst puhastatakse ja normaliseeritakse: numbrid muutuvad sõnadeks (\

Akustiline mudel (tekst spektrogrammile)

Akustiline mudel (sageli transformer või autoregressiivne võrk) võtab telefoni jada ja ennustab mel spektrogramm ~ visuaalne esitus sellest, kuidas heli

Vocoder (Spectrogram to Audio)

Vokoder teisendab mel spektrogrammi tegelikeks helilainevormideks. Varased vokodeerijad nagu Griffin-Lim toodavad robotlikke esemeid. Modernsed neuraalsed vokodeerijad (HiFi-GAN, BigVGAN, Vokos) tekitavad suure truuduse 24kHz või 44,1kHz heli, mis haarab loomuliku kõne peeni detaile, sealhulgas hingeõhu helisid ja peeneid huuleliigutusi.

Lõpp-lõppmudelid

Viimased mudelid nagu VITS, Kokoro ja Bark jätavad kaheastmelise torujuhtme täielikult vahele. Nad lähevad tekstist otse audiosse ühes närvivõrgus, luues rohkem looduslikke tulemusi vähem artefaktidega. Mõned mudelid (nagu Bark) võivad kõne kõrval tekitada isegi mittekõnelisi helisid, naeru ja muusikat.

TTS lähenemine võrreldes

Kuidas neli põlvkonda TTS tehnoloogia võrrelda

Lähenemisviis EraCountry name Looduslikkus Paindlikkus Kiirus Vajalikud andmed
Formaatiline sünteesimine
Reeglipõhine sagedusmodelleerimine
1960s-1990s Puudub
Kontatsioneeriv
Stitched audio segments
1990s-2010s 10-20+ tundi
Parameetrid (HMM/DNN)
Statistilised kõnemudelid
2000s-2016 1-5 tundi
Neural End- to- End
Sügav õppimine (VITS, Kokoro, Puukoor)
2016-Olemas Tundide protokollid

TTS-de ühised rakendused

Kus kõne teksti kasutatakse täna

Ligipääsetavus

Ekraanilugejad, abivahendid ja vahendid nägemispuudega või lugemispuudega inimestele toetuvad TTS-le, et teha digitaalne infosisu kõigile kättesaadavaks.

Sisu loomine

YouTubers, podcasters, ja sotsiaalmeedia loojad kasutavad TTS hääl, jutustamine ja automatiseeritud sisu tootmise skaalal.

Virtuaalsed abilised

Siri, Alexa, Google Assistent, ja klienditeenindus jutubotid kõik kasutavad TTS rääkida loomulikult kasutajatele.

Korduma kippuvad küsimused

Üldised küsimused kõnetehnika teksti kohta

TTS tähendab teksti kõneks. See viitab tehnoloogiale, mis teisendab kirjaliku teksti kuuldavateks sõnadeks, kasutades sünteesitud või tehisintellekti loodud hääli. Terminit kasutatakse tehnilises kirjanduses vaheldumisi sõna "kõnesüntees."

Modernsed TTS-süsteemid töötavad kolmes etapis: tekstianalüüs (parsing, normaliseerimine, telefonide teisendamine), prosoodia prognoos (rütmi, pigi, stressi ja pauside määramine) ja helisüntees (tegeliku helilainevormi genereerimine).Neuramudelid õpivad kõik kolm etappi treeningandmetest.

Kontainatiivne TTS lõikub eelnevalt salvestatud kõne fragmendid, mis võib kõlada härdalt üleminekul. Neural TTS genereerib kõne nullist kasutades sügav õppimine, toodab sujuvam, loomulikum heli parema prosoodia ja emotsioonid.

SSML (Speech Synthesis Markup Language) on XML- ipõhine märgistuskeel, mis võimaldab sul kontrollida, kuidas TTS- i süsteemid teksti hääldavad. Tekstisisendis saab määrata pausid, rõhud, hääldused, pigimuutused ja kõnesagedus, kasutades SSML silte.

TTS-i kasutatakse ligipääsetavuse (ekraanilugejad nägemispuudega kasutajatele), virtuaalsete assistentide (Siri, Alexa, Google Assistent), audioraamatute tootmise, e-õppe, GPS-navigatsiooni, klienditeeninduse IVR süsteemide, sisu loomise ja keeleõppe rakenduste jaoks.

TTS arenes robotitel põhinevatest reeglitel põhinevatest süsteemidest 1960ndatel 1990ndatel, statistilisest parameetrilisest sünteesist 2000ndatel aastatel kuni neuraalse TTS-ni koos WaveNetiga 2016. aastal kuni tänapäeva trafo- ja difusioonimudeliteni, mis saavutavad inimeste kvaliteedi.

Loomulik kõlav TTS nõuab täpset prosoodiat (riim, stress, intonatsioon), sobivat patseerimist, sujuvat üleminekut telefonide vahel ja järjekindlat hääleidentiteedi. Neural mudelid õpivad neid mustreid suurtest inimkõnede salvestuste andmekogumitest.

Hääle kloonimise mudelid nagu Chatterbox ja CosyVoice 2 võivad kopeerida konkreetse hääle nii vähe kui 5-30 sekundit viide heli. Kloonitud hääl lööb timbre, aktsent, ja rääkides stiili, kuigi eetilised ja õiguslikud kaalutlused kehtivad kloonimine teiste hääled.

Modernsed TTS mudelid toetavad ühiselt 30+ keelt. Mõned mudelid on spetsialiseerunud konkreetsetele keeltele, teised aga mitmekeelsed. Inglise keelel on kõige kättesaadavamad mudelid ja hääled, kuid hiina, jaapani, korea, hispaania ja Euroopa keeled on hästi toetatud.

TTS on AI hääle genereerimise alamhulk. TTS teisendab spetsiaalselt tekstisisendi kõneväljundisse. AI hääle genereerimine on laiem termin, mis hõlmab ka hääle kloonimist, häälemuutmist, kõne kõnest kõnelemist ja heliefekti genereerimist.

See sõltub teie vajadustest. Kokoro pakub parimat tasakaalu kiiruse ja kvaliteedi üldiseks kasutamiseks. Chatterbox viib hääl kloonimine. Orpheus paistab silma emotsionaalne väljendus. StyleTTS 2 toodab kõige loomulikum ühe kõne kõlar jutustamine. Ei ole üks "parim" mudel kõigil kasutusjuhtudel.

Jah. Kõik mudelid TTS.ai on avatud lähtekoodiga ja võib olla isehostitud. CPU ainult mudelid nagu Piper käivitada tahes arvuti. GPU mudelid nagu Kokoro ja Bark vajavad NVIDIA GPU 2-8GB VRAM. Meie platvorm pakub ka võõrustatud juurdepääsu, et sa ei pea infrastruktuuri hallata.
5.0/5 (1)

Mida me võiks parandada? Teie tagasiside aitab meil lahendada küsimusi.

Kogegem nüüdisaegset TTS-i

Proovi tasuta 20+ kõrgtasemel tehisintellekti häälemudeleid. Vaata, kui kaugele on kõne tekst jõudnud.