Kas yra tekstas į kalbą (TTS)?
Tekstas į kalbą yra technologija, kuri paverčia rašytinį tekstą į garsiai pavartotą garsą dirbtiniu intelektu. Nuo ankstyvų robotų sintezatorių iki šiandienos neuronų tinklų, kurie skamba neišskiriamai nuo žmonių, TTS pakeitė tai, kaip mes bendraujame su technologijomis, vartojame turinį ir darome informaciją prieinamą.
Pagrindinės sąvokos tekste į kalbą
Suprasti šiuolaikinės kalbos sintezės pagrindus
Ką TTS stovi už
TTS reiškia Text-to-Speech - technologija, kuri konvertuoja rašytinį tekstą į garsiai garsą naudojant kompiuterio sukurtas balsus.
Kaip veikia neuriniai TTS
Šiuolaikinės TTS naudoja gilius neurologinius tinklus analizuoti tekstą, prognozuoti kalbos modelius ir generuoti garso bangų formas, kurios skamba nepaprastai žmogaus.
Kalbų apibendrinimo istorija
Nuo 1960 m. taisyklėmis paremtų sistemų iki 1990 m. konvencinės sintezės iki šiandienos neuronų modelių – kaip TTS išsivystė per šešis dešimtmečius.
Šiuolaikiniai AI modeliai
Šiandieniniuose modeliuose, pavyzdžiui, Kokoro, Bark, ir CosyVoice 2, naudojami transformatoriai, difuzija, ir variantinis bandymas pasiekti žmogaus lygio kalbos kokybės.
Bendros paraiškos
TTS galios ekrano skaitytuvai, GPS navigacija, virtualieji asistentai, garso knygos, klientų aptarnavimo robotai, e-mokymosi platformos ir turinio kūrimas.
Atviras šaltinis vs komercinis
Atvirojo kodo modeliai (MIT, Apache 2.0) teikia nemokamus, savarankiškai priimamus TTS, o komercinės paslaugos siūlo valdyti API su SLA ir parama.
TTS modeliai prieinami TTS.ai
Nuo greitų ir lengvų iki studijų kokybės nervinių balsų
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
Geriausias už: Šiuolaikinis mažas modelis – rodo, kiek toli nervinių TTS atėjo
Bandyti Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
Geriausias už: Transformatoriaus modelis, demonstruojantis garso generaciją be kalbos
Bandyti Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
Geriausias už: Srauto PTS su žmogaus pariteto kokybe ir nuliniu klonavimu
Bandyti CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
Geriausias už: Nulio smogtuvo balso klonavimas, rodantis balso sintezės ribas
Bandyti Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
Geriausias už: Autoregesyvi architektūra, suteikianti pirmenybę maksimaliai garso kokybei
Bandyti Tortoise TTSKaip veikia neuriniai TTS
Šiuolaikinis kalbos sintezės vamzdynas keturiuose etapuose
Supraskite pagrindus
TTS paverčia rašytinį tekstą garsiniu garsu. Šiuolaikinės sistemos naudoja neuroninius tinklus, apmokytus tūkstančiais valandų žmogaus kalbos įrašų.
Tyrinėti skirtingus modelius
Kiekvienas TTS modelis naudoja kitokią architektūrą (transformatorius, difuziją, variaciją) su unikalių stiprumų greičio, kokybės ir funkcijų.
Pamėgink save
Geriausias būdas suprasti TTS yra jį naudoti. Išbandykite mūsų nemokamus modelius aukščiau - įklijuokite bet kokį tekstą ir išgirskite jį kalbama per kelias sekundes.
Integruokite savo projektus
Kai rasite jums patinkantį modelį, naudokite mūsų API integruoti TTS į savo programas, produktus ar turinio kūrimas darbo srautas.
Trumpa teksto iki kalbos istorija
Nuo mechaninių kalbėjimo mašinų iki nervinių tinklų
Ankstyvosios dienos (1950–1980 m.)
Pirmoji kompiuterio sukurta kalba datuojama 1961 metais, kai IBM
Pažymima sistema: Votrax (1970 m.), DECtalk (1984 m., naudojama Stephen Hawking), Apple
Konkatancinė santrauka (1990-2000 m.)
Konkatanciniai TTS įrašo tikrą žmogaus balso kalba tūkstančiai fonemo derinių, tada susiūti kartu tinkamus segmentus vykdymo metu. Tai sukūrė daugiau natūralus kalba, bet reikalavo masyvių duomenų bazių (dažnai 10-20 valandų įrašų vienam balsui). Kokybė labai priklauso nuo to, ar bus rastas sklandus prisijungimas tarp segmentų.
Naudojamas: AT&T Natural Voices, Nuance Vocalizer, anksti Google Translate TTS.
Statistiniai ir (arba) parametrai (2000–2010 m.)
Užuot siuvinėjus įrašus, parametriniai modeliai išmoko statistinių kalbos atvaizdų. Paslėpti Markov Modeliai (HMM) ir vėliau gilios nervų tinklai generavo kalbos parametrus (pikis, trukmė, spektro funkcijos), kurie buvo pamaitinti per vokoderis. Tai leido neribotą žodyną ir lengviau sukurti balso, bet vokoderis žingsnis dažnai sukūrė \
Pagrindiniai modeliai: HTS, Merlin, ankstyvosios DNN grindžiamos sistemos.
Neural TTS (2016-Prezidentas)
Šiuolaikinė era prasidėjo su WaveNet (DeepMind, 2016), kuris generavo garso mėginį, naudojant gilią nervų tinklą. Tai buvo po Tacotron (Google, 2017), kuris išmoko žemėlapį tiesiogiai į spektroogramas. Šiandien
Pagrindiniai proveržiai: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.
Kaip veikia šiuolaikiniai neuriniai TTS
Natūralių AI balsų architektūra
Tekstų analizė ir normalizavimas
Žalias tekstas yra išvalytas ir normalizuotas: skaičiai tampa žodžiais (\
Akustinis modelis (tekstas į Spectrogramą)
Akustinis modelis (dažnai Transformatoriaus ar autoregesyviojo tinklo) užima fonemo seką ir nuspėja melo spektrą — vizualų garso vaizdą
Vokoderis (Spectrograma į Audio)
Vokoderis paverčia mel spektrą į tikras garso bangų formas. Ankstyvieji vokoderiai, pavyzdžiui, Griffin-Lim gaminami robotiniai artefaktai. Modernūs neuroniniai vokoderiai (HiFi-GAN, BigVGAN, Vocos) generuoja aukštos patikimumo 24kHz arba 44,1kHz garso, kuris fiksuoja smulkias detales natūralios kalbos, įskaitant kvapo garsus ir subtilus lūpų judesius.
Modeliai nuo galo iki galo
Naujausi modeliai, tokie kaip VITS, Kokoro ir Barkas, visiškai praleidžia dviejų pakopų vamzdyną. Jie eina tiesiai iš teksto į garsą viename nervų tinkle, o natūralesni rezultatai gaunami su mažiau artefaktų. Kai kurie modeliai (kaip Barkas) gali net generuoti ne skambesį, juokdarį ir muziką kartu su kalba.
TTS metodai, palyginti su
Kaip lyginamos keturios TTS technologijos kartos
| Artėjimas tūpti | Era | Natūralumas | Lankstumas | Greitis | Reikia duomenų |
|---|---|---|---|---|---|
| Suformuojanti sintezė Taisyklėmis grindžiamas dažnio modeliavimas |
1960s-1990s | Nieko | |||
| Konkretaus pobūdžio Sustingdyti garso segmentai |
1990s-2010s | 10-20+ val. | |||
| Parametrai (HMM/DNN) Statistiniai kalbos modeliai |
2000s-2016 | 1–5 valandos | |||
| Neurinė pabaiga iki galo Gilus mokymasis (VITS, Kokoro, barkas) |
2016-Dabartinis | Minutės į valandas |
Bendros TTS taikomosios programos
Kur šiandien vartojamas kalbos tekstas
Prieinamumas
Ekrano skaitytuvai, pagalbiniai prietaisai ir priemonės žmonėms su regos sutrikimais ar skaitytuvais pasikliauja TTS, kad skaitmeninis turinys būtų prieinamas visiems.
Turinio kūrimas
YouTube, podcasteriai, ir socialinės žiniasklaidos kūrėjai naudoja TTS garsiakalbiams, narracija, ir automatinis turinio gamyba masto.
Virtualūs pagalbininkai
Siri, Alexa, Google Assistant, ir klientų aptarnavimo pokalbių robotai visi naudoti TTS kalbėti atsakymus natūraliai vartotojams.
Dažnai užduodami klausimai
Dažnai kylantys klausimai apie kalbinių technologijų tekstą
Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.
Patirtis Šiuolaikiniai TTS Savo
Išbandykite 20+ moderniausius AI balso modelius nemokamai. Žiūrėkite, koks toli yra žodis.