Kas yra tekstas į kalbą (TTS)?

Tekstas į kalbą yra technologija, kuri paverčia rašytinį tekstą į garsiai pavartotą garsą dirbtiniu intelektu. Nuo ankstyvų robotų sintezatorių iki šiandienos neuronų tinklų, kurie skamba neišskiriamai nuo žmonių, TTS pakeitė tai, kaip mes bendraujame su technologijomis, vartojame turinį ir darome informaciją prieinamą.

Technologijos Istorija Kaip tai veikia Neuriniai tinklai Evoliucija

Pagrindinės sąvokos tekste į kalbą

Suprasti šiuolaikinės kalbos sintezės pagrindus

Ką TTS stovi už

TTS reiškia Text-to-Speech - technologija, kuri konvertuoja rašytinį tekstą į garsiai garsą naudojant kompiuterio sukurtas balsus.

Kaip veikia neuriniai TTS

Šiuolaikinės TTS naudoja gilius neurologinius tinklus analizuoti tekstą, prognozuoti kalbos modelius ir generuoti garso bangų formas, kurios skamba nepaprastai žmogaus.

Kalbų apibendrinimo istorija

Nuo 1960 m. taisyklėmis paremtų sistemų iki 1990 m. konvencinės sintezės iki šiandienos neuronų modelių – kaip TTS išsivystė per šešis dešimtmečius.

Šiuolaikiniai AI modeliai

Šiandieniniuose modeliuose, pavyzdžiui, Kokoro, Bark, ir CosyVoice 2, naudojami transformatoriai, difuzija, ir variantinis bandymas pasiekti žmogaus lygio kalbos kokybės.

Bendros paraiškos

TTS galios ekrano skaitytuvai, GPS navigacija, virtualieji asistentai, garso knygos, klientų aptarnavimo robotai, e-mokymosi platformos ir turinio kūrimas.

Atviras šaltinis vs komercinis

Atvirojo kodo modeliai (MIT, Apache 2.0) teikia nemokamus, savarankiškai priimamus TTS, o komercinės paslaugos siūlo valdyti API su SLA ir parama.

TTS modeliai prieinami TTS.ai

Nuo greitų ir lengvų iki studijų kokybės nervinių balsų

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Geriausias už: Šiuolaikinis mažas modelis – rodo, kiek toli nervinių TTS atėjo

Bandyti Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Geriausias už: Transformatoriaus modelis, demonstruojantis garso generaciją be kalbos

Bandyti Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Balso klonavimas

Geriausias už: Srauto PTS su žmogaus pariteto kokybe ir nuliniu klonavimu

Bandyti CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Balso klonavimas

Geriausias už: Nulio smogtuvo balso klonavimas, rodantis balso sintezės ribas

Bandyti Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Balso klonavimas

Geriausias už: Autoregesyvi architektūra, suteikianti pirmenybę maksimaliai garso kokybei

Bandyti Tortoise TTS

Kaip veikia neuriniai TTS

Šiuolaikinis kalbos sintezės vamzdynas keturiuose etapuose

1

Supraskite pagrindus

TTS paverčia rašytinį tekstą garsiniu garsu. Šiuolaikinės sistemos naudoja neuroninius tinklus, apmokytus tūkstančiais valandų žmogaus kalbos įrašų.

2

Tyrinėti skirtingus modelius

Kiekvienas TTS modelis naudoja kitokią architektūrą (transformatorius, difuziją, variaciją) su unikalių stiprumų greičio, kokybės ir funkcijų.

3

Pamėgink save

Geriausias būdas suprasti TTS yra jį naudoti. Išbandykite mūsų nemokamus modelius aukščiau - įklijuokite bet kokį tekstą ir išgirskite jį kalbama per kelias sekundes.

4

Integruokite savo projektus

Kai rasite jums patinkantį modelį, naudokite mūsų API integruoti TTS į savo programas, produktus ar turinio kūrimas darbo srautas.

Trumpa teksto iki kalbos istorija

Nuo mechaninių kalbėjimo mašinų iki nervinių tinklų

Ankstyvosios dienos (1950–1980 m.)

Pirmoji kompiuterio sukurta kalba datuojama 1961 metais, kai IBM

Pažymima sistema: Votrax (1970 m.), DECtalk (1984 m., naudojama Stephen Hawking), Apple

Konkatancinė santrauka (1990-2000 m.)

Konkatanciniai TTS įrašo tikrą žmogaus balso kalba tūkstančiai fonemo derinių, tada susiūti kartu tinkamus segmentus vykdymo metu. Tai sukūrė daugiau natūralus kalba, bet reikalavo masyvių duomenų bazių (dažnai 10-20 valandų įrašų vienam balsui). Kokybė labai priklauso nuo to, ar bus rastas sklandus prisijungimas tarp segmentų.

Naudojamas: AT&T Natural Voices, Nuance Vocalizer, anksti Google Translate TTS.

Statistiniai ir (arba) parametrai (2000–2010 m.)

Užuot siuvinėjus įrašus, parametriniai modeliai išmoko statistinių kalbos atvaizdų. Paslėpti Markov Modeliai (HMM) ir vėliau gilios nervų tinklai generavo kalbos parametrus (pikis, trukmė, spektro funkcijos), kurie buvo pamaitinti per vokoderis. Tai leido neribotą žodyną ir lengviau sukurti balso, bet vokoderis žingsnis dažnai sukūrė \

Pagrindiniai modeliai: HTS, Merlin, ankstyvosios DNN grindžiamos sistemos.

Neural TTS (2016-Prezidentas)

Šiuolaikinė era prasidėjo su WaveNet (DeepMind, 2016), kuris generavo garso mėginį, naudojant gilią nervų tinklą. Tai buvo po Tacotron (Google, 2017), kuris išmoko žemėlapį tiesiogiai į spektroogramas. Šiandien

Pagrindiniai proveržiai: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Kaip veikia šiuolaikiniai neuriniai TTS

Natūralių AI balsų architektūra

Tekstų analizė ir normalizavimas

Žalias tekstas yra išvalytas ir normalizuotas: skaičiai tampa žodžiais (\

Akustinis modelis (tekstas į Spectrogramą)

Akustinis modelis (dažnai Transformatoriaus ar autoregesyviojo tinklo) užima fonemo seką ir nuspėja melo spektrą — vizualų garso vaizdą

Vokoderis (Spectrograma į Audio)

Vokoderis paverčia mel spektrą į tikras garso bangų formas. Ankstyvieji vokoderiai, pavyzdžiui, Griffin-Lim gaminami robotiniai artefaktai. Modernūs neuroniniai vokoderiai (HiFi-GAN, BigVGAN, Vocos) generuoja aukštos patikimumo 24kHz arba 44,1kHz garso, kuris fiksuoja smulkias detales natūralios kalbos, įskaitant kvapo garsus ir subtilus lūpų judesius.

Modeliai nuo galo iki galo

Naujausi modeliai, tokie kaip VITS, Kokoro ir Barkas, visiškai praleidžia dviejų pakopų vamzdyną. Jie eina tiesiai iš teksto į garsą viename nervų tinkle, o natūralesni rezultatai gaunami su mažiau artefaktų. Kai kurie modeliai (kaip Barkas) gali net generuoti ne skambesį, juokdarį ir muziką kartu su kalba.

TTS metodai, palyginti su

Kaip lyginamos keturios TTS technologijos kartos

Artėjimas tūpti Era Natūralumas Lankstumas Greitis Reikia duomenų
Suformuojanti sintezė
Taisyklėmis grindžiamas dažnio modeliavimas
1960s-1990s Nieko
Konkretaus pobūdžio
Sustingdyti garso segmentai
1990s-2010s 10-20+ val.
Parametrai (HMM/DNN)
Statistiniai kalbos modeliai
2000s-2016 1–5 valandos
Neurinė pabaiga iki galo
Gilus mokymasis (VITS, Kokoro, barkas)
2016-Dabartinis Minutės į valandas

Bendros TTS taikomosios programos

Kur šiandien vartojamas kalbos tekstas

Prieinamumas

Ekrano skaitytuvai, pagalbiniai prietaisai ir priemonės žmonėms su regos sutrikimais ar skaitytuvais pasikliauja TTS, kad skaitmeninis turinys būtų prieinamas visiems.

Turinio kūrimas

YouTube, podcasteriai, ir socialinės žiniasklaidos kūrėjai naudoja TTS garsiakalbiams, narracija, ir automatinis turinio gamyba masto.

Virtualūs pagalbininkai

Siri, Alexa, Google Assistant, ir klientų aptarnavimo pokalbių robotai visi naudoti TTS kalbėti atsakymus natūraliai vartotojams.

Dažnai užduodami klausimai

Dažnai kylantys klausimai apie kalbinių technologijų tekstą

TTS reiškia Text-to-Speech. Jis nurodo technologiją, kuri konvertuoja rašytinį tekstą į garsiai girdimus žodžius, naudojant sintezės arba AI sukurtą balsus. Terminas yra naudojamas pakaitomis su "gyslų sintezę" techninėje literatūroje.

Šiuolaikinės TTS sistemos veikia trimis etapais: teksto analizė (parošimas, normalizavimas, fonetų konversija), prozodija (determinavimas ritmas, pikis, stresas, pauzės) ir garso sintezė (tikrosios garso bangos formos kūrimas).

Konkatanciniai TTS šypsena kartu su iš anksto įrašytomis kalbos fragmentais, kurie gali garsuoti choppy per perėjimus. Neuriniai TTS generuoja kalbą iš nulio naudojant gilią mokymąsi, sukuria lygesnį, natūralesnį garsą su geresne prozodija ir emocijomis.

SPML (Speech Synthesis Markup Language) yra XML pagrįsta žymėjimo kalba, kuri leidžia jums kontroliuoti, kaip TTS sistemos ištarti tekstą. Galite nurodyti pauzes, pabrėžti, ištarti, pikio pakeitimus ir kalbėjimo spartą naudojant SPML žymas teksto įvesties metu.

TTS yra naudojamas prieigai (ekrano skaitytuvai silpnaregiams vartotojams), virtualiems asistentams (Siri, Alexa, Google Assistant), garso knygų gamybai, e-mokymuisi, GPS navigacijai, klientų aptarnavimo IVR sistemoms, turinio kūrimui ir kalbų mokymosi programoms.

TTS išsivystė nuo robotinėmis taisyklėmis grindžiamų sistemų septintajame dešimtmetyje, iki konvencinės sintezės dešimtajame dešimtmetyje, iki statistinių parametrų sintezės 2000-ajame dešimtmetyje, iki nervinių TTS su WaveNet 2016 m., iki šiandieninių transformatorių ir difuzijos modelių, kurie užtikrina žmogaus lygio kokybę.

Gamtos garsų TTS reikalauja tikslios prozodijos (ritmas, stresas, intonacija), tinkamo pozicionavimo, sklandaus perėjimo tarp fonemų ir nuoseklios balso tapatybės. Neuriniai modeliai mokosi šių modelių iš didelių duomenų rinkinių apie natūralius žmogaus kalbos įrašus.

Balso klonavimo modeliai, tokie kaip Chatterbox ir CosyVoice 2, gali atkartoti konkretų balsą iš 5-30 sekundžių referencinio garso. Klonuotas balsas fiksuoja tembre, akcentą ir kalbėjimo stilių, nors etikos ir teisinės nuostatos taikomos klonuojant kitų balsus.

Šiuolaikiniai TTS modeliai bendrai palaiko 30+ kalbų. Kai kurie modeliai specializuojasi konkrečiomis kalbomis, o kiti yra daugiakalbiai. Anglų kalba turi labiausiai modelius ir balsus, bet kinų, japonų, korėjiečių, ispanų ir Europos kalbos yra gerai remiami.

TTS yra AIS balso generatoriaus pogrupis. TTS specialiai konvertuoja teksto įvesties į kalbos išvestį. AI balso generavimas yra platesnis terminas, kuris taip pat apima balso klonavimą, balso konvertavimą, kalbos į garsą ir garso efekto generavimą.

Tai priklauso nuo Jūsų poreikių. Kokoro siūlo geriausią greičio ir kokybės pusiausvyrą bendram naudojimui. Chatterbox veda balso klonavimo. Orpheus excels pagal emocinę išraišką. StyleTTS 2 gamina natūraliausius vieno garsiakalbio narraciją. Nėra vieno "geriausio" modelio visiems naudojimo atvejams.

Taip. Visi TTS.ai modelių yra atviras šaltinis ir gali būti savarankiškas. CPU modeliai, pavyzdžiui, Piper paleisti bet kokiu kompiuteriu. GPU modeliai, pavyzdžiui, Kokoro ir Bark reikia NVIDIA GPU su 2-8GB VRAM. Mūsų platforma taip pat palaiko prieigą, todėl jums nereikia valdyti infrastruktūros.
5.0/5 (1)

Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.

Patirtis Šiuolaikiniai TTS Savo

Išbandykite 20+ moderniausius AI balso modelius nemokamai. Žiūrėkite, koks toli yra žodis.