Àkọlé àwòrán

Kini àkọlé láti jẹ́ àkọlé (TTS)?

Àkọlé láti inú àkọlé ní imọ-ẹrọ tí ǹbá àkọlé tí a kọ̀ sí àwòrán tí a sọ̀rọ̀rọ̀ nípa ìmọ̀ràn. Lẹ́ẹ̀kan nínú àwọn sińtísítì robotì tí a tì kọ̀ nínú àwọn nẹ́tiwọọkí neural tí a kò lè yatọ̀ sí eniyan, TTS tí yáǹbá ìrísí-lẹ́tà bí a ṣe ǹbárápọ̀ sí imọ-ẹrọ, lórí àwọn àwọn ìròyìn, àtí fi àwọn ìròyìn pamọ́.

Àwọn Ìṣàmúlò-ètò Ìtàn Bií O ṣe N ṣiṣẹ́ Àwọn wẹ́ẹ̀bù Evolution

Ṣí Ìṣàmúlò-ètò Wó Àwọn Ìtàn

Àwọn Àwọn Àkọ́gbégbé nínú Àkọ́gbégbé

Àwọn àwọn

Àwọn Ìtumọ̀ TTS

TTS jẹ ọrọ-si-isọrọ — imọ-ẹrọ ti o ṣe atunṣe ọrọ ti a kọ sinu ohun ti a sọ nipa lilo awọn ohun ti a ṣe nipasẹ kọmputa.

Bií Neural TTS ṣe n ṣiṣẹ́

Modern TTS lo awọn nẹtiwọọki neural ti o lagbara lati ṣe ayẹwo ọrọ, ṣe asọtẹlẹ awọn awoṣe ibaraẹnisọrọ, ati ṣe agbekalẹ awọn waveforms redio ti o ni ohun ti o dara julọ fun eniyan.

Ìtàn Àwọn Àkọ́kọ́ Ìṣàmúlò-ètò

Lati awọn eto ti o da lori awọn ofin ti awọn ọdun 1960 si awọn ọdun 1990 si awọn awoṣe neural ti ọjọ iwaju - bii TTS ti dagbasoke ni awọn ọdun mẹwa.

Àwọn

Awọn awoṣe ọjọ-ori bii Kokoro, Bark, ati CosyVoice 2 lo awọn ayipada, diffusion, ati awọn itumọ ti o yatọ lati gba didara ọrọ-ọrọ ti o ga julọ.

Àwọn Ìṣàmúlò-ètò Àìdá

TTS n ṣe iranlọwọ fun awọn olukọ iboju, GPS, awọn aṣoju kọnputa, awọn iwe orin, awọn iṣẹ alabara, awọn oju opo wẹẹbu ẹkọ-ẹya, ati awọn ohun elo.

Àwọn Ìṣàmúlò-ètò Àìṣiró

Open-source models (MIT, Apache 2.0) pese ọfẹ, TTS ti o le ṣe alekun ara rẹ lakoko ti awọn iṣẹ iṣowo nfunni awọn API ti a ṣakoso pẹlu SLAs ati atilẹyin.

Àwọn ìṣàmúlò-ètò TTS tí a bá lè lò ní TTS.ai

Lati ààyè-iṣẹ́ àti àwọ́fẹ́ si àwọn àwòrán-ìdáràn-ìdáràn

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Àwọn àgbègbè 5/5

Ó dara jù fún: Módélù kérékéré kérékéré — ṣàfihàn bí ìgbà tí TTS neural tí wà

Àwọn ààyè-iṣẹ́ Kokoro

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Àkóónú 4/5

Ó dara jù fún: Módélù ìdáràn-ìdáràn tí n ṣàfihàn ìṣàfarawé àwọn àwòrán láti inú àkọlé

Àwọn ààyè-iṣẹ́ Bark

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Àwọn ìṣàmúlò-ètò 5/5 Àwọn Àmì-ìwé

Ó dara jù fún: TTS tí a fi pamọ́ láti inú ìṣàfarawé ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé àwọn ìṣàfarawé

Àwọn ààyè-iṣẹ́ CosyVoice 2

Chatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Àwọn ìṣàmúlò-ètò 5/5 Àwọn Àmì-ìwé

Ó dara jù fún: Ìṣàfarawé àwòrán-ìpàdé tí o ṣàfihàn àwọn ìwọ̀n àwọn ìṣàfarawé àwòrán

Àwọn ààyè-iṣẹ́ Chatterbox

Tortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Àkóónú 5/5 Àwọn Àmì-ìwé

Ó dara jù fún: Àwọn ààyè-iṣẹ́ ìṣàfarawé ìṣàfarawé ara-ètò tí n gbọ́ ìdájú ìṣàfarawé

Àwọn ààyè-iṣẹ́ Tortoise TTS

Bawo ni Neural TTS ṣe n ṣiṣẹ

Àwọn ìṣàfarawé àwọn àkọlé ìṣàfarawé àwọn àwọn ìṣàmúlò-ètò tuntun nínú àwọn ìtàn àwọn ìṣàmúlò-ètò mẹ́tà

Àwọn Àkọ́gbégbé

TTS yi àkọlé àwòrán láti inú àwòrán tí a sọ̀rọ̀. Àwọn ìṣàmúlò-ètò tuntun náà lo àwọn nẹ́dàlì ìmọ̀ràn tí a kọ̀ nípa àwọn aago pẹ̀lú àwọn àkọlé àwọn eniyan.

Wá Àwọn

Gbogbo awọn awoṣe TTS lo awọn aṣọ oriṣiriṣi (transformer, diffusion, variational) pẹlu awọn agbara ti o yatọ ni iyara, didara, ati awọn ẹya ara ẹrọ.

Wá Rẹ̀ Rẹ̀

Àwọn ìṣàmúlò-ètò tí o dara jù láti mọ́ TTS ní pé lò. Jẹ́ kí a bá ṣé ìṣàmúlò-ètò ọ̀fẹ́ wà lọ́wọ́lọ́wọ́ - pàtó àwọn àkọlé àti ìgbọ́ rẹ̀ nínú àwọn ìṣàmúlò-ètò.

Fikún Àwọn

Tí o bà bá wá módèlè̀ tí o fẹ́, ló API wà láti fi TTS pamọ́ sí àwọn ìṣàmúlò-ètò rẹ̀, àwọn nǹkan, tàbí ìṣàfilọ́lẹ̀ iṣẹ́ ìṣàfilọ́lẹ̀ àwọn ohun-ìpamọ́.

Àwọn Ìtàn Àìpẹ̀ Tí A Fi Àkọ́kọ́ Pánẹ́ẹ̀lì

Lati àwọn másí-lẹ́tà mìíràn tí n bá sọrọ̀ lọ́wọ́lọ́wọ́

Àwọn Òjó Àìpẹ́ (1950s-1980s)

Igba akọkọ ti ọrọ ti a ṣe nipasẹ kọmputa ti wa ni ọdun 1961, nigbati John Larry Kelly Jr. ti IBM ṣe afihan ọrọ synthesizer ni Bell Labs ti o kọwe \

Àwọn ìṣàmúlò-ètò àìfàn: Votrax (1970s), DECtalk (1984, lò láti Stephen Hawking), Apple

Ìṣàfilọ́lẹ̀ Ìṣàfilọ́lẹ̀ (1990s-2000s)

TTS tí a fi pamọ́ nípa ìṣàfihàn àwọn àwọn ìṣàmúlò-ètò fónìmù, láti fi àwọn àwọn ààyè tí a fẹ̀ pàpọ̀ nínú ìṣàfihàn. Ò tí ṣẹ̀dà àwọn àwọn àkọsílẹ̀ tí a tí ìgbọ́rọ̀ nínú àwọn

Ló ni: AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS tí a tì bẹrẹ́.

Ìtàn/Parámétìkì (2000s-2010s)

Àwọn àwọn àkọlé àwọn àwọn àkọlé àwọn à

Awọn awoṣe pataki: HTS, Merlin, awọn eto ti o da lori DNN.

Neural TTS (2016-Nípa)

Òjó tuntun náà tí bẹrẹ̀ láti wa pẹlu WaveNet (DeepMind, 2016), tí ó ti ṣẹ̀dá àwọn ààyè ìṣàmúlò-ètò ìṣàmúlò-ètò nípa ìlòjútó àwọn nẹ́tiwọọki neural tí o tí ìgbà jú lọ. Nípa àwọn Tacotron (Google, 2017), tí ó ti kọ̀ láti mápa àwọn àkọ́lé láti inú àwọn spectrogrammes.

Awọn igbesẹ pataki: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Wá TTS Neural Tíwàn

Bií a ṣe lè Lórúkọ́ TTS Neural

Àwọn àwọn ààyè-iṣẹ́ tí a fi pamọ́ láti inú àwọn àwòrán AI tí a fi gbọ́

Àwọn Àmì-ìwé

Àkọ́lé àìdálẹ̀ náà tí a fi párá àti àwọn

Àwọn àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́

Àwọn móòdù acoustic (nígbà kan àwọn ìṣàfarawé àwọn àwọn ìṣàfarawé àwọn

Àwọn àkọlé àwòrán

Àwọn àwọn à

Àwọn àwọn ìṣàmúlò-ètò

Àwọn ìṣàmúlò-ètò tókàn bí VITS, Kokoro, àti Bark tí wọ́ inú ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ààyè-iṣẹ́ àwọn ìṣàmúlò-ètò àwọn ààyè-iṣẹ́ àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò

Wá Ìmọ̀ràn Rẹ̀ Rẹ́

Àwọn Ìṣàfilọ́lẹ̀ TTS Tí A Fẹ̀

Bií a ṣe lè ṣe ìṣàfarawe ìgbà mẹ́tà tí a lò nínú ìmọ̀nà TTS

Àwọn Ìṣàmúlò-ètò	Àwọn Ìyàn	Àwọn Àtòjọ-ẹ̀yàn Tí A Ní
Àwọn Ìṣàmúlò-ètò Àwọn ìṣàmúlò-ètò ìgbàdúnró	1960s-1990s	Kò ní
Àwọn àwọn àgbékalẹ̀ Àwọn àwọn àgbègbè àwòrán tí a tíjà	1990s-2010s	10-20+ iṣẹ́jù
Parametric (HMM/DNN) Àwọn àwọn ìṣàmúlò-ètò ìtàn	2000s-2016	1-5 iṣẹ́jù
Àwọn Ìjánu-ìtàn Ìmọ̀ ìmọ̀ (VITS, Kokoro, Bark)	2016-Àwọn	Àwọn àkókò sí àwọn àkókò

Wá Neural TTS Lárá

Àwọn Ìṣàmúlò-ètò TTS

Ààyè tí àkọlé náà lò ní ọjọ́ yìí

Àwọn ìṣàfihàn

Awọn olukọ iboju, awọn ẹrọ iranlọwọ, ati awọn irinṣẹ fun awọn eniyan pẹlu awọn aisan oju tabi awọn aisan kika da lori TTS lati ṣe awọn ohun dijital ti o le wọle si gbogbo eniyan.

Àwọn Àkọlé

YouTubers, podcasters, ati awọn olupilẹṣẹ media awujọ lo TTS fun awọn ọrọ-ọrọ, awọn itan, ati iṣelọpọ akoonu ti o ṣe adaṣe ni iwọn.

Àwọn Àṣẹ Ìṣàmúlò-ètò

Siri, Alexa, Google Assistant, ati awọn chatbots iṣẹ alabara gbogbo wọn lo TTS lati sọ awọn ifiranṣẹ ni ọna ti o dabi ẹni pe o jẹ awọn olumulo.

Wá Àkọ́kọ́ sí Ìrọ̀gbèsì Nígbà

Àwọn Àtòjọ-ẹ̀yàn

Àwọn ibeere àìṣè láti inú àkọ́lé sí ìṣàfarawélẹ̀

TTS jẹ́ àkọ́lé-si-ìbàlẹ̀. O tọ́ka sí ìmọ̀nà tí o bá kọ́ àkọ́lé tí a kọ̀ nínú àwọn àmì-ìwé tí a sọ̀rọ̀ nípa ìṣàfarawé àwọn àwòrán tí a tí kọ́. A lò àwọn àwọn àmì-ìwé yìí nínú àwọn àkọ́lé àwọn ìṣàfarawé.

Àwọn ìṣàmúlò-ètò TTS tí a lò lò ní àwọn ìpele mẹ́tà: ìṣàmúlò-ètò àkọlé (ìṣàfarawé, ìṣàmúlò-ètò, ìṣàfarawé àwọn fónìmú), ìṣàmúlò-ètò prosódì (ìṣàfihàn àwọn àwọn ìṣàmúlò-ètò, àwọn ìṣàmúlò-ètò, àwọn ìpàsẹ̀), àti ìṣàmúlò-ètò àwòrán (ìṣàfihàn àwọn ìpèwọ̀n ìranṣẹ́. Àwọn móòdù neural kọ̀ọ̀kan àwọn ìpèwọ̀n mẹ́tà láti inú àwọn ààtò ìṣàfihàn.

TTS Concatenative tí n pàpọ̀ àwọn àwọn ààyè àkọ́kọ́ àwọn àwọn ààyè àwọn àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè àwọn ààyè

SSML (Speech Synthesis Markup Language) ní ìtàn àwọn àmì-ìwé XML-ìdáràn tí o fi ọ̀wọ̀n fun ọ̀kan láti ṣakoso bí àwọn ìṣàmúlò-ètò TTS ṣe sọ àkọlé. O lè sọ àwọn ìpàsẹ̀, ìṣàfihàn, ìṣàfihàn, àwọn ìyipadà ìṣàfihàn, àti àwọn ìṣàfihàn àwọn àmì-ìwé SSML nínú àwọn àmì-ìwé àkọlé rẹ.

TTS lo fun awọn iṣẹ-ṣiṣe bii awọn olukọ iboju fun awọn olumulo ti o ni ailera oju, awọn aṣoju oni-nọmba (Siri, Alexa, Google Assistant), awọn iṣẹ-ṣiṣe iwe-kikọ, awọn iṣẹ-ẹkọ ayelujara, awọn iṣẹ-ṣiṣe GPS, awọn iṣẹ-ṣiṣe IVR, awọn iṣẹ-ṣiṣe ẹkọ ede ati awọn ohun elo ẹkọ ede.

TTS ti dagbasoke lati awọn eto ti o da lori ofin roboti ni awọn ọdun 1960, si sintesi concatenative ni awọn ọdun 1990, si sintesi parametric ti awọn istatistiki ni awọn ọdun 2000, si TTS neural pẹlu WaveNet ni ọdun 2016, si awọn awoṣe ti o ni ilọsiwaju ati diffusion ti o ni didara ipele eniyan.

TTS tí a fi gbọ́ nípa àwọn àwòrán tí a fi gbọ́ nípa àwọn

Àwọn ápúlẹ́ẹ̀tì ìṣàmúlò-ètò àwọn àwòrán bí Chatterbox àti CosyVoice 2 ṣe lè kọ́ àwòrán kan láti inú àwọn ìsàlẹ̀-ètò àwọn ìsàlẹ̀-ètò 5-30. Àwòrán ìṣàmúlò-ètò náà náà gba àwòrán, àwọn ìṣàmúlò-ètò, àti àwọn ìṣàmúlò-ètò, àwọn àwọn ìṣàmúlò-ètò ẹ̀yàn àti àwọn ìṣàmúlò-ètò ìjọba nípa ìṣàmúlò-ètò àwọn ìsàlẹ̀-ètò mìíràn.

Àwọn móòdù TTS tuntun ní pàtó ń gbọ́ ìtàn 30+. Àwọn móòdù kan ní àwọn ìtàn kan nígbà tí àwọn mìíràn. Àwọn móòdù tí a bà fi hàn nípa àwọn ìtàn tí a bà fi hàn nípa àwọn móòdù tí a bà fi hàn, ṣugbọn Chinese, Japanese, Korean, Spanish, àti àwọn ìtàn European ní a gbọ́.

TTS ní àwọn

O dájú àwọn ìrànwọ́ rẹ̀. Kokoro náà ǹfí ìdáràn tí o dara jù tí àwọn ìṣàfarawé àwọn ìṣàmúlò-ètò àwọn ìṣàmúlò-ètò àwọn. Chatterbox náà ǹfí ìṣàmúlò-ètò àwọn. Orpheus náà ǹfí ìṣàfihàn àwọn ìrànwọ́ àwọn. StyleTTS 2 náà ǹfí ìṣàfihàn àwọn ìṣàfilọ́lẹ̀ àwọn. Kò ní módè́ì "tí o dara jù" kan fún àwọn ìṣàfilọ́lẹ̀ ìlòjó.

Ya. Gbogbo àwọn móòdù lórí TTS.ai ní afẹ́fẹ́-ìṣàfilọ́lẹ̀ nípa àwọn ìṣàfilọ́lẹ̀ tí a lè fi pamọ́. Móòdù CPU-ìsẹ́ lọ́wọ́lọ́wọ́ bí Piper ṣe n ṣiṣẹ́ lórí kọ̀ǹpútà wò nípa. Móòdù GPU bí Kokoro àti Bark ní niló NVIDIA GPU pẹlú 2-8GB VRAM. Pẹ́tàẹ̀lì wà tun ǹfi àwọn ìṣàfilọ́lẹ̀ pamọ́ lórí.

5.0/5 (1)

Àwọn Ìṣàfilọ́lẹ̀ TTS Tí A Tí

Wá àwọn àwọn àwòrán àwọn àwòrán AI 20+ tí a tí ìgbà tí a tí ìgbà tí a tì ǹṣè. Wó bí o tí kọ́kọ́ kọ́kọ́ lọ́wọ́lọ́wọ́.

Ṣàfihàn Wó Àwọn Ìtàn