ಮಾತು (TTS) ಅಂದರೇನು?
ಮಾತಿನ ಪಠ್ಯ ಎಂದರೆ, ಲಿಪ್ಯಂತರ ಪದಗಳನ್ನು ಕೃತಕ ಬುದ್ಧಿಸಾಮರ್ಥ್ಯ ಬಳಸಿ ಅನುವಾದಿಸುವ ತಂತ್ರಜ್ಞಾನ. ಆರಂಭದ ಮೊದಲಿನಿಂದ ಇಂದಿನ ನ್ಯೂರೊಬ್ಯಾಂಕ್ಸಿಂಗ್ ನೆಟ್ವರ್ಕ್ ಗಳು, ಮನುಷ್ಯರಿಂದ ಊಹಾತ್ಮಕವಾಗಿ ಧ್ವನಿಸಬಲ್ಲ ಜಾಲತಾಣಗಳು, ಟಿ.ಟಿ.ಅವು ನಾವು ತಂತ್ರಜ್ಞಾನದೊಂದಿಗೆ ಹೇಗೆ ಸಂವಹಿಸುತ್ತೇವೋ ಆಯಿತ, ಸಂಪಾದನೆ ಮತ್ತು ಮಾಹಿತಿಯನ್ನು ಲಭ್ಯಗೊಳಿಸುತ್ತವೆ.
ಮಾತಿನಲ್ಲಿ ಕೀಲಿ ಸಂಭವಗಳು
ಆಧುನಿಕ ಭಾಷೆಯ ಸಂಯೋಜನಾ ಫಲಕಗಳ ಅರ್ಥವನ್ನು ಗ್ರಹಿಸುವುದು
TITS ಎದುರಿಸುವ ತಡೆಗಳು
TTS ಪಠ್ಯದಿಂದ ತೆಗೆಯಲಾದ ಪಠ್ಯವನ್ನು ಗಣಕ- ಧ್ವನಿ ಧ್ವನಿಗಳನ್ನು ಬಳಸಿ ಲಿಪ್ಯಂಶದ ಲಿಪ್ಯಂಶಕ್ಕೆ ಪರಿವರ್ತಿಸುವ ತಂತ್ರಜ್ಞಾನ.
ಸಾಮಾನ್ಯ ಟೀಕೆಗಳು
ಆಧುನಿಕ ಟಿ. ಎಸ್.
ವಾಕ್ಸ್ವಾತಂತ್ರ್ಯದ ಇತಿಹಾಸ
1960 ರ ಆಳ್ವಿಕೆ-ಸಂಸ್ಮಿತ ವ್ಯವಸ್ಥೆ. 1990ರಿಂದ ಇಂದಿನ ನ್ಯೂನಮಟ್ಟದ ಮಾದರಿಗಳ ತನಕ, ಟಿ.ಟಿ.ಎ.ಐ.ಎ.ಐ.ಎ.ಎ.ಇ.ಇ.
ಆಧುನಿಕ ಮೊಸೇಯಿಕ್ ಚಿತ್ರಕಲೆಗಳು
ಕೋಕೋರೋ, ಬಾರ್ಕ್, ಮತ್ತು ಕೋಸಿಓಸ್ 2 ರಂತಹ ಇಂದಿನ ಮಾದರಿಗಳು ವಾಕ್ಸರಣಿಯ ಗುಣಮಟ್ಟವನ್ನು ಸಾಧಿಸಲು ಬದಲಾವಣೆಗಾರರು, ಡಿಡಿಯೋನಸ್ ಮತ್ತು ವಿರೂಪವಾದ ಅನುವರ್ತಕರು.
ಸಾಮಾನ್ಯ ಅನ್ವಯಗಳುName
TTS ಶಕ್ತಿಗಳು ತೆರೆ ಓದುಗ, GPS ನ್ಯಾವಿಗೇಶನ್, ವಾಸ್ತವಪ್ರಾಯ ಸಹಾಯಕಗಳು, ಆಡಿಯೊ ಪುಸ್ತಕಗಳು, ಕೌನ್ಸಲ್ ಸೇವೆ ಪ್ಲಾಟ್ಗಳು, ಇ- ವಿದ್ಯುತ್ ಪ್ಲಾಟ್ಗಳು ಮತ್ತು ಸೃಷ್ಟಿಯು.
ಓಪನ್ vs ಮಾರುಕಟ್ಟೆಯನ್ನು (source vs) ತೆರೆ
ಮುಕ್ತ-ಸಂಘಟಕ (MIT, ಬೀಡರ್ ೨. ೦) ಉಚಿತ, ಸ್ವ - ಅತಿಥೇಯ TTS ಅನ್ನು ಒದಗಿಸುತ್ತದೆ, ಆದರೆ ವಾಣಿಜ್ಯ ಸೇವೆಗಳು APE ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುತ್ತವೆ SLAS ಹಾಗು ಬೆಂಬಲದೊಂದಿಗೆ.
TTS ಮಾದರಿಗಳು TTS.aiರಲ್ಲಿ ಲಭ್ಯ
ಶೀಘ್ರ ಮತ್ತು ಹಗುರದಿಂದ ಸ್ಟುಡಿಯೋ- ವ್ಯವಸ್ಥ್ಯಾ ಧ್ವನಿಗಳ ವರೆಗಿನName
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
ಇದಕ್ಕೆ ಉತ್ತಮ: Status- ಚಿತ್ರವು ಎಷ್ಟು ದೂರದಲ್ಲಿದೆ ಎಂದು ತೋರಿಸುತ್ತದೆ
ಪ್ರಯತ್ನಿಸಿ Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
ಇದಕ್ಕೆ ಉತ್ತಮ: ಶ್ರವ್ಯಾಂಶ (ಆಡಿಯೋ) ಪುನರಾವರ್ತನೆಗಳನ್ನು (ಆಡಿಯೋ) ಕಾರ್ಯಗತಗೊಳಿಸುವಂಥ (ಆಡಿಯೋ) ಮಾದರಿName
ಪ್ರಯತ್ನಿಸಿ Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
ಇದಕ್ಕೆ ಉತ್ತಮ: ಮಾನವ ವಿಶಿಷ್ಟ ಮತ್ತು ಶೂನ್ಯ- ೨೦- ಮುದ್ರಿತ ಕ್ಲೈಂಟ್ಗಳೊಂದಿಗೆ ತುರಿಕೆ TTS ಅನ್ನು ಅಲಂಕರಿಸುವುದು
ಪ್ರಯತ್ನಿಸಿ CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
ಇದಕ್ಕೆ ಉತ್ತಮ: ಜೀರೋ- ಸ್ಟ್ರಾಫ್ಟ್ ಧ್ವನಿ ಕ್ಯೂನಿಫಾರಂ ಲಿಸ್ಟಿನ ಅಂಚನ್ನು ತೋರಿಸುತ್ತದೆ
ಪ್ರಯತ್ನಿಸಿ Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
ಇದಕ್ಕೆ ಉತ್ತಮ: ಸ್ವಯಂಪ್ರಯತ್ನದ ರಚನೆಯ ಗರಿಷ್ಟ ಆಡಿಯೋ ಗುಣಮಟ್ಟವನ್ನು ಮೊದಲೆ ಲೋಡ್ ಮಾಡುತ್ತದೆ
ಪ್ರಯತ್ನಿಸಿ Tortoise TTSಸಾಮಾನ್ಯ ಟೀಕೆಗಳು
ಆಧುನಿಕ ದಿನದ ವಾಕ್ ಸ್ನಾಯುಸಿಸ್ ಪೈಪಿಂಗ್ 4 ಹೆಜ್ಜೆಗಳಲ್ಲಿ
ಮೂಲಭೂತ ವಿಚಾರಗಳನ್ನು ತಿಳಿದುಕೊಳ್ಳಿ
ಟಿ. ಎಸ್.
ವಿವಿಧ ಮಾದರಿಗಳನ್ನು ಅನುಕರಿಸಿರಿ
ಪ್ರತಿಯೊಂದು TTS ಮಾದರಿಯು ಕ್ಷೀರಪಥವನ್ನು (ಟ್ರಾನ್ಸ್ನ ಮುನ್ನಡೆ, ಡಿಪೈನನ್, ಬೇರೆ ಬೇರೆ ಶಕ್ತಿಯನ್ನು) ವೇಗದಲ್ಲಿ, ಗುಣಮಟ್ಟದಲ್ಲಿ, ಗುಣದಲ್ಲಿ ಮತ್ತು ವೈಶಿಷ್ಟ್ಯಗಳಲ್ಲಿ ಅದ್ವಿತೀಯವಾದ ಶಕ್ತಿಯೊಂದಿಗೆ ಉಪಯೋಗಿಸುತ್ತದೆ.
ಪ್ರಯತ್ನಿಸಿ ನೋಡಿ
ಟಿ. ಎಸ್.
ನಿಮ್ಮ ಯೋಜನೆಗಳಿಗೆ ಮರುಜ್ಞಾಪನ ನೀಡಿರಿ
ನಿಮಗೆ ಇಷ್ಟವಾದ ಒಂದು ನಮೂನೆಯನ್ನು ಒಮ್ಮೆ ಕಂಡುಕೊಳ್ಳುವಲ್ಲಿ, ನಿಮ್ಮ ಅನ್ವಯಗಳಲ್ಲಿ, ಉತ್ಪನ್ನಗಳಲ್ಲಿ ಅಥವಾ ಸೃಷ್ಟಿಯಲ್ಲಿ ತುಂಬಿರುವ ವಿಷಯಗಳನ್ನು ನಿಮ್ಮ ಅನ್ವಯಗಳಲ್ಲಿ ಸೇರಿಸಲು ನಮ್ಮ APITS ಅನ್ನು ಉಪಯೋಗಿಸಿರಿ.
ಮಾತಿನ ಚುಟುಕಾದ ಇತಿಹಾಸ
ಯಂತ್ರೋಪಕರಣ ಯಂತ್ರದಿಂದ ಜಾಲಬಂಧಗಳಿಗೆ
ಆರಂಭದ ದಿನಗಳು (1950-19)
ಮೊದಲ ಗಣಕ- ಅನುವಾದಿಸುವ ಧ್ವನಿಯು 1961ಕ್ಕೆ ಮರಳಿದೆ, IBM ಅನ್ನು ಆರಂಭಗೊಳ್ಳುತ್ತದೆ
ಅವಾಸ್ತವಿಕ ವ್ಯವಸ್ಥೆ: ವೋಟ್ರಾಕ್ಸ್ (1970), ಡಿಡಿ ಕಾರ್ (1984), ಸ್ಟೀಫನ್ ಹಾಚಿಂಗ್ನಿಂದ ಉಪಯೋಗಿಸಲ್ಪಟ್ಟ ಆಪಲ್
ಕಸ್ಟಮೈಸ್ ಸ್ಥಿತ್ಯಂತರ (1990- 2000s)
Compaticative TTS ಸಾವಿರಗಳ ಟೆಲಿಫೋಮ್ ಸಂಯೋಜನೆ ಸಂಕಲನಗಳನ್ನು ದಾಖಲಿಸುತ್ತದೆ, ನಂತರ ಸರಿಯಾದ ಭಾಗಗಳನ್ನು ಒಟ್ಟಿಗೆ ಪ್ಲಾಟ್ ಮಾಡಿ. ಇದು ಹೆಚ್ಚು ನೈಸರ್ಗಿಕ ಧ್ವನಿಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ, ಆದರೆ ಅಗತ್ಯವಾದ ದೊಡ್ಡ ದತ್ತಸಂಚಯಗಳ ಅಗತ್ಯವಿರುತ್ತದೆ (ಅನೇಕವಾಗಿ 10-20 ಗಂಟೆಗಳು). ಗುಣವು ಬೇರೆ ಬೇರೆ ಭಾಗಗಳ ನಡುವೆ ಸ್ಫುಟವಾಗಿ ಸೇರುತ್ತದೆ.
ಬಳಕೆ: ATRY ವೀಕ್ಷಣೆ, ನ್ಯಾನ್ ವೋಕಲ್ಸನ್, ಆರಂಭದ Google TTS.
ಸ್ಟ್ರಾಸ್ಟಿಕ್/ಪರಾರಿಕೋರ್ (೨೦೦೦- ಗಳು- ೨೦೦೦10ಗಳು)
ಟೊಪ್ಪುಗೊಳಿಸುವ ಬದಲು, ಅನುಕ್ರಮದ ಮಾದರಿಗಳು ಭಾಷಣದ ಉಪರೂಪಗಳನ್ನು ಕಲಿತುಕೊಂಡವು. ಅಡಗಿಸಲ್ಪಟ್ಟ ಮರ್ನೋಫ್ ಮಾದರಿಗಳು (ಎಮ್ಎಮ್ಸ್) ಮತ್ತು ನಂತರ ಗಾಢವಾದ ಜಾಲತಾಣಗಳು, ಧ್ವನಿ ಸಂಕೀರ್ಣಗಳನ್ನು ಉತ್ಪಾದಿಸಿದವು. ಇದು ಅನಿಯಂತ್ರಿತವಾದ ಶಬ್ದಕೋಶದ ಮೂಲಕ ಉತ್ಪತ್ತಿ ಮಾಡಿದಂತಹ (ಪೇಜು, ಸಮಯ, ಕಾಂತೀಯ ವೈಶಿಷ್ಟ್ಯಗಳು). ಇದು ಅನಿಯಂತ್ರಿತವಾದ ಶಬ್ದರಚನೆಯನ್ನು ಒದಗಿಸಲು ಅನುವು ಒದಗಿಸಿತು, ಆದರೆ ವ್ಯವಸ್ಥಾಪನೆಯ ಕ್ರಮವು ಅನೇಕವೇಳೆ ಒಂದು ನೋಟವನ್ನು ಉತ್ಪಾದಿಸಿತು.
ಕೀಲಿ ಮಾದರಿ: HTS, ಮೆರಿಲಿನ್, ಆರಂಭದ DNS- ಆವರ್ತಿತ ವ್ಯವಸ್ಥೆಗಳು.
ನ್ಯಾವಹೋಟೆಲ್ ಟಿಟ್ಸ್ (2016-ಅಂಚೆ)
ಆಧುನಿಕ ಯುಗವು ಅಲೆನೇಟ್ ಎನ್ಎನ್ (ಡಿಎಂಟ್, 2016) ಯಿಂದ ಆರಂಭಗೊಂಡಿತು.
ಕೀಲಿ ಸಾಧನಗಳು: ಅಲೆನಾಟ್, ಟೋಟ್ರೊನ್, ತೀಟ್ಸ್, ವೈಟ್ಸ್, ಬಾರ್ಕ್, ಕೊಕೋರೋ.
ಆಧುನಿಕ ಟೀಕೆಗಳು ಹೇಗೆ ಕಾರ್ಯರೂಪಕ್ಕೆ ಬರುತ್ತವೆ?
ಸ್ವಾಭಾವಿಕ ಧ್ವನಿಗಳ ಯಾನName
ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಸಾಮಾನ್ಯಗೊಳಿಕೆ
ಖಾಲಿ ಪಠ್ಯವನ್ನು ಶುಚಿಗೊಳಿಸಲಾಗಿದೆ ಹಾಗು ಮರುಗಾತ್ರಿಸಲಾಗುತ್ತಿದೆ: ಸಂಖ್ಯೆಗಳು ಶಬ್ದಗಳಾಗುತ್ತವೆ (whats is Unknown):
ಆಕ್ಸೆಟಿಕ್ ಮಾದರಿ (ಪ್ರೋಟೋಗ್ರಾಮ್ ಗೆ ಪಠ್ಯ) Name
ಎಕ್ಸೆಕ್ ಮಾದರಿ (ಕೆಲವೊಮ್ಮೆ ರೂಪಾಂತರಿಸುವ ಅಥವಾ ಸ್ವಾಭಾವಿಕ ಜಾಲತಾಣ) ಟೆಲಿಮೆಜ್ ಅನುಕ್ರಮವನ್ನು ತೆಗೆದುಕೊಂಡು ಮೆಲ್ಪ್ಲಾಟ್ಗ್ರಾಮ್ ಅನ್ನು ಮುನ್ಸೂಚಿಸುತ್ತದೆ.
ವೋಕ್ಸರ್ (ಆಡಿಯೋದಿಂದ ಧ್ವನಿಸುರುಳಿ)
Vava ಎನ್ಕೋಡರ್ ಮೆಲ್ ಪ್ಲಾಟ್ರೋಗ್ರಾಮ್ ಅನ್ನು ನಿಜವಾದ ಆಡಿಯೊ ಆವರ್ತನಗಳಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. ಆದಿಯಲ್ಲಿ Gefiin- Lim ನಂತಹ ನ್ಯಾವಿಗೇಟರ್ಗಳು ಡಾಕ್ಯುಲಜಿಗಳನ್ನು ಉತ್ಪಾದಿಸಿದರು. ಆಧುನಿಕ ವೈವಿಕ್ಟರ್ (ಹೀಫಿಯನ್, ಗೂಗನ್, ಫಾಕಾನ್, ವೋಕಾಸ್) ಉತ್ತಮ ವಿವರಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ, ಮತ್ತು ಧ್ವನಿ ಧ್ವನಿ ಧ್ವನಿ ಹಾಗು ಚಾಲನೆಗಳನ್ನು ಒಳಗೊಂಡು 44.
ಅಂತ್ಯದಿಂದ ಅಂತ್ಯದ ಮಾದರಿಗಳು
VITS, ಕೋಕೋರೋ ಮತ್ತು ಬಾರ್ಕ್ ದಂಥ ಇತ್ತೀಚಿನ ಮಾದರಿಗಳು ಈ ಎರಡು ಪ್ಲಾಟ್ ಪ್ಲಾಟ್ಫೋಟೋಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಆಕ್ಷೇಪಿಸುತ್ತವೆ. ಅವು ನೇರವಾಗಿ ಒಂದು ಸ್ಲೈಡರ್ ಜಾಲದಿಂದ ಧ್ವನಿರಹಿತವಾದ ಫಲಿತಾಂಶಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತವೆ. ಕೆಲವು ಮಾದರಿಗಳು (ಬಾರ್ಕ್ ನಗುವಿನಂತಹ) ಶಬ್ದಗಳು, ನಗು, ನಗು ಮತ್ತು ಧ್ವನಿಗಳ ಜೊತೆಗೆ ಸಂಗೀತವನ್ನು ಸಹ ಉತ್ಪಾದಿಸುತ್ತವೆ.
ಟಿ.
ಟಿ. ಎಸ್.
| ಪ್ರವೇಶ | ಶ. ಪೂ. | ನೈಸರ್ಗಿಕ | ಅನುಮಾನ | ವೇಗ | ದತ್ತಾಂಶದ ಅಗತ್ಯವಿದೆ |
|---|---|---|---|---|---|
| ಆಕಾರ ಸಿರಿಯಾನಿಸ್Name ನಿಯಮ- ಆವರ್ತಿತ ಆವರ್ತನ ಮಾದರಿ |
1960s-1990s | ಯಾವುದೂ ಇಲ್ಲ | |||
| ಸೃಜಿಸಬಹುದಾದ ವಿಭಜಕವಾದ ಶ್ರವ್ಯಾಂಶ (ಆಡಿಯೋ) ವಿಭಾಗಗಳು |
1990s-2010s | ೧೦- ೨೦+ ಗಂಟೆಗಳು | |||
| ವಿಸ್ತೃತ (HMM/DN) ಗಣಿತದ ವಾಕ್ಸರಣಿ ಮಾದರಿಗಳು |
2000s-2016 | ೧- ೫ ಗಂಟೆಗಳು | |||
| ಮಾತೃತ್ವದಿಂದ ಕೊನೆಯಿಗೆ ಅಂತ್ಯ ಗಾಢ ವಿದ್ಯಾಭ್ಯಾಸ (VITS, ಕೋಕೋರೋ, ಬಾರ್ಕ್) |
2016-ಪ್ರಸಕ್ತ | ಗಂಟೆಗಳಿಗೆ ನಿಮಿಷಗಳು |
ಟಿ.
ಇಂದು ಮಾತಾಡುವ ಪಠ್ಯವನ್ನು ಉಪಯೋಗಿಸಲಾಗುತ್ತದೆ
ಸುಲಭ ಲಭ್ಯತೆ (ಅಕ್ಸೆಸಿಬಲಿಟಿ)
ಕಣ್ಣಿಗೆ ಅಸ್ತವ್ಯಸ್ತಗೊಂಡಿರುವ ಅಥವಾ ಓದಲು ಅಶಕ್ತರಾಗಿರುವವರಿಗೆ ಸಹಾಯ ಮಾಡುವ ಸ್ಕ್ರೀನ್ ಸ್ಕ್ರಿಪ್ಚರ್ಸ್, ಸಾಧನಗಳು, ಮತ್ತು ಟಿ. ಎಸ್.
ವಿಷಯರಚನೆ
ಯೂರೋಪ್ಗಳು, ಪೋರ್ಚುಗೀಸರು, ಮತ್ತು ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮದ ನಿರ್ಮಾಣಿಕನು TTS ಅನ್ನು ಸ್ವರಾಕ್ಷರಗಳು, ಮೆರವಣಿಗೆಯ ರೆಕಾರ್ಡಿಂಗ್ಗಳು ಮತ್ತು ವಾಕ್ಸ್ ತಯಾರಿಕೆಗಾಗಿ ಉಪಯೋಗಿಸುತ್ತಾರೆ.
ವಾಸ್ತವಪ್ರಾಯ ಸಹಾಯಕಗಳು
ಸರ್, ಅಲೆಕ್ಸಾನಾ, Google ಸಹಾಯಕ, ಮತ್ತು ಕೌನ್ಸಿಲ್ ಚ್ಯಾಟ್ ಚ್ಯಾಟ್ಗಳನ್ನು ಉಪಯೋಗಿಸುತ್ತಾರೆ.
ಅನೇಕವೇಳೆ ಪ್ರಶ್ನೆಗಳು
ಮಾತಿನ ತಂತ್ರಜ್ಞಾನಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳು
ನೀವೇನು ಉತ್ತರ ಕೊಡುವಿರಿ?
ಆಧುನಿಕ ಅನುಭವಗಳು
20+ ಸ್ಥಿತಿ-ಖಾನೆ AI ಮಾದರಿಗಳನ್ನು ಉಚಿತವಾಗಿ ಬಳಸಲು ಪ್ರಯತ್ನಿಸಿ. ಮಾತನಾಡಲು ಎಷ್ಟು ದೂರ ಪದಗಳು ಬಂದಿವೆ ಎಂದು ನೋಡಿ.