ಮಾತು (TTS) ಅಂದರೇನು?

ಮಾತಿನ ಪಠ್ಯ ಎಂದರೆ, ಲಿಪ್ಯಂತರ ಪದಗಳನ್ನು ಕೃತಕ ಬುದ್ಧಿಸಾಮರ್ಥ್ಯ ಬಳಸಿ ಅನುವಾದಿಸುವ ತಂತ್ರಜ್ಞಾನ. ಆರಂಭದ ಮೊದಲಿನಿಂದ ಇಂದಿನ ನ್ಯೂರೊಬ್ಯಾಂಕ್ಸಿಂಗ್ ನೆಟ್‌ವರ್ಕ್ ಗಳು, ಮನುಷ್ಯರಿಂದ ಊಹಾತ್ಮಕವಾಗಿ ಧ್ವನಿಸಬಲ್ಲ ಜಾಲತಾಣಗಳು, ಟಿ.ಟಿ.ಅವು ನಾವು ತಂತ್ರಜ್ಞಾನದೊಂದಿಗೆ ಹೇಗೆ ಸಂವಹಿಸುತ್ತೇವೋ ಆಯಿತ, ಸಂಪಾದನೆ ಮತ್ತು ಮಾಹಿತಿಯನ್ನು ಲಭ್ಯಗೊಳಿಸುತ್ತವೆ.

ತಂತ್ರಜ್ಞಾನ ಇತಿಹಾಸ ತೆರವುಗೊಳಿಸು ಇದು ಹೇಗೆ ಕಾರ್ಯನಡೆಸುತ್ತದೆ? ನೇರ ಜಾಲಬಂಧಗಳು ಇವಲ್ಯೂಶನ್Name

ಮಾತಿನಲ್ಲಿ ಕೀಲಿ ಸಂಭವಗಳು

ಆಧುನಿಕ ಭಾಷೆಯ ಸಂಯೋಜನಾ ಫಲಕಗಳ ಅರ್ಥವನ್ನು ಗ್ರಹಿಸುವುದು

TITS ಎದುರಿಸುವ ತಡೆಗಳು

TTS ಪಠ್ಯದಿಂದ ತೆಗೆಯಲಾದ ಪಠ್ಯವನ್ನು ಗಣಕ- ಧ್ವನಿ ಧ್ವನಿಗಳನ್ನು ಬಳಸಿ ಲಿಪ್ಯಂಶದ ಲಿಪ್ಯಂಶಕ್ಕೆ ಪರಿವರ್ತಿಸುವ ತಂತ್ರಜ್ಞಾನ.

ಸಾಮಾನ್ಯ ಟೀಕೆಗಳು

ಆಧುನಿಕ ಟಿ. ಎಸ್‌.

ವಾಕ್‍ಸ್ವಾತಂತ್ರ್ಯದ ಇತಿಹಾಸ

1960 ರ ಆಳ್ವಿಕೆ-ಸಂಸ್ಮಿತ ವ್ಯವಸ್ಥೆ. 1990ರಿಂದ ಇಂದಿನ ನ್ಯೂನಮಟ್ಟದ ಮಾದರಿಗಳ ತನಕ, ಟಿ.ಟಿ.ಎ.ಐ.ಎ.ಐ.ಎ.ಎ.ಇ.ಇ.

ಆಧುನಿಕ ಮೊಸೇಯಿಕ್‌ ಚಿತ್ರಕಲೆಗಳು

ಕೋಕೋರೋ, ಬಾರ್ಕ್, ಮತ್ತು ಕೋಸಿಓಸ್ 2 ರಂತಹ ಇಂದಿನ ಮಾದರಿಗಳು ವಾಕ್ಸರಣಿಯ ಗುಣಮಟ್ಟವನ್ನು ಸಾಧಿಸಲು ಬದಲಾವಣೆಗಾರರು, ಡಿಡಿಯೋನಸ್ ಮತ್ತು ವಿರೂಪವಾದ ಅನುವರ್ತಕರು.

ಸಾಮಾನ್ಯ ಅನ್ವಯಗಳುName

TTS ಶಕ್ತಿಗಳು ತೆರೆ ಓದುಗ, GPS ನ್ಯಾವಿಗೇಶನ್, ವಾಸ್ತವಪ್ರಾಯ ಸಹಾಯಕಗಳು, ಆಡಿಯೊ ಪುಸ್ತಕಗಳು, ಕೌನ್ಸಲ್ ಸೇವೆ ಪ್ಲಾಟ್‌ಗಳು, ಇ- ವಿದ್ಯುತ್‌ ಪ್ಲಾಟ್‌ಗಳು ಮತ್ತು ಸೃಷ್ಟಿಯು.

ಓಪನ್ vs ಮಾರುಕಟ್ಟೆಯನ್ನು (source vs) ತೆರೆ

ಮುಕ್ತ-ಸಂಘಟಕ (MIT, ಬೀಡರ್ ೨. ೦) ಉಚಿತ, ಸ್ವ - ಅತಿಥೇಯ TTS ಅನ್ನು ಒದಗಿಸುತ್ತದೆ, ಆದರೆ ವಾಣಿಜ್ಯ ಸೇವೆಗಳು APE ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸುತ್ತವೆ SLAS ಹಾಗು ಬೆಂಬಲದೊಂದಿಗೆ.

TTS ಮಾದರಿಗಳು TTS.aiರಲ್ಲಿ ಲಭ್ಯ

ಶೀಘ್ರ ಮತ್ತು ಹಗುರದಿಂದ ಸ್ಟುಡಿಯೋ- ವ್ಯವಸ್ಥ್ಯಾ ಧ್ವನಿಗಳ ವರೆಗಿನName

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ಇದಕ್ಕೆ ಉತ್ತಮ: Status- ಚಿತ್ರವು ಎಷ್ಟು ದೂರದಲ್ಲಿದೆ ಎಂದು ತೋರಿಸುತ್ತದೆ

ಪ್ರಯತ್ನಿಸಿ Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

ಇದಕ್ಕೆ ಉತ್ತಮ: ಶ್ರವ್ಯಾಂಶ (ಆಡಿಯೋ) ಪುನರಾವರ್ತನೆಗಳನ್ನು (ಆಡಿಯೋ) ಕಾರ್ಯಗತಗೊಳಿಸುವಂಥ (ಆಡಿಯೋ) ಮಾದರಿName

ಪ್ರಯತ್ನಿಸಿ Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ಧ್ವನಿ ಕೆರಳುವಿಕೆ

ಇದಕ್ಕೆ ಉತ್ತಮ: ಮಾನವ ವಿಶಿಷ್ಟ ಮತ್ತು ಶೂನ್ಯ- ೨೦- ಮುದ್ರಿತ ಕ್ಲೈಂಟ್‌ಗಳೊಂದಿಗೆ ತುರಿಕೆ TTS ಅನ್ನು ಅಲಂಕರಿಸುವುದು

ಪ್ರಯತ್ನಿಸಿ CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ಧ್ವನಿ ಕೆರಳುವಿಕೆ

ಇದಕ್ಕೆ ಉತ್ತಮ: ಜೀರೋ- ಸ್ಟ್ರಾಫ್ಟ್ ಧ್ವನಿ ಕ್ಯೂನಿಫಾರಂ ಲಿಸ್ಟಿನ ಅಂಚನ್ನು ತೋರಿಸುತ್ತದೆ

ಪ್ರಯತ್ನಿಸಿ Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 ಧ್ವನಿ ಕೆರಳುವಿಕೆ

ಇದಕ್ಕೆ ಉತ್ತಮ: ಸ್ವಯಂಪ್ರಯತ್ನದ ರಚನೆಯ ಗರಿಷ್ಟ ಆಡಿಯೋ ಗುಣಮಟ್ಟವನ್ನು ಮೊದಲೆ ಲೋಡ್ ಮಾಡುತ್ತದೆ

ಪ್ರಯತ್ನಿಸಿ Tortoise TTS

ಸಾಮಾನ್ಯ ಟೀಕೆಗಳು

ಆಧುನಿಕ ದಿನದ ವಾಕ್‌ ಸ್ನಾಯುಸಿಸ್‌ ಪೈಪಿಂಗ್‌ 4 ಹೆಜ್ಜೆಗಳಲ್ಲಿ

1

ಮೂಲಭೂತ ವಿಚಾರಗಳನ್ನು ತಿಳಿದುಕೊಳ್ಳಿ

ಟಿ. ಎಸ್‌.

2

ವಿವಿಧ ಮಾದರಿಗಳನ್ನು ಅನುಕರಿಸಿರಿ

ಪ್ರತಿಯೊಂದು TTS ಮಾದರಿಯು ಕ್ಷೀರಪಥವನ್ನು (ಟ್ರಾನ್ಸ್‌ನ ಮುನ್ನಡೆ, ಡಿಪೈನನ್‌, ಬೇರೆ ಬೇರೆ ಶಕ್ತಿಯನ್ನು) ವೇಗದಲ್ಲಿ, ಗುಣಮಟ್ಟದಲ್ಲಿ, ಗುಣದಲ್ಲಿ ಮತ್ತು ವೈಶಿಷ್ಟ್ಯಗಳಲ್ಲಿ ಅದ್ವಿತೀಯವಾದ ಶಕ್ತಿಯೊಂದಿಗೆ ಉಪಯೋಗಿಸುತ್ತದೆ.

3

ಪ್ರಯತ್ನಿಸಿ ನೋಡಿ

ಟಿ. ಎಸ್‌.

4

ನಿಮ್ಮ ಯೋಜನೆಗಳಿಗೆ ಮರುಜ್ಞಾಪನ ನೀಡಿರಿ

ನಿಮಗೆ ಇಷ್ಟವಾದ ಒಂದು ನಮೂನೆಯನ್ನು ಒಮ್ಮೆ ಕಂಡುಕೊಳ್ಳುವಲ್ಲಿ, ನಿಮ್ಮ ಅನ್ವಯಗಳಲ್ಲಿ, ಉತ್ಪನ್ನಗಳಲ್ಲಿ ಅಥವಾ ಸೃಷ್ಟಿಯಲ್ಲಿ ತುಂಬಿರುವ ವಿಷಯಗಳನ್ನು ನಿಮ್ಮ ಅನ್ವಯಗಳಲ್ಲಿ ಸೇರಿಸಲು ನಮ್ಮ APITS ಅನ್ನು ಉಪಯೋಗಿಸಿರಿ.

ಮಾತಿನ ಚುಟುಕಾದ ಇತಿಹಾಸ

ಯಂತ್ರೋಪಕರಣ ಯಂತ್ರದಿಂದ ಜಾಲಬಂಧಗಳಿಗೆ

ಆರಂಭದ ದಿನಗಳು (1950-19)

ಮೊದಲ ಗಣಕ- ಅನುವಾದಿಸುವ ಧ್ವನಿಯು 1961ಕ್ಕೆ ಮರಳಿದೆ, IBM ಅನ್ನು ಆರಂಭಗೊಳ್ಳುತ್ತದೆ

ಅವಾಸ್ತವಿಕ ವ್ಯವಸ್ಥೆ: ವೋಟ್ರಾಕ್ಸ್‌ (1970), ಡಿಡಿ ಕಾರ್‌ (1984), ಸ್ಟೀಫನ್‌ ಹಾಚಿಂಗ್‌ನಿಂದ ಉಪಯೋಗಿಸಲ್ಪಟ್ಟ ಆಪಲ್‌

ಕಸ್ಟಮೈಸ್ ಸ್ಥಿತ್ಯಂತರ (1990- 2000s)

Compaticative TTS ಸಾವಿರಗಳ ಟೆಲಿಫೋಮ್ ಸಂಯೋಜನೆ ಸಂಕಲನಗಳನ್ನು ದಾಖಲಿಸುತ್ತದೆ, ನಂತರ ಸರಿಯಾದ ಭಾಗಗಳನ್ನು ಒಟ್ಟಿಗೆ ಪ್ಲಾಟ್ ಮಾಡಿ. ಇದು ಹೆಚ್ಚು ನೈಸರ್ಗಿಕ ಧ್ವನಿಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ, ಆದರೆ ಅಗತ್ಯವಾದ ದೊಡ್ಡ ದತ್ತಸಂಚಯಗಳ ಅಗತ್ಯವಿರುತ್ತದೆ (ಅನೇಕವಾಗಿ 10-20 ಗಂಟೆಗಳು). ಗುಣವು ಬೇರೆ ಬೇರೆ ಭಾಗಗಳ ನಡುವೆ ಸ್ಫುಟವಾಗಿ ಸೇರುತ್ತದೆ.

ಬಳಕೆ: ATRY ವೀಕ್ಷಣೆ, ನ್ಯಾನ್ ವೋಕಲ್ಸನ್‌, ಆರಂಭದ Google TTS.

ಸ್ಟ್ರಾಸ್ಟಿಕ್/ಪರಾರಿಕೋರ್ (೨೦೦೦- ಗಳು- ೨೦೦೦10ಗಳು)

ಟೊಪ್ಪುಗೊಳಿಸುವ ಬದಲು, ಅನುಕ್ರಮದ ಮಾದರಿಗಳು ಭಾಷಣದ ಉಪರೂಪಗಳನ್ನು ಕಲಿತುಕೊಂಡವು. ಅಡಗಿಸಲ್ಪಟ್ಟ ಮರ್ನೋಫ್‌ ಮಾದರಿಗಳು (ಎಮ್ಎಮ್ಸ್) ಮತ್ತು ನಂತರ ಗಾಢವಾದ ಜಾಲತಾಣಗಳು, ಧ್ವನಿ ಸಂಕೀರ್ಣಗಳನ್ನು ಉತ್ಪಾದಿಸಿದವು. ಇದು ಅನಿಯಂತ್ರಿತವಾದ ಶಬ್ದಕೋಶದ ಮೂಲಕ ಉತ್ಪತ್ತಿ ಮಾಡಿದಂತಹ (ಪೇಜು, ಸಮಯ, ಕಾಂತೀಯ ವೈಶಿಷ್ಟ್ಯಗಳು). ಇದು ಅನಿಯಂತ್ರಿತವಾದ ಶಬ್ದರಚನೆಯನ್ನು ಒದಗಿಸಲು ಅನುವು ಒದಗಿಸಿತು, ಆದರೆ ವ್ಯವಸ್ಥಾಪನೆಯ ಕ್ರಮವು ಅನೇಕವೇಳೆ ಒಂದು ನೋಟವನ್ನು ಉತ್ಪಾದಿಸಿತು.

ಕೀಲಿ ಮಾದರಿ: HTS, ಮೆರಿಲಿನ್, ಆರಂಭದ DNS- ಆವರ್ತಿತ ವ್ಯವಸ್ಥೆಗಳು.

ನ್ಯಾವಹೋಟೆಲ್ ಟಿಟ್ಸ್ (2016-ಅಂಚೆ)

ಆಧುನಿಕ ಯುಗವು ಅಲೆನೇಟ್‌ ಎನ್‌ಎನ್‌ (ಡಿಎಂಟ್‌, 2016) ಯಿಂದ ಆರಂಭಗೊಂಡಿತು.

ಕೀಲಿ ಸಾಧನಗಳು: ಅಲೆನಾಟ್‌, ಟೋಟ್ರೊನ್‌, ತೀಟ್ಸ್‌, ವೈಟ್ಸ್‌, ಬಾರ್ಕ್‌, ಕೊಕೋರೋ.

ಆಧುನಿಕ ಟೀಕೆಗಳು ಹೇಗೆ ಕಾರ್ಯರೂಪಕ್ಕೆ ಬರುತ್ತವೆ?

ಸ್ವಾಭಾವಿಕ ಧ್ವನಿಗಳ ಯಾನName

ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಸಾಮಾನ್ಯಗೊಳಿಕೆ

ಖಾಲಿ ಪಠ್ಯವನ್ನು ಶುಚಿಗೊಳಿಸಲಾಗಿದೆ ಹಾಗು ಮರುಗಾತ್ರಿಸಲಾಗುತ್ತಿದೆ: ಸಂಖ್ಯೆಗಳು ಶಬ್ದಗಳಾಗುತ್ತವೆ (whats is Unknown):

ಆಕ್ಸೆಟಿಕ್ ಮಾದರಿ (ಪ್ರೋಟೋಗ್ರಾಮ್ ಗೆ ಪಠ್ಯ) Name

ಎಕ್ಸೆಕ್‌ ಮಾದರಿ (ಕೆಲವೊಮ್ಮೆ ರೂಪಾಂತರಿಸುವ ಅಥವಾ ಸ್ವಾಭಾವಿಕ ಜಾಲತಾಣ) ಟೆಲಿಮೆಜ್‌ ಅನುಕ್ರಮವನ್ನು ತೆಗೆದುಕೊಂಡು ಮೆಲ್‌ಪ್ಲಾಟ್‌ಗ್ರಾಮ್‌ ಅನ್ನು ಮುನ್‌ಸೂಚಿಸುತ್ತದೆ.

ವೋಕ್ಸರ್ (ಆಡಿಯೋದಿಂದ ಧ್ವನಿಸುರುಳಿ)

Vava ಎನ್ಕೋಡರ್ ಮೆಲ್ ಪ್ಲಾಟ್ರೋಗ್ರಾಮ್ ಅನ್ನು ನಿಜವಾದ ಆಡಿಯೊ ಆವರ್ತನಗಳಾಗಿ ಪರಿವರ್ತಿಸುತ್ತದೆ. ಆದಿಯಲ್ಲಿ Gefiin- Lim ನಂತಹ ನ್ಯಾವಿಗೇಟರ್‌ಗಳು ಡಾಕ್ಯುಲಜಿಗಳನ್ನು ಉತ್ಪಾದಿಸಿದರು. ಆಧುನಿಕ ವೈವಿಕ್ಟರ್ (ಹೀಫಿಯನ್, ಗೂಗನ್, ಫಾಕಾನ್, ವೋಕಾಸ್) ಉತ್ತಮ ವಿವರಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ, ಮತ್ತು ಧ್ವನಿ ಧ್ವನಿ ಧ್ವನಿ ಹಾಗು ಚಾಲನೆಗಳನ್ನು ಒಳಗೊಂಡು 44.

ಅಂತ್ಯದಿಂದ ಅಂತ್ಯದ ಮಾದರಿಗಳು

VITS, ಕೋಕೋರೋ ಮತ್ತು ಬಾರ್ಕ್ ದಂಥ ಇತ್ತೀಚಿನ ಮಾದರಿಗಳು ಈ ಎರಡು ಪ್ಲಾಟ್ ಪ್ಲಾಟ್‌ಫೋಟೋಗಳನ್ನು ಸಂಪೂರ್ಣವಾಗಿ ಆಕ್ಷೇಪಿಸುತ್ತವೆ. ಅವು ನೇರವಾಗಿ ಒಂದು ಸ್ಲೈಡರ್ ಜಾಲದಿಂದ ಧ್ವನಿರಹಿತವಾದ ಫಲಿತಾಂಶಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತವೆ. ಕೆಲವು ಮಾದರಿಗಳು (ಬಾರ್ಕ್ ನಗುವಿನಂತಹ) ಶಬ್ದಗಳು, ನಗು, ನಗು ಮತ್ತು ಧ್ವನಿಗಳ ಜೊತೆಗೆ ಸಂಗೀತವನ್ನು ಸಹ ಉತ್ಪಾದಿಸುತ್ತವೆ.

ಟಿ.

ಟಿ. ಎಸ್‌.

ಪ್ರವೇಶ ಶ. ಪೂ. ನೈಸರ್ಗಿಕ ಅನುಮಾನ ವೇಗ ದತ್ತಾಂಶದ ಅಗತ್ಯವಿದೆ
ಆಕಾರ ಸಿರಿಯಾನಿಸ್Name
ನಿಯಮ- ಆವರ್ತಿತ ಆವರ್ತನ ಮಾದರಿ
1960s-1990s ಯಾವುದೂ ಇಲ್ಲ
ಸೃಜಿಸಬಹುದಾದ
ವಿಭಜಕವಾದ ಶ್ರವ್ಯಾಂಶ (ಆಡಿಯೋ) ವಿಭಾಗಗಳು
1990s-2010s ೧೦- ೨೦+ ಗಂಟೆಗಳು
ವಿಸ್ತೃತ (HMM/DN)
ಗಣಿತದ ವಾಕ್ಸರಣಿ ಮಾದರಿಗಳು
2000s-2016 ೧- ೫ ಗಂಟೆಗಳು
ಮಾತೃತ್ವದಿಂದ ಕೊನೆಯಿಗೆ ಅಂತ್ಯ
ಗಾಢ ವಿದ್ಯಾಭ್ಯಾಸ (VITS, ಕೋಕೋರೋ, ಬಾರ್ಕ್‌)
2016-ಪ್ರಸಕ್ತ ಗಂಟೆಗಳಿಗೆ ನಿಮಿಷಗಳು

ಟಿ.

ಇಂದು ಮಾತಾಡುವ ಪಠ್ಯವನ್ನು ಉಪಯೋಗಿಸಲಾಗುತ್ತದೆ

ಸುಲಭ ಲಭ್ಯತೆ (ಅಕ್ಸೆಸಿಬಲಿಟಿ)

ಕಣ್ಣಿಗೆ ಅಸ್ತವ್ಯಸ್ತಗೊಂಡಿರುವ ಅಥವಾ ಓದಲು ಅಶಕ್ತರಾಗಿರುವವರಿಗೆ ಸಹಾಯ ಮಾಡುವ ಸ್ಕ್ರೀನ್‌ ಸ್ಕ್ರಿಪ್ಚರ್ಸ್‌, ಸಾಧನಗಳು, ಮತ್ತು ಟಿ. ಎಸ್‌.

ವಿಷಯರಚನೆ

ಯೂರೋಪ್‌ಗಳು, ಪೋರ್ಚುಗೀಸರು, ಮತ್ತು ಸಾಮಾಜಿಕ ಮಾಧ್ಯಮದ ನಿರ್ಮಾಣಿಕನು TTS ಅನ್ನು ಸ್ವರಾಕ್ಷರಗಳು, ಮೆರವಣಿಗೆಯ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳು ಮತ್ತು ವಾಕ್‍ಸ್‌ ತಯಾರಿಕೆಗಾಗಿ ಉಪಯೋಗಿಸುತ್ತಾರೆ.

ವಾಸ್ತವಪ್ರಾಯ ಸಹಾಯಕಗಳು

ಸರ್‌, ಅಲೆಕ್ಸಾನಾ, Google ಸಹಾಯಕ, ಮತ್ತು ಕೌನ್ಸಿಲ್‌ ಚ್ಯಾಟ್‌ ಚ್ಯಾಟ್‌ಗಳನ್ನು ಉಪಯೋಗಿಸುತ್ತಾರೆ.

ಅನೇಕವೇಳೆ ಪ್ರಶ್ನೆಗಳು

ಮಾತಿನ ತಂತ್ರಜ್ಞಾನಕ್ಕೆ ಸಂಬಂಧಿಸಿದ ಸಾಮಾನ್ಯ ಪ್ರಶ್ನೆಗಳು

TTS ಪಠ್ಯದಿಂದ ತೆಗೆಯಲು. ಇದು, ಪಠ್ಯವನ್ನು ಧ್ವನಿ ಧ್ವನಿ ಧ್ವನಿ ಶಬ್ದಕೋಶವಾಗಿ ಪರಿವರ್ತಿಸುವ ತಂತ್ರಜ್ಞಾನವನ್ನು ಸೂಚಿಸುತ್ತದೆ. ಈ ಪದವನ್ನು ತಾಂತ್ರಿಕ ಸಾಹಿತ್ಯದಲ್ಲಿ "ಆಧುನಿಕ syntheses" ಎಂಬ ವಾಕ್ಸರಣಿ ಬಳಸಿ ಬಳಸಲಾಗುತ್ತದೆ.

ಆಧುನಿಕ TTS ಯಂತ್ರಗಳು ಮೂರು ಹಂತಗಳಲ್ಲಿ ಕೆಲಸಮಾಡುತ್ತವೆ: ಪಠ್ಯದ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ (ಪಾರ್‌ಡಿಂಗ್‌, ಫೋನ್‌ ಮೆಮೆಟಿಕ್‌ ಪರಿವರ್ತನೆ), ಪ್ರ್ಯಾಕ್ಟೋಸಿನ್‌ ಮುನ್ಸೂಚನೆ (ಟೈಮ್‌, ಒತ್ತಡ, ಮತ್ತು ವಿರಾಮಗಳು), ಮತ್ತು ಧ್ವನಿ ಆವರ್ತಕವನ್ನು (ನಿರ್ವಹಿಸುವ ಧ್ವನಿ ಆವರ್ತನಕವನ್ನು ನಿರ್ಧರಿಸುವುದು).

ಲಂಗುಲಗಾಮಿಲ್ಲದ ಟಿಟ್ಸ್ ಉಪಭಾಷಾ ತುಂಡುಗಳನ್ನು ಒಟ್ಟಿಗೆ ಒಟ್ಟೊಳ್ಳೆ ಮಾಡುತ್ತದೆ, ಇದು ಪರಿವರ್ತನೆಯ ಸಮಯದಲ್ಲಿ ಬಿಕ್ಕಿಹೊಡೆಯಬಲ್ಲದು. ನೇರಲ್ ಟಿಟ್ಸ್ ಭಾಷಣವನ್ನು ಉತ್ಪತ್ತಿ ಮಾಡುತ್ತದೆ, ಗಾಢ ವಿದ್ಯುತ್ಕಾರಕ ವಿದ್ಯುತ್ಸಾಹದೊಂದಿಗೆ ಮತ್ತು ಭಾವೋದ್ರೇಕದೊಂದಿಗೆ ಹೆಚ್ಚು ಸ್ವಾಭಾವಿಕವಾದ ಧ್ವನಿಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ.

SSML (ಭಾಷಾ ಸಂಧಾನಾರ್ಥಿತ MessageL) ಒಂದು XML- basefick ಅಕ್ಷರಗಳನ್ನೊಳಗೊಂಡು TTS ಗಣಕಗಳು ಹೇಗೆ ಪಠ್ಯವನ್ನು ನುಡಿಯುತ್ತವೆ ಎನ್ನುವುದನ್ನು ನಿಯಂತ್ರಿಸುತ್ತದೆ. ನೀವು ನಿಮ್ಮ ಪಠ್ಯದ ಒಳಗೆ SSML ಟ್ಯಾಗ್‌ಗಳನ್ನು ಬಳಸುವ ವಿರಾಮ, ಒತ್ತುವಿಕೆ, ಉಚ್ಚಾಂಕ, ಮತ್ತು ಅನುಕ್ರಮಿಸು ಮತ್ತು ಮಾತಾಡುವ ಪ್ರಮಾಣವನ್ನು ಸೂಚಿಸಬಹುದು.

TTS ಅನ್ನು ದೃಶ್ಯಾಭ್ಯಾಸದ ಬಳಕೆದಾರರಿಗೆ (subscript ವಾಚಕಗಳು, ಮ್ಯಗಲ್ ಅಲಿಕ್ಸ್, Google ಗೆ), ಆಡಿಯಾ ಪುಸ್ತಕ ರಚನೆ, ಇ- GPS ಸೇವೆ ನ್ಯಾವಿಗೇಶನ್, IV ಸೇವೆ ವ್ಯವಸ್ಥೆ, IV ಸೇವೆ, IVR ರಚನಾವ್ಯವಸ್ಥೆ ಮತ್ತು ಕಲಿಕೆ ಕಲಿಕೆ ತಂತ್ರಗಳಿಗೆ ಬಳಸಲಾಗುತ್ತದೆ.

1960 ರ ದಶಕದಲ್ಲಿ ರಾಬಿನ್ ಕಾನೂನಿನ ನಿಯಮ ವ್ಯವಸ್ಥೆಯಿಂದ ವಿಕಸಿಸಲಾಯಿತು, 1990ರಲ್ಲಿ ವಿಶಿಷ್ಟವಾದ ಸಂಕೀರ್ಣ ಸಿನೆಮಾ ಸೆನಟಿಸ್, ೨೦೦೦೦ ಗಳಲ್ಲಿ ೨೦೦೦ ಗಳಲ್ಲಿ ಚಲನೆ ದೊಂದಿಗೆ TTS ಗೆ, ಇವತ್ತಿನ ಮಾನವ ಗುಣವನ್ನು ಸಾಧಿಸುವ ಮಾನವ ಗುಣದ ಪರಿವರ್ತನೆಯ ಮತ್ತು ತ್ರಿಕೋನದ ಮಾದರಿಗಳ ಮೂಲಕ.

ನೈಸರ್ಗಿಕ- ಪ್ರೋಯೋಜಕ TSಗಳಿಗೆ ನಿಷ್ಕೃಷ್ಟವಾದ ಪ್ರೋಜಕ (ಪ್ರೋಟೋಮಿ, ಮಾನಸಿಕ ಒತ್ತಡ, ಸೂಕ್ತವಾದ ಪಪಿಂಗ್), ಫೋನೋಮ್‌ಗಳ ನಡುವೆ ಹೊಂದಾಣಿಕೆಗಳು ಮತ್ತು ಹೊಂದಿಕೆಯ ಶೈಲಿಯ ಬದಲಾವಣೆಗಳು ಅಗತ್ಯ. ಸ್ವಾಭಾವಿಕವಾದ ಮಾನವ ಧ್ವನಿ ರೆಕಾರ್ಡಿಂಗ್‌ಗಳ ದೊಡ್ಡ ರೂಪಾಂತರಗಳಿಂದ ಈ ನಮೂನೆಗಳನ್ನು ಕಲಿತುಕೊಳ್ಳುತ್ತದೆ.

Chortbox ಹಾಗು CosyVoice 2 ನಂತಹ ಧ್ವನಿ ಮಾದರಿಗಳು ಸಹ ಒಂದು ನಿರ್ದಿಷ್ಟ ಧ್ವನಿಯನ್ನು ಸೇರಿಸಬಹುದು ಉಲ್ಲೇಖದ 5- 30 ಸೆಕೆಂಡುಗಳಷ್ಟು ಕಡಿಮೆ ಆಡಿಯೋ ಧ್ವನಿಗಳಿಂದ. ತದ್ರೂಪದ ಧ್ವನಿ, ಸಮಾನಾರ್ಥಕ, ಮತ್ತು ಕಾನೂನು ಗಣಿತ ವಿಮರ್ಶೆಗಳು ಇತರರಿಗೆ ಅನ್ವಯಿಸುತ್ತವೆ.

ಆಧುನಿಕ TTS ಮಾದರಿಗಳು ಒಟ್ಟಿಗೆ 30+ ಭಾಷೆಗಳನ್ನು ಬೆಂಬಲಿಸುತ್ತವೆ.

TTS ವು AI ಧ್ವನಿಯ ಉತ್ಪತ್ತಿಯ ಉಪವ್ಯವಸ್ಥ್ಯೆ. ವಿಶೇಷವಾಗಿ TTS ವೀಕ್ಷಣೆಗೆ ಪಠ್ಯವನ್ನು ವಾಲಕ ಪ್ರದಾನಕ್ಕೆ ಬದಲಾಯಿಸುವ ಒಂದು ಅಗಲವಾದ ಪದವಾಗಿದೆ. ಇದರಲ್ಲಿ ಸ್ವರ ವೀಕ್ಷಣೆ, ಸ್ವರ ಬದಲಾಯಿಸುವಿಕೆ, ಧ್ವನಿ- ಅನುವರ್ತಣೆ ಮತ್ತು ಸೌಜನಾ ಪರಿಣಾಮ ಸಹ ಸೇರಿದೆ.

ಕೋರೊ ನಿಮ್ಮ ಅಗತ್ಯಗಳ ಮೇಲೆ ಹೊಂದಿಕೊಂಡಿದೆ. ಸಾಮಾನ್ಯ ಬಳಕೆಯ ಉತ್ತಮ ಮಟ್ಟವನ್ನು ಒದಗಿಸುತ್ತದೆ. ವಾಕ್ಟರ್ ಬಾಕ್ಸ್ ಧ್ವನಿ ಮಾಪಕದಲ್ಲಿ ಹೋಗುತ್ತದೆ. Orpherbox 2 ಭಾವಾತ್ಮಕ ಕ್ರಮದಲ್ಲಿ ಉತ್ತಮವಾಗಿದೆ. ಶೈಲಿTS2 ಅತಿ ನೈಸರ್ಗಿಕ- ಧ್ವನಿ ಪ್ರೊಗ್ರಾಂ ರೆಫರೆನ್ಸ್ ಅನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ. ಎಲ್ಲಾ ಪ್ರೊಫೈಲ್ ಕೇಸ್‌ಗಳಿಗೂ ಒಂದೇ ಮಾದರಿಯು ಇಲ್ಲ. ಎಲ್ಲಾ ಪ್ರೋಗ್ರಾಂ ಅಂಶಗಳಿಗೆ ಒಂದೇ ಇಲ್ಲ.

TTS.ai ರ ಎಲ್ಲ ಮಾದರಿಗಳು ತೆರೆದ-ಸೇರ್ಪಡೆಯಬಹುದಾಗಿದೆ. ಮತ್ತು ಸ್ವಪ್ರಯೋಜಕಗೊಳಿಸಬಹುದು. CPU-ನೆನಷ್ಟು ಗಣಕದ ಮೇಲೆ ಚಾಲ್ತಿಯಲ್ಲಿದೆ. GPU ಮಾದರಿಗಳಿಗೆ Cooro ಮತ್ತು ಬಾರ್ಕ್ GITIA GPGBRAM ಸಹ ಅಗತ್ಯ. ನಮ್ಮ ವೇದಿಕೆ ಕೂಡ ನೀವು ಕಾರ್ಯನಿರ್ವಹಿಸಬೇಕೆಂದಿಲ್ಲ.
5.0/5 (1)

ನೀವೇನು ಉತ್ತರ ಕೊಡುವಿರಿ?

ಆಧುನಿಕ ಅನುಭವಗಳು

20+ ಸ್ಥಿತಿ-ಖಾನೆ AI ಮಾದರಿಗಳನ್ನು ಉಚಿತವಾಗಿ ಬಳಸಲು ಪ್ರಯತ್ನಿಸಿ. ಮಾತನಾಡಲು ಎಷ್ಟು ದೂರ ಪದಗಳು ಬಂದಿವೆ ಎಂದು ನೋಡಿ.