ਟੈਕਸਟ ਤੋਂ ਬੋਲੀ (TTS) ਕੀ ਹੈ?

ਟੈਕਸਟ- ਟੂ- ਸਪੀਚ ਟੈਕਨੋਲੋਜੀ ਹੈ, ਜੋ ਕਿ ਲਿਖੇ ਟੈਕਸਟ ਨੂੰ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬੋਲੇ ਆਡੀਓ ਵਿੱਚ ਬਦਲਦੀ ਹੈ । ਪਹਿਲਾਂ ਰੋਬੋਟਿਕ ਸੰਸਲੇਸ਼ਕਾਂ ਤੋਂ ਲੈ ਕੇ ਅੱਜ ਦੇ ਨਯੂਰਲ ਨੈੱਟਵਰਕਾਂ ਤੱਕ, ਜੋ ਕਿ ਮਨੁੱਖਾਂ ਤੋਂ ਅਲੱਗ ਸੁਣਾਈ ਦਿੰਦੇ ਹਨ, TTS ਨੇ ਤਬਦੀਲ ਕੀਤਾ ਹੈ ਕਿ ਅਸੀਂ ਕਿਵੇਂ ਟੈਕਨੋਲੋਜੀ ਨਾਲ ਸੰਪਰਕ ਕਰਦੇ ਹਾਂ, ਸਮੱਗਰੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਾਂ ਅਤੇ ਜਾਣਕਾਰੀ ਪਹੁੰਚਯੋਗ ਕਰਦੇ ਹਾਂ ।

ਤਕਨਾਲੋਜੀ ਅਤੀਤ ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ ਨਿਊਰਲ ਨੈੱਟਵਰਕName ਈਵੋਲੂਸ਼ਨ

ਪਾਠ ਤੋਂ ਬੋਲੀ ਵਿੱਚ ਕੁੰਜੀ ਸੰਕਲਪ

ਆਧੁਨਿਕ ਬੋਲੀ ਸੰਸਲੇਸ਼ਣ ਦੇ ਨਿਰਮਾਣ ਬਲਾਕ ਨੂੰ ਸਮਝਣਾName

TTS ਕੀ ਹੈ

TTS ਦਾ ਅਰਥ ਹੈ ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ - ਟੈਕਨੋਲੋਜੀ ਜੋ ਕਿ ਲਿਖੇ ਟੈਕਸਟ ਨੂੰ ਕੰਪਿਊਟਰ-ਜਨਰੇਟ ਕੀਤੀਆਂ ਆਵਾਜ਼ਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬੋਲੀ ਆਡੀਓ ਵਿੱਚ ਬਦਲਦੀ ਹੈ।

ਨਿਊਰਲ TTS ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ

ਆਧੁਨਿਕ TTS ਪਾਠ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਡੂੰਘੇ ਨਯੂਰਲ ਨੈੱਟਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, ਬੋਲੀ ਪੈਟਰਨ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ, ਅਤੇ ਆਡੀਓ ਵੇਵਫਾਰਮ ਪੈਦਾ ਕਰਦਾ ਹੈ ਜੋ ਕਿ ਅਦਭੁਤ ਮਨੁੱਖੀ ਸੁਣਿਆ ਜਾਂਦਾ ਹੈ।

ਬੋਲੀ ਸੰਸਲੇਸ਼ਣ ਦਾ ਅਤੀਤName

1960 ਦੇ ਦਹਾਕੇ ਦੇ ਨਿਯਮ ਅਧਾਰਤ ਸਿਸਟਮਾਂ ਤੋਂ ਲੈ ਕੇ 1990 ਦੇ ਦਹਾਕੇ ਦੇ ਸੰਕੇਤ ਸੰਸਲੇਸ਼ਣ ਤੱਕ ਅੱਜ ਦੇ ਨਯੂਰਲ ਮਾਡਲਾਂ ਤੱਕ - TTS ਨੇ ਛੇ ਦਹਾਕਿਆਂ ਵਿੱਚ ਕਿਵੇਂ ਵਿਕਸਤ ਕੀਤਾ।

ਆਧੁਨਿਕ AI ਮਾਡਲ

ਅੱਜ ਦੇ ਮਾਡਲ ਜਿਵੇਂ ਕਿ ਕੋਕੋਰੋ, ਬਾਰਕ, ਅਤੇ ਕੋਸੀਵਾਇਸ2ਵਿਚ ਟ੍ਰਾਂਸਫਾਰਮਰ, ਪ੍ਰਸਾਰਣ, ਅਤੇ ਵਿਭਿੰਨਤਾ ਦੇ ਅੰਦਾਜ਼ੇ ਨੂੰ ਮਨੁੱਖੀ ਪੱਧਰ ਦੀ ਬੋਲੀ ਦੀ ਗੁਣਵੱਤਾ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ।

ਆਮ ਕਾਰਜ

TTS ਸਕਰੀਨ ਰੀਡਰ, GPS ਨੇਵੀਗੇਸ਼ਨ, ਵਰਚੁਅਲ ਸਹਾਇਕ, ਆਡੀਓਬੁੱਕਸ, ਗਾਹਕ ਸੇਵਾ ਬੋਟ, ਈ-ਲਰਨਿੰਗ ਪਲੇਟਫਾਰਮ ਅਤੇ ਸਮੱਗਰੀ ਸਿਰਜਣਾ ਨੂੰ ਸ਼ਕਤੀ ਦਿੰਦਾ ਹੈ।

ਓਪਨ ਸੋਰਸ ਬਨਾਮ ਵਪਾਰਕ

ਓਪਨ-ਸੋਰਸ ਮਾਡਲ (MIT, Apache 2.0) ਮੁਫਤ, ਸਵੈ-ਹੋਸਟਿੰਗ TTS ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ ਜਦੋਂ ਕਿ ਵਪਾਰਕ ਸੇਵਾਵਾਂ SLAs ਅਤੇ ਸਹਿਯੋਗ ਨਾਲ ਪ੍ਰਬੰਧਿਤ APIs ਪ੍ਰਦਾਨ ਕਰਦੀਆਂ ਹਨ।

TTS.ai ਉੱਤੇ ਉਪਲੱਬਧ TTS ਮਾਡਲ

ਤੇਜ਼ ਅਤੇ ਹਲਕੇ ਤੋਂ ਸਟੂਡੀਓ- ਕੁਆਲਟੀ ਨਯੂਰਲ ਆਵਾਜ਼ਾਂ ਤੱਕName

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ਇਸ ਲਈ ਵਧੀਆ: ਸਟੇਟ- ਆਫ- ਦਿ- ਆਰਟ ਛੋਟਾ ਮਾਡਲ — ਇਹ ਵੇਖਾਉਂਦਾ ਹੈ ਕਿ ਨਿਊਰਲ TTS ਕਿੰਨਾ ਦੂਰ ਪਹੁੰਚਿਆ ਹੈ

ਕੋਸ਼ਿਸ Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

ਇਸ ਲਈ ਵਧੀਆ: ਟ੍ਰਾਂਸਫਾਰਮਰ ਅਧਾਰਿਤ ਮਾਡਲ, ਬੋਲੀ ਤੋਂ ਬਾਹਰ ਆਡੀਓ ਪੈਦਾ ਕਰਨ ਲਈ ਦਿਖਾਉਂਦਾ ਹੈName

ਕੋਸ਼ਿਸ Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ਬੋਲੀ ਕਲੋਨਿੰਗ

ਇਸ ਲਈ ਵਧੀਆ: ਮਨੁੱਖੀ-ਪਰਿਟੀ ਕੁਆਲਟੀ ਅਤੇ ਜ਼ੀਰੋ-ਸ਼ੋਟ ਕਲੋਨਿੰਗ ਨਾਲ TTS ਸਟਰੀਮਿੰਗ

ਕੋਸ਼ਿਸ CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 ਬੋਲੀ ਕਲੋਨਿੰਗ

ਇਸ ਲਈ ਵਧੀਆ: ਬੋਲੀ ਸੰਸਲੇਸ਼ਣ ਦੀ ਸਰਹੱਦ ਵੇਖਾਉਣ ਲਈ ਜ਼ੀਰੋ-ਸ਼ੋਟ ਬੋਲੀ ਕਲੋਨਿੰਗName

ਕੋਸ਼ਿਸ Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 ਬੋਲੀ ਕਲੋਨਿੰਗ

ਇਸ ਲਈ ਵਧੀਆ: ਵੱਧੋ- ਵੱਧ ਆਡੀਓ ਕੁਆਲਟੀ ਲਈ ਆਟੋ- ਰਿਗਰੇਸਿਵ ਆਰਕੀਟੈਕਚਰ

ਕੋਸ਼ਿਸ Tortoise TTS

ਨਿਊਰਲ TTS ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ

ਚਾਰ ਪੜਾਵਾਂ ਵਿੱਚ ਆਧੁਨਿਕ ਬੋਲੀ ਸੰਸਲੇਸ਼ਣ ਪਾਈਪਲਾਈਨName

1

ਮੁੱਢਲਾ ਸਮਝੋ

TTS ਲਿਖੇ ਟੈਕਸਟ ਨੂੰ ਬੋਲੀ ਆਡੀਓ ਵਿੱਚ ਬਦਲਦਾ ਹੈ । ਆਧੁਨਿਕ ਸਿਸਟਮ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਵਰਤਦੇ ਹਨ, ਜੋ ਕਿ ਹਜ਼ਾਰਾਂ ਘੰਟਿਆਂ ਦੇ ਮਨੁੱਖੀ ਬੋਲੀ ਰਿਕਾਰਡਿੰਗ ਉੱਤੇ ਟਰੇਨ ਕੀਤੇ ਗਏ ਹਨ ।

2

ਵੱਖ ਵੱਖ ਮਾਡਲਾਂ ਦੀ ਖੋਜ

ਹਰ TTS ਮਾਡਲ ਇੱਕ ਵੱਖਰੇ ਢਾਂਚੇ (ਟ੍ਰਾਂਸਫਾਰਮਰ, ਡਿਫਿਊਜ਼ਨ, ਵੇਰੀਏਸ਼ਨਲ) ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ ਜਿਸ ਵਿੱਚ ਗਤੀ, ਗੁਣਵੱਤਾ ਅਤੇ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਵਿੱਚ ਵਿਲੱਖਣ ਤਾਕਤ ਹੁੰਦੀ ਹੈ।

3

ਆਪਣੇ ਆਪ ਕੋਸ਼ਿਸ਼ ਕਰੋ

TTS ਨੂੰ ਸਮਝਣ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਢੰਗ ਇਸ ਨੂੰ ਵਰਤਣਾ ਹੈ । ਸਾਡੇ ਉਪਰਲੇ ਮੁਫਤ ਮਾਡਲਾਂ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰੋ — ਕਿਸੇ ਵੀ ਪਾਠ ਨੂੰ ਚਿਪਕਾਓ ਅਤੇ ਕੁਝ ਸਕਿੰਟਾਂ ਵਿੱਚ ਹੀ ਸੁਣੋ ।

4

ਆਪਣੇ ਪ੍ਰੋਜੈਕਟ ਵਿੱਚ ਸ਼ਾਮਲ

ਇੱਕ ਵਾਰ ਜਦੋਂ ਤੁਸੀਂ ਇੱਕ ਮਾਡਲ ਲੱਭ ਲਓ, ਤਾਂ ਆਪਣੇ ਐਪਲੀਕੇਸ਼ਨ, ਉਤਪਾਦ ਜਾਂ ਸਮੱਗਰੀ ਬਣਾਉਣ ਵਰਕਫਲੋ ਵਿੱਚ TTS ਨੂੰ ਇੱਕਜੁਟ ਕਰਨ ਲਈ ਸਾਡੇ API ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਪਾਠ ਤੋਂ ਬੋਲੀ ਦਾ ਸੰਖੇਪ ਇਤਿਹਾਸName

ਮਕੈਨੀਕਲ ਬੋਲਣ ਵਾਲੀਆਂ ਮਸ਼ੀਨਾਂ ਤੋਂ ਨਯੂਰਲ ਨੈੱਟਵਰਕਾਂ ਤੱਕ

ਸ਼ੁਰੂਆਤੀ ਦਿਨ (1950- 1980)

ਪਹਿਲੀ ਕੰਪਿਊਟਰ-ਜਨਰੇਟ ਕੀਤੀ ਬੋਲੀ 1961 ਦੀ ਹੈ, ਜਦੋਂ IBM

ਪ੍ਰਮੁੱਖ ਸਿਸਟਮ: ਵੋਟਰਾਕਸ (1970), DECtalk (1984, ਸਟੀਫਨ ਹਾਕਿੰਗ ਨੇ ਵਰਤਿਆ), ਐਪਲ

ਸੰਕੇਤ ਸੰਸਲੇਸ਼ਣ (1990- 2000)

ਸੰਬੰਧਿਤ TTS ਇੱਕ ਅਸਲੀ ਮਨੁੱਖੀ ਆਵਾਜ਼ ਨੂੰ ਹਜ਼ਾਰਾਂ ਫੋਨਮ ਸੰਯੋਗਾਂ ਨਾਲ ਰਿਕਾਰਡ ਕਰਦਾ ਹੈ, ਫਿਰ ਰਨਟਾਈਮ ਉੱਤੇ ਸਹੀ ਸੈਗਮੈਂਟਾਂ ਨੂੰ ਇੱਕਠਾ ਕਰਦਾ ਹੈ । ਇਸ ਨਾਲ ਵਧੇਰੇ ਕੁਦਰਤੀ ਆਵਾਜ਼ ਆਉਂਦੀ ਹੈ, ਪਰ ਵੱਡੇ ਡਾਟਾਬੇਸ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ (ਸਰਵਸਰ 10- 20 ਘੰਟੇ ਪ੍ਰਤੀ ਆਵਾਜ਼ ਰਿਕਾਰਡਿੰਗ) । ਕੁਆਲਟੀ ਸੈਗਮੈਂਟਾਂ ਵਿੱਚ ਸਧਾਰਨ ਜੁੜਨ ਲੱਭਣ ਉੱਤੇ ਬਹੁਤ ਨਿਰਭਰ ਕਰਦੀ ਹੈ ।

ਵਰਤਿਆ ਗਿਆ: AT&T ਕੁਦਰਤੀ ਆਵਾਜ਼ਾਂ, ਨੂਐਂਸ ਵੋਕਲਾਇਜ਼ਰ, ਪਹਿਲਾਂ ਗੂਗਲ ਅਨੁਵਾਦ TTS।

ਅੰਕੜੇ/ਪਰਾਮੀਟਰ (2000-2010)

Instead of stitching recordings, parametric models learned statistical representations of speech. Hidden Markov Models (HMMs) and later deep neural networks generated speech parameters (pitch, duration, spectral features) that were fed through a vocoder. This allowed unlimited vocabulary and easier voice creation, but the vocoder step often produced a "buzzy" quality.

ਪ੍ਰਮੁੱਖ ਮਾਡਲ: HTS, Merlin, ਪਹਿਲੇ DNN ਅਧਾਰਤ ਸਿਸਟਮ।

ਨਿਊਰਲ TTS (2016- ਮੌਜੂਦਾ)

ਆਧੁਨਿਕ ਯੁੱਗ ਵੇਵਨੈੱਟ (DeepMind, 2016) ਨਾਲ ਸ਼ੁਰੂ ਹੋਇਆ, ਜਿਸ ਨੇ ਡੂੰਘੇ ਨਯੂਰਲ ਨੈੱਟਵਰਕ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਆਡੀਓ ਨਮੂਨੇ ਨਾਲ ਨਮੂਨੇ ਪੈਦਾ ਕੀਤੇ। ਇਸ ਤੋਂ ਬਾਅਦ ਟੈਕੋਟ੍ਰੋਨ (Google, 2017) ਆਇਆ, ਜਿਸ ਨੇ ਟੈਕਸਟ ਨੂੰ ਸਪੈਕਟ੍ਰੋਗ੍ਰਾਮ ਵਿੱਚ ਸਿੱਧਾ ਮੈਪ ਕਰਨਾ ਸਿੱਖਿਆ। ਅੱਜ

ਪ੍ਰਮੁੱਖ ਖੋਜਾਂ: ਵੇਵਨੈੱਟ, ਟੈਕੋਟ੍ਰੋਨ, ਫਾਸਟ ਸਪੀਚ, ਵੀਆਈਟੀਐੱਸ, ਬਾਰਕ, ਕੋਕੋਰੋ।

ਆਧੁਨਿਕ ਨਿਊਰਲ TTS ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ

ਕੁਦਰਤੀ-ਸੰਗੀਤ AI ਆਵਾਜ਼ਾਂ ਪਿੱਛੇ ਢਾਂਚਾName

ਟੈਕਸਟ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਨਾਰਮਲਾਈਜ਼ੇਸ਼ਨName

Raw ਟੈਕਸਟ ਸਾਫ਼ ਅਤੇ ਨਰਮ ਕੀਤਾ ਗਿਆ ਹੈ: ਅੰਕ ਸ਼ਬਦ ਬਣ ਜਾਂਦੇ ਹਨ (\

ਆਡੀਓ ਮਾਡਲ (ਪਾਠ ਤੋਂ ਸਪੈਕਟਰੋਗ੍ਰਾਮ) Name

ਆਡੀਓ ਮਾਡਲ (ਅਤੇ ਅਕਸਰ ਇੱਕ ਟ੍ਰਾਂਸਫਾਰਮਰ ਜਾਂ ਆਟੋਰਿਗਰੇਸ਼ਨ ਨੈੱਟਵਰਕ) ਫੋਨਮ ਕ੍ਰਮ ਨੂੰ ਲੈਂਦਾ ਹੈ ਅਤੇ ਇੱਕ mel ਸਪੈਕਟਰੋਗ੍ਰਾਮ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ - ਇੱਕ ਦ੍ਰਿਸ਼ਟੀਗਤ ਪ੍ਰਤੀਨਿਧਤਾ ਕਿ ਕਿਵੇਂ ਆਡੀਓ ਵੱਜਦਾ ਹੈ

ਵੋਕੋਡਰ (ਸਪੈਕਟਰੋਗਰਾਮ ਤੋਂ ਆਡੀਓ)

ਵੋਕੋਡਰ mel ਸਪੈਕਟਰੋਗਰਾਮ ਨੂੰ ਅਸਲੀ ਆਡੀਓ ਵੇਵਫਾਰਮ ਵਿੱਚ ਬਦਲਦਾ ਹੈ । ਪਹਿਲਾਂ ਵੋਕੋਡਰ ਜਿਵੇਂ ਕਿ ਗਰਿੱਫਿਨ- ਲੀਮ ਨੇ ਰੋਬੋਟਿਕ ਆਰਟੀਫੈਕਟ ਬਣਾਏ । ਆਧੁਨਿਕ ਨਯੂਰਲ ਵੋਕੋਡਰ (HiFi- GAN, BigVGAN, Vocos) ਉੱਚ- ਗੁਣਵੱਤਾ 24kHz ਜਾਂ 44. 1kHz ਆਡੀਓ ਬਣਾਉਦੇ ਹਨ, ਜੋ ਕਿ ਕੁਦਰਤੀ ਬੋਲੀ ਦੇ ਵੇਰਵੇ ਲੈਂਦੇ ਹਨ, ਜਿਸ ਵਿੱਚ ਸਾਹ ਦੀਆਂ ਆਵਾਜ਼ਾਂ ਅਤੇ ਹੱਥਾਂ ਦੀਆਂ ਹਲਕੀ ਹਿਲਜੁਲ ਸ਼ਾਮਲ ਹਨ ।

ਅੰਤ- ਤੋਂ- ਅੰਤ ਮਾਡਲ

ਨਵੀਨਤਮ ਮਾਡਲ ਜਿਵੇਂ ਕਿ VITS, ਕੋਕੋਰੋ, ਅਤੇ ਬਾਰਕ ਦੋ- ਪੜਾਅ ਪਾਈਪਲਾਈਨ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਛੱਡ ਦਿੰਦੇ ਹਨ । ਉਹ ਇੱਕ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਵਿੱਚ ਸਿੱਧੇ ਪਾਠ ਤੋਂ ਆਡੀਓ ਵਿੱਚ ਜਾਂਦੇ ਹਨ, ਘੱਟ ਆਰਟੀਫੈਕਟ ਨਾਲ ਵਧੇਰੇ ਕੁਦਰਤੀ ਨਤੀਜੇ ਪੈਦਾ ਕਰਦੇ ਹਨ । ਕੁਝ ਮਾਡਲ (ਜਿਵੇਂ ਕਿ ਬਾਰਕ) ਬੋਲੀ ਦੇ ਨਾਲ- ਨਾਲ ਗ਼ੈਰ- ਬੋਲੀ ਧੁਨ, ਹੱਸਣਾ ਅਤੇ ਸੰਗੀਤ ਵੀ ਪੈਦਾ ਕਰ ਸਕਦੇ ਹਨ ।

TTS ਪਹੁੰਚਾਂ ਦੀ ਤੁਲਨਾ

TTS ਟੈਕਨੋਲੋਜੀ ਦੀਆਂ ਚਾਰ ਪੀੜ੍ਹੀਆਂ ਦੀ ਤੁਲਨਾ ਕਿਵੇਂ ਕਰੀਏ

ਪਹੁੰਚ ਅਰਸਾ ਕੁਦਰਤੀ ਲਚਕਤਾ ਸਪੀਡ ਡਾਟਾ ਲੋੜੀਦਾ
ਫਾਰਮੈਂਟ ਸੰਸਲੇਸ਼ਣ
ਨਿਯਮ ਅਧਾਰਿਤ ਫਰੀਕਿਊਂਸੀ ਮਾਡਲਿੰਗ
1960s-1990s ਕੋਈ ਨਹੀਂ
ਸੰਗਠਿਤ
ਸਟਿੱਕੀ ਆਡੀਓ ਸੈਗਮੈਂਟ
1990s-2010s 10-20+ ਘੰਟੇ
ਪੈਰਾਮੀਟਰਿਕ (HMM/DNN)
ਅੰਕੜਾ ਬੋਲੀ ਮਾਡਲ
2000s-2016 1-5ਘੰਟੇ
ਨਿਊਰਲ ਐਂਡ- ਟੂ- ਐਂਡ
ਡੂੰਘਾ ਸਿੱਖਿਆ (VITS, ਕੋਕੋਰੋ, ਬਾਰਕ)
2016-ਮੌਜੂਦਾ ਮਿੰਟ ਤੋਂ ਘੰਟੇ

TTS ਦੇ ਆਮ ਐਪਲੀਕੇਸ਼ਨ

ਅੱਜ ਪਾਠ ਤੋਂ ਬੋਲੀ ਲਈ ਵਰਤਿਆ ਜਾਵੇਗਾ

ਪਹੁੰਚਯੋਗਤਾ

ਸਕਰੀਨ ਰੀਡਰ, ਸਹਾਇਕ ਉਪਕਰਣ ਅਤੇ ਦ੍ਰਿਸ਼ਟੀਹੀਣ ਜਾਂ ਪੜ੍ਹਨ ਵਿੱਚ ਅਸਮਰੱਥ ਲੋਕਾਂ ਲਈ ਟੂਲਸ ਡਿਜੀਟਲ ਸਮੱਗਰੀ ਨੂੰ ਹਰ ਕਿਸੇ ਲਈ ਉਪਲੱਬਧ ਬਣਾਉਣ ਲਈ ਟੀਟੀਐੱਸ ਉੱਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ।

ਸਮੱਗਰੀ ਬਣਾਉਣਾ

ਯੂਟਿਊਬਰ, ਪੋਡਕਾਸਟਰ ਅਤੇ ਸੋਸ਼ਲ ਮੀਡੀਆ ਨਿਰਮਾਤਾ ਵੌਇਸਓਵਰ, ਨਰੇਸ਼ਨ ਅਤੇ ਆਟੋਮੈਟਿਕ ਸਮੱਗਰੀ ਉਤਪਾਦਨ ਲਈ TTS ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ।

ਵੁਰਚੁਅਲ ਸਹਾਇਕ

Siri, Alexa, Google Assistant, ਅਤੇ ਗਾਹਕ ਸੇਵਾ ਚੈਟਬੋਟਸ ਸਾਰੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਕੁਦਰਤੀ ਜਵਾਬ ਬੋਲਣ ਲਈ TTS ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ।

ਅਕਸਰ ਪੁੱਛੇ ਜਾਂਦੇ ਸਵਾਲ

ਪਾਠ ਤੋਂ ਬੋਲੀ ਟੈਕਨੋਲੋਜੀ ਬਾਰੇ ਆਮ ਸਵਾਲ

TTS ਦਾ ਅਰਥ ਹੈ ਪਾਠ- ਤੋਂ- ਬੋਲੀ । ਇਹ ਟੈਕਨੋਲੋਜੀ ਹੈ, ਜੋ ਕਿ ਲਿਖੇ ਪਾਠ ਨੂੰ ਸੰਸਲੇਸ਼ਿਤ ਜਾਂ AI- ਬਣਾਈ ਆਵਾਜ਼ਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਬੋਲੇ ਸ਼ਬਦਾਂ ਵਿੱਚ ਬਦਲਦੀ ਹੈ । ਤਕਨੀਕੀ ਸਾਹਿਤ ਵਿੱਚ ਇਹ ਸ਼ਬਦ "ਬੋਲੀ ਸੰਸਲੇਸ਼ਣ" ਨਾਲ ਬਦਲਿਆ ਜਾਂਦਾ ਹੈ ।

ਆਧੁਨਿਕ TTS ਸਿਸਟਮ ਤਿੰਨ ਪੜਾਵਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦੇ ਹਨ: ਟੈਕਸਟ ਵਿਸ਼ਲੇਸ਼ਣ (ਪਾਰਸਿੰਗ, ਨਾਰਮਲਾਈਜ਼ੇਸ਼ਨ, ਫੋਨਮ ਕਨਵਰਸ਼ਨ), ਪਰੋਸੌਡੀ ਭਵਿੱਖਬਾਣੀ (ਰੀਥਮ, ਪਿਚ, ਸਟਰੇਸ ਅਤੇ ਵਿਰਾਮ ਨਿਰਧਾਰਿਤ ਕਰਨਾ), ਅਤੇ ਆਡੀਓ ਸੰਸਲੇਸ਼ਣ (ਸਭ ਤਿੰਨ ਪੜਾਵਾਂ ਨੂੰ ਟਰੇਨਿੰਗ ਡਾਟਾ ਤੋਂ ਸਿੱਖਿਆ ਜਾਂਦਾ ਹੈ) ।

ਸੰਬੰਧਿਤ TTS ਪਹਿਲਾਂ- ਰਿਕਾਰਡ ਕੀਤੇ ਬੋਲੀ ਦੇ ਟੁਕੜਿਆਂ ਨੂੰ ਇੱਕਠੇ ਜੋੜਦਾ ਹੈ, ਜੋ ਕਿ ਤਬਦੀਲੀਆਂ ਦੌਰਾਨ ਠੀਕ ਨਹੀਂ ਸੁਣਾਈ ਦਿੰਦਾ ਹੈ । ਨਿਊਰਲ TTS ਡੂੰਘੇ ਸਿੱਖਣ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸ਼ੁਰੂ ਤੋਂ ਹੀ ਬੋਲੀ ਪੈਦਾ ਕਰਦਾ ਹੈ, ਜੋ ਕਿ ਸੌਖਾ, ਵਧੇਰੇ ਕੁਦਰਤੀ- ਸੁਣਨਯੋਗ ਆਡੀਓ ਅਤੇ ਬਿਹਤਰ ਪਰੋਸੋਡੀ ਅਤੇ ਭਾਵਨਾ ਪੈਦਾ ਕਰਦਾ ਹੈ ।

SSML (Speech Synthesis Markup Language) ਇੱਕ XML ਅਧਾਰਿਤ ਮਾਰਕਅੱਪ ਭਾਸ਼ਾ ਹੈ, ਜੋ ਕਿ ਤੁਹਾਨੂੰ ਕੰਟਰੋਲ ਕਰਨ ਦਿੰਦੀ ਹੈ ਕਿ TTS ਸਿਸਟਮ ਪਾਠ ਕਿਵੇਂ ਬੋਲਦਾ ਹੈ । ਤੁਸੀਂ ਆਪਣੇ ਪਾਠ ਇੰਪੁੱਟ ਵਿੱਚ SSML ਟੈਗਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਵਿਰਾਮ, ਜ਼ੋਰ, ਉਚਾਰਨ, ਪਾਈਟ ਤਬਦੀਲੀਆਂ ਅਤੇ ਬੋਲਣ ਦੀ ਰੇਟ ਦੇ ਸਕਦੇ ਹੋ ।

TTS ਦੀ ਵਰਤੋਂ ਪਹੁੰਚਯੋਗਤਾ (ਦ੍ਰਿਸ਼ਟੀਹੀਣ ਉਪਭੋਗਤਾਵਾਂ ਲਈ ਸਕਰੀਨ ਰੀਡਰ), ਵੁਰਚੁਅਲ ਸਹਾਇਕ (ਸਿਰੀ, ਅਲੇਕਸਾ, ਗੂਗਲ ਸਹਾਇਕ), ਆਡੀਓਬੁੱਕ ਉਤਪਾਦਨ, ਈ-ਲਰਨਿੰਗ, GPS ਨੇਵੀਗੇਸ਼ਨ, ਗਾਹਕ ਸੇਵਾ IVR ਸਿਸਟਮ, ਸਮੱਗਰੀ ਸਿਰਜਣਾ ਅਤੇ ਭਾਸ਼ਾ ਸਿੱਖਣ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।

TTS 1960 ਦੇ ਦਹਾਕੇ ਵਿੱਚ ਰੋਬੋਟਿਕ ਨਿਯਮ ਅਧਾਰਤ ਪ੍ਰਣਾਲੀਆਂ ਤੋਂ 1990 ਦੇ ਦਹਾਕੇ ਵਿੱਚ ਸੰਕੇਤ ਸੰਸਲੇਸ਼ਣ, 2000 ਦੇ ਦਹਾਕੇ ਵਿੱਚ ਅੰਕੜਾ ਪੈਰਾਮੀਟਰ ਸੰਸਲੇਸ਼ਣ, 2016 ਵਿੱਚ ਵੇਵਨੈੱਟ ਨਾਲ ਨਯੂਰਲ TTS, ਅੱਜ ਦੇ ਟ੍ਰਾਂਸਫਾਰਮਰ ਅਤੇ ਪ੍ਰਸਾਰਣ ਮਾਡਲਾਂ ਤੱਕ ਵਿਕਸਤ ਹੋਇਆ ਹੈ ਜੋ ਮਨੁੱਖੀ ਪੱਧਰ ਦੀ ਗੁਣਵੱਤਾ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।

ਕੁਦਰਤੀ- ਸੁਣਨਯੋਗ TTS ਲਈ ਸਹੀ ਪਰੋਸੌਡੀ (ਰਿਥਮ, ਸਟ੍ਰੈਸ, ਇੰਟੋਨੇਸ਼ਨ), ਢੁੱਕਵੀਂ ਪੇਸ਼ਕਾਰੀ, ਫੋਨੈਮਾਂ ਵਿੱਚ ਸੁੰਦਰ ਤਬਦੀਲੀਆਂ ਅਤੇ ਸਥਿਰ ਆਵਾਜ਼ ਪਛਾਣ ਦੀ ਲੋੜ ਹੈ । ਨਯੂਰਲ ਮਾਡਲ ਕੁਦਰਤੀ ਮਨੁੱਖੀ ਬੋਲੀ ਰਿਕਾਰਡਿੰਗ ਦੇ ਵੱਡੇ ਡਾਟਾਸੈੱਟ ਤੋਂ ਇਹ ਪੈਟਰਨ ਸਿੱਖਦੇ ਹਨ ।

ਵੌਇਸ ਕਲੋਨਿੰਗ ਮਾਡਲ ਜਿਵੇਂ ਕਿ ਚੈਟਰਬਾਕਸ ਅਤੇ ਕੋਸੀਵੌਇਸ25-30 ਸਕਿੰਟ ਦੇ ਹਦਾਇਤ ਆਡੀਓ ਤੋਂ ਇੱਕ ਖਾਸ ਵੌਇਸ ਦੀ ਨਕਲ ਕਰ ਸਕਦੇ ਹਨ। ਕਲੋਨ ਕੀਤੀ ਵੌਇਸ ਟਿਮਬਰ, ਅਵਾਜ਼ ਅਤੇ ਬੋਲਣ ਸ਼ੈਲੀ ਨੂੰ ਕੈਪਚਰ ਕਰਦੀ ਹੈ, ਭਾਵੇਂ ਕਿ ਹੋਰਾਂ ਦੀਆਂ ਆਵਾਜ਼ਾਂ ਨੂੰ ਕਲੋਨ ਕਰਨ ਲਈ ਨੈਤਿਕ ਅਤੇ ਕਾਨੂੰਨੀ ਵਿਚਾਰ ਲਾਗੂ ਹੁੰਦੇ ਹਨ।

ਆਧੁਨਿਕ TTS ਮਾਡਲ 30+ ਭਾਸ਼ਾਵਾਂ ਲਈ ਸਮੂਹਿਕ ਤੌਰ ਉੱਤੇ ਸਹਾਇਕ ਹਨ । ਕੁਝ ਮਾਡਲ ਖਾਸ ਭਾਸ਼ਾਵਾਂ ਲਈ ਵਿਸ਼ੇਸ਼ ਹਨ ਜਦਕਿ ਹੋਰ ਬਹੁਭਾਸ਼ਾਈ ਹਨ । ਅੰਗਰੇਜ਼ੀ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਉਪਲੱਬਧ ਮਾਡਲ ਅਤੇ ਆਵਾਜ਼ ਹਨ, ਪਰ ਚੀਨੀ, ਜਾਪਾਨੀ, ਕੋਰੀਆਈ, ਸਪੇਨੀ ਅਤੇ ਯੂਰਪੀ ਭਾਸ਼ਾਵਾਂ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸਹਾਇਕ ਹਨ ।

TTS AI ਬੋਲੀ ਨਿਰਮਾਣ ਦਾ ਇੱਕ ਸਬ- ਸੈੱਟ ਹੈ । TTS ਖਾਸ ਤੌਰ ਤੇ ਟੈਕਸਟ ਇੰਪੁੱਟ ਨੂੰ ਬੋਲੀ ਆਉਟਪੁੱਟ ਵਿੱਚ ਬਦਲਦਾ ਹੈ । AI ਬੋਲੀ ਨਿਰਮਾਣ ਇੱਕ ਵਿਆਪਕ ਸ਼ਬਦ ਹੈ, ਜਿਸ ਵਿੱਚ ਬੋਲੀ ਕਲੋਨਿੰਗ, ਬੋਲੀ ਪਰਿਵਰਤਨ, ਬੋਲੀ- ਤੋਂ- ਬੋਲੀ ਅਤੇ ਸਾਊਂਡ ਪਰਭਾਵ ਨਿਰਮਾਣ ਵੀ ਸ਼ਾਮਲ ਹੈ ।

ਇਹ ਤੁਹਾਡੀਆਂ ਲੋੜਾਂ ਉੱਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ । ਕੋਕੋਰੋ ਸਧਾਰਨ ਵਰਤੋਂ ਲਈ ਸਪੀਡ ਅਤੇ ਕੁਆਲਟੀ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਸੰਤੁਲਨ ਦਿੰਦਾ ਹੈ । ਚੈਟਰਬਾਕਸ ਬੋਲੀ ਕਲੋਨਿੰਗ ਵਿੱਚ ਅਗਵਾਈ ਕਰਦਾ ਹੈ । ਓਰਫੀਅਸ ਭਾਵਨਾਤਮਕ ਪ੍ਰਗਟਾਵੇ ਵਿੱਚ ਉੱਤਮ ਹੈ । ਸਟਾਈਲTTS2ਸਭ ਤੋਂ ਕੁਦਰਤੀ ਇੱਕਲੇ ਸਪੀਕਰ ਦੀ ਕਹਾਣੀ ਦਿੰਦਾ ਹੈ । ਸਭ ਵਰਤੋਂ ਲਈ ਕੋਈ ਇੱਕਲਾ "ਸਭ ਤੋਂ ਵਧੀਆ" ਮਾਡਲ ਨਹੀਂ ਹੈ ।

ਹਾਂ। TTS.ai ਉੱਤੇ ਸਭ ਮਾਡਲ ਓਪਨ-ਸੋਰਸ ਹਨ ਅਤੇ ਸਵੈ-ਹੋਸਟ ਕੀਤੇ ਜਾ ਸਕਦੇ ਹਨ। CPU-only ਮਾਡਲ ਜਿਵੇਂ ਕਿ Piper ਕਿਸੇ ਵੀ ਕੰਪਿਊਟਰ ਉੱਤੇ ਚੱਲਦੇ ਹਨ। GPU ਮਾਡਲ ਜਿਵੇਂ ਕਿ Kokoro ਅਤੇ Bark ਨੂੰ NVIDIA GPU ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ 2-8GB VRAM ਹੋਵੇ। ਸਾਡਾ ਪਲੇਟਫਾਰਮ ਹੋਸਟ ਕੀਤੀ ਪਹੁੰਚ ਵੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ ਤਾਂ ਕਿ ਤੁਹਾਨੂੰ ਇੰਫਰਾਸਟਰਕਚਰ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨ ਦੀ ਲੋੜ ਨਾ ਪਵੇ।
5.0/5 (1)

ਅਸੀਂ ਕੀ ਸੁਧਾਰ ਕਰ ਸਕਦੇ ਹਾਂ? ਤੁਹਾਡੀ ਟਿੱਪਣੀ ਸਾਨੂੰ ਸਮੱਸਿਆਵਾਂ ਹੱਲ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ।

ਆਧੁਨਿਕ TTS ਆਪ ਹੀ ਅਨੁਭਵ ਕਰੋ

20+ state-of-the-art AI ਬੋਲੀ ਮਾਡਲ ਮੁਫਤ ਵਰਤੋਂ। ਵੇਖੋ ਕਿ ਟੈਕਸਟ ਤੋਂ ਬੋਲੀ ਕਿੰਨੀ ਦੂਰ ਪਹੁੰਚ ਗਈ ਹੈ।