ਰੀਅਲ- ਟਾਈਮ TTS

ਸਬ- ਸਕਿੰਟ ਪਹਿਲੀ ਆਡੀਓ ਲਾਈਟਨਸੀ ਨਾਲ ਪਾਠ- ਤੋਂ- ਬੋਲੀ ਸਟਰੀਮਿੰਗ । ਬੋਲੀ ਏਜੰਟਾਂ ਅਤੇ ਲਾਈਵ ਐਪਲੀਕੇਸ਼ਨ ਲਈ ਬਣਾਇਆ ਗਿਆ ਹੈ । Name

ਤੁਹਾਡੇ ਕੋਲ ਤੁਹਾਡੀ ਭਾਸ਼ਾ ਵਿੱਚ TTS ਆਵਾਜ਼ਾਂ ਨਹੀਂ ਹਨ । ਸਾਨੂੰ ਆਪਣੀਆਂ ਸ਼ਾਮਲ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੋ! ਆਪਣੀ ਆਵਾਜ਼ ਵੇਚੋ

ਟੈਕਸਟ

ਸਟਰੀਮਿੰਗ
0/5,000 ਅੱਖਰ ~0.3s ਪਹਿਲਾ ਆਡੀਓ

ਬੋਲੀ ਸੈਟਿੰਗ( S)

ਸਟਰੀਮਿੰਗ-ਯੋਗ ਮਾਡਲ ਹੀ ।

ਲਾਈਵ ਲਾਈਟਨਸੀ

ਪਹਿਲੀ ਆਡੀਓ ਲਾਈਟਨਸੀ ਮਾਪਣ ਲਈ ਸਟਰੀਮ ਕਲਿੱਕ ਕਰੋ

ਆਉਟਪੁੱਟ

ਆਡੀਓ ਟੁਕੜੇ ਇੱਥੇ ਚਲਾਏ ਜਾਣਗੇ ਜਿਵੇਂ ਹੀ ਉਹ ਸਟਰੀਮ ਵਿੱਚ ਆਉਣਗੇ ।

0:00
ਪਹਿਲਾ ਟੁਕੜਾ:
ਕੁੱਲ ਟੁਕੜੇ: 0
ਕੁੱਲ ਸਮਾਂ:

ਸਟਰੀਮਿੰਗ TTS ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ

1. ਟੈਕਸਟ ਭੇਜੋ

/v1/tts/stream/ ਨੂੰ ਸਰਵਰ-ਪੱਤਰ ਕੀਤੀ ਘਟਨਾ ਮੰਗ ਵਾਂਗ POST ਪਾਠ ।

2. ਮਾਡਲ ਬਣਾਉਂਦਾ ਹੈ

ਕੋਕੋਰੋ ਪਾਠ ਨੂੰ ਟੁਕੜਿਆਂ ਵਿੱਚ ਵੰਡਦਾ ਹੈ ਅਤੇ GPU ਉੱਤੇ ਆਡੀਓ ਸੈਮਪਲ-ਬ-ਸੇਮਪਲ ਪੈਦਾ ਕਰਦਾ ਹੈ।

3. ਸਟਰੀਮ ਚੱਕਰ

Base64- ਇੰਕੋਡਡ WAV ਟੁਕੜੇ SSE ਉੱਤੇ ਪਹੁੰਚਦੇ ਹਨ ਅਤੇ ਤੁਰੰਤ ਚਲਾਉਣੇ ਸ਼ੁਰੂ ਹੋ ਜਾਂਦੇ ਹਨ ।

4. ਲਾਈਵ ਸੁਣੋ

ਯੂਜ਼ਰ ਇੱਕ ਸਕਿੰਟ ਤੋਂ ਘੱਟ ਸਮੇਂ ਵਿੱਚ ਵਾਕ ਦਾ ਸ਼ੁਰੂ ਸੁਣਦਾ ਹੈ, ਭਾਵੇਂ ਲੰਮਾ ਇੰਪੁੱਟ ਹੋਵੇ ।

ਕੇਸ ਵਰਤੋਂ

ਜਿੱਥੇ ਸਬ-ਸਕਿੰਟ ਦੀ ਦੇਰੀ ਨਵੇਂ ਅਨੁਭਵ ਖੋਲ੍ਹਦੀ ਹੈ।

ਬੋਲੀ ਏਜੰਟ

ਸੰਵਾਦ ਬਾਟ, ਜੋ ਕਿ ਮਨੁੱਖ ਵਾਂਗ ਹੀ ਤੇਜ਼ੀ ਨਾਲ ਜਵਾਬ ਦਿੰਦੇ ਹਨ।

ਲਾਈਵ ਡੁਬਿੰਗ

ਬਫਰਿੰਗ ਵਿਰਾਮਾਂ ਤੋਂ ਬਿਨਾਂ ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ ਸਟਰੀਮ ਦਾ ਅਨੁਵਾਦ ਅਤੇ ਡਬ ਕਰੋ ।

ਖੇਡਾਂ

NPC ਡਾਈਲਾਗ, ਜੋ ਕਿ ਖਿਡਾਰੀ ਚੋਣਾਂ ਉੱਤੇ ਤੁਰੰਤ ਪ੍ਰਤੀਕ੍ਰਿਆ ਕਰਦਾ ਹੈ, ਕੋਈ ਪਹਿਲਾਂ- ਰੈਂਡਰਡ VO ਨਹੀਂ ਹੈ ।

ਪਹੁੰਚਯੋਗਤਾ

ਸਕਰੀਨ ਰੀਡਰ ਅਤੇ ਸਹਾਇਕ ਟੂਲ, ਜੋ ਕਿ ਯੂਜ਼ਰ ਦੇ ਕਲਿੱਕ ਕਰਨ ਨਾਲ ਬੋਲਣਾ ਸ਼ੁਰੂ ਕਰਦੇ ਹਨ ।

ਰੀਅਲ- ਟਾਈਮ TTS ਪਲਾਨ

ਮੁਫਤ ਸ਼ੁਰੂ ਕਰੋ, ਜਦੋਂ ਲੋੜ ਪਵੇ ਅੱਪਗਰੇਡ ਕਰੋ

ਮੁਫਤ
  • ਕੋਕੋਰੋ ਸਟਰੀਮਿੰਗ (ਮੁਫਤ ਮਾਡਲ)
  • 500 ਅੱਖਰ ਪ੍ਰਤੀ ਜਨਰੇਸ਼ਨ
  • 10 ਮੁਫਤ ਸਟਰੀਮ/ਦਿਨ ਪ੍ਰਤੀ ਬੇਨਾਮ ਯੂਜ਼ਰ
  • ਸਬ-ਸਕਿੰਟ ਪਹਿਲੀ ਆਡੀਓ ਲਾਈਟਨੈੱਸ
  • HTTPS ਉੱਤੇ SSE ਸਟਰੀਮਿੰਗ
ਸਭ ਤੋਂ ਮਸ਼ਹੂਰ
ਮੁਫਤ ਅਕਾਊਂਟ
  • 15,000 ਅੱਖਰ ਰਜਿਸਟਰ ਹੋਣ ਉੱਤੇ
  • 5,000 ਅੱਖਰ ਪ੍ਰਤੀ ਸਟਰੀਮ
  • ਪਰੋਗਰਾਮਿੰਗ ਪਹੁੰਚ ਲਈ API ਕੁੰਜੀ
  • ਅਤੀਤ ਬਣਾਓ
  • ਕੋਈ ਦਿਨ ਦੀ ਸਟਰੀਮ ਸੀਮਾ ਨਹੀਂ
ਮੁਫਤ ਲਈ ਸਾਈਨ ਅੱਪ ਕਰੋ
ਪਰੋ
  • MOSS- TTS- ਰੀਅਲ- ਟਾਈਮ (ਜਦੋਂ ਲਾਈਵ)
  • 100,000 ਅੱਖਰ ਪ੍ਰਤੀ ਸਟਰੀਮ
  • ਤਰਜੀਹ GPU ਕਤਾਰ
  • ਬੋਲੀ ਏਜੰਟ + ਟਵਿਲੀਓ ਇਕਸਾਰਤਾ
  • ਵੱਧ ਰੇਟ ਲਿਮਟ
ਅੱਪਗਰੇਡ

ਅਕਸਰ ਪੁੱਛੇ ਜਾਂਦੇ ਸਵਾਲ

ਰੀਅਲ-ਟਾਈਮ ਪਾਠ-ਤੋਂ-ਬੋਲੀ ਆਡੀਓ ਟੁਕੜਿਆਂ ਨੂੰ ਪੈਦਾ ਕਰਨ ਲਈ ਸਟਰੀਮ ਕਰਦਾ ਹੈ, ਇਸ ਦੀ ਬਜਾਏ ਕਿ ਪੂਰੇ ਵਾਕ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਉਡੀਕ ਕੀਤੀ ਜਾਵੇ । ਪਹਿਲਾ ਆਡੀਓ ਸੈਂਪਲ ਇੱਕ ਸਕਿੰਟ ਵਿੱਚ ਪਹੁੰਚਦਾ ਹੈ, ਇਸ ਨੂੰ ਲਾਈਵ ਬੋਲੀ ਏਜੰਟਾਂ, ਡਬਿੰਗ ਅਤੇ ਇੰਟਰੈਕਟਿਵ ਐਪਲੀਕੇਸ਼ਨ ਲਈ ਢੁਕਵਾਂ ਬਣਾਉਂਦਾ ਹੈ, ਜਿੱਥੇ ਕਿ ਲੈਂਟੀਟੀ ਮਹੱਤਵਪੂਰਨ ਹੈ ।

ਨਿਯਮਤ TTS ਕੁਝ ਵੀ ਦੇਣ ਤੋਂ ਪਹਿਲਾਂ ਪੂਰੀ ਆਡੀਓ ਫਾਇਲ ਬਣਾਉਦਾ ਹੈ - ਤੁਸੀਂ ਉਡੀਕ ਕਰੋ, ਫਿਰ ਪੂਰਾ ਵਾਕ ਇੱਕ ਵਾਰੀ ਸੁਣੋ । ਰੀਅਲ- ਟਾਈਮ TTS ਸਰਵਰ- ਭੇਜੇ ਘਟਨਾਵਾਂ (SSE) ਨੂੰ ਛੋਟੇ ਆਡੀਓ ਟੁਕੜਿਆਂ ਨੂੰ ਸਟਰੀਮ ਕਰਨ ਲਈ ਵਰਤਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਮਾਡਲ ਉਨ੍ਹਾਂ ਨੂੰ ਪੈਦਾ ਕਰਦਾ ਹੈ । ਯੂਜ਼ਰ ਵਾਕ ਦੀ ਸ਼ੁਰੂਆਤ ਲਗਭਗ ਤੁਰੰਤ ਸੁਣਦਾ ਹੈ, ਲੰਬੇ ਇੰਪੁੱਟ ਉੱਤੇ ਵੀ ।

ਕੋਕੋਰੋ ਡਿਫਾਲਟ ਬੈਕਐਂਡ ਹੈ - ਇਹ ਆਧੁਨਿਕ GPU ਉੱਤੇ ਰੀਅਲ-ਟਾਈਮ ਨਾਲੋਂ ਲਗਭਗ 100x ਤੇਜ਼ ਆਡੀਓ ਪੈਦਾ ਕਰਦਾ ਹੈ। ਅਸੀਂ MOSS-TTS-Realtime ਨੂੰ ਇੱਕ ਉੱਚ-ਕੁਆਲਿਟੀ ਵਿਕਲਪ ਵਜੋਂ ਇਕਸਾਰ ਕਰ ਰਹੇ ਹਾਂ; ਯੂਜ਼ਰ ਇੱਕ ਵਾਰੀ ਜਦੋਂ ਇਹ ਜਾਰੀ ਹੋ ਜਾਵੇ ਤਾਂ ਹਰੇਕ ਮੰਗ ਲਈ ਚੁਣ ਸਕਦੇ ਹਨ।

ਕੋਕੋਰੋ ਉੱਤੇ ਆਮ ਪਹਿਲੀ ਆਡੀਓ ਲੋਡ ਸਮਾਂ ਇੱਕ ਪਬਲਿਕ ਕੁਨੈਕਸ਼ਨ ਉੱਤੇ 300-800ms ਹੈ। ਇਸ ਤੋਂ ਬਾਅਦ ਨੈੱਟਵਰਕ ਰਨ-ਟ੍ਰਿਪ ਨੇ ਅਗਵਾਈ ਕੀਤੀ ਹੈ। ਪੇਜ਼ UI ਵਿੱਚ ਲਾਈਵ ਮਾਪਿਆ ਪਹਿਲੀ ਆਡੀਓ ਲਈ ਸਮਾਂ ਵੇਖਾਉਂਦਾ ਹੈ ਤਾਂ ਕਿ ਤੁਸੀਂ ਵੇਖ ਸਕੋ ਕਿ ਹਰੇਕ ਬੇਨਤੀ ਕਿੰਨਾ ਸਮਾਂ ਲੈਂਦਾ ਹੈ।

ਬੋਲੀ ਏਜੰਟ ਜੋ ਕਿ ਸੰਵਾਦ ਰਾਹੀਂ ਜਵਾਬ ਦਿੰਦੇ ਹਨ, ਲਾਈਵ ਡਬਿੰਗ ਸਟਰੀਮਿੰਗ ਮੀਡੀਆ ਲਈ, ਇੰਟਰੈਕਟਿਵ ਖੇਡ NPCs, ਪਹੁੰਚਯੋਗਤਾ ਰੀਡਰ ਜੋ ਕਿ ਯੂਜ਼ਰ ਕਲਿੱਕ ਕਰਨ ਦੇ ਸਮੇਂ ਬੋਲਣਾ ਸ਼ੁਰੂ ਕਰਦੇ ਹਨ, ਅਤੇ ਕੋਈ ਵੀ ਐਪਲੀਕੇਸ਼ਨ ਜਿੱਥੇ ਦੋ ਜਾਂ ਤਿੰਨ ਸਕਿੰਟ ਆਡੀਓ ਲਈ ਉਡੀਕ ਕਰਨੀ ਪਵੇਗੀ ਉਹ ਥਕਾਵਟ ਮਹਿਸੂਸ ਕਰੇਗੀ।

ਹਾਂ। POST ਨੂੰ https://api.tts.ai/v1/tts/stream/ ਨੂੰ ਨਿਯਮਤ /v1/tts/ ਅੰਤ-ਬਿੱਟ ਦੇ ਬਰਾਬਰ ਦੇ ਸਰੀਰ ਨਾਲ ਭੇਜੋ। ਜਵਾਬ base64-encoded WAV chunks ਦਾ SSE ਸਟਰੀਮ ਹੈ। ਮੁਫਤ ਟਾਇਰ ਪ੍ਰਤੀ ਦਿਨ ਪ੍ਰਤੀ ਬੇਨਾਮ ਯੂਜ਼ਰ 10 ਪੀੜ੍ਹੀਆਂ ਲਈ ਸਹਾਇਕ ਹੈ; ਪਰਮਾਣਿਤ ਯੂਜ਼ਰ ਨੂੰ ਪੂਰਾ ਪ੍ਰਤੀ-ਅਕਾਊਂਟ ਅੱਖਰ ਮਿਲਦਾ ਹੈ।

ਕੋਕੋਰੋ ਪਹਿਲਾਂ- ਟਰੇਨਡ ਆਵਾਜ਼ਾਂ ਵਰਤਦਾ ਹੈ ਅਤੇ ਕਲੋਨ ਨਹੀਂ ਕਰਦਾ ਹੈ। MOSS- TTS- Realtime (ਜਦੋਂ ਇੱਕਜੁਟ ਕੀਤਾ ਜਾਂਦਾ ਹੈ)3ਸਕਿੰਟ ਦੇ ਹਵਾਲਾ ਤੋਂ ਜ਼ੀਰੋ- ਸ਼ੋਟ ਆਵਾਜ਼ ਕਲੋਨਿੰਗ ਲਈ ਸਹਾਇਕ ਹੈ। ਅੱਜ ਪੂਰੀ ਆਵਾਜ਼ ਕਲੋਨਿੰਗ ਲਈ, ਚੈਟਰਬਾਕਸ ਜਾਂ GPT- SoVITS ਨਾਲ ਨਿਯਮਤ /text- to- speech/ ਪੇਜ਼ ਵਰਤੋਂ - ਉਹ ਸਟਰੀਮਿੰਗ- ਸਮਰੱਥ ਨਹੀਂ ਹਨ ਪਰ ਕਸਟਮ ਆਵਾਜ਼ਾਂ ਪੈਦਾ ਕਰਦੇ ਹਨ।

ਨਿਯਮਤ TTS ਅੰਤ- ਬਿੰਦੂ ਵਾਂਗ ਅੱਖਰ ਦੀ ਕੀਮਤ ਇੱਕੋ ਹੈ । ਕੋਕੋਰੋ ਮੁਫਤ- ਪੱਧਰ (1x ਕੀਮਤ) ਹੈ । MOSS- TTS- Realtime ਸਟੈਂਡਰਡ ਪੱਧਰ (2x ਕੀਮਤ) ਤੇ ਚੱਲੇਗਾ, ਜਦੋਂ ਯੋਗ ਕੀਤਾ ਜਾਵੇ । ਸਟਰੀਮਿੰਗ ਪਰੋਟੋਕਾਲ ਕੋਈ ਕੀਮਤ ਸਰਚਾਰਜ ਨਹੀਂ ਜੋੜਦਾ ਹੈ ।

ਹਾਂ — ਇੱਕ ਫੋਨ ਕਾਲ ਵਿੱਚ ਲਾਈਵ ਆਡੀਓ ਫੀਡ ਕਰਨ ਲਈ ਟਵਿਲੀਓ ਬੋਲੀ ਵੈੱਬਹੁੱਕ ਨਾਲ ਸਟਰੀਮਿੰਗ ਐਂਡਪੁਆਇੰਟ ਨੂੰ ਜੋੜੋ । ਸਾਡਾ ਬੋਲੀ ਏਜੰਟ ਪਲੇਟਫਾਰਮ ਪਹਿਲਾਂ ਹੀ IVR ਅਤੇ ਆਉਟਬੌਂਡ ਕਾਲਾਂ ਲਈ ਇਹ ਕਰਦਾ ਹੈ । ਇੱਕ ਫੋਨ ਕਾਲ ਉੱਤੇ ਐਂਡ-ਟੂ-ਐਂਡ ਲਾਈਟਨਸੀ ਆਮ ਤੌਰ ਉੱਤੇ 1-2 ਸਕਿੰਟ ਹੈ, ਜਿਸ ਵਿੱਚ STT ਅਤੇ LLM ਜਵਾਬ ਵੀ ਸ਼ਾਮਲ ਹੈ ।

ਜੇਕਰ ਤੁਹਾਡਾ ਨੈੱਟਵਰਕ ਟਰਾਂਸਮਿਸ਼ਨ ਦੌਰਾਨ ਇੱਕ ਟੁਕੜਾ ਛੱਡ ਦੇਵੇ ਤਾਂ ਸਟਰੀਮਿੰਗ ਪਲੇਅਰ ਸਟਾਲ ਹੋਣ ਦੀ ਬਜਾਏ ਅੱਗੇ ਜਾਏਗਾ । ਐਪਲੀਕੇਸ਼ਨ, ਜੋ ਕਿ ਗਲੀਆਂ ਨੂੰ ਸਹਿਣ ਨਹੀਂ ਕਰ ਸਕਦੇ ਹਨ, ਉਹਨਾਂ ਲਈ ਨਿਯਮਤ ਗੈਰ- ਸਟਰੀਮਿੰਗ ਅੰਤ- ਬਿੰਦੂ ਉੱਤੇ ਵਾਪਸ ਜਾਓ ਜਾਂ ਪਲੇਅਬੈਕ ਸ਼ੁਰੂ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਆਡੀਓ ਲਈ 500ms ਬਫਰ ਕਰੋ ।
5.0/5 (1)

ਅਸੀਂ ਕੀ ਸੁਧਾਰ ਕਰ ਸਕਦੇ ਹਾਂ? ਤੁਹਾਡੀ ਟਿੱਪਣੀ ਸਾਨੂੰ ਸਮੱਸਿਆਵਾਂ ਹੱਲ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ।

ਰੀਅਲ ਟਾਈਮ ਵਿੱਚ ਬੋਲੀ ਸਟਰੀਮName

ਇੱਕ ਦਿਨ ਵਿੱਚ ਪਹਿਲੀਆਂ 10 ਪੀੜ੍ਹੀਆਂ ਲਈ ਮੁਫਤ ਹੈ । ਪੂਰੇ ਅੱਖਰ ਅਲਾਟਮੈਂਟ ਅਤੇ API ਪਹੁੰਚ ਲਈ ਸਾਈਨ ਅੱਪ ਕਰੋ ।