રીઅલટાઇમ TTS

લખાણ-થી-ભાષા સ્ટ્રીમિંગ ઉપ-સેકન્ડ પ્રથમ-ઓડિયો લેટેન્સી સાથે. ભાષા એજન્ટો અને સજીવ કાર્યક્રમો માટે બનાવેલ છે.

અમારી પાસે તમારી ભાષામાં હજુ સુધી TTS અવાજ નથી. અમને તમારો ઉમેરો કરવામાં મદદ કરો! તમારો અવાજ વેચો

લખાણ

સ્ટ્રીમિંગ
0/5,000 અક્ષરો ~0.3s પ્રથમ ઓડિયો

અવાજ સુયોજનો (S)

માત્ર સ્ટ્રીમિંગ-સક્ષમ મોડેલો.

લીવ લેટેન્સી

પ્રથમ-ઓડિયો લૅટેન્સી માપવા માટે સ્ટ્રીમ પર ક્લિક કરો

આઉટપુટ

ઓડિયો ટુકડાઓ અહીં વગાડવામાં આવશે કારણ કે તેઓ સ્ટ્રીમમાં છે.

0:00
પ્રથમ ટુકડો:
કુલ ટુકડાઓ: 0
કુલ સમય:

સ્ટ્રીમિંગ TTS કેવી રીતે કામ કરે છે

૧. લખાણ મોકલો

સર્વર-મોકલેલ ઘટના સૂચના તરીકે /v1/tts/stream/ માં POST લખાણ.

૨. મોડેલ ઉત્પન્ન કરે છે

કોકોરો લખાણને ટુકડા કરે છે અને GPU પર ઓડિયો નમૂના-દ્વારા-નમૂનાને પેદા કરે છે.

૩. સ્ટ્રીમ ચંક્સ

Base64-એનકોડ થયેલ WAV ચુકડાઓ SSE પર આવે છે અને તરત જ વગાડવાનું શરૂ કરે છે.

૪. જીવનભર સાંભળો

વપરાશકર્તા એક સેકન્ડ ની અંદર વાક્યની શરૂઆત સાંભળે છે, લાંબા ઇનપુટ પર પણ.

કેસ વાપરો

જ્યાં સબ-સેકન્ડ લેટેન્સી નવા અનુભવોનું તાળું ખોલશે.

અવાજ એજન્ટો

સંવાદીય બોટ્સ કે જે માનવી જેટલો જ ઝડપથી જવાબ આપે છે.

જીવનભરનું ડબિંગ

બફરિંગ વિરામ વિના સ્ટ્રીમનું ભાષાંતર કરો અને તેને ડેબ્યુટ કરો.

રમતો

NPC સંવાદ કે જે ખેલાડીની પસંદગીને તરત જ પ્રતિક્રિયા આપે છે, કોઈ પહેલાથી રેન્ડર થયેલ VO નથી.

સુલભતા

સ્ક્રીન વાંચકો અને સહાયક સાધનો કે જે વપરાશકર્તા ક્લિક કરે તે જ ક્ષણે બોલવાનું શરૂ કરે છે.

રિયલટાઇમ TTS યોજનાઓ

મુક્ત શરૂઆત, જ્યારે તમારે વધારેની જરૂર હોય ત્યારે સુધારો

મુક્ત
  • કોકોરો સ્ટ્રીમિંગ (મુક્ત મોડેલ)
  • ૫૦૦ અક્ષરો પ્રતિ પેઢી
  • 10 મુક્ત સ્ટ્રીમ્સ/દિવસ પ્રતિ અનામિક વપરાશકર્તા
  • ઉપ-સેકન્ડ પ્રથમ-ઓડિયો વિલંબ
  • HTTPS પર SSE સ્ટ્રીમિંગ
સૌથી લોકપ્રિય
મુક્ત ખાતું
  • ૧૫,૦૦૦ અક્ષરો નોંધણી પર
  • 5,000 અક્ષરો પ્રતિ સ્ટ્રીમ
  • પ્રોગ્રામિક પ્રવેશ માટે API કી
  • પેદા થયેલ ઇતિહાસ
  • રોજની સ્ટ્રીમ મર્યાદા નથી
મફત નોંધણી કરો
પ્રો
  • MOSS-TTS-Realtime (જ્યારે જીવંત હોય)
  • સ્ટ્રીમ પ્રતિ ૧૦૦,૦૦૦ અક્ષરો
  • પ્રાથમિકતા GPU કતાર
  • અવાજ એજન્ટ + Twilio એકીકરણ
  • ઉચ્ચ દરની મર્યાદાઓ
સુધારો

વારંવાર પૂછાતા પ્રશ્નો

પૂર્ણ કરવા માટે સંપૂર્ણ વાક્ય માટે રાહ જોવાની જગ્યાએ, તે ઉત્પન્ન થાય છે તેમ વાક્ય-થી-વાક્ય વાક્ય સ્ટ્રીમ્સ ઓડિયો ચુકડાઓ. પ્રથમ ઓડિયો નમૂનો એક સેકન્ડમાં આવે છે, તેને સજીવ અવાજ એજન્ટો, ડબિંગ, અને ઇન્ટરેક્ટિવ કાર્યક્રમો માટે યોગ્ય બનાવે છે જ્યાં લેટેન્સી મહત્વની છે.

નિયમિત TTS કંઈક પાછું આપવા પહેલાં સંપૂર્ણ ઓડિયો ફાઈલને ઉત્પન્ન કરે છે - તમે રાહ જુઓ, પછી સમગ્ર વાક્ય એક જ વારમાં સાંભળો. રિયલટાઈમ TTS સર્વર-સમજાવેલ ઘટનાઓ (SSE) ને ટૂંકા ઓડિયો ચુકડાઓ સ્ટ્રીમ કરવા માટે વાપરે છે કારણ કે મોડેલ તેમને ઉત્પન્ન કરે છે. વપરાશકર્તા વાક્યની શરૂઆત લગભગ તરત જ સાંભળે છે, લાંબા ઈનપુટ્સ પર પણ.

કોકોરો મૂળભૂત બેકએન્ડ છે - તે આધુનિક GPU પર વાસ્તવિક સમય કરતાં લગભગ 100x ઝડપી ઓડિયો પેદા કરે છે. અમે MOSS-TTS-Realtime ને ઉચ્ચ-ગુણવત્તાવાળી વૈકલ્પિક તરીકે એકીકૃત કરી રહ્યા છીએ; વપરાશકર્તાઓ એકવાર તે જહાજ પર આવે ત્યારે દર વિનંતી માટે પસંદ કરવા માટે સક્ષમ હશે.

કોકોરો પર સામાન્ય પ્રથમ-ઓડિયો વિલંબ જાહેર જોડાણ પર 300-800ms છે. નેટવર્ક રાઉન્ડ-ટ્રીપ એ પછી નિયંત્રિત કરે છે. પાનું UI માં સજીવ માપેલ સમય-થી-પહેલા-ઓડિયો ને દેખાડે છે જેથી તમે ચોક્કસપણે જોઈ શકો કે દરેક વિનંતી કેટલો સમય લીધો.

વૉઇસ એજન્ટ્સ જે સંવાદાત્મક રીતે જવાબ આપે છે, સ્ટ્રીમિંગ મીડિયા માટે લાઇવ ડબિંગ, ઇન્ટરેક્ટિવ ગેમ NPCs, સુલભતા વાંચકો જે વપરાશકર્તા ક્લિક કરે તે જ ક્ષણે બોલવાનું શરૂ કરે છે, અને કોઈપણ એપ્લિકેશન જ્યાં ઓડિયો માટે બે અથવા ત્રણ સેકન્ડનું રાહ જોવી પડે છે તે ધીમી લાગશે.

હા. નિયમિત /v1/tts/ અંતબિંદુ તરીકે સમાન શરીર સાથે https://api.tts.ai/v1/tts/stream/ ને POST કરો. જવાબ base64-encoded WAV chunks ની SSE સ્ટ્રીમ છે. મુક્ત સ્તર દર અજ્ઞાત વપરાશકર્તા પ્રતિ દિવસ 10 પેઢીઓને આધાર આપે છે; સત્તાધિકરણ થયેલ વપરાશકર્તાઓને સંપૂર્ણ દર-ખાતા અક્ષર પરવાનગી મળે છે.

Kokoro એ પહેલાથી તાલીમ થયેલ અવાજોને વાપરે છે અને ક્લોન કરે છે નહિં. MOSS-TTS-Realtime (જ્યારે એકીકૃત હોય ત્યારે)3સેકન્ડના સંદર્ભમાંથી શૂન્ય-શૉટ અવાજ ક્લોનિંગને આધાર આપે છે. આજે સંપૂર્ણ અવાજ ક્લોનિંગ માટે, Chatterbox અથવા GPT-SoVITS સાથે નિયમિત /text-to-speech/ પાનું વાપરો — તે સ્ટ્રીમિંગ-સક્ષમ નથી પરંતુ વૈવિધ્યપૂર્ણ અવાજો ઉત્પન્ન કરે છે.

નિયમિત TTS અંતિમબિંદુ તરીકે અક્ષર ખર્ચ સમાન છે. કોકોરો મુક્ત-સ્તર (1x ખર્ચ) છે. MOSS-TTS-Realtime પ્રમાણભૂત સ્તર (2x ખર્ચ) પર ચલાવવામાં આવશે જ્યારે સક્રિય થયેલ હોય. સ્ટ્રીમિંગ પ્રોટોકોલ કોઈપણ કિંમત વધારો ઉમેરે છે નહિં.

હા — ફોન કોલમાં સજીવ ઓડિયોને ફીડ કરવા માટે Twilio અવાજ વેબહોક સાથે સ્ટ્રીમિંગ અંતિમબિંદુને જોડો. અમારું અવાજ એજન્ટ પ્લેટફોર્મ IVR અને બહાર નીકળતા કોલ માટે પહેલેથી જ આ કરે છે. ફોન કોલમાં અંત-થી-અંતની વિલંબ સામાન્ય રીતે 1-2 સેકન્ડો STT અને LLM પ્રત્યુત્તરને સમાવતા છે.

જો તમારું નેટવર્ક પરિવહનમાં ટુકડો છોડી દે, તો સ્ટ્રીમિંગ પ્લેયર સ્ટોલ કરવાને બદલે આગળ જશે. કાર્યક્રમો માટે કે જે ખાલી જગ્યાઓને સહન કરી શકતા નથી, નિયમિત બિન-સ્ટ્રીમિંગ અંતિમબિંદુ પર પાછા ફરો, અથવા વગાડવાનું શરૂ કરતા પહેલા ઓડિયોનું 500ms બફર કરો.
5.0/5 (1)

અમે શું સુધારી શકીએ? તમારો પ્રતિભાવ અમને સમસ્યાઓ ઉકેલવામાં મદદ કરે છે.

વાસ્તવિક સમયમાં દ્રશ્ય સ્ટ્રીમ કરો

દિવસના પહેલા 10 પેઢીઓ માટે મફત. સંપૂર્ણ અક્ષર પરવાનગી અને API પ્રવેશને તાળું ખોલવા માટે નોંધણી કરો.