ક્ષતિનો અહેવાલ આપો / લક્ષણ વિનંતી

રીઅલટાઇમ TTS

લખાણ-થી-ભાષા સ્ટ્રીમિંગ ઉપ-સેકન્ડ પ્રથમ-ઓડિયો લેટેન્સી સાથે. ભાષા એજન્ટો અને સજીવ કાર્યક્રમો માટે બનાવેલ છે.

મફત નોંધણી કરો

અમારી પાસે તમારી ભાષામાં હજુ સુધી TTS અવાજ નથી. અમને તમારો ઉમેરો કરવામાં મદદ કરો! તમારો અવાજ વેચો

લખાણ

સ્ટ્રીમિંગ

0/5,000 અક્ષરો ~0.3s પ્રથમ ઓડિયો

અવાજ સુયોજનો (S)

મોડેલ માત્ર સ્ટ્રીમિંગ-સક્ષમ મોડેલો.

અવાજ

ઝડપ 1.0x

લીવ લેટેન્સી

—

પ્રથમ-ઓડિયો લૅટેન્સી માપવા માટે સ્ટ્રીમ પર ક્લિક કરો

આઉટપુટ

ઓડિયો ટુકડાઓ અહીં વગાડવામાં આવશે કારણ કે તેઓ સ્ટ્રીમમાં છે.

સ્ટ્રીમિંગ TTS કેવી રીતે કામ કરે છે

૧. લખાણ મોકલો

સર્વર-મોકલેલ ઘટના સૂચના તરીકે /v1/tts/stream/ માં POST લખાણ.

૨. મોડેલ ઉત્પન્ન કરે છે

કોકોરો લખાણને ટુકડા કરે છે અને GPU પર ઓડિયો નમૂના-દ્વારા-નમૂનાને પેદા કરે છે.

૩. સ્ટ્રીમ ચંક્સ

Base64-એનકોડ થયેલ WAV ચુકડાઓ SSE પર આવે છે અને તરત જ વગાડવાનું શરૂ કરે છે.

૪. જીવનભર સાંભળો

વપરાશકર્તા એક સેકન્ડ ની અંદર વાક્યની શરૂઆત સાંભળે છે, લાંબા ઇનપુટ પર પણ.

કેસ વાપરો

જ્યાં સબ-સેકન્ડ લેટેન્સી નવા અનુભવોનું તાળું ખોલશે.

અવાજ એજન્ટો

સંવાદીય બોટ્સ કે જે માનવી જેટલો જ ઝડપથી જવાબ આપે છે.

જીવનભરનું ડબિંગ

બફરિંગ વિરામ વિના સ્ટ્રીમનું ભાષાંતર કરો અને તેને ડેબ્યુટ કરો.

રમતો

NPC સંવાદ કે જે ખેલાડીની પસંદગીને તરત જ પ્રતિક્રિયા આપે છે, કોઈ પહેલાથી રેન્ડર થયેલ VO નથી.

સુલભતા

સ્ક્રીન વાંચકો અને સહાયક સાધનો કે જે વપરાશકર્તા ક્લિક કરે તે જ ક્ષણે બોલવાનું શરૂ કરે છે.

રિયલટાઇમ TTS યોજનાઓ

મુક્ત શરૂઆત, જ્યારે તમારે વધારેની જરૂર હોય ત્યારે સુધારો

મુક્ત

કોકોરો સ્ટ્રીમિંગ (મુક્ત મોડેલ)
૫૦૦ અક્ષરો પ્રતિ પેઢી
10 મુક્ત સ્ટ્રીમ્સ/દિવસ પ્રતિ અનામિક વપરાશકર્તા
ઉપ-સેકન્ડ પ્રથમ-ઓડિયો વિલંબ
HTTPS પર SSE સ્ટ્રીમિંગ

સૌથી લોકપ્રિય

મુક્ત ખાતું

૧૫,૦૦૦ અક્ષરો નોંધણી પર
5,000 અક્ષરો પ્રતિ સ્ટ્રીમ
પ્રોગ્રામિક પ્રવેશ માટે API કી
પેદા થયેલ ઇતિહાસ
રોજની સ્ટ્રીમ મર્યાદા નથી

મફત નોંધણી કરો

પ્રો

MOSS-TTS-Realtime (જ્યારે જીવંત હોય)
સ્ટ્રીમ પ્રતિ ૧૦૦,૦૦૦ અક્ષરો
પ્રાથમિકતા GPU કતાર
અવાજ એજન્ટ + Twilio એકીકરણ
ઉચ્ચ દરની મર્યાદાઓ

સુધારો

વારંવાર પૂછાતા પ્રશ્નો

પૂર્ણ કરવા માટે સંપૂર્ણ વાક્ય માટે રાહ જોવાની જગ્યાએ, તે ઉત્પન્ન થાય છે તેમ વાક્ય-થી-વાક્ય વાક્ય સ્ટ્રીમ્સ ઓડિયો ચુકડાઓ. પ્રથમ ઓડિયો નમૂનો એક સેકન્ડમાં આવે છે, તેને સજીવ અવાજ એજન્ટો, ડબિંગ, અને ઇન્ટરેક્ટિવ કાર્યક્રમો માટે યોગ્ય બનાવે છે જ્યાં લેટેન્સી મહત્વની છે.

નિયમિત TTS કંઈક પાછું આપવા પહેલાં સંપૂર્ણ ઓડિયો ફાઈલને ઉત્પન્ન કરે છે - તમે રાહ જુઓ, પછી સમગ્ર વાક્ય એક જ વારમાં સાંભળો. રિયલટાઈમ TTS સર્વર-સમજાવેલ ઘટનાઓ (SSE) ને ટૂંકા ઓડિયો ચુકડાઓ સ્ટ્રીમ કરવા માટે વાપરે છે કારણ કે મોડેલ તેમને ઉત્પન્ન કરે છે. વપરાશકર્તા વાક્યની શરૂઆત લગભગ તરત જ સાંભળે છે, લાંબા ઈનપુટ્સ પર પણ.

કોકોરો મૂળભૂત બેકએન્ડ છે - તે આધુનિક GPU પર વાસ્તવિક સમય કરતાં લગભગ 100x ઝડપી ઓડિયો પેદા કરે છે. અમે MOSS-TTS-Realtime ને ઉચ્ચ-ગુણવત્તાવાળી વૈકલ્પિક તરીકે એકીકૃત કરી રહ્યા છીએ; વપરાશકર્તાઓ એકવાર તે જહાજ પર આવે ત્યારે દર વિનંતી માટે પસંદ કરવા માટે સક્ષમ હશે.

કોકોરો પર સામાન્ય પ્રથમ-ઓડિયો વિલંબ જાહેર જોડાણ પર 300-800ms છે. નેટવર્ક રાઉન્ડ-ટ્રીપ એ પછી નિયંત્રિત કરે છે. પાનું UI માં સજીવ માપેલ સમય-થી-પહેલા-ઓડિયો ને દેખાડે છે જેથી તમે ચોક્કસપણે જોઈ શકો કે દરેક વિનંતી કેટલો સમય લીધો.

વૉઇસ એજન્ટ્સ જે સંવાદાત્મક રીતે જવાબ આપે છે, સ્ટ્રીમિંગ મીડિયા માટે લાઇવ ડબિંગ, ઇન્ટરેક્ટિવ ગેમ NPCs, સુલભતા વાંચકો જે વપરાશકર્તા ક્લિક કરે તે જ ક્ષણે બોલવાનું શરૂ કરે છે, અને કોઈપણ એપ્લિકેશન જ્યાં ઓડિયો માટે બે અથવા ત્રણ સેકન્ડનું રાહ જોવી પડે છે તે ધીમી લાગશે.

હા. નિયમિત /v1/tts/ અંતબિંદુ તરીકે સમાન શરીર સાથે https://api.tts.ai/v1/tts/stream/ ને POST કરો. જવાબ base64-encoded WAV chunks ની SSE સ્ટ્રીમ છે. મુક્ત સ્તર દર અજ્ઞાત વપરાશકર્તા પ્રતિ દિવસ 10 પેઢીઓને આધાર આપે છે; સત્તાધિકરણ થયેલ વપરાશકર્તાઓને સંપૂર્ણ દર-ખાતા અક્ષર પરવાનગી મળે છે.

Kokoro એ પહેલાથી તાલીમ થયેલ અવાજોને વાપરે છે અને ક્લોન કરે છે નહિં. MOSS-TTS-Realtime (જ્યારે એકીકૃત હોય ત્યારે)3સેકન્ડના સંદર્ભમાંથી શૂન્ય-શૉટ અવાજ ક્લોનિંગને આધાર આપે છે. આજે સંપૂર્ણ અવાજ ક્લોનિંગ માટે, Chatterbox અથવા GPT-SoVITS સાથે નિયમિત /text-to-speech/ પાનું વાપરો — તે સ્ટ્રીમિંગ-સક્ષમ નથી પરંતુ વૈવિધ્યપૂર્ણ અવાજો ઉત્પન્ન કરે છે.

નિયમિત TTS અંતિમબિંદુ તરીકે અક્ષર ખર્ચ સમાન છે. કોકોરો મુક્ત-સ્તર (1x ખર્ચ) છે. MOSS-TTS-Realtime પ્રમાણભૂત સ્તર (2x ખર્ચ) પર ચલાવવામાં આવશે જ્યારે સક્રિય થયેલ હોય. સ્ટ્રીમિંગ પ્રોટોકોલ કોઈપણ કિંમત વધારો ઉમેરે છે નહિં.

હા — ફોન કોલમાં સજીવ ઓડિયોને ફીડ કરવા માટે Twilio અવાજ વેબહોક સાથે સ્ટ્રીમિંગ અંતિમબિંદુને જોડો. અમારું અવાજ એજન્ટ પ્લેટફોર્મ IVR અને બહાર નીકળતા કોલ માટે પહેલેથી જ આ કરે છે. ફોન કોલમાં અંત-થી-અંતની વિલંબ સામાન્ય રીતે 1-2 સેકન્ડો STT અને LLM પ્રત્યુત્તરને સમાવતા છે.

જો તમારું નેટવર્ક પરિવહનમાં ટુકડો છોડી દે, તો સ્ટ્રીમિંગ પ્લેયર સ્ટોલ કરવાને બદલે આગળ જશે. કાર્યક્રમો માટે કે જે ખાલી જગ્યાઓને સહન કરી શકતા નથી, નિયમિત બિન-સ્ટ્રીમિંગ અંતિમબિંદુ પર પાછા ફરો, અથવા વગાડવાનું શરૂ કરતા પહેલા ઓડિયોનું 500ms બફર કરો.

5.0/5 (1)

વાસ્તવિક સમયમાં દ્રશ્ય સ્ટ્રીમ કરો

દિવસના પહેલા 10 પેઢીઓ માટે મફત. સંપૂર્ણ અક્ષર પરવાનગી અને API પ્રવેશને તાળું ખોલવા માટે નોંધણી કરો.

મફત નોંધણી કરો કિંમત જુઓ

રીઅલટાઇમ TTS

લખાણ

અવાજ સુયોજનો (S)

લીવ લેટેન્સી

આઉટપુટ

સ્ટ્રીમિંગ TTS કેવી રીતે કામ કરે છે

૧. લખાણ મોકલો

૨. મોડેલ ઉત્પન્ન કરે છે

૩. સ્ટ્રીમ ચંક્સ

૪. જીવનભર સાંભળો

કેસ વાપરો

અવાજ એજન્ટો

જીવનભરનું ડબિંગ

રમતો

સુલભતા

રિયલટાઇમ TTS યોજનાઓ

વારંવાર પૂછાતા પ્રશ્નો

રિયલટાઇમ TTS શું છે?

સામાન્ય TTS થી રિયલટાઇમ TTS કેવી રીતે અલગ છે?

કયું મોડેલ વાસ્તવિક સમય પાનાંને પાવર આપે છે?

પ્રથમ ઓડિયો લૅટેન્સી કેટલી ઝડપી છે?

હું વાસ્તવિક સમય TTS સાથે શું બનાવી શકું?

શું ત્યાં વાસ્તવિક સમય TTS માટે API છે?

શું તે વોઇસ ક્લોનીંગને આધાર આપે છે?

શું રિયલટાઇમ TTS ની કિંમત કેટલી છે?

શું હું તેને ફોન કોલ પર વાપરી શકું?

શા માટે ક્યારેક શબ્દની મધ્યમાં ઓડિયો બંધ થાય છે?

વાસ્તવિક સમયમાં દ્રશ્ય સ્ટ્રીમ કરો