တကယ့်အချိန် TTS

sub-second ပထမဦးဆုံး-audio latency နှင့်အတူစာသား-to-စကားပြော streaming ။ အသံအေးဂျင့်များနှင့်တိုက်ရိုက် application များအတွက်တည်ဆောက်ထားသည်။

ကျွန်တော်တို့ဟာသင့်ရဲ့ဘာသာစကားအတွက် TTS အသံတွေမရှိသေးပါဘူး. ကျွန်တော်တို့ကိုသင့်ရဲ့ add ကူညီပါ! သင့်အသံကိုရောင်း

စာသား

စီးဆင်းနေသည်
0/5,000 အက္ခရာများ ~0.3s ပထမဆုံး အသံဖိုင်

အသံ သတ်မှတ်ချက်များ

တည်းဖြတ်နိုင်သော ပုံစံများသာ။

သက်ဝင်နေသော စောင့်ဆိုင်းချိန်

ပထမဆုံး အသံ စောင့်ဆိုင်းချိန်ကို တိုင်းတာရန် စီးဆင်းမှုကို နှိပ်ပါ

ထုတ်လုပ်မှု

အသံပိုင်းများကို စီးဆင်းလာသည်နှင့်အမျှ ဖွင့်မည်

0:00
ပထမပိုင်း:
အစုစုပေါင်း: 0
စုစုပေါင်းအချိန်:

ဘယ်လို Streaming TTS အလုပ်လုပ်တယ်

1. စာသားပို့

POST ကိုစာသားကို /v1/tts/stream/ အဖြစ် Server-Sent အဖြစ်အပျက်များကိုတောင်းဆို.

2. မော်ဒယ်ထုတ်လုပ်

Kokoro သည် စာသားကို ပိုင်းဖြတ်ပြီး GPU ပေါ်တွင် အသံနမူနာ-တစ်-နမူနာ-တစ်-ကို ထုတ်လုပ်သည်။

3. စီးဆင်းမှုချောင်းများ

Base64-encoded WAV chunks SSE ကျော်ရောက်ရှိနှင့်ချက်ချင်းကစားစတင်.

4. သက်တမ်းတိုးနားထောင်

အသုံးပြုသူတစ်စက္ကန့်အောက်မှာဝါကျ၏အစကိုကြားရ, ပင်ရှည် inputs များအပေါ်.

အသုံးပြုမှု

sub-second latency အတွေ့အကြုံအသစ်များကိုဖွင့်လှစ်သောနေရာ။

အသံဆိုင်ရာ အရာရှိများ

လူသားတစ်ယောက်လို မြန်မြန်ဆန်ဆန်တုံ့ပြန်နိုင်တဲ့ စကားပြော bots တွေ။

ရုပ်သံ ကူးယူခြင်း

ဘာသာပြန်နှင့် buffering ရပ်နားခြင်းမရှိဘဲအစစ်အမှန်အချိန်တွင်စီးဆင်းမှု dub ။

ဂိမ်းများ

ကစားသမားရွေးချယ်မှုချက်ချင်းတုံ့ပြန် NPC အပြန်အလှန်ဆွေးနွေးပွဲ, မ pre-rendered VO.

အသုံးပြုနိုင်စွမ်း

အသုံးပြုသူတစ်ဦးကလစ်နှိပ်သောအခါစကားပြောစတင်သော screen reader နှင့်ထောက်ပံ့ရေး tools များ။

တကယ့်အချိန် TTS အစီအစဉ်များ

သင်ပိုမိုလိုအပ်တဲ့အခါအခမဲ့စတင်, upgrade

လွတ်လပ်မှု
  • Kokoro streaming (အခမဲ့မော်ဒယ်)
  • မျိုးဆက်တစ်ဦးလျှင် 500 စာလုံး
  • 10 အခမဲ့စီးကြောင်း / တစ်နေ့လျှင်အမည်မဲ့အသုံးပြုသူတစ်ဦး
  • စက္ကန့်ပိုင်း ပထမဆုံး အသံ စောင့်ဆိုင်းမှု
  • HTTPS ကျော် SSE စီးဆင်းမှု
လူကြိုက်အများဆုံး
အခမဲ့အကောင့်
  • 15,000 signup မှာစာလုံးများ
  • 5,000 chars တစ်စီးရီး
  • ပရိုဂရမ်မက် ဝင်ရောက်ခွင့်အတွက် API ကီး
  • မျိုးဆက်သမိုင်း
  • နေ့စဉ်စီးဆင်းမှုအမြင့်ဆုံးမရှိ
အခမဲ့ Sign Up
ပရော်ဖက်ရှင်နယ်
  • MOSS-TTS-Realtime (အသက်ရှင်နေစဉ်)
  • 100,000 chars တစ်စီးရီး
  • GPU အဆင့်ဆင့်
  • Voice agent + Twilio ပေါင်းစည်းမှု
  • အမြင့်ဆုံးနှုန်း ကနိမ့်ဆုံးနှုန်း
အဆင့်မြှင့်

မေးလေ့ရှိသောမေးခွန်းများ

Realtime text-to-speech streams audio chunks as they are generated, instead of waiting for the entire sentence to complete. ပထမဦးဆုံးအသံနမူနာတစ်စက္ကန့်အောက်မှာရောက်ရှိ, latency ကိစ္စရပ်များရှိသမျှအသက်ရှင်အသံအရာရှိများ, dubbing, နှင့်အပြန်အလှန် applications များအဘို့သင့်လျော်စေခြင်းငှါ.

စံ TTS တစ်ခုခုပြန်လာမတိုင်မီအပြည့်အဝအသံဖိုင်ကို generates - သင်စောင့်နေ, ထို့နောက်တစ်ချိန်တည်းမှာအပြည့်အဝဝါကျကိုကြား. Realtime TTS စံနမူနာသူတို့ကိုထုတ်လုပ်အဖြစ်အတို audio chunk များကိုစီးဆင်းဖို့ Server-Sent အဖြစ်အပျက်များကို (SSE) ကိုအသုံးပြု. အသုံးပြုသူသည်အလွန်ချက်ချင်းဝါကျ၏အစကိုကြား, ပင်ရှည် inputs များအပေါ်.

Kokoro သည် default backend ဖြစ်သည်။ ၎င်းသည် ခေတ်မီ GPU တစ်ခုတွင် အမှန်တကယ်အချိန်ထက် 100x ပိုမိုမြန်ဆန်စွာ အသံထွက်ပေါ်စေသည်။ ကျွန်ုပ်တို့သည် အရည်အသွေးမြင့် အခြားရွေးချယ်စရာတစ်ခုအဖြစ် MOSS-TTS-Realtime ကို ပေါင်းစပ်ထားသည်။ အသုံးပြုသူများသည် တစ်ကြိမ် တင်ပို့ပြီးပါက တောင်းဆိုချက်တစ်ကြိမ်လျှင် ရွေးချယ်နိုင်မည်ဖြစ်သည်။

Kokoro အပေါ်ပုံမှန်ပထမဦးဆုံး-audio latency အများပြည်သူဆက်သွယ်မှုကျော် 300-800ms ဖြစ်ပါတယ်။ ပြီးမှကွန်ယက် round-trip အုပ်စိုး. ဒီစာမျက်နှာကို UI မှာတိုက်ရိုက်ချိန်ညှိအချိန်-to-ပထမဦးဆုံး-audio မျက်နှာပြင်ကိုသင်တစ်ဦးချင်းစီတောင်းဆိုချက်ယူဘယ်လောက်ကြာမြင့်စွာမှန်ကန်စွာမြင်နိုင်အောင်။

စကားပြောဆိုမှုတုံ့ပြန်မှုအသံအေးဂျင့်များ, streaming မီဒီယာများအတွက်တိုက်ရိုက် dub, အပြန်အလှန်ဂိမ်း NPCs, အသုံးပြုသူကလစ်တစ်ချက်ပြောဆိုစတင် accessibility စာဖတ်သူများ, နှင့်အသံအတွက်နှစ်ခုသို့မဟုတ်သုံးစက္ကန့်စောင့်ဆိုင်းနေသောမည်သည့် application ကိုမဆိုနှေးကွေးခံစားရလိမ့်မည်။

ဟုတ်ကဲ့. POST ကို https://api.tts.ai/v1/tts/stream/ ပုံမှန် / v1 / tts / endpoint အဖြစ်တူညီတဲ့ကိုယ်ခန္ဓာနှင့်အတူ. တုံ့ပြန်မှု base64-encoded WAV chunk များ၏ SSE စီးဆင်းမှုဖြစ်ပါသည်. အဆိုပါအခမဲ့အလွှာထောက်ခံ 10 အမည်မဲ့အသုံးပြုသူတစ်ဦးလျှင်တစ်နေ့လျှင်မျိုးဆက်များ; အသိအမှတ်ပြုအသုံးပြုသူများသည်အပြည့်အဝတစ်ဦးချင်းစီအကောင့်အက္ခရာများပေးချေမှုရ.

Kokoro pre-လေ့ကျင့်ထားသောအသံများကိုအသုံးပြုပြီး clone မလုပ်ပါ။ MOSS-TTS-Realtime (ပေါင်းစပ်တဲ့အခါ)3စက္ကန့်အညွှန်းကိန်းမှ Zero-shot အသံ clone ကိုထောက်ခံသည်။ အပြည့်အဝအသံ clone အတွက်ယနေ့, Chatterbox သို့မဟုတ် GPT-SoVITS နှင့်အတူပုံမှန် / text-to-speech / စာမျက်နှာကိုအသုံးပြုပါ - သူတို့က streaming-စွမ်းရည်မရှိသော်လည်း custom အသံများကိုထုတ်လုပ်သည်။

တူညီသောစာလုံးများပုံမှန် TTS endpoint အဖြစ်ကုန်ကျစရိတ်။ Kokoro အခမဲ့-tier (1x ကုန်ကျစရိတ်) ဖြစ်ပါတယ်။ MOSS-TTS-Realtime စံအဆင့်မှာ run လိမ့်မယ် (2x ကုန်ကျစရိတ်) ခွင့်ပြုတဲ့အခါ. အဆိုပါ streaming protocol ကိုမည်သည့်စျေးနှုန်းအပိုဆောင်းမထည့်သွင်းပါ။

ဟုတ်ကဲ့ - ဖုန်းခေါ်ဆိုမှုတစ်ခုသို့တိုက်ရိုက်အသံ feed ဖို့ Twilio အသံ webhook နှင့်အတူ streaming endpoint ကိုပေါင်းစပ်ပါ။ ကျွန်တော်တို့ရဲ့အသံအေးဂျင့်ပလက်ဖောင်းက IVR နှင့် outbound ခေါ်ဆိုမှုများအတွက်ဒီလုပ်ပြီးပါပြီ။ ဖုန်းခေါ်ဆိုမှုတစ်ခုအပေါ် end-to-end latency သည်ပုံမှန်အားဖြင့် 1-2 စက္ကန့်ဖြစ်သည် STT နှင့် LLM တုံ့ပြန်မှုအပါအဝင်။

သင့်ရဲ့ကွန်ယက်ကို transit တွင်တစ်စိတ်တစ်ပိုင်းကျဆင်းသွားလျှင်, the streaming player will skip forward rather than stall. ကွာဟချက်ကိုခံနိုင်ရည်မရှိသော application များအတွက်, ပုံမှန်မဟုတ်သော streaming endpoint သို့ပြန်ဆင်း, or buffer 500ms of audio before starting playback.
5.0/5 (1)

ကျွန်တော်တို့ကိုတိုးတက်ကောင်းမွန်စေနိုင်သလား? သင့်ရဲ့အကြံပြုချက်များကျွန်တော်တို့ကိုပြဿနာများကိုဖြေရှင်းကူညီပေးသည်။

ချက်ချင်းစကားပြော

ပထမဦးဆုံးများအတွက်အခမဲ့ 10 တစ်နေ့တစ်မျိုးဆက်. အပြည့်အဝစာလုံးထောက်ပံ့မှုနှင့် API ကို access ကိုဖွင့်ဖို့ sign up.