TTS ເວລາ​ຈິງ

ສົ່ງຂໍ້ຄວາມ-ເປັນ-ຄຳເວົ້າ​ຜ່ານ​ການ​ລໍຖ້າ​ສຽງ​ຄັ້ງ​ທຳອິດ​ທີ່​ມີ​ໄລຍະ​ເວລາ​ສັ້ນໆ. ສ້າງ​ຂຶ້ນ​ເພື່ອ​ຜູ້​ສື່ສານ​ສຽງ ແລະ ​ໂປແກຼມ​ທີ່​ໃຊ້​ໄດ້​ຈິງ.

ພວກເຮົາຍັງບໍ່ມີສຽງ TTS ໃນພາສາຂອງທ່ານເທື່ອ. ຊ່ວຍພວກເຮົາເພີ່ມສຽງຂອງທ່ານ! ຂາຍ​ສຽງ​ຂອງທ່ານ

អត្ថបទ

ສົ່ງ​ຕໍ່
0/5,000 ​តួ​អក្សរ ~0.3s អូឌីយ៉ូ​ដំបូង

ການ​ຕັ້ງຄ່າ​ສຽງ

ແບບທີ່ຮອງຮັບການຖ່າຍທອດສົດເທົ່ານັ້ນ.

ເວລາ​ລໍຖ້າ​ສົດ

ກົດ​ໃສ່​ສົດ ເພື່ອ​ວັດ​ຄວາມ​ລໍຖ້າ​ສຽງ​ຄັ້ງ​ທຳອິດ

ຜົນ​ອອກ​ມາ

ສຽງ​ຈະ​ຖືກ​ຫຼີ້ນ​ຢູ່​ທີ່ນີ້ ໃນຂະນະທີ່​ມັນ​ຖືກ​ສົ່ງ​ເຂົ້າມາ.

0:00
ແຜ່ນ​ທຳ​ອິດ:
ຈໍານວນ​ສ່ວນ​ລວມ: 0
ເວລາ​ລວມ:

ວິທີການ Stream TTS ເຮັດວຽກ

1. ສົ່ງຂໍ້ຄວາມ

ສົ່ງຂໍ້ຄວາມໄປຫາ /v1/tts/stream/ ຄືກັບຄໍາຮ້ອງຂໍເຫດການທີ່ສົ່ງໂດຍເຄື່ອງ​ບໍລິການ.

2. ແບບຈໍາລອງສ້າງ

Kokoro ແບ່ງຂໍ້ຄວາມອອກເປັນສ່ວນໆ ແລະ ສ້າງຕົວຢ່າງສຽງຕາມຕົວຢ່າງທີ່ GPU.

3. ຖ່າຍ​ທອດ​ຊ່ອງ​ສົດ

ຂໍ້ຄວາມ​ທີ່​ໄດ້​ຮັບ​ການ​ເຂົ້າລະຫັດ​ແບບ Base64 ຈະ​ມາ​ເຖິງ​ຜ່ານ SSE ແລະ ເລີ່ມ​ການ​ຫຼິ້ນ​ທັນທີ.

4. ຟັງ​ສົດ

ຜູ້ໃຊ້ໄດ້ຍິນການເລີ່ມຕົ້ນຂອງຄໍາສັບໃນພາຍໃຕ້ວິນາທີ, ເຖິງແມ່ນວ່າຈະຢູ່ໃນການເຂົ້າລະຫັດຍາວ.

ກໍລະນີ​ໃຊ້

ບ່ອນທີ່ຄວາມລໍຖ້າພາຍໃຕ້ວິນາທີເປີດປະສົບການໃໝ່.

ຕົວແທນ​ສຽງ

ຕົວແປການສົນທະນາທີ່ຕອບໂຕ້ໄວເທົ່າກັບມະນຸດ.

ສຽງ​ດັງ​

ແປ ແລະ ແປສຽງ​ສົດ​ໃນ​ເວລາ​ຈິງ​ໂດຍບໍ່​ຕ້ອງ​ຢຸດ​ຊົ່ວຄາວ​ການ​ເກັບ​ໄວ້​ໃນ​ສະໝອງ.

ເກມName

ຂໍ້ຄວາມ​ທີ່​ບໍ່​ມີ​ຕົວ​ອັກສອນ​ທີ່​ຖືກ​ສະແດງ​ກ່ອນ​ໜ້າ​ນີ້

ຄວາມສາມາດ​ໃນ​ການ​ເຂົ້າເຖິງ

ເຄື່ອງມື​ອ່ານ​ໜ້າ​ຈໍ ແລະ ເຄື່ອງມື​ຊ່ວຍ​ເຫຼືອ​ທີ່​ເລີ່ມ​ເວົ້າ​ເມື່ອ​ຜູ້​ໃຊ້​ຄລິກ​ໃສ່​ມັນ.

ແຜນ TTS ເວລາຈິງ

ເລີ່ມຕົ້ນຟຣີ, ປັບປຸງເມື່ອທ່ານຕ້ອງການຫຼາຍຂຶ້ນ

ບໍ່ມີ
  • Kokoro ສົ່ງຕໍ່ (ແບບຟອມຟຣີ)
  • 500 តួ​អក្សរ​ຕໍ່​ການ​ສ້າງ
  • 10 ສາຍຟຣີ / ວັນຕໍ່ຜູ້ໃຊ້ທີ່ບໍ່ລະບຸຊື່
  • ສຽງ​ກ່ອນ​ໜ້າ​ທີ່​ຊົ່ວ​ຊົ່ວໂມງ​
  • ສົ່ງ​ຜ່ານ SSE ຜ່ານ HTTPS
ນິຍົມທີ່ສຸດ
ບັນຊີ​ຟຣີ
  • 15,000 ຕົວອັກສອນເມື່ອລົງທະບຽນ
  • 5,000 ຕົວອັກສອນຕໍ່ສົດ
  • ກຸນແຈ API ສຳລັບການເຂົ້າໃຊ້ໂປຣແກມ
  • ប្រវត្តិ​ການ​ສ້າງ
  • ບໍ່ມີ​ຂີດ​ຈຳກັດ​ການ​ຖ່າຍ​ທອດ​ຕໍ່​ມື້
ລົງທະບຽນຟຣີ
ມືອາຊີບ
  • MOSS- TTS- Realtime (ເມື່ອ​ມີ​ຊີວິດ)
  • 100,000 ຕົວອັກສອນຕໍ່ສົດ
  • ​ជួរ​ GPU ​ដែល​មាន​អាទិភាព
  • ຕົວແທນສຽງ + ການລວມເຂົ້າ Twilio
  • ຈໍາກັດ​ອັດຕາ​ສູງ
ຍົກລະດັບ

ຄໍາຖາມທີ່ຖາມເລື້ອຍໆ

ຂໍ້ຄວາມ-ເປັນ-ການເວົ້າໃນເວລາຈິງ ສົ່ງສຽງທີ່ສ້າງຂຶ້ນມາ, ແທນທີ່ຈະລໍຖ້າໃຫ້ຄຳສັບທັງ ໝົດ ສໍາເລັດ. ຕົວຢ່າງສຽງຄັ້ງທໍາອິດມາຮອດໃນພາຍໃຕ້ວິນາທີຫນຶ່ງ, ເຮັດໃຫ້ມັນ ເໝາະ ສົມກັບຕົວແທນສຽງ, ການດັດແກ້ສຽງ, ແລະ ຄໍາຮ້ອງສະຫມັກທີ່ມີການໂຕ້ຕອບທີ່ຄວາມຊັກຊ້າແມ່ນມີຄວາມສໍາຄັນ.

TTS ປົກກະຕິ​ຈະ​ສ້າງ​ໄຟ​ລ໌​ສຽງ​ເຕັມ​ກ່ອນ​ທີ່​ຈະ​ສົ່ງ​ຄືນ​ສິ່ງ​ໃດ​ສິ່ງ​ໜຶ່ງ — ທ່ານ​ຕ້ອງ​ລໍຖ້າ, ຫຼັງຈາກນັ້ນ​ທ່ານ​ຈະ​ໄດ້​ຍິນ​ຄຳ​ສັບ​ທັງ​ໝົດ​ໃນ​ຄັ້ງ​ດຽວ​ກັນ. TTS ເວລາ​ຈິງ​ໃຊ້​ເຫດການ​ສົ່ງ​ໂດຍ​ເຄື່ອງ​ບໍລິການ (SSE) ເພື່ອ​ສົ່ງ​ສຽງ​ສັ້ນໆ​ຕາມ​ທີ່​ຕົວ​ແບບ​ຜະລິດ​ພວກ​ມັນ​ອອກ​ມາ. ຜູ້​ໃຊ້​ຈະ​ໄດ້​ຍິນ​ການ​ເລີ່ມ​ຕົ້ນ​ຂອງ​ຄຳ​ສັບ​ເກືອບ​ທັນທີ, ເຖິງ​ແມ່ນ​ຈະ​ມີ​ການ​ເຂົ້າ​ຂໍ້ມູນ​ທີ່​ຍາວ​ກໍ​ຕາມ.

Kokoro ແມ່ນ backend ແບບ​ປິດ​ບັງ — ມັນ​ຜະລິດ​ສຽງ​ໄດ້​ໄວ​ກວ່າ​ເວລາ​ຈິງ​ປະມານ 100x ກວ່າ​ໃນ​ GPU ແບບ​ທັນ​ສະໄໝ. ພວກເຮົາ​ໄດ້​ລວມ​ເອົາ MOSS-TTS-Realtime ເປັນ​ທາງເລືອກ​ທີ່ມີ​ຄຸນ​ນະ​ພາບ​ສູງ​ຂຶ້ນ; ຜູ້​ໃຊ້​ຈະ​ສາມາດ​ເລືອກ​ຕາມ​ການ​ຮ້ອງຂໍ​ເມື່ອ​ມັນ​ຖືກ​ສົ່ງ​ອອກ​ແລ້ວ.

ເວລາລໍຖ້າສຽງຄັ້ງທຳອິດທີ່ປົກກະຕິໃນ Kokoro ແມ່ນ 300-800ms ຜ່ານການເຊື່ອມຕໍ່ສາທາລະນະ. ການໄປມາຫາສູ່ຂອງເຄືອຂ່າຍແມ່ນຄອບຄອງຫຼັງຈາກນັ້ນ. ຫນ້າສະແດງເວລາທີ່ວັດແທກໂດຍກົງເຖິງສຽງຄັ້ງທຳອິດໃນ UI ສະນັ້ນທ່ານສາມາດເຫັນໄດ້ວ່າແຕ່ລະຄໍາຮ້ອງຂໍໃຊ້ເວລາດົນປານໃດ.

ຕົວແທນສຽງທີ່ຕອບໂຕ້ໃນການສົນທະນາ, ການດັດແກ້ສຽງເພື່ອການຖ່າຍທອດສົດ, ເກມ NPCs ແບບໂຕ້ຕອບ, ການອ່ານທີ່ເຂົ້າເຖິງໄດ້ເຊິ່ງເລີ່ມເວົ້າໃນຕອນທີ່ຜູ້ໃຊ້ຄລິກ, ແລະ ທຸກໆແອັບພລິເຄຊັນທີ່ລໍຖ້າສອງຫຼືສາມວິນາທີ ສຳ ລັບສຽງຈະຮູ້ສຶກຊ້າ.

ຍິນດີຕ້ອນຮັບ. POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. The response is an SSE stream of base64-encoded WAV chunks. The free tier supports 10 generations per day per anonymous user; authenticated users get the full per-account character allowance.

Kokoro ໃຊ້ສຽງທີ່ຝຶກມາກ່ອນ ແລະ ບໍ່ເຮັດການກັ່ນຕອງ. MOSS-TTS-Realtime (ເມື່ອລວມເຂົ້າກັນ) ສະໜັບສະໜູນການກັ່ນຕອງສຽງແບບ zero-shot ຈາກການອ້າງອີງ3ວິນາທີ. ສຳ ລັບກັ່ນຕອງສຽງເຕັມໃນມື້ນີ້, ໃຊ້ ໜ້າ / text-to-speech / ປົກກະຕິກັບ Chatterbox ຫຼື GPT-SoVITS - ພວກເຂົາບໍ່ສາມາດຖ່າຍທອດໄດ້ແຕ່ຜະລິດສຽງທີ່ປັບແຕ່ງໄດ້.

ຄ່າໃຊ້ຈ່າຍຂອງຕົວອັກສອນຄືກັນກັບຈຸດສຸດທ້າຍ TTS ປົກກະຕິ. Kokoro ແມ່ນຟຣີ-ທຽມ (ຄ່າໃຊ້ຈ່າຍ 1x). MOSS-TTS-Realtime ຈະແລ່ນຢູ່ທີ່ທຽມມາດຕະຖານ (ຄ່າໃຊ້ຈ່າຍ 2x) ເມື່ອເປີດໃຊ້. ລະຫັດຜ່ານການຖ່າຍທອດບໍ່ໄດ້ເພີ່ມຄ່າໃຊ້ຈ່າຍເພີ່ມໃດໆ.

ຍິນດີຕ້ອນຮັບ - ຄູ່ຂອງຈຸດສຸດທ້າຍການຖ່າຍທອດສົດກັບສຽງ Twilio webhook ເພື່ອສະຫນອງສຽງສົດເຂົ້າໄປໃນການໂທ. ເວທີຕົວແທນສຽງຂອງພວກເຮົາໄດ້ເຮັດສິ່ງນີ້ສໍາລັບ IVR ແລະໂທອອກ. ສຸດທ້າຍເຖິງສຸດທ້າຍ latency ກ່ຽວກັບໂທລະສັບແມ່ນປົກກະຕິແລ້ວ 1-2 ວິນາທີລວມທັງ STT ແລະ LLM ການຕອບສະຫນອງ.

ຖ້າ​ເຄືອຂ່າຍ​ຂອງທ່ານ​ລົ້ມ​ລົງ​ໃນ​ການ​ສົ່ງ​ຕໍ່, ຕົວ​ຫຼິ້ນ​ສົດ​ຈະ​ຂ້າມ​ໄປ​ໜ້າ ແທນ​ທີ່​ຈະ​ຢຸດ​. ສຳ​ລັບ​កម្មវិធី​ທີ່​ບໍ່ສາມາດ​ທົນ​ຄວາມ​ຫວ່າງ​ໄດ້, ຫຼຸດ​ລົງ​ໄປ​ຫາ​ຈຸດ​ສຸດ​ທ້າຍ​ທີ່​ບໍ່​ສົດ​ປົກກະຕິ ຫຼື ເກັບ​ສຽງ​ໄວ້ 500ms ກ່ອນ​ທີ່​ຈະ​ເລີ່ມ​ການ​ຫຼິ້ນ.
5.0/5 (1)

ພວກເຮົາສາມາດປັບປຸງໄດ້ແນວໃດ? ຄໍາຄິດເຫັນຂອງທ່ານຊ່ວຍພວກເຮົາແກ້ໄຂບັນຫາ.

ສົ່ງ​ສຽງ​ອອກ​ມາ​ທັນ​ທີName

ຟຣີສໍາລັບ 10 ຄັ້ງທໍາອິດຂອງມື້. ລົງທະບຽນເພື່ອເປີດຕົວອັກສອນທີ່ອະນຸຍາດເຕັມແລະ API ເຂົ້າເຖິງ.