เสียง TTS แบบเรียลไทม์
กระแสข้อความ-เป็น-เสียง ด้วยการช้าของเสียงแรกในไม่กี่วินาที สร้างขึ้นสำหรับตัวแทนเสียงและแอพลิเคชันสด
วิธีการทำงานของการสตรีม TTS
1. ส่งข้อความ
ข้อความ POST ไปยัง /v1/tts/stream/ เป็นการร้องขอเหตุการณ์ที่ส่งจากเซิร์ฟเวอร์
2. สร้างแบบจำลอง
โคโคโรแยกข้อความออกเป็นชิ้นๆ และสร้างเสียงขึ้นมาเป็นตัวอย่างบน GPU
3. ชิ้นส่วนสายข้อมูล
ส่วนของ WAV ที่เข้ารหัสด้วย Base64 จะมาถึงผ่าน SSE และเริ่มเล่นทันที
ฟังสด
ผู้ใช้ได้ยินการเริ่มต้นของประโยคในไม่ถึงวินาที แม้ว่าจะมีการเข้ารหัสที่ยาว
กรณีการใช้
ที่ที่ความล่าช้าในระดับเซลล์ เปิดประสบการณ์ใหม่
ตัวแทนเสียง
หุ่นยนต์ที่พูดคุยกันได้ มันตอบสนองได้เร็ว เท่ากับมนุษย์
เสียงแทนสด
แปลและแปลงเสียงสายในเวลาจริงโดยไม่ต้องพักการบัฟเฟอร์
เกมName
กล่องโต้ตอบ NPC ที่ตอบสนองต่อตัวเลือกของผู้เล่นทันที ไม่มี VO ที่ถูกจัดเรียงไว้ล่วงหน้า
ความสามารถในการเข้าถึง
เครื่องอ่านหน้าจอและเครื่องมือช่วยเหลือที่เริ่มพูดในเวลาที่ผู้ใช้คลิก
วางแผนการส่งเสียงเป็นภาษาอังกฤษแบบเรียลไทม์
เริ่มฟรี ปรับปรุงเมื่อคุณต้องการมากกว่านี้
- Kokoro กระจายเสียง (แบบฟอร์มฟรี)
- 500 อักขระต่อการสร้าง
- 10 สตรีมมิ่งฟรี/วันต่อผู้ใช้นิรนาม
- ความล่าช้าของเสียงครั้งแรกในช่วงไม่ถึงวินาที
- กระแส SSE ผ่าน HTTPS
- 15,000 ตัวอักษรเมื่อลงทะเบียน
- 5,000 อักขระต่อสาย
- กุญแจ API สำหรับเข้าถึงโปรแกรม
- ประวัติการสร้าง
- ไม่มีจำนวนสูงสุดของสายข้อมูลต่อวัน
- MOSS- TTS- Realtime (เมื่อเล่นสด)
- 100,000 อักขระต่อสาย
- ความสำคัญของคิว GPU
- ตัวแทนเสียง + เชื่อมต่อกับ Twilio
- ค่าจำกัดอัตราการจ่ายสูงกว่า
คำถามที่ถามบ่อย
เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา