เสียง TTS แบบเรียลไทม์

กระแสข้อความ-เป็น-เสียง ด้วยการช้าของเสียงแรกในไม่กี่วินาที สร้างขึ้นสำหรับตัวแทนเสียงและแอพลิเคชันสด

เรายังไม่มีเสียง TTS ในภาษาของคุณ ช่วยเราเพิ่มเสียงของคุณด้วย! ขายเสียงของคุณ

ข้อความ

กระแสสัญญาณ
0/5,000 ตัวอักษร ~0.3s เสียงแรก

ตั้งค่าเสียง

รุ่นที่รองรับการสตรีมเท่านั้น

ความล่าช้าของการแสดงสด

คลิกที่ กระแส เพื่อวัดความล่าช้าของเสียงครั้งแรก

ข้อมูลออกมา

เสียงจะเล่นที่นี่ ตามที่มันเข้าไป

0:00
ชิ้นแรก:
จำนวนชิ้นทั้งหมด: 0
จำนวนเวลาทั้งหมด:

วิธีการทำงานของการสตรีม TTS

1. ส่งข้อความ

ข้อความ POST ไปยัง /v1/tts/stream/ เป็นการร้องขอเหตุการณ์ที่ส่งจากเซิร์ฟเวอร์

2. สร้างแบบจำลอง

โคโคโรแยกข้อความออกเป็นชิ้นๆ และสร้างเสียงขึ้นมาเป็นตัวอย่างบน GPU

3. ชิ้นส่วนสายข้อมูล

ส่วนของ WAV ที่เข้ารหัสด้วย Base64 จะมาถึงผ่าน SSE และเริ่มเล่นทันที

ฟังสด

ผู้ใช้ได้ยินการเริ่มต้นของประโยคในไม่ถึงวินาที แม้ว่าจะมีการเข้ารหัสที่ยาว

กรณีการใช้

ที่ที่ความล่าช้าในระดับเซลล์ เปิดประสบการณ์ใหม่

ตัวแทนเสียง

หุ่นยนต์ที่พูดคุยกันได้ มันตอบสนองได้เร็ว เท่ากับมนุษย์

เสียงแทนสด

แปลและแปลงเสียงสายในเวลาจริงโดยไม่ต้องพักการบัฟเฟอร์

เกมName

กล่องโต้ตอบ NPC ที่ตอบสนองต่อตัวเลือกของผู้เล่นทันที ไม่มี VO ที่ถูกจัดเรียงไว้ล่วงหน้า

ความสามารถในการเข้าถึง

เครื่องอ่านหน้าจอและเครื่องมือช่วยเหลือที่เริ่มพูดในเวลาที่ผู้ใช้คลิก

วางแผนการส่งเสียงเป็นภาษาอังกฤษแบบเรียลไทม์

เริ่มฟรี ปรับปรุงเมื่อคุณต้องการมากกว่านี้

ว่าง
  • Kokoro กระจายเสียง (แบบฟอร์มฟรี)
  • 500 อักขระต่อการสร้าง
  • 10 สตรีมมิ่งฟรี/วันต่อผู้ใช้นิรนาม
  • ความล่าช้าของเสียงครั้งแรกในช่วงไม่ถึงวินาที
  • กระแส SSE ผ่าน HTTPS
ยอดนิยมที่สุด
บัญชีผู้ใช้ที่ว่าง
  • 15,000 ตัวอักษรเมื่อลงทะเบียน
  • 5,000 อักขระต่อสาย
  • กุญแจ API สำหรับเข้าถึงโปรแกรม
  • ประวัติการสร้าง
  • ไม่มีจำนวนสูงสุดของสายข้อมูลต่อวัน
ลงทะเบียน
โปร
  • MOSS- TTS- Realtime (เมื่อเล่นสด)
  • 100,000 อักขระต่อสาย
  • ความสำคัญของคิว GPU
  • ตัวแทนเสียง + เชื่อมต่อกับ Twilio
  • ค่าจำกัดอัตราการจ่ายสูงกว่า
ปรับระดับ

คำถามที่ถามบ่อย

ข้อความ-เป็น-เสียงแบบเรียลไทม์ กระจายเสียงตามที่มันถูกสร้างขึ้น แทนที่จะรอให้ประโยคทั้งหมดเสร็จสิ้น ตัวอย่างเสียงแรกจะมาถึงภายในหนึ่งวินาที ทำให้มันเหมาะกับการแสดงเสียงสด การแปลเสียง และแอพพลิเคชันแบบโต้ตอบที่ความล่าช้าเป็นเรื่องสำคัญ

ระบบ TTS ปกติ จะสร้างแฟ้มเสียงเต็มก่อนที่จะส่งผลลัพธ์ออกมา — คุณต้องรอ และได้ยินประโยคทั้งหมดในทันที ระบบ TTS แบบ Realtime จะใช้เหตุการณ์ที่ส่งมาจากเซิร์ฟเวอร์ (SSE) เพื่อสตรีมเนื้อหาเสียงสั้น ๆ ตามที่โมเดลผลิตออกมา ผู้ใช้จะได้ยินการเริ่มประโยคแทบจะทันที แม้จะใช้ข้อมูลเข้าที่ยาว

Kokoro เป็นแบ็คเอนด์ปริยาย — มันสร้างเสียงได้เร็วกว่าเวลาจริงบน GPU สมัยใหม่ถึง 100 เท่า เรากำลังรวม MOSS- TTS- Realtime เข้าด้วยกันเป็นทางเลือกที่มีคุณภาพสูงขึ้น; ผู้ใช้จะสามารถเลือกได้ตามความต้องการเมื่อมันถูกส่งออก

ความล่าช้าของเสียงแรกบน Kokoro โดยทั่วไปจะอยู่ที่ 300-800 มิลวินาที ผ่านการเชื่อมต่อสาธารณะ หลังจากนั้นจะใช้การเดินทางรอบเครือข่ายเป็นหลัก หน้านี้จะแสดงเวลาที่วัดได้จริงของเสียงแรกในส่วนติดต่อผู้ใช้ ดังนั้นคุณจะเห็นได้ว่าแต่ละคำขอใช้เวลานานแค่ไหน

ตัวแทนเสียงที่ตอบสนองการสนทนา เสียงแทนสำหรับสตรีมเมดิอาท ตัวละครเกมแบบโต้ตอบ ผู้อ่านที่สามารถเข้าถึงได้ ที่เริ่มพูดในเวลาที่ผู้ใช้คลิก และแอพพลิเคชั่นใด ๆ ที่รอสองหรือสามวินาทีสำหรับเสียงจะรู้สึกช้า

ใช่ POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. The response is an SSE stream of base64-encoded WAV chunks. Free tier supports 10 generations per day per anonymous user; authorized users get the full per-account character allowance.

Kokoro ใช้เสียงที่ฝึกไว้ก่อนแล้ว และไม่โคลน ระบบ MOSS- TTS- Realtime (เมื่อรวมเข้ากับระบบ) รองรับการโคลนเสียงแบบ zero- shot จากข้อมูลอ้างอิง3วินาที สำหรับโคลนเสียงแบบเต็มในปัจจุบัน ใช้หน้า / text- to- speech / ปกติ กับ Chatterbox หรือ GPT- SoVITS - พวกมันไม่สามารถสตรีมได้ แต่สามารถผลิตเสียงที่กำหนดเองได้

ค่าตัวอักษรเท่ากับค่าของ TTS ทั่วไป Kokoro เป็นแบบฟรี (ค่า 1x) MOSS- TTS- Realtime จะทำงานในระดับมาตรฐาน (ค่า 2x) เมื่อเปิดใช้งาน โพรโทคอลสตรีมจะไม่เพิ่มค่าใดๆ

ใช่ — ใช้จุดจบของการสตรีมกับเวบฮูกเสียงของ Twilio เพื่อส่งเสียงสดเข้าไปในโทรศัพท์ ระบบตัวแทนเสียงของเราทำการนี้ได้แล้วสำหรับ IVR และโทรออก ความล่าช้าระหว่างจุดจบและจุดจบของการโทรศัพท์โดยทั่วไปจะอยู่ที่ 1-2 วินาที รวมถึงการตอบสนอง STT และ LLM

หากเครือข่ายของคุณขาดส่วนในการส่งข้อมูล ตัวเล่นสตรีมจะกระโดดไปข้างหน้า แทนที่จะหยุด สำหรับโปรแกรมที่ไม่สามารถทนความแคบได้ ให้กลับไปใช้จุดสิ้นสุดแบบปกติที่ไม่ใช้สตรีม หรือใช้เวลาในการบัฟเฟอร์ 500 มิลลิวินาทีก่อนที่จะเริ่มการเล่น
5.0/5 (1)

เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา

กระแสเสียงในเวลาจริงName

ฟรีสำหรับ 10 รุ่นแรกต่อวัน ลงทะเบียนเพื่อเปิดใช้งานอักขระที่อนุญาตและเข้าถึง API