รายงานข้อผิดพลาด / ขอฟีเจอร์ใหม่

เสียง TTS แบบเรียลไทม์

กระแสข้อความ-เป็น-เสียง ด้วยการช้าของเสียงแรกในไม่กี่วินาที สร้างขึ้นสำหรับตัวแทนเสียงและแอพลิเคชันสด

ลงทะเบียน

เรายังไม่มีเสียง TTS ในภาษาของคุณ ช่วยเราเพิ่มเสียงของคุณด้วย! ขายเสียงของคุณ

ข้อความ

กระแสสัญญาณ

0/5,000 ตัวอักษร ~0.3s เสียงแรก

ตั้งค่าเสียง

โมเดล รุ่นที่รองรับการสตรีมเท่านั้น

เสียง

ความเร็ว 1.0x

ความล่าช้าของการแสดงสด

—

คลิกที่ กระแส เพื่อวัดความล่าช้าของเสียงครั้งแรก

ข้อมูลออกมา

เสียงจะเล่นที่นี่ ตามที่มันเข้าไป

วิธีการทำงานของการสตรีม TTS

1. ส่งข้อความ

ข้อความ POST ไปยัง /v1/tts/stream/ เป็นการร้องขอเหตุการณ์ที่ส่งจากเซิร์ฟเวอร์

2. สร้างแบบจำลอง

โคโคโรแยกข้อความออกเป็นชิ้นๆ และสร้างเสียงขึ้นมาเป็นตัวอย่างบน GPU

3. ชิ้นส่วนสายข้อมูล

ส่วนของ WAV ที่เข้ารหัสด้วย Base64 จะมาถึงผ่าน SSE และเริ่มเล่นทันที

ฟังสด

ผู้ใช้ได้ยินการเริ่มต้นของประโยคในไม่ถึงวินาที แม้ว่าจะมีการเข้ารหัสที่ยาว

กรณีการใช้

ที่ที่ความล่าช้าในระดับเซลล์ เปิดประสบการณ์ใหม่

ตัวแทนเสียง

หุ่นยนต์ที่พูดคุยกันได้ มันตอบสนองได้เร็ว เท่ากับมนุษย์

เสียงแทนสด

แปลและแปลงเสียงสายในเวลาจริงโดยไม่ต้องพักการบัฟเฟอร์

เกมName

กล่องโต้ตอบ NPC ที่ตอบสนองต่อตัวเลือกของผู้เล่นทันที ไม่มี VO ที่ถูกจัดเรียงไว้ล่วงหน้า

ความสามารถในการเข้าถึง

เครื่องอ่านหน้าจอและเครื่องมือช่วยเหลือที่เริ่มพูดในเวลาที่ผู้ใช้คลิก

วางแผนการส่งเสียงเป็นภาษาอังกฤษแบบเรียลไทม์

เริ่มฟรี ปรับปรุงเมื่อคุณต้องการมากกว่านี้

ว่าง

Kokoro กระจายเสียง (แบบฟอร์มฟรี)
500 อักขระต่อการสร้าง
10 สตรีมมิ่งฟรี/วันต่อผู้ใช้นิรนาม
ความล่าช้าของเสียงครั้งแรกในช่วงไม่ถึงวินาที
กระแส SSE ผ่าน HTTPS

ยอดนิยมที่สุด

บัญชีผู้ใช้ที่ว่าง

15,000 ตัวอักษรเมื่อลงทะเบียน
5,000 อักขระต่อสาย
กุญแจ API สำหรับเข้าถึงโปรแกรม
ประวัติการสร้าง
ไม่มีจำนวนสูงสุดของสายข้อมูลต่อวัน

ลงทะเบียน

โปร

MOSS- TTS- Realtime (เมื่อเล่นสด)
100,000 อักขระต่อสาย
ความสำคัญของคิว GPU
ตัวแทนเสียง + เชื่อมต่อกับ Twilio
ค่าจำกัดอัตราการจ่ายสูงกว่า

ปรับระดับ

คำถามที่ถามบ่อย

ข้อความ-เป็น-เสียงแบบเรียลไทม์ กระจายเสียงตามที่มันถูกสร้างขึ้น แทนที่จะรอให้ประโยคทั้งหมดเสร็จสิ้น ตัวอย่างเสียงแรกจะมาถึงภายในหนึ่งวินาที ทำให้มันเหมาะกับการแสดงเสียงสด การแปลเสียง และแอพพลิเคชันแบบโต้ตอบที่ความล่าช้าเป็นเรื่องสำคัญ

ระบบ TTS ปกติ จะสร้างแฟ้มเสียงเต็มก่อนที่จะส่งผลลัพธ์ออกมา — คุณต้องรอ และได้ยินประโยคทั้งหมดในทันที ระบบ TTS แบบ Realtime จะใช้เหตุการณ์ที่ส่งมาจากเซิร์ฟเวอร์ (SSE) เพื่อสตรีมเนื้อหาเสียงสั้น ๆ ตามที่โมเดลผลิตออกมา ผู้ใช้จะได้ยินการเริ่มประโยคแทบจะทันที แม้จะใช้ข้อมูลเข้าที่ยาว

Kokoro เป็นแบ็คเอนด์ปริยาย — มันสร้างเสียงได้เร็วกว่าเวลาจริงบน GPU สมัยใหม่ถึง 100 เท่า เรากำลังรวม MOSS- TTS- Realtime เข้าด้วยกันเป็นทางเลือกที่มีคุณภาพสูงขึ้น; ผู้ใช้จะสามารถเลือกได้ตามความต้องการเมื่อมันถูกส่งออก

ความล่าช้าของเสียงแรกบน Kokoro โดยทั่วไปจะอยู่ที่ 300-800 มิลวินาที ผ่านการเชื่อมต่อสาธารณะ หลังจากนั้นจะใช้การเดินทางรอบเครือข่ายเป็นหลัก หน้านี้จะแสดงเวลาที่วัดได้จริงของเสียงแรกในส่วนติดต่อผู้ใช้ ดังนั้นคุณจะเห็นได้ว่าแต่ละคำขอใช้เวลานานแค่ไหน

ตัวแทนเสียงที่ตอบสนองการสนทนา เสียงแทนสำหรับสตรีมเมดิอาท ตัวละครเกมแบบโต้ตอบ ผู้อ่านที่สามารถเข้าถึงได้ ที่เริ่มพูดในเวลาที่ผู้ใช้คลิก และแอพพลิเคชั่นใด ๆ ที่รอสองหรือสามวินาทีสำหรับเสียงจะรู้สึกช้า

ใช่ POST to https://api.tts.ai/v1/tts/stream/ with the same body as the regular /v1/tts/ endpoint. The response is an SSE stream of base64-encoded WAV chunks. Free tier supports 10 generations per day per anonymous user; authorized users get the full per-account character allowance.

Kokoro ใช้เสียงที่ฝึกไว้ก่อนแล้ว และไม่โคลน ระบบ MOSS- TTS- Realtime (เมื่อรวมเข้ากับระบบ) รองรับการโคลนเสียงแบบ zero- shot จากข้อมูลอ้างอิง3วินาที สำหรับโคลนเสียงแบบเต็มในปัจจุบัน ใช้หน้า / text- to- speech / ปกติ กับ Chatterbox หรือ GPT- SoVITS - พวกมันไม่สามารถสตรีมได้ แต่สามารถผลิตเสียงที่กำหนดเองได้

ค่าตัวอักษรเท่ากับค่าของ TTS ทั่วไป Kokoro เป็นแบบฟรี (ค่า 1x) MOSS- TTS- Realtime จะทำงานในระดับมาตรฐาน (ค่า 2x) เมื่อเปิดใช้งาน โพรโทคอลสตรีมจะไม่เพิ่มค่าใดๆ

ใช่ — ใช้จุดจบของการสตรีมกับเวบฮูกเสียงของ Twilio เพื่อส่งเสียงสดเข้าไปในโทรศัพท์ ระบบตัวแทนเสียงของเราทำการนี้ได้แล้วสำหรับ IVR และโทรออก ความล่าช้าระหว่างจุดจบและจุดจบของการโทรศัพท์โดยทั่วไปจะอยู่ที่ 1-2 วินาที รวมถึงการตอบสนอง STT และ LLM

หากเครือข่ายของคุณขาดส่วนในการส่งข้อมูล ตัวเล่นสตรีมจะกระโดดไปข้างหน้า แทนที่จะหยุด สำหรับโปรแกรมที่ไม่สามารถทนความแคบได้ ให้กลับไปใช้จุดสิ้นสุดแบบปกติที่ไม่ใช้สตรีม หรือใช้เวลาในการบัฟเฟอร์ 500 มิลลิวินาทีก่อนที่จะเริ่มการเล่น

5.0/5 (1)

กระแสเสียงในเวลาจริงName

ฟรีสำหรับ 10 รุ่นแรกต่อวัน ลงทะเบียนเพื่อเปิดใช้งานอักขระที่อนุญาตและเข้าถึง API

ลงทะเบียน แสดงราคา

เสียง TTS แบบเรียลไทม์

ข้อความ

ตั้งค่าเสียง

ความล่าช้าของการแสดงสด

ข้อมูลออกมา

วิธีการทำงานของการสตรีม TTS

1. ส่งข้อความ

2. สร้างแบบจำลอง

3. ชิ้นส่วนสายข้อมูล

ฟังสด

กรณีการใช้

ตัวแทนเสียง

เสียงแทนสด

เกมName

ความสามารถในการเข้าถึง

วางแผนการส่งเสียงเป็นภาษาอังกฤษแบบเรียลไทม์

คำถามที่ถามบ่อย

อะไรคือ TTS แบบเรียลไทม์

ทำไม TTS แบบ realtime ถึงแตกต่างจาก TTS แบบปกติ

โมเดลไหนที่ใช้ในการแสดงผลแบบเรียลไทม์

เสียงแรก ความล่าช้าเร็วแค่ไหน

ฉันจะสร้างอะไรได้บ้าง ด้วยการสื่อสารแบบเรียลไทม์

มี API สำหรับ TTS แบบเรียลไทม์หรือเปล่า

มันรองรับการโคลนเสียงหรือเปล่า

ค่าใช้จ่ายในการแปลภาษาเป็นภาษาอังกฤษจริงๆเท่าไหร่

ผมใช้มันโทรศัพท์ได้ไหม

ทำไมเสียงมันหยุดตอนกลางคำบางครั้ง

กระแสเสียงในเวลาจริงName