อะไรคือการแปลงข้อความเป็นเสียง (TTS)?
ข้อความเป็นเสียง คือเทคโนโลยีที่แปลงข้อความที่เขียนมาเป็นเสียงที่พูดได้ โดยใช้ปัญญาประดิษฐ์ จากเครื่องสังเคราะห์เสียงของหุ่นยนต์ยุคแรก จนถึงเครือข่ายประสาทในปัจจุบัน ที่ฟังดูไม่แตกต่างจากเสียงของมนุษย์ TTS ได้เปลี่ยนแปลงวิธีการที่เรามีปฏิสัมพันธ์กับเทคโนโลยี บริโภคเนื้อหา และทำให้ข้อมูลเข้าถึงได้
หลักการสำคัญของการแปลงข้อความเป็นเสียง
ทำความเข้าใจกับโครงสร้างพื้นฐานของการสังเคราะห์เสียงสมัยใหม่
คำย่อของ TTS คืออะไร
TTS หมายถึง Text-to-Speech เทคโนโลยีที่แปลงข้อความที่เขียนมาเป็นเสียงที่พูดได้ โดยใช้เสียงที่สร้างขึ้นโดยคอมพิวเตอร์
ระบบประสาท TTS ทำงานอย่างไร
TTS สมัยใหม่ใช้เครือข่ายประสาทลึก เพื่อวิเคราะห์ข้อความ คาดการณ์รูปแบบการพูด และสร้างคลื่นเสียงที่ฟังดูเหมือนมนุษย์
ประวัติการสังเคราะห์เสียง
จากระบบที่ใช้กฎตั้งแต่ปี 1960 ไปจนถึงการสังเคราะห์แบบเชื่อมต่อในปี 1990 จนถึงโมเดลระบบประสาทในปัจจุบัน TTS วิวัฒนาการมานานกว่าหกทศวรรษ
โมเดล AI สมัยใหม่
โมเดลปัจจุบันเช่นโคโคโร บาร์ค และโคซีวอยซ์2ใช้แปลงรูป กระจาย และสรุปความแตกต่างเพื่อบรรลุคุณภาพการพูดระดับมนุษย์
โปรแกรมที่ใช้กันทั่วไป
TTS ใช้ในการอ่านหน้าจอ GPS นำทาง ช่วยเหลือเสมือน หนังสือเสียง บริการลูกค้าบ็อท ระบบการเรียนรู้ทางอิเล็กทรอนิกส์ และสร้างเนื้อหา
โอเพนซอร์ส
โมเดลโอเพนซอร์ส (MIT, Apache 2.0) ให้บริการ TTS ฟรีที่สามารถจัดการได้เองในขณะที่บริการเชิงพาณิชย์เสนอ API ที่จัดการได้ด้วย SLAs และสนับสนุน
โมเดล TTS ที่ใช้ได้บน TTS.ai
จากเสียงที่รวดเร็วและเบา ไปจนถึงเสียงประสาทที่มีคุณภาพระดับสตูดิโอ
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
เหมาะสำหรับ: แบบจำลองขนาดเล ็ กที ่ สุดยอด แสดงให ้ เห ็ นว ่ าระบบประสาท TTS พัฒนาไปไกลแค ่ ไหน
ลองดูสิ Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
เหมาะสำหรับ: โมเดลที่ใช้เทอร์โมฟอร์มแสดงให้เห็นการสร้างเสียงนอกเหนือจากการพูด
ลองดูสิ Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
เหมาะสำหรับ: เสียงสตรีม TTS ด้วยคุณภาพที่เท่าเทียมกับมนุษย์ และโคลนแบบ Zero-shot
ลองดูสิ CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
เหมาะสำหรับ: โคลนเสียงแบบ Zero-shot แสดงถึงพรมแดนของการสังเคราะห์เสียง
ลองดูสิ Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
เหมาะสำหรับ: สถาปัตยกรรมอัตโนมัติลดลงโดยให้ความสำคัญกับคุณภาพเสียงสูงสุด
ลองดูสิ Tortoise TTSวิธีการทำงานของ Neural TTS
ระบบสังเคราะห์เสียงสมัยใหม่ ใช้4ขั้นตอน
เข้าใจพื้นฐาน
TTS เปลี่ยนข้อความที่เขียนเป็นเสียงที่พูด ระบบสมัยใหม่ใช้เครือข่ายประสาทที่ฝึกฝนมานานหลายพันชั่วโมง ในการบันทึกเสียงของมนุษย์
สำรวจโมเดลต่างๆ
ทุกๆ โมเดล TTS ใช้สถาปัตยกรรมที่แตกต่างกัน (Transformer, diffusion, variation) ด้วยความแข็งแกร่งที่ไม่เหมือนใครในเรื่องความเร็ว คุณภาพ และคุณสมบัติ
ลองดูด้วยตัวเองสิ
วิธีที่ดีที่สุดในการเข้าใจ TTS คือการใช้มัน ลองใช้ตัวอย่างฟรีของเราด้านบน — ปักข้อความใดๆ ก็ได้ และได้ยินเสียงมันพูดในไม่กี่วินาที
เชื่อมต่อเข้ากับโปรเจกของคุณ
เมื่อคุณพบโมเดลที่คุณชอบ ใช้ API ของเราเพื่อรวม TTS เข้ากับแอพพลิเคชันของคุณ ผลิตภัณฑ์ หรือกระบวนการสร้างเนื้อหา
ประวัติศาสตร์สั้น ๆ ของการแปลงข้อความเป็นเสียงName
จากเครื่องจักรกลที่พูด ไปจนถึงเครือข่ายประสาท
ช่วงต้นๆ (1950-1980)
คำพูดที่สร้างขึ้นโดยคอมพิวเตอร์ครั้งแรก เกิดขึ้นเมื่อปี 1961 เมื่อ IBM
ระบบที่น่าสนใจ: Votrax (1970s), DECtalk (1984, ใช้โดย Stephen Hawking), Apple
การสังเคราะห์แบบเชื่อมต่อ (1990s- 2000s)
การบันทึกเสียงของมนุษย์จริงที่พูดด้วยการรวมเสียงเป็นพัน ๆ เสียง แล้วต่อชิ้นส่วนที่ถูกต้องเข้าด้วยกันในเวลาทำงาน นี่จะทำให้เสียงพูดดูเหมือนธรรมชาติมากขึ้น แต่จะต้องใช้ฐานข้อมูลขนาดใหญ่ (บ่อยครั้ง 10- 20 ชั่วโมงในการบันทึกต่อเสียง) คุณภาพขึ้นอยู่กับการหาการเชื่อมต่อที่เรียบง่ายระหว่างชิ้นส่วน
ใช้โดย: AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS รุ่นแรก
สถิติ/พารามิเตอร์ (ปี 2000-2010)
แทนที่จะใช้การจับเสียงไว้ด้วยกัน โมเดลพารามิเตอร์เรียนรู้การแสดงออกทางสถิติของการพูด โมเดลมาร์โคฟที่ซ่อนอยู่ (HMMs) และในภายหลัง เครือข่ายประสาทลึก (deep neural networks) สร้างพารามิเตอร์การพูด (ระดับเสียง, ระยะเวลา, ตัวแปรสเปคทรัล) ที่ถูกส่งผ่านผ่านวอกอเดอร์ สิ่งนี้ทำให้สามารถสร้างคำศัพท์ได้มากขึ้นและสร้างเสียงได้ง่ายขึ้น แต่การสร้างเสียงด้วยวอกอเดอร์มักจะสร้างเสียงที่แตกต่างกันออกไป
โมเดลหลัก: HTS, Merlin, ระบบที่ใช้ฐานข้อมูล DNN สมัยแรก
Neural TTS (ปี 2016-ปัจจุบัน)
ยุคสมัยใหม่เริ่มต้นด้วย WaveNet (DeepMind, 2016) ซึ่งสร้างตัวอย่างเสียงโดยใช้เครือข่ายประสาทลึก ตามด้วย Tacotron (Google, 2017) ซึ่งเรียนรู้ที่จะแปลงข้อความเป็นสเปคโทรกรามโดยตรง
ความสำเร็จสำคัญ: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro
ระบบ TTS สมัยใหม่ทำงานอย่างไร
สถาปัตยกรรมเบื้องหลังเสียงเอไอที่ฟังดูเป็นธรรมชาติ
การวิเคราะห์ข้อความและปรับให้เป็นปกติ
ข้อความ raw จะถูกทำความสะอาดและปรับให้เป็นปกติ: ตัวเลขจะกลายเป็นคำ (\)
โมเดลเสียง (ข้อความเป็นสเปกโตรแกรม) Name
โมเดลเสียง (มักจะเป็น Transformer หรือ เครือข่ายอัตโนมัติ) ใช้ลำดับเสียงและทำนายสเปคโทรแกรมของ Mel - แสดงภาพว่าเสียงนั้นออกมายังไง
เครื่องมือเขียนรหัสเสียง (สเปคโทรแกรมเป็นเสียง) Name
วอกอเดอร์จะแปลงสเปคโทรแกรมของ Mel เป็นรูปคลื่นเสียงจริงๆ วอกอเดอร์รุ่นแรกๆ เช่น Griffin- Lim ผลิตผลงานของหุ่นยนต์ วอกอเดอร์ระบบประสาทสมัยใหม่ (HiFi- GAN, BigVGAN, Vocos) ผลิตเสียงที่มีความแม่นยำสูง 24kHz หรือ 44. 1kHz ซึ่งสามารถจับรายละเอียดของเสียงพูดตามธรรมชาติได้ รวมถึงเสียงหายใจและการเคลื่อนไหวของริมฝีปาก
โมเดลจากต้นจนจบ
โมเดลล่าสุดอย่าง VITS, Kokoro, และ Bark ข้ามท่อสองขั้นตอนไปโดยสิ้นเชิง พวกเขาจะไปจากข้อความไปยังเสียงโดยตรงในเครือข่ายประสาทเดียว ผลิตผลลัพธ์ที่เป็นธรรมชาติมากขึ้นโดยมีสิ่งประดิษฐ์น้อยลง บางโมเดล (เช่น Bark) ยังสามารถสร้างเสียงที่ไม่ใช่การพูด เสียงหัวเราะ และดนตรีร่วมกับการพูด
วิธีการ TTS ที่เปรียบเทียบกัน
เทคโนโลยี TTS รุ่นก่อนหน้า4รุ่นเปรียบเทียบกันยังไง
| เข้าใกล้ | ยุค | ธรรมชาติ | ยืดหยุ่น | ความเร็ว | ต้องการข้อมูล |
|---|---|---|---|---|---|
| การสังเคราะห์แบบฟอร์แมนต์ โมเดลความถี่ที่ใช้กฎ |
1960s-1990s | ไม่มี | |||
| เชื่อมต่อ ส่วนเสียงที่เชื่อมต่อกัน |
1990s-2010s | 10-20 ชั่วโมง | |||
| พารามิเตอร์ (HMM/DNN) แบบจำลองการพูดทางสถิติ |
2000s-2016 | 1-5ชั่วโมง | |||
| เส้นประสาทจากต้นไปปลาย การเรียนรู้ลึก (VITS, Kokoro, Bark) |
2016-ปัจจุบัน | นาทีเป็นชั่วโมง |
โปรแกรมทั่วไปของ TTS
ปัจจุบัน มีการใช้เทคนิคการแปลงข้อความเป็นเสียง
ความสามารถในการเข้าถึง
เครื่องอ่านหน้าจอ อุปกรณ์ช่วยเหลือ และเครื่องมือสำหรับผู้ที่มีปัญหาการมองเห็น หรือ ความพิการในการอ่าน ขึ้นอยู่กับ TTS เพื่อทำให้เนื้อหาดิจิตอลเข้าถึงได้สำหรับทุกคน
การสร้างเนื้อหา
นักสร้าง YouTuber, podcasters และผู้สร้างสื่อสังคมออนไลน์ใช้ TTS สำหรับเสียงอ้างอิง, การเล่าเรื่อง, และการผลิตเนื้อหาอัตโนมัติในระดับขนาดใหญ่
เครื่องมือช่วยเสมือนName
Siri, Alexa, Google Assistant และ Chatbots บริการลูกค้าทั้งหมดใช้ TTS เพื่อพูดคำตอบอย่างเป็นธรรมชาติกับผู้ใช้
คำถามที่ถามบ่อย
คำถามที่พบบ่อยเกี่ยวกับเทคโนโลยีการแปลงข้อความเป็นเสียง
เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา