อะไรคือการแปลงข้อความเป็นเสียง (TTS)?

ข้อความเป็นเสียง คือเทคโนโลยีที่แปลงข้อความที่เขียนมาเป็นเสียงที่พูดได้ โดยใช้ปัญญาประดิษฐ์ จากเครื่องสังเคราะห์เสียงของหุ่นยนต์ยุคแรก จนถึงเครือข่ายประสาทในปัจจุบัน ที่ฟังดูไม่แตกต่างจากเสียงของมนุษย์ TTS ได้เปลี่ยนแปลงวิธีการที่เรามีปฏิสัมพันธ์กับเทคโนโลยี บริโภคเนื้อหา และทำให้ข้อมูลเข้าถึงได้

เทคโนโลยี ประวัติการใช้งาน มันทำงานยังไง เครือข่ายประสาทName Evolution กำลังเริ่มการทำงาน

หลักการสำคัญของการแปลงข้อความเป็นเสียง

ทำความเข้าใจกับโครงสร้างพื้นฐานของการสังเคราะห์เสียงสมัยใหม่

คำย่อของ TTS คืออะไร

TTS หมายถึง Text-to-Speech เทคโนโลยีที่แปลงข้อความที่เขียนมาเป็นเสียงที่พูดได้ โดยใช้เสียงที่สร้างขึ้นโดยคอมพิวเตอร์

ระบบประสาท TTS ทำงานอย่างไร

TTS สมัยใหม่ใช้เครือข่ายประสาทลึก เพื่อวิเคราะห์ข้อความ คาดการณ์รูปแบบการพูด และสร้างคลื่นเสียงที่ฟังดูเหมือนมนุษย์

ประวัติการสังเคราะห์เสียง

จากระบบที่ใช้กฎตั้งแต่ปี 1960 ไปจนถึงการสังเคราะห์แบบเชื่อมต่อในปี 1990 จนถึงโมเดลระบบประสาทในปัจจุบัน TTS วิวัฒนาการมานานกว่าหกทศวรรษ

โมเดล AI สมัยใหม่

โมเดลปัจจุบันเช่นโคโคโร บาร์ค และโคซีวอยซ์2ใช้แปลงรูป กระจาย และสรุปความแตกต่างเพื่อบรรลุคุณภาพการพูดระดับมนุษย์

โปรแกรมที่ใช้กันทั่วไป

TTS ใช้ในการอ่านหน้าจอ GPS นำทาง ช่วยเหลือเสมือน หนังสือเสียง บริการลูกค้าบ็อท ระบบการเรียนรู้ทางอิเล็กทรอนิกส์ และสร้างเนื้อหา

โอเพนซอร์ส

โมเดลโอเพนซอร์ส (MIT, Apache 2.0) ให้บริการ TTS ฟรีที่สามารถจัดการได้เองในขณะที่บริการเชิงพาณิชย์เสนอ API ที่จัดการได้ด้วย SLAs และสนับสนุน

โมเดล TTS ที่ใช้ได้บน TTS.ai

จากเสียงที่รวดเร็วและเบา ไปจนถึงเสียงประสาทที่มีคุณภาพระดับสตูดิโอ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

เหมาะสำหรับ: แบบจำลองขนาดเล ็ กที ่ สุดยอด แสดงให ้ เห ็ นว ่ าระบบประสาท TTS พัฒนาไปไกลแค ่ ไหน

ลองดูสิ Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

เหมาะสำหรับ: โมเดลที่ใช้เทอร์โมฟอร์มแสดงให้เห็นการสร้างเสียงนอกเหนือจากการพูด

ลองดูสิ Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 การคัดลอกเสียง

เหมาะสำหรับ: เสียงสตรีม TTS ด้วยคุณภาพที่เท่าเทียมกับมนุษย์ และโคลนแบบ Zero-shot

ลองดูสิ CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 การคัดลอกเสียง

เหมาะสำหรับ: โคลนเสียงแบบ Zero-shot แสดงถึงพรมแดนของการสังเคราะห์เสียง

ลองดูสิ Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 การคัดลอกเสียง

เหมาะสำหรับ: สถาปัตยกรรมอัตโนมัติลดลงโดยให้ความสำคัญกับคุณภาพเสียงสูงสุด

ลองดูสิ Tortoise TTS

วิธีการทำงานของ Neural TTS

ระบบสังเคราะห์เสียงสมัยใหม่ ใช้4ขั้นตอน

1

เข้าใจพื้นฐาน

TTS เปลี่ยนข้อความที่เขียนเป็นเสียงที่พูด ระบบสมัยใหม่ใช้เครือข่ายประสาทที่ฝึกฝนมานานหลายพันชั่วโมง ในการบันทึกเสียงของมนุษย์

2

สำรวจโมเดลต่างๆ

ทุกๆ โมเดล TTS ใช้สถาปัตยกรรมที่แตกต่างกัน (Transformer, diffusion, variation) ด้วยความแข็งแกร่งที่ไม่เหมือนใครในเรื่องความเร็ว คุณภาพ และคุณสมบัติ

3

ลองดูด้วยตัวเองสิ

วิธีที่ดีที่สุดในการเข้าใจ TTS คือการใช้มัน ลองใช้ตัวอย่างฟรีของเราด้านบน — ปักข้อความใดๆ ก็ได้ และได้ยินเสียงมันพูดในไม่กี่วินาที

4

เชื่อมต่อเข้ากับโปรเจกของคุณ

เมื่อคุณพบโมเดลที่คุณชอบ ใช้ API ของเราเพื่อรวม TTS เข้ากับแอพพลิเคชันของคุณ ผลิตภัณฑ์ หรือกระบวนการสร้างเนื้อหา

ประวัติศาสตร์สั้น ๆ ของการแปลงข้อความเป็นเสียงName

จากเครื่องจักรกลที่พูด ไปจนถึงเครือข่ายประสาท

ช่วงต้นๆ (1950-1980)

คำพูดที่สร้างขึ้นโดยคอมพิวเตอร์ครั้งแรก เกิดขึ้นเมื่อปี 1961 เมื่อ IBM

ระบบที่น่าสนใจ: Votrax (1970s), DECtalk (1984, ใช้โดย Stephen Hawking), Apple

การสังเคราะห์แบบเชื่อมต่อ (1990s- 2000s)

การบันทึกเสียงของมนุษย์จริงที่พูดด้วยการรวมเสียงเป็นพัน ๆ เสียง แล้วต่อชิ้นส่วนที่ถูกต้องเข้าด้วยกันในเวลาทำงาน นี่จะทำให้เสียงพูดดูเหมือนธรรมชาติมากขึ้น แต่จะต้องใช้ฐานข้อมูลขนาดใหญ่ (บ่อยครั้ง 10- 20 ชั่วโมงในการบันทึกต่อเสียง) คุณภาพขึ้นอยู่กับการหาการเชื่อมต่อที่เรียบง่ายระหว่างชิ้นส่วน

ใช้โดย: AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS รุ่นแรก

สถิติ/พารามิเตอร์ (ปี 2000-2010)

แทนที่จะใช้การจับเสียงไว้ด้วยกัน โมเดลพารามิเตอร์เรียนรู้การแสดงออกทางสถิติของการพูด โมเดลมาร์โคฟที่ซ่อนอยู่ (HMMs) และในภายหลัง เครือข่ายประสาทลึก (deep neural networks) สร้างพารามิเตอร์การพูด (ระดับเสียง, ระยะเวลา, ตัวแปรสเปคทรัล) ที่ถูกส่งผ่านผ่านวอกอเดอร์ สิ่งนี้ทำให้สามารถสร้างคำศัพท์ได้มากขึ้นและสร้างเสียงได้ง่ายขึ้น แต่การสร้างเสียงด้วยวอกอเดอร์มักจะสร้างเสียงที่แตกต่างกันออกไป

โมเดลหลัก: HTS, Merlin, ระบบที่ใช้ฐานข้อมูล DNN สมัยแรก

Neural TTS (ปี 2016-ปัจจุบัน)

ยุคสมัยใหม่เริ่มต้นด้วย WaveNet (DeepMind, 2016) ซึ่งสร้างตัวอย่างเสียงโดยใช้เครือข่ายประสาทลึก ตามด้วย Tacotron (Google, 2017) ซึ่งเรียนรู้ที่จะแปลงข้อความเป็นสเปคโทรกรามโดยตรง

ความสำเร็จสำคัญ: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro

ระบบ TTS สมัยใหม่ทำงานอย่างไร

สถาปัตยกรรมเบื้องหลังเสียงเอไอที่ฟังดูเป็นธรรมชาติ

การวิเคราะห์ข้อความและปรับให้เป็นปกติ

ข้อความ raw จะถูกทำความสะอาดและปรับให้เป็นปกติ: ตัวเลขจะกลายเป็นคำ (\)

โมเดลเสียง (ข้อความเป็นสเปกโตรแกรม) Name

โมเดลเสียง (มักจะเป็น Transformer หรือ เครือข่ายอัตโนมัติ) ใช้ลำดับเสียงและทำนายสเปคโทรแกรมของ Mel - แสดงภาพว่าเสียงนั้นออกมายังไง

เครื่องมือเขียนรหัสเสียง (สเปคโทรแกรมเป็นเสียง) Name

วอกอเดอร์จะแปลงสเปคโทรแกรมของ Mel เป็นรูปคลื่นเสียงจริงๆ วอกอเดอร์รุ่นแรกๆ เช่น Griffin- Lim ผลิตผลงานของหุ่นยนต์ วอกอเดอร์ระบบประสาทสมัยใหม่ (HiFi- GAN, BigVGAN, Vocos) ผลิตเสียงที่มีความแม่นยำสูง 24kHz หรือ 44. 1kHz ซึ่งสามารถจับรายละเอียดของเสียงพูดตามธรรมชาติได้ รวมถึงเสียงหายใจและการเคลื่อนไหวของริมฝีปาก

โมเดลจากต้นจนจบ

โมเดลล่าสุดอย่าง VITS, Kokoro, และ Bark ข้ามท่อสองขั้นตอนไปโดยสิ้นเชิง พวกเขาจะไปจากข้อความไปยังเสียงโดยตรงในเครือข่ายประสาทเดียว ผลิตผลลัพธ์ที่เป็นธรรมชาติมากขึ้นโดยมีสิ่งประดิษฐ์น้อยลง บางโมเดล (เช่น Bark) ยังสามารถสร้างเสียงที่ไม่ใช่การพูด เสียงหัวเราะ และดนตรีร่วมกับการพูด

วิธีการ TTS ที่เปรียบเทียบกัน

เทคโนโลยี TTS รุ่นก่อนหน้า4รุ่นเปรียบเทียบกันยังไง

เข้าใกล้ ยุค ธรรมชาติ ยืดหยุ่น ความเร็ว ต้องการข้อมูล
การสังเคราะห์แบบฟอร์แมนต์
โมเดลความถี่ที่ใช้กฎ
1960s-1990s ไม่มี
เชื่อมต่อ
ส่วนเสียงที่เชื่อมต่อกัน
1990s-2010s 10-20 ชั่วโมง
พารามิเตอร์ (HMM/DNN)
แบบจำลองการพูดทางสถิติ
2000s-2016 1-5ชั่วโมง
เส้นประสาทจากต้นไปปลาย
การเรียนรู้ลึก (VITS, Kokoro, Bark)
2016-ปัจจุบัน นาทีเป็นชั่วโมง

โปรแกรมทั่วไปของ TTS

ปัจจุบัน มีการใช้เทคนิคการแปลงข้อความเป็นเสียง

ความสามารถในการเข้าถึง

เครื่องอ่านหน้าจอ อุปกรณ์ช่วยเหลือ และเครื่องมือสำหรับผู้ที่มีปัญหาการมองเห็น หรือ ความพิการในการอ่าน ขึ้นอยู่กับ TTS เพื่อทำให้เนื้อหาดิจิตอลเข้าถึงได้สำหรับทุกคน

การสร้างเนื้อหา

นักสร้าง YouTuber, podcasters และผู้สร้างสื่อสังคมออนไลน์ใช้ TTS สำหรับเสียงอ้างอิง, การเล่าเรื่อง, และการผลิตเนื้อหาอัตโนมัติในระดับขนาดใหญ่

เครื่องมือช่วยเสมือนName

Siri, Alexa, Google Assistant และ Chatbots บริการลูกค้าทั้งหมดใช้ TTS เพื่อพูดคำตอบอย่างเป็นธรรมชาติกับผู้ใช้

คำถามที่ถามบ่อย

คำถามที่พบบ่อยเกี่ยวกับเทคโนโลยีการแปลงข้อความเป็นเสียง

TTS หมายถึง ข้อความ- เป็น- เสียง (Text- to- Speech) หมายถึงเทคโนโลยีที่แปลงข้อความที่เขียนมาเป็นเสียงที่สามารถฟังได้ โดยใช้เสียงสังเคราะห์ หรือเสียงที่สร้างขึ้นโดย AI คำนี้ใช้แทนคำว่า "สังเคราะห์เสียง" ในงานวิจัยทางเทคนิค

ระบบ TTS สมัยใหม่ทำงานในสามขั้นตอน: การวิเคราะห์ข้อความ (วิเคราะห์, ปรับให้เป็นปกติ, เปลี่ยนเสียง), การทำนายลักษณะเสียง (กำหนดจังหวะ, ระดับเสียง, แรงกด, และการหยุดชะงัก), และการสังเคราะห์เสียง (สร้างรูปแบบคลื่นเสียงจริง) โมเดลประสาทเรียนรู้ทุกขั้นตอนจากข้อมูลการฝึกฝน

การแปลงเสียงแบบเชื่อมต่อ (Concatenative TTS) ใช้การเชื่อมต่อส่วนที่บันทึกไว้ก่อนหน้านี้เข้าด้วยกัน ซึ่งอาจจะทำให้เสียงแตกต่างกันไปในช่วงเวลาที่เปลี่ยนแปลง ระบบ TTS แบบประสาท (Neural TTS) สร้างเสียงจากจุดเริ่มต้นโดยใช้การเรียนรู้ลึก (Deep Learning) ทำให้เสียงที่ได้ออกมาดูเรียบเนียนและเป็นธรรมชาติมากขึ้น พร้อมกับเสียงและอารมณ์ที่ดีขึ้น

SSML (Speech Synthesis Markup Language) เป็นภาษาการทำเครื่องหมายที่ใช้ XML ซึ่งจะช่วยให้คุณควบคุมการออกเสียงของระบบ TTS ได้ คุณสามารถกำหนดการหยุดชะงัก การเน้น การออกเสียง การเปลี่ยนระดับเสียง และอัตราการพูด โดยใช้แท็ก SSML ในส่วนที่คุณป้อนข้อความ

TTS ถูกใช้สำหรับความสะดวกสบาย (ผู้อ่านหน้าจอสำหรับผู้ใช้ที่พิการทางสายตา), ผู้ช่วยเสมือน (Siri, Alexa, Google Assistant), การผลิตหนังสือเสียง, การเรียนรู้ทางอิเล็กทรอนิกส์, การนำทาง GPS, ระบบบริการลูกค้า IVR, การสร้างเนื้อหาและแอพพลิเคชันการเรียนรู้ภาษา.

TTS วิวัฒนาการจากระบบหุ่นยนต์ที่ใช้กฎในปี 1960 ไปสังเคราะห์ในปี 1990 ไปสังเคราะห์สถิติในปี 2000 ไปสังเคราะห์ประสาทด้วย WaveNet ในปี 2016 ไปสู่โมเดลการเปลี่ยนรูปแบบและกระจายตัวในปัจจุบัน

ระบบ TTS ที่มีเสียงเหมือนจริง จำเป็นต้องใช้การแปลภาษาที่ถูกต้อง (จังหวะ แรงโน้มถ่วง ระดับเสียง) ความเร็วที่เหมาะสม การเปลี่ยนแปลงระหว่างเสียงที่เรียบเนียน และความเป็นเอกลักษณ์ของเสียงที่สม่ำเสมอ โมเดลระบบประสาทเรียนรู้รูปแบบเหล่านี้จากชุดข้อมูลขนาดใหญ่ของการบันทึกเสียงพูดของมนุษย์ตามธรรมชาติ

โมเดลการโคลนเสียง เช่น Chatterbox และ CosyVoice2สามารถทำซ้ำเสียงที่กำหนดเองได้ จากเสียงที่อ้างอิงเพียง 5-30 วินาที เสียงที่โคลนได้จะจับจังหวะเสียง สำเนียง และสไตล์การพูดได้ แม้ว่าจะมีข้อพิจารณาทางจริยธรรมและกฎหมายที่ใช้กับการโคลนเสียงของคนอื่นๆ

โมเดล TTS สมัยใหม่ รองรับภาษามากกว่า 30 ภาษา บางโมเดล มีความเชี่ยวชาญเฉพาะในภาษาเฉพาะ และบางโมเดล รองรับหลายภาษา ภาษาอังกฤษ มีโมเดลและเสียงที่รองรับมากที่สุด แต่ภาษาจีน ญี่ปุ่น เกาหลี สเปน และภาษายุโรป ได้รับการรองรับอย่างดี

TTS คือส่วนหนึ่งของการสร้างเสียงด้วย AI โดยเฉพาะการแปลงข้อความเข้าไปเป็นเสียงออกมา การสร้างเสียงด้วย AI เป็นคำที่กว้างกว่าซึ่งรวมถึงการสร้างเสียงแบบคลอน, การแปลงเสียง, การพูดเป็นเสียง, และการสร้างเอฟเฟกต์เสียง

ขึ้นอยู่กับความต้องการของคุณ Kokoro เสนอสมดุลที่ดีที่สุดของความเร็วและคุณภาพสำหรับการใช้ทั่วไป Chatterbox นำหน้าในการคลอนเสียง Orpheus ยอดเยี่ยมในการแสดงอารมณ์ StyleTTS2ผลิตการเล่าเรื่องแบบธรรมชาติที่สุดของผู้พูดคนเดียว ไม่มีโมเดล "ที่ดีที่สุด" สำหรับทุกกรณีการใช้

ใช่ ทุกรุ่นบน TTS.ai เป็นโอเพนซอร์ส และสามารถโฮสต์เองได้ รุ่น CPU เท่านั้น เช่น Piper ทำงานบนคอมพิวเตอร์ใดๆก็ได้ รุ่น GPU เช่น Kokoro และ Bark ต้องการ NVIDIA GPU ที่มี VRAM 2-8GB แพลตฟอร์มของเรายังให้การเข้าถึงที่โฮสต์ไว้ด้วย ดังนั้นคุณจึงไม่ต้องจัดการโครงสร้างพื้นฐาน
5.0/5 (1)

เราจะปรับปรุงอะไรได้บ้าง ความคิดเห็นของคุณช่วยเราแก้ไขปัญหา

ลองใช้ TTS สมัยใหม่ด้วยตัวเอง

ลองใช้แบบจำลองเสียง AI ระดับโลก 20+ แบบฟรีๆ ดูว่าการแปลงข้อความเป็นเสียงนั้นไปไกลแค่ไหน