Text to Speech (TTS) là gì?

Từ các máy tổng hợp robot đầu tiên đến các mạng lưới thần kinh ngày nay có âm thanh không thể phân biệt được với con người, TTS đã biến đổi cách chúng ta tương tác với công nghệ, tiêu thụ nội dung và tạo ra thông tin dễ tiếp cận.

Công nghệ Lịch sử Nó hoạt động thế nào? Mạng thần kinh Evolution

Khái niệm chính trong Text to Speech

Hiểu về các khối xây dựng của tổng hợp giọng nói hiện đại

TTS nghĩa là gì

TTS là viết tắt của Text-to-Speech — công nghệ chuyển đổi văn bản viết thành âm thanh nói bằng giọng nói được tạo ra bởi máy tính.

Neural TTS làm việc như thế nào

TTS hiện đại sử dụng mạng lưới thần kinh sâu để phân tích văn bản, dự đoán các mô hình nói, và tạo ra các dạng sóng âm thanh có âm thanh đáng chú ý của con người.

Lịch sử tổng hợp giọng nói

Từ hệ thống dựa trên quy tắc những năm 1960 đến tổng hợp kết nối những năm 1990 đến các mô hình thần kinh ngày nay - cách TTS tiến hóa trong sáu thập kỷ.

Mô hình AI hiện đại

Các mô hình ngày nay như Kokoro, Bark, và CosyVoice 2 sử dụng các biến đổi, tán xạ, và suy luận biến đổi để đạt được chất lượng giọng nói ở mức con người.

Ứng dụng chung

TTS cung cấp các trình đọc màn hình, định vị GPS, trợ lý ảo, sách âm thanh, bot dịch vụ khách hàng, nền tảng học trực tuyến và tạo nội dung.

Mã nguồn mở vs thương mại

Các mô hình mã nguồn mở (MIT, Apache 2.0) cung cấp TTS tự chủ miễn phí trong khi các dịch vụ thương mại cung cấp API quản lý với SLA và hỗ trợ.

Các mẫu TTS có sẵn trên TTS.ai

Từ nhanh và nhẹ đến giọng thần kinh chất lượng phòng thu

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Tốt nhất cho: Mô hình nhỏ tiên tiến — cho thấy TTS thần kinh đã tiến triển đến đâu

Thử đi. Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Tốt nhất cho: Mô hình dựa trên biến đổi cho thấy sự tạo ra âm thanh vượt quá giọng nói

Thử đi. Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Bản sao giọng

Tốt nhất cho: Truyền TTS với chất lượng tương đương người và sao chép không bắn

Thử đi. CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Bản sao giọng

Tốt nhất cho: Ký âm vô tính cho thấy biên giới của tổng hợp giọng nói

Thử đi. Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Bản sao giọng

Tốt nhất cho: Kiến trúc tự hồi quy ưu tiên chất lượng âm thanh tối đa

Thử đi. Tortoise TTS

Neural TTS hoạt động như thế nào

Đường ống tổng hợp giọng nói hiện đại trong bốn bước

1

Hiểu những điều cơ bản

TTS chuyển đổi văn bản viết thành âm thanh nói. Hệ thống hiện đại sử dụng mạng lưới thần kinh được huấn luyện trên hàng ngàn giờ ghi âm giọng nói con người.

2

Tìm hiểu các mô hình khác nhau

Mỗi mô hình TTS sử dụng một kiến trúc khác nhau (transformer, diffusion, variational) với những điểm mạnh độc đáo về tốc độ, chất lượng và các tính năng.

3

Tự thử xem

Cách tốt nhất để hiểu TTS là sử dụng nó. Hãy thử các mẫu miễn phí ở trên — dán bất kỳ văn bản nào và nghe nó được nói trong vài giây.

4

Tạo dự án mới

Một khi bạn tìm thấy một mô hình bạn thích, sử dụng API của chúng tôi để tích hợp TTS vào các ứng dụng, sản phẩm hoặc lưu lượng làm việc tạo nội dung của bạn.

A Brief History of Text to Speech (bằng tiếng Anh).

Từ máy nói cơ khí đến mạng thần kinh

Ngày đầu (1950-1980)

Tiếng nói đầu tiên được tạo ra bởi máy tính có từ năm 1961, khi IBM

Các hệ thống đáng chú ý: Votrax (1970s), DECtalk (1984, được sử dụng bởi Stephen Hawking), Apple

Tổng hợp kết nối (1990-2000)

TTS liên kết ghi lại giọng nói của con người thực sự nói hàng ngàn sự kết hợp âm tiết, sau đó ghép các phần đúng vào nhau khi chạy. Điều này tạo ra giọng nói có âm thanh tự nhiên hơn nhưng đòi hỏi cơ sở dữ liệu khổng lồ (thường là 10- 20 giờ ghi âm mỗi giọng nói). Chất lượng phụ thuộc rất nhiều vào việc tìm thấy sự kết hợp mượt mà giữa các phần.

Dùng bởi: AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS đầu tiên.

Thống kê/Parametric (2000s-2010s)

Thay vì ghép các bản ghi lại, các mô hình tham số học cách biểu diễn thống kê của giọng nói. Các mô hình Markov ẩn (HMM) và sau đó là mạng thần kinh sâu tạo ra các tham số giọng nói (âm cao, thời gian, đặc điểm quang phổ) được truyền qua một vocoder. Điều này cho phép từ vựng không giới hạn và tạo giọng nói dễ dàng hơn, nhưng bước vocoder thường tạo ra một \

Các mẫu chính: HTS, Merlin, các hệ thống dựa trên DNN đầu tiên.

Neural TTS (2016-nay)

Thời đại hiện đại bắt đầu với WaveNet (DeepMind, 2016), tạo ra mẫu âm thanh theo mẫu sử dụng mạng thần kinh sâu. Tiếp theo là Tacotron (Google, 2017), học cách vẽ bảng văn bản trực tiếp lên phổ.

Các đột phá chính: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

Cách hiện đại Neural TTS làm việc

Kiến trúc đằng sau giọng nói AI có âm thanh tự nhiên

Phân tích và bình thường hóa văn bản

Văn bản thô được dọn dẹp và bình thường hóa: số trở thành từ (\

Mô hình âm thanh (Đoạn văn bản sang phổ) Name

Mô hình âm thanh (thường là một Transformer hoặc mạng tự hồi quy) lấy trình tự âm thanh và dự đoán một phổ mel — một biểu diễn hình ảnh của cách âm thanh

Vocoder (Phổ hình sang âm thanh)

Phần mềm vocoder chuyển đổi phổ ảnh mel thành hình sóng âm thanh thực tế. Các phần mềm vocoder ban đầu như Griffin- Lim tạo ra các tác phẩm nghệ thuật robot. Các phần mềm vocoder thần kinh hiện đại (HiFi- GAN, BigVGAN, Vocos) tạo ra âm thanh 24kHz hoặc 44. 1kHz độ chính xác cao, thu được các chi tiết nhỏ của giọng nói tự nhiên, bao gồm âm thanh hơi thở và chuyển động môi tinh tế.

Mô hình từ đầu đến cuối

Các mô hình mới nhất như VITS, Kokoro, và Bark bỏ qua hoàn toàn đường ống hai giai đoạn. Chúng đi trực tiếp từ văn bản đến âm thanh trong một mạng thần kinh duy nhất, tạo ra kết quả tự nhiên hơn với ít tác phẩm nghệ thuật hơn. Một số mô hình (như Bark) thậm chí có thể tạo ra âm thanh không nói, cười, và âm nhạc cùng với lời nói.

So sánh các phương pháp TTS

Cách bốn thế hệ công nghệ TTS so sánh

Tiến lên! Thời đại Tự nhiên Độ linh hoạt Tốc độ Cần dữ liệu
Tổng hợp hình thức
Mô hình tần số dựa trên quy tắc
1960s-1990s Không có
Liên tiếp
Các đoạn âm thanh được ghép lại
1990s-2010s 10-20+ giờ
Định dạng tham số (HMM/DNN)
Mô hình nói thống kê
2000s-2016 1-5 giờ
Neural End-to-End
Học sâu (VITS, Kokoro, Bark)
2016-Hiện tại Từ phút sang giờ

Ứng dụng phổ biến của TTS

Địa điểm mà văn bản chuyển đổi giọng nói được sử dụng ngày nay

Tính truy cập

Các trình đọc màn hình, thiết bị hỗ trợ và công cụ cho người khuyết tật thị giác hoặc khuyết tật đọc dựa trên TTS để tạo ra nội dung kỹ thuật số có thể truy cập được cho mọi người.

Tạo nội dung

YouTubers, podcasters, và các nhà tạo ra truyền thông xã hội sử dụng TTS cho voiceovers, kể chuyện, và sản xuất nội dung tự động theo quy mô.

Trợ lý ảoComment

Siri, Alexa, Google Assistant, và chatbots dịch vụ khách hàng đều sử dụng TTS để nói câu trả lời tự nhiên cho người dùng.

Câu hỏi thường gặp

Câu hỏi thường gặp về công nghệ chuyển văn bản sang nói

TTS là viết tắt của Text- to- Speech. Nó đề cập đến công nghệ chuyển đổi văn bản viết thành từ nói có thể nghe được bằng giọng nói tổng hợp hoặc giọng nói tạo bởi AI. Thuật ngữ này được dùng để thay thế cho "tổng hợp giọng nói" trong văn học kỹ thuật.

Hệ thống TTS hiện đại hoạt động trong ba giai đoạn: phân tích văn bản (giải mã, bình thường hóa, chuyển đổi âm thanh), dự đoán âm điệu (định nghĩa nhịp điệu, độ cao, áp lực và ngừng), và tổng hợp âm thanh (tạo ra hình sóng âm thanh thực tế).

Neural TTS tạo ra giọng nói từ đầu bằng cách sử dụng học sâu, tạo ra âm thanh âm thanh tự nhiên hơn, âm thanh tự nhiên hơn với âm điệu và cảm xúc tốt hơn.

SSML (Speech Synthesis Markup Language) là một ngôn ngữ đánh dấu dựa trên XML cho phép bạn điều khiển cách hệ thống TTS phát âm văn bản. Bạn có thể chỉ ra thời gian dừng, nhấn mạnh, phát âm, thay đổi độ cao, và tốc độ nói bằng cách sử dụng thẻ SSML trong nhập văn bản của bạn.

TTS được sử dụng cho khả năng truy cập (đọc màn hình cho người dùng khiếm thị), trợ lý ảo (Siri, Alexa, Google Assistant), sản xuất sách âm thanh, học trực tuyến, định vị GPS, hệ thống IVR dịch vụ khách hàng, tạo nội dung và các ứng dụng học ngôn ngữ.

TTS đã tiến hóa từ các hệ thống dựa trên quy tắc robot vào những năm 1960, đến tổng hợp kết nối vào những năm 1990, đến tổng hợp tham số thống kê vào những năm 2000, đến TTS thần kinh với WaveNet vào năm 2016, đến các mô hình biến đổi và khuếch tán ngày nay đạt được chất lượng ở mức con người.

TTS có âm thanh tự nhiên đòi hỏi sự chính xác về âm điệu (nhịp điệu, nhấn mạnh, ngữ điệu), nhịp điệu phù hợp, chuyển đổi mượt mà giữa các âm tiết và nhận dạng giọng nói nhất quán.

Các mô hình sao chép giọng nói như Chatterbox và CosyVoice 2 có thể sao chép một giọng nói cụ thể chỉ từ 5-30 giây âm thanh tham chiếu.Giọng nói sao chép ghi lại âm sắc, giọng điệu và phong cách nói, mặc dù các yếu tố đạo đức và pháp lý áp dụng cho việc sao chép giọng nói của người khác.

Một số mẫu chuyên về ngôn ngữ cụ thể trong khi những mẫu khác là đa ngôn ngữ. Tiếng Anh có nhiều mẫu và giọng nói nhất, nhưng tiếng Trung, Nhật, Hàn, Tây Ban Nha và châu Âu được hỗ trợ tốt.

TTS là một tập con của tạo giọng nói AI. TTS đặc biệt chuyển đổi nhập văn bản thành xuất giọng nói. Tạo giọng nói AI là một thuật ngữ rộng hơn cũng bao gồm sao chép giọng nói, chuyển đổi giọng nói, nói- sang- nói, và tạo hiệu ứng âm thanh.

Nó phụ thuộc vào nhu cầu của bạn. Kokoro cung cấp sự cân bằng tốt nhất giữa tốc độ và chất lượng cho sử dụng chung. Chatterbox dẫn đầu trong sao chép giọng nói. Orpheus xuất sắc trong biểu hiện cảm xúc. StyleTTS 2 tạo ra lời giải thích tự nhiên nhất cho một người nói. Không có mô hình "tốt nhất" duy nhất cho tất cả các trường hợp sử dụng.

Có. Tất cả các mô hình trên TTS.ai là mã nguồn mở và có thể tự lưu trữ. Các mô hình chỉ CPU như Piper chạy trên bất kỳ máy tính nào. Các mô hình GPU như Kokoro và Bark cần một GPU NVIDIA với 2-8GB VRAM. Nền tảng của chúng tôi cũng cung cấp truy cập lưu trữ để bạn không cần quản lý cơ sở hạ tầng.
5.0/5 (1)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Tự trải nghiệm TTS hiện đại

Thử 20+ mô hình giọng nói AI tiên tiến miễn phí. Xem văn bản chuyển đổi giọng nói đã tiến bộ đến đâu.