Text to Speech (TTS) là gì?
Từ các máy tổng hợp robot đầu tiên đến các mạng lưới thần kinh ngày nay có âm thanh không thể phân biệt được với con người, TTS đã biến đổi cách chúng ta tương tác với công nghệ, tiêu thụ nội dung và tạo ra thông tin dễ tiếp cận.
Khái niệm chính trong Text to Speech
Hiểu về các khối xây dựng của tổng hợp giọng nói hiện đại
TTS nghĩa là gì
TTS là viết tắt của Text-to-Speech — công nghệ chuyển đổi văn bản viết thành âm thanh nói bằng giọng nói được tạo ra bởi máy tính.
Neural TTS làm việc như thế nào
TTS hiện đại sử dụng mạng lưới thần kinh sâu để phân tích văn bản, dự đoán các mô hình nói, và tạo ra các dạng sóng âm thanh có âm thanh đáng chú ý của con người.
Lịch sử tổng hợp giọng nói
Từ hệ thống dựa trên quy tắc những năm 1960 đến tổng hợp kết nối những năm 1990 đến các mô hình thần kinh ngày nay - cách TTS tiến hóa trong sáu thập kỷ.
Mô hình AI hiện đại
Các mô hình ngày nay như Kokoro, Bark, và CosyVoice 2 sử dụng các biến đổi, tán xạ, và suy luận biến đổi để đạt được chất lượng giọng nói ở mức con người.
Ứng dụng chung
TTS cung cấp các trình đọc màn hình, định vị GPS, trợ lý ảo, sách âm thanh, bot dịch vụ khách hàng, nền tảng học trực tuyến và tạo nội dung.
Mã nguồn mở vs thương mại
Các mô hình mã nguồn mở (MIT, Apache 2.0) cung cấp TTS tự chủ miễn phí trong khi các dịch vụ thương mại cung cấp API quản lý với SLA và hỗ trợ.
Các mẫu TTS có sẵn trên TTS.ai
Từ nhanh và nhẹ đến giọng thần kinh chất lượng phòng thu
Kokoro
Free
Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.
Tốt nhất cho: Mô hình nhỏ tiên tiến — cho thấy TTS thần kinh đã tiến triển đến đâu
Thử đi. Kokoro
Bark
Standard
Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.
Tốt nhất cho: Mô hình dựa trên biến đổi cho thấy sự tạo ra âm thanh vượt quá giọng nói
Thử đi. Bark
CosyVoice 2
Standard
Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.
Tốt nhất cho: Truyền TTS với chất lượng tương đương người và sao chép không bắn
Thử đi. CosyVoice 2
Chatterbox
Premium
State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.
Tốt nhất cho: Ký âm vô tính cho thấy biên giới của tổng hợp giọng nói
Thử đi. Chatterbox
Tortoise TTS
Premium
Multi-voice text-to-speech focused on quality with autoregressive architecture.
Tốt nhất cho: Kiến trúc tự hồi quy ưu tiên chất lượng âm thanh tối đa
Thử đi. Tortoise TTSNeural TTS hoạt động như thế nào
Đường ống tổng hợp giọng nói hiện đại trong bốn bước
Hiểu những điều cơ bản
TTS chuyển đổi văn bản viết thành âm thanh nói. Hệ thống hiện đại sử dụng mạng lưới thần kinh được huấn luyện trên hàng ngàn giờ ghi âm giọng nói con người.
Tìm hiểu các mô hình khác nhau
Mỗi mô hình TTS sử dụng một kiến trúc khác nhau (transformer, diffusion, variational) với những điểm mạnh độc đáo về tốc độ, chất lượng và các tính năng.
Tự thử xem
Cách tốt nhất để hiểu TTS là sử dụng nó. Hãy thử các mẫu miễn phí ở trên — dán bất kỳ văn bản nào và nghe nó được nói trong vài giây.
Tạo dự án mới
Một khi bạn tìm thấy một mô hình bạn thích, sử dụng API của chúng tôi để tích hợp TTS vào các ứng dụng, sản phẩm hoặc lưu lượng làm việc tạo nội dung của bạn.
A Brief History of Text to Speech (bằng tiếng Anh).
Từ máy nói cơ khí đến mạng thần kinh
Ngày đầu (1950-1980)
Tiếng nói đầu tiên được tạo ra bởi máy tính có từ năm 1961, khi IBM
Các hệ thống đáng chú ý: Votrax (1970s), DECtalk (1984, được sử dụng bởi Stephen Hawking), Apple
Tổng hợp kết nối (1990-2000)
TTS liên kết ghi lại giọng nói của con người thực sự nói hàng ngàn sự kết hợp âm tiết, sau đó ghép các phần đúng vào nhau khi chạy. Điều này tạo ra giọng nói có âm thanh tự nhiên hơn nhưng đòi hỏi cơ sở dữ liệu khổng lồ (thường là 10- 20 giờ ghi âm mỗi giọng nói). Chất lượng phụ thuộc rất nhiều vào việc tìm thấy sự kết hợp mượt mà giữa các phần.
Dùng bởi: AT&T Natural Voices, Nuance Vocalizer, Google Translate TTS đầu tiên.
Thống kê/Parametric (2000s-2010s)
Thay vì ghép các bản ghi lại, các mô hình tham số học cách biểu diễn thống kê của giọng nói. Các mô hình Markov ẩn (HMM) và sau đó là mạng thần kinh sâu tạo ra các tham số giọng nói (âm cao, thời gian, đặc điểm quang phổ) được truyền qua một vocoder. Điều này cho phép từ vựng không giới hạn và tạo giọng nói dễ dàng hơn, nhưng bước vocoder thường tạo ra một \
Các mẫu chính: HTS, Merlin, các hệ thống dựa trên DNN đầu tiên.
Neural TTS (2016-nay)
Thời đại hiện đại bắt đầu với WaveNet (DeepMind, 2016), tạo ra mẫu âm thanh theo mẫu sử dụng mạng thần kinh sâu. Tiếp theo là Tacotron (Google, 2017), học cách vẽ bảng văn bản trực tiếp lên phổ.
Các đột phá chính: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.
Cách hiện đại Neural TTS làm việc
Kiến trúc đằng sau giọng nói AI có âm thanh tự nhiên
Phân tích và bình thường hóa văn bản
Văn bản thô được dọn dẹp và bình thường hóa: số trở thành từ (\
Mô hình âm thanh (Đoạn văn bản sang phổ) Name
Mô hình âm thanh (thường là một Transformer hoặc mạng tự hồi quy) lấy trình tự âm thanh và dự đoán một phổ mel — một biểu diễn hình ảnh của cách âm thanh
Vocoder (Phổ hình sang âm thanh)
Phần mềm vocoder chuyển đổi phổ ảnh mel thành hình sóng âm thanh thực tế. Các phần mềm vocoder ban đầu như Griffin- Lim tạo ra các tác phẩm nghệ thuật robot. Các phần mềm vocoder thần kinh hiện đại (HiFi- GAN, BigVGAN, Vocos) tạo ra âm thanh 24kHz hoặc 44. 1kHz độ chính xác cao, thu được các chi tiết nhỏ của giọng nói tự nhiên, bao gồm âm thanh hơi thở và chuyển động môi tinh tế.
Mô hình từ đầu đến cuối
Các mô hình mới nhất như VITS, Kokoro, và Bark bỏ qua hoàn toàn đường ống hai giai đoạn. Chúng đi trực tiếp từ văn bản đến âm thanh trong một mạng thần kinh duy nhất, tạo ra kết quả tự nhiên hơn với ít tác phẩm nghệ thuật hơn. Một số mô hình (như Bark) thậm chí có thể tạo ra âm thanh không nói, cười, và âm nhạc cùng với lời nói.
So sánh các phương pháp TTS
Cách bốn thế hệ công nghệ TTS so sánh
| Tiến lên! | Thời đại | Tự nhiên | Độ linh hoạt | Tốc độ | Cần dữ liệu |
|---|---|---|---|---|---|
| Tổng hợp hình thức Mô hình tần số dựa trên quy tắc |
1960s-1990s | Không có | |||
| Liên tiếp Các đoạn âm thanh được ghép lại |
1990s-2010s | 10-20+ giờ | |||
| Định dạng tham số (HMM/DNN) Mô hình nói thống kê |
2000s-2016 | 1-5 giờ | |||
| Neural End-to-End Học sâu (VITS, Kokoro, Bark) |
2016-Hiện tại | Từ phút sang giờ |
Ứng dụng phổ biến của TTS
Địa điểm mà văn bản chuyển đổi giọng nói được sử dụng ngày nay
Tính truy cập
Các trình đọc màn hình, thiết bị hỗ trợ và công cụ cho người khuyết tật thị giác hoặc khuyết tật đọc dựa trên TTS để tạo ra nội dung kỹ thuật số có thể truy cập được cho mọi người.
Tạo nội dung
YouTubers, podcasters, và các nhà tạo ra truyền thông xã hội sử dụng TTS cho voiceovers, kể chuyện, và sản xuất nội dung tự động theo quy mô.
Trợ lý ảoComment
Siri, Alexa, Google Assistant, và chatbots dịch vụ khách hàng đều sử dụng TTS để nói câu trả lời tự nhiên cho người dùng.
Câu hỏi thường gặp
Câu hỏi thường gặp về công nghệ chuyển văn bản sang nói
Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.
Tự trải nghiệm TTS hiện đại
Thử 20+ mô hình giọng nói AI tiên tiến miễn phí. Xem văn bản chuyển đổi giọng nói đã tiến bộ đến đâu.