VibeVoice

Speaker 2

Mặc định Tiếng AnhName Neutral VibeVoice

Speaker 2 là giọng nói AI neutral được cung cấp bởi mô hình chuyển văn bản sang nói VibeVoice. Giọng nói standard- level này nói Tiếng AnhName và cung cấp tổng hợp giọng nói phòng thu-quality. Với tốc độ tạo gần- tức thời và đánh giá chất lượng 5/5, Speaker 2 rất phù hợp với podcasts, dialogues, long-form narration, multi-speaker content. Động cơ VibeVoice được phát triển bởi Microsoft under the MIT license, làm cho nó an toàn cho sử dụng thương mại. Các tính năng chính bao gồm: multi-speaker, long-form (90 min), podcast generation, dialogue, low latency.

Chưa đánh giá

VibeVoiceThông tin mẫu

Mô hình VibeVoice
Nhà phát triển Microsoft
Chất lượng
Tốc độ Đơn giản
Giấy phép MIT
Kênh Không có
Thú Tiêu chuẩn (2 tín hiệu/ 1K ký tự)
Tham số 1.5B
Kiến trúc LLM + DAC
Dữ liệu huấn luyện 100000 giờ
Năm 2025

Lưu ý: Speaker 2

Ứng dụng được khuyến nghị dựa trên đặc điểm của giọng nói này

Sách âm thanh và Trình bày

Dùng Speaker 2 để kể nội dung dạng dài với giai điệu và biểu hiện tự nhiên.

Lồng tiếng Video

Thêm lời giải thích chuyên nghiệp cho video YouTube, quảng cáo và nội dung truyền thông xã hội.

Ứng dụng và Hỗ trợ

Sự sinh ra nhanh chóng làm cho giọng nói này lý tưởng cho các ứng dụng thời gian thực, trình đọc màn hình và công cụ truy cập.

Truyền hình & Podcast

Đầu ra chất lượng phòng thu phù hợp cho podcast, radio và phát sóng chuyên nghiệp.

Nhiều hơn VibeVoice Giọng nói

Giọng nói khác từ cùng mô hình TTS

Speaker 1

Tiếng AnhName Neutral

Speaker 1 (Chinese)

Trung QuốcName Neutral

Speaker 2 (Chinese)

Trung QuốcName Neutral

Speaker 3

Tiếng AnhName Neutral

Speaker 4

Tiếng AnhName Neutral

Câu hỏi thường gặp

VibeVoice của Microsoft có hai biến thể: một mô hình 1.5B cho nội dung dạng dài (tối đa 90 phút, 4 loa) và một mô hình Realtime 0.5B cho truyền trực tuyến với độ trễ âm thanh đầu tiên ~ 200ms. biến thể 1.5B xuất sắc ở podcast và sách âm thanh với sự đồng nhất của loa trên các đoạn dài.

VibeVoice được phát triển bởi Microsoft và được phát hành theo giấy phép MIT (chỉ có ý định nghiên cứu), cho phép sử dụng thương mại âm thanh được tạo ra.

VibeVoice hỗ trợ 1 ngôn ngữ: tiếng Anh.

VibeVoice là cấp Premium — 4 tín dụng cho mỗi 1. 000 ký tự. Bạn có thể xem trước bất kỳ giọng nói VibeVoice nào miễn phí trước khi tạo ra âm thanh đầy đủ.

VibeVoice có tốc độ tạo trung bình. Việc tạo thường mất vài giây tùy thuộc vào độ dài văn bản.

VibeVoice được đánh giá 5/5 về chất lượng âm thanh trên TTS.ai, nó có chất lượng âm thanh giống như người thật.

Không, VibeVoice sử dụng một tập hợp cố định giọng nói trong. Để sao chép giọng nói, hãy thử các mô hình như CosyVoice 2, GPT- SoVITS, hay Chatterbox.

Có, VibeVoice được khuyến cáo đặc biệt cho podcast, sách âm thanh, nội dung nhiều loa dạng dài. Khả năng tạo podcast nhiều loa, lên đến 90 phút của nó làm cho nó là một lựa chọn tuyệt vời cho trường hợp sử dụng này.

Có, VibeVoice được cấp phép theo MIT (chỉ dùng cho nghiên cứu), cho phép sử dụng thương mại. Âm thanh được tạo ra với giọng nói VibeVoice có thể được sử dụng trong video, podcast, ứng dụng, trò chơi, và bất kỳ dự án thương mại nào khác.

Vâng, tất cả giọng nói trên TTS.ai sử dụng mô hình mã nguồn mở được cấp phép thương mại (MIT, Apache 2. 0). Âm thanh được tạo ra là của bạn để sử dụng trong video, podcast, ứng dụng, trò chơi, và bất kỳ ứng dụng thương mại nào khác.

Gửi một yêu cầu POST đến /api/v1/tts/ với tên mô hình và ID giọng nói. Xem trang Tài liệu API của chúng tôi cho các ví dụ mã trong Python, JavaScript, Go, và cURL.

Có, nhấn nút chơi trên trang này để nghe mẫu. Bạn cũng có thể gõ văn bản tùy chỉnh trên trang Đoạn văn sang Giọng nói và tạo một bản xem trước miễn phí với bất kỳ giọng nào.

Thử đi. Speaker 2 Bây giờ

Nhập bất kỳ văn bản nào và nghe nó được nói bởi Speaker 2. Miễn phí.