Free AI Văn bản sang Giọng nóiComment

Tham số 82M Rất nhanh Giọng nói biểu cảm Nhiều ngữ Hỗ trợ truyền tải

Mô hình tham số nhẹ 82M cung cấp giọng nói chất lượng phòng thu với suy luận nhanh chóng.

Đơn giản · 1.5GB VRAM Thử đi.

Piper

Ứng dụng CPU Có thể ngoài mạng 100+ giọng nói 35+ ngôn ngữ Hỗ trợ SSML

Một hệ thống chuyển đổi văn bản sang giọng nói nhanh, cục bộ được tối ưu hóa cho Raspberry Pi và các thiết bị được tích hợp.

Đơn giản · 0 (CPU only) VRAM Thử đi.

VITS

Tổng hợp từ đầu đến cuối Từ vựng tự nhiên Suy luận nhanh Nhiều loa

Conditional variation autoencoder với học hỏi đối kháng cho text-to-speech từ đầu đến cuối.

Đơn giản · 1GB VRAM Thử đi.

MeloTTS

Được tối ưu hóa CPU Nhiều ngôn ngữ Nhiều giọng Sẵn sàng sản xuất Chờ thấp

Text-to-speech đa ngôn ngữ chất lượng cao chạy trên CPU với thời gian đợi tối thiểu.

Đơn giản · 0.5GB (GPU optional) VRAM Thử đi.

Bark

Hiệu ứng âm thanh Cười/thở phào Tạo nhạc 100+ loa Nhiều ngữ

Mô hình text-to-audio dựa trên Transformer tạo ra giọng nói, âm nhạc và hiệu ứng âm thanh thực tế.

Chậm · 5GB VRAM Thử đi.

Bark Small

Nhẹ Nhanh hơn cả tiếng chó sủa Tiếng nói cảm xúc Nhiều ngôn ngữ

Phiên bản nhẹ hơn của Bark với suy luận nhanh hơn và sử dụng bộ nhớ thấp hơn.

Trung bình · 2GB VRAM Thử đi.

CosyVoice 2

Truyền Sao chép không bắn Ngôn ngữ Kiểm soát cảm xúc Đẳng thức con người

TTS streaming có thể mở rộng của Alibaba với sự tự nhiên của con người và độ trễ gần như bằng không.

Dia TTS

Đa loa Tạo hộp thoại Lượt tự nhiên Từ biểu cảm Tính chất

Mô hình sinh ra đối thoại đa loa tạo ra các cuộc trò chuyện tự nhiên giữa các loa.

Parler TTS

Mô tả giọng nói Kiểm soát ngôn ngữ tự nhiên Tạo giọng nói linh hoạt Không cần giọng nói mặc định

Mô tả giọng nói bạn muốn bằng ngôn ngữ tự nhiên và Parler sẽ tạo ra giọng nói tương ứng.

Indic Parler TTS

11 ngôn ngữ Ấn Độ Mô tả giọng nói Kiểm soát ngôn ngữ tự nhiên Phát âm Ấn Độ chính xác

Tiếng nói chất lượng cao cho 8+ ngôn ngữ Ấn Độ với điều khiển giọng nói ngôn ngữ tự nhiên.

Chậm · 8GB VRAM Thử đi.

KhanomTan TTS

TTS Thái Nhiều loa Kiến trúc YourTTS Giấy phép an toàn thương mại

Thai-first text-to-speech với một lựa chọn giọng nói của người nói.

Đơn giản · 2GB VRAM Thử đi.

IndexTTS-2

Kiểm soát cảm xúc Zero-shot Vector cảm xúc Giọng nói biểu cảm Điều khiển mịn

Zero-shot TTS với kiểm soát cảm xúc tinh tế và khả năng biểu cảm cao.

Spark TTS

Ký âm Kiểm soát cảm xúc. Điều khiển kiểu dáng Dựa vào lời nhắc 5 giây sao chép

TTS sao chép giọng nói với cảm xúc kiểm soát và phong cách nói thông qua lời nhắc.

GPT-SoVITS

5 giây sao chép Giọng hát Học vài bắn Độ chính xác cao Ngôn ngữ

TTS sao chép giọng nói vài lần sao chép bất kỳ giọng nói nào chỉ từ 5 giây âm thanh.

Chậm · 6GB VRAM Thử đi.

Orpheus

Cảm xúc ở mức độ con người. 100K giờ huấn luyện Nhấn mạnh tự nhiên Tiếng nói biểu cảm

Mô hình TTS cảm xúc ở mức độ con người được huấn luyện trên 100K giờ dữ liệu nói.

Chatterbox

Sao chép không bắn Kiểm soát cảm xúc Độ chính xác cao Chuyển đổi kiểu dáng Ký ức

Kỹ thuật sao chép giọng nói không bắn với điều khiển cảm xúc từ Resemble AI.

Tortoise TTS

Chất lượng cao nhất Nhiều giọng Kiến trúc DALL- E Ký âm Tự trừ

Text-to-speech đa giọng tập trung vào chất lượng với kiến trúc tự hồi quy.

Chậm · 8GB VRAM Thử đi.

StyleTTS 2

Mức người Kiểu dáng Luyện tập đối đầu Độ biến thiên tự nhiên Độ chính xác cao

Text-to-speech ở mức độ con người thông qua phong cách lan truyền và huấn luyện đối kháng.

OpenVoice

Bản sao lập tức Biến đổi giọng nói Kiểm soát cảm xúc Điều khiển giọng điệu Nhiều ngữ

Ký âm sao chép ngay lập tức với kiểm soát chi tiết về phong cách, cảm xúc và giọng nói.

Qwen3 TTS

9 giọng điệu đã định sẵn Thiết kế giọng nói từ văn bản Kiểm soát cảm xúc 10 ngôn ngữ

TTS đa ngôn ngữ của Alibaba với giọng nói sẵn có và thiết kế giọng nói từ văn bản.

Trung bình · 7GB VRAM Thử đi.

VieNeu-TTS-v2

7 giọng mặc định (giọng Bắc + Nam) En-Vi mã đổi Bản sao giọng nói (3-5s tham khảo) Hỗ trợ Podcast / nhiều loa Chỉ CPU — không cần GPU

TTS đổi mã Việt Nam + Anh với 7 giọng nói sẵn có và sao chép giọng nói không cần chụp ảnh. Chỉ CPU, không cần GPU.

Đơn giản · CPU VRAM Thử đi.

Sesame CSM

Thông thường Thời gian tự nhiên Đổi lượt Kênh sau Tham số 1B

Mô hình nói chuyện tạo ra đối thoại tự nhiên với thời gian và cảm xúc thích hợp.

Chậm · 8GB VRAM Thử đi.

Chatterbox Turbo

Tốc độ chậm dưới 200ms Thẻ Paralinguistic Thời gian thực 6x Ký âm Đánh dấu nước

Chatterbox nhanh hơn với thời gian đợi dưới 200ms và các thẻ paralinguistic cho tiếng cười, ho, và nhiều hơn nữa.

Đơn giản · 2GB VRAM Thử đi.

VoxCPM

Âm thanh 44. 1kHz Không có tokenizer Bản sao chép giữa các ngôn ngữ Nhận thức ngữ cảnh Điều chỉnh LoRA

Tokenizer-free TTS sản xuất âm thanh 44.1kHz với sự đồng nhất của đoạn văn nhận thức ngữ cảnh.

Đơn giản · 4GB VRAM Thử đi.

Kani TTS 2

3GB VRAM Nhanh quá Nhẹ NanoCodec Tự do

Mô hình TTS tiếng Anh siêu nhẹ 400M chạy trong chỉ 3GB VRAM.

Đơn giản · 3GB VRAM Thử đi.

OuteTTS

Suy luận CPU Trình duyệt Nhiều phần mềm hậu phương Hồ sơ loa

TTS dựa trên LLM chạy trên CPU, GPU, hoặc trình duyệt qua llama.cpp và Transformers.js.

Chậm · 2GB VRAM Thử đi.

VibeVoice

Đa loa 90 phút Tạo podcast Định dạng loa Truyền 200ms

Microsoft model for long-form multi-speaker content như podcasts và audiobooks.

Đơn giản · 4GB VRAM Thử đi.

Pocket TTS

Tính chất Suy luận CPU Ký âm Sao chép mẫu đơn Sẵn sàng

Mô hình tham số nhẹ 100M của Kyutai với sao chép giọng nói từ một mẫu duy nhất.

Đơn giản · 1GB VRAM Thử đi.

Kitten TTS

Suy luận chỉ CPU Cỡ mẫu dưới 80MB 8 giọng nói trong Kiểm soát tốc độ Dựa trên ONNX Xuất 24kHz

TTS siêu nhẹ dưới 80MB. Chạy trên CPU không có GPU.

Đơn giản · 0GB VRAM Thử đi.

CosyVoice3

Hai luồng Kiểm soát cảm xúc Ký âm Điều khiển tốc độ/âm lượng Lệnh theo

TTS đa ngôn ngữ thế hệ tiếp theo với bi-streaming, kiểm soát cảm xúc, và sao chép giọng nói zero-shot.

Đơn giản · 4GB VRAM Thử đi.

NAMAA Saudi TTS

Phương ngữ Ả Rập SaudiName Ả Rập chuẩn hiện đại Bản sao giọng nói không bắn Kiểm soát cảm xúc Phát âm bản địa

TTS Ả Rập Saudi mở đầu tiên. Phương ngữ Saudi bản địa với sao chép giọng nói chất lượng Chatterbox.

Trung bình · 6GB VRAM Thử đi.

Darwin TTS

Ký âm Ngôn ngữ Trộn FFN 4 ngôn ngữ cốt lõi Qwen3 backbone

Cross-modal Qwen3-TTS biến thể với trọng lượng FFN trộn từ Qwen3-1.7B ngôn ngữ mô hình cho kiểu nhân bản đa ngôn ngữ sắc nét hơn.

Trung bình · 7GB VRAM Thử đi.

MOSS-TTSD

Hộp thoại nhiều loa Cho đến 5 loa Âm thanh đồng nhất 60 phút Ký âm Tối ưu hóa Podcast

Mô hình tiếp tục đối thoại đa loa — tạo ra các cuộc trò chuyện kiểu podcast với tối đa 5 loa và 60 phút âm thanh đồng nhất.

Trung bình · 12GB VRAM Thử đi.

Ming-Omni TTS

Xuất 44. 1kHz Ký âm Kiểm soát cảm xúc Điều khiển phương ngữ Tạo BGM Compact 0. 5B

Compact 0.5B omni-modal speech model from inclusionAI với đầu ra 44.1kHz độ chính xác cao và sao chép giọng nói không bắn.

Trung bình · 3GB VRAM Thử đi.

MOSS-TTS Nano