Free AI Văn bản sang Giọng nóiComment
31+ mô hình mã nguồn mở, 231+ Giọng nói, 34+ Không cần tài khoản.
Mọi thứ bạn cần cho AI giọng nói
30+ công cụ được cung cấp bởi các mô hình AI mã nguồn mở
31+ Mô hình giọng nói AI
Bộ sưu tập đầy đủ nhất của các mô hình TTS mã nguồn mở trong một nền tảng
Kokoro Free
Kokoro là một mô hình chuyển văn bản sang nói có 82 triệu tham số, vượt xa mức trọng lượng của nó. Mặc dù kích thước nhỏ bé, nó vẫn tạo ra giọng nói tự nhiên và biểu cảm. Kokoro hỗ trợ nhiều ngôn ngữ bao gồm tiếng Anh, Nhật, Trung Quốc và Hàn Quốc với nhiều giọng nói biểu cảm. Nó chạy rất nhanh — tạo ra âm thanh nhanh hơn gần 100 lần so với thời gian thực trên GPU.
Tốt nhất cho: TTS chất lượng cao với thời gian chờ tối thiểu, ứng dụng truyền tải
Thử miễn phí
Piper Free
Piper là một bộ chuyển đổi văn bản sang giọng nói nhẹ được phát triển bởi Rhasspy sử dụng kiến trúc VITS và larynx. Nó chạy hoàn toàn trên CPU, làm cho nó lý tưởng cho các thiết bị rìa, tự động hóa nhà cửa, và các ứng dụng yêu cầu TTS ngoài mạng. Với hơn 100 giọng nói trên 30+ ngôn ngữ, Piper cung cấp giọng nói có âm thanh tự nhiên với tốc độ thời gian thực ngay cả trên Raspberry Pi 4.
Tốt nhất cho: Xem trước nhanh, khả năng truy cập, và các ứng dụng được nhúng
Thử miễn phí
VITS Free
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) là một phương pháp TTS song song từ đầu đến cuối tạo ra âm thanh có âm thanh tự nhiên hơn các mô hình hai giai đoạn hiện tại. Nó sử dụng suy luận biến đổi được tăng cường với các luồng bình thường hóa và một quá trình huấn luyện đối kháng, đạt được một cải thiện đáng kể về tính tự nhiên.
Tốt nhất cho: Text-to-speech mục đích chung với giọng điệu tự nhiênName
Thử miễn phí
MeloTTS Free
MeloTTS by MyShell. ai là thư viện TTS đa ngôn ngữ hỗ trợ tiếng Anh (Mỹ, Anh, Ấn Độ, Úc), Tây Ban Nha, Pháp, Trung Quốc, Nhật Bản, và Hàn Quốc. Nó cực nhanh, xử lý văn bản gần như tốc độ thời gian thực chỉ trên CPU. MeloTTS được thiết kế cho sử dụng sản xuất và hỗ trợ cả CPU và GPU suy luận.
Tốt nhất cho: Ứng dụng sản xuất cần TTS nhanh, đa ngôn ngữ
Thử miễn phí
OuteTTS Free
OuteTTS mở rộng các mô hình ngôn ngữ lớn với khả năng chuyển văn bản thành giọng nói trong khi vẫn giữ được kiến trúc gốc. Nó hỗ trợ nhiều backend bao gồm llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, và thậm chí là suy luận trình duyệt qua Transformers.js.
Tốt nhất cho: Thiết lập Edge, TTS dựa trên trình duyệt, môi trường ít tài nguyên
Thử miễn phí
Pocket TTS Free
Pocket TTS của Kyutai (người tạo ra Moshi) là một mô hình chuyển văn bản sang nói nhỏ gọn với tham số 100M, có hiệu suất vượt trội so với trọng lượng của nó. Nó chạy hiệu quả trên CPU, hỗ trợ sao chép giọng nói không có âm thanh từ một mẫu âm thanh duy nhất, và tạo ra giọng nói có âm thanh tự nhiên. Cỡ nhỏ của mô hình làm cho nó lý tưởng cho việc triển khai rìa và môi trường tài nguyên thấp.
Tốt nhất cho: Thiết lập nhẹ, môi trường chỉ CPU, sao chép giọng nói nhanh
Thử miễn phí
Kitten TTS Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
Tốt nhất cho: Fast lightweight TTS, edge deployment, low-latency applications
Thử miễn phí
Bark Standard
Mô hình text-to-audio dựa trên Transformer tạo ra giọng nói, âm nhạc và hiệu ứng âm thanh thực tế.
Nhà phát triển: Suno · Giấy phép: MIT
Thử đi.
Bark Small Standard
Phiên bản nhẹ hơn của Bark với suy luận nhanh hơn và sử dụng bộ nhớ thấp hơn.
Nhà phát triển: Suno · Giấy phép: MIT
Thử đi.
CosyVoice 2 Standard
TTS streaming có thể mở rộng của Alibaba với sự tự nhiên của con người và độ trễ gần như bằng không.
Nhà phát triển: Alibaba (Tongyi Lab) · Giấy phép: Apache 2.0
Thử đi.
Dia TTS Standard
Mô hình sinh ra đối thoại đa loa tạo ra các cuộc trò chuyện tự nhiên giữa các loa.
Nhà phát triển: Nari Labs · Giấy phép: Apache 2.0
Thử đi.
Parler TTS Standard
Mô tả giọng nói bạn muốn bằng ngôn ngữ tự nhiên và Parler sẽ tạo ra giọng nói tương ứng.
Nhà phát triển: Hugging Face · Giấy phép: Apache 2.0
Thử đi.
GLM-TTS Standard
Giảm tỷ lệ lỗi ký tự thấp nhất trong các mô hình TTS mã nguồn mở.
Nhà phát triển: Zhipu AI · Giấy phép: GLM-4 License
Thử đi.
IndexTTS-2 Standard
Zero-shot TTS với kiểm soát cảm xúc tinh tế và khả năng biểu cảm cao.
Nhà phát triển: Index Team · Giấy phép: Bilibili Model License
Thử đi.
Spark TTS Standard
TTS sao chép giọng nói với cảm xúc kiểm soát và phong cách nói thông qua lời nhắc.
Nhà phát triển: SparkAudio · Giấy phép: CC BY-NC-SA 4.0
Thử đi.
GPT-SoVITS Standard
TTS sao chép giọng nói vài lần sao chép bất kỳ giọng nói nào chỉ từ 5 giây âm thanh.
Nhà phát triển: RVC-Boss · Giấy phép: MIT
Thử đi.
Orpheus Standard
Mô hình TTS cảm xúc ở mức độ con người được huấn luyện trên 100K giờ dữ liệu nói.
Nhà phát triển: Canopy Labs · Giấy phép: Llama 3.2 Community
Thử đi.
Qwen3 TTS Standard
TTS đa ngôn ngữ của Alibaba với sao chép giọng nói, giọng nói sẵn sàng, và thiết kế giọng nói từ văn bản.
Nhà phát triển: Alibaba (Qwen) · Giấy phép: Apache 2.0
Thử đi.
Chatterbox Turbo Standard
Chatterbox nhanh hơn với thời gian đợi dưới 200ms và các thẻ paralinguistic cho tiếng cười, ho, và nhiều hơn nữa.
Nhà phát triển: Resemble AI · Giấy phép: MIT
Thử đi.
Dia 2 Standard
Streaming-first conversational TTS với đối thoại đa người nói và các dấu hiệu paralinguistic.
Nhà phát triển: Nari Labs · Giấy phép: Apache 2.0
Thử đi.
VoxCPM Standard
Tokenizer-free TTS sản xuất âm thanh 44.1kHz với sự đồng nhất của đoạn văn nhận thức ngữ cảnh.
Nhà phát triển: OpenBMB · Giấy phép: Apache 2.0
Thử đi.
TADA Standard
Zero-hallucination TTS với text-acoustic dual alignment, 5x nhanh hơn so với LLM TTS tương đương.
Nhà phát triển: Hume AI · Giấy phép: MIT
Thử đi.
VibeVoice Standard
Microsoft model for long-form multi-speaker content như podcasts và audiobooks.
Nhà phát triển: Microsoft · Giấy phép: MIT
Thử đi.
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Nhà phát triển: Alibaba (FunAudioLLM) · Giấy phép: Apache 2.0
Thử đi.
CosyVoice 2
TTS streaming có thể mở rộng của Alibaba với sự tự nhiên của con người và độ trễ gần như bằng không.
Ngôn ngữ: en, zh, ja, ko, fr, de, it, es
Ký âm
IndexTTS-2
Zero-shot TTS với kiểm soát cảm xúc tinh tế và khả năng biểu cảm cao.
Ngôn ngữ: en, zh
Ký âm
Spark TTS
TTS sao chép giọng nói với cảm xúc kiểm soát và phong cách nói thông qua lời nhắc.
Ngôn ngữ: en, zh
Ký âm
GPT-SoVITS
TTS sao chép giọng nói vài lần sao chép bất kỳ giọng nói nào chỉ từ 5 giây âm thanh.
Ngôn ngữ: en, zh, ja, ko
Ký âm
Chatterbox
Kỹ thuật sao chép giọng nói không bắn với điều khiển cảm xúc từ Resemble AI.
Ngôn ngữ: en
Ký âm
Tortoise TTS
Text-to-speech đa giọng tập trung vào chất lượng với kiến trúc tự hồi quy.
Ngôn ngữ: en
Ký âm
OpenVoice
Ký âm sao chép ngay lập tức với kiểm soát chi tiết về phong cách, cảm xúc và giọng nói.
Ngôn ngữ: en, zh, ja, ko, fr, de, es, it
Ký âm
Qwen3 TTS
TTS đa ngôn ngữ của Alibaba với sao chép giọng nói, giọng nói sẵn sàng, và thiết kế giọng nói từ văn bản.
Ngôn ngữ: en, zh, ja, ko, de, fr, ru, pt, es, it
Ký âm
Chatterbox Turbo
Chatterbox nhanh hơn với thời gian đợi dưới 200ms và các thẻ paralinguistic cho tiếng cười, ho, và nhiều hơn nữa.
Ngôn ngữ: en
Ký âm
VoxCPM
Tokenizer-free TTS sản xuất âm thanh 44.1kHz với sự đồng nhất của đoạn văn nhận thức ngữ cảnh.
Ngôn ngữ: en, zh
Ký âm
OuteTTS
TTS dựa trên LLM chạy trên CPU, GPU, hoặc trình duyệt qua llama.cpp và Transformers.js.
Ngôn ngữ: en
Ký âm
Pocket TTS
Mô hình tham số nhẹ 100M của Kyutai với sao chép giọng nói từ một mẫu duy nhất.
Ngôn ngữ: en, fr
Ký âm
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Ngôn ngữ: en, zh, ja, ko, de, es, fr, it, ru
Ký âm
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Ngôn ngữ: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Ký âm
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Ngôn ngữ: en, zh
Ký âmAPI của nhà phát triển
REST API tương thích với OpenAI. Một điểm cuối, 22+ mẫu. Hỗ trợ truyền tải cho các ứng dụng thời gian thực.
- Định dạng tương thích OpenAI
- Truyền TTS cho các ứng dụng thời gian thực
- Xử lý hàng loạt cho các công việc lớn
- Thông báo Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Đơn giản, giá cả minh bạch
Bắt đầu miễn phí, tăng dần khi phát triển.
Miễn phí
15 tín hiệu
- Kokoro, Piper, VITS, MeloTTS
- Giới hạn 500 ký tự
- 3 gen/ giờ (không có tài khoản)
Tốt
2,000,000 characters/month
- Mọi thứ trong Starter
- Truy cập API
- Xử lý ưu tiên
Công việc
10,000,000 characters/month
- Mọi thứ trong Pro
- API tập trung
- Xếp hàng ưu tiên
Câu hỏi thường gặp
Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.
Bắt đầu sử dụng giọng nói AI hôm nay
Hãy tham gia với những người sáng tạo, phát triển và doanh nghiệp sử dụng TTS.ai