Free AI Văn bản sang Giọng nóiComment

33+ mô hình mã nguồn mở, 273+ Giọng nói, 33+ Không cần tài khoản.

17K+
tác giả
70K+
thế hệ
33+
Mô hình AI
273+
giọng nói
0/500 chữ cái · Đăng ký 5000 mỗi thế hệ → Miễn phí
Cảm ơn bạn đã tin tưởng TTS.ai!

Mọi thứ bạn cần cho AI giọng nói

30+ công cụ được cung cấp bởi các mô hình AI mã nguồn mở

33+ Mô hình giọng nói AI

Bộ sưu tập đầy đủ nhất của các mô hình TTS mã nguồn mở trong một nền tảng

KokoroKokoro Tự do

Kokoro là một mô hình chuyển văn bản sang nói có 82 triệu tham số, vượt xa mức trọng lượng của nó. Mặc dù kích thước nhỏ bé, nó vẫn tạo ra giọng nói tự nhiên và biểu cảm. Kokoro hỗ trợ nhiều ngôn ngữ bao gồm tiếng Anh, Nhật, Trung Quốc và Hàn Quốc với nhiều giọng nói biểu cảm. Nó chạy rất nhanh — tạo ra âm thanh nhanh hơn gần 100 lần so với thời gian thực trên GPU.

Tốt nhất cho: TTS chất lượng cao với thời gian chờ tối thiểu, ứng dụng truyền tải

Thử miễn phí

PiperPiper Tự do

Piper là một bộ chuyển đổi văn bản sang giọng nói nhẹ được phát triển bởi Rhasspy sử dụng kiến trúc VITS và larynx. Nó chạy hoàn toàn trên CPU, làm cho nó lý tưởng cho các thiết bị rìa, tự động hóa nhà cửa, và các ứng dụng yêu cầu TTS ngoài mạng. Với hơn 100 giọng nói trên 30+ ngôn ngữ, Piper cung cấp giọng nói có âm thanh tự nhiên với tốc độ thời gian thực ngay cả trên Raspberry Pi 4.

Tốt nhất cho: Xem trước nhanh, khả năng truy cập, và các ứng dụng được nhúng

Thử miễn phí

VITSVITS Tự do

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) là một phương pháp TTS song song từ đầu đến cuối tạo ra âm thanh có âm thanh tự nhiên hơn các mô hình hai giai đoạn hiện tại. Nó sử dụng suy luận biến đổi được tăng cường với các luồng bình thường hóa và một quá trình huấn luyện đối kháng, đạt được một cải thiện đáng kể về tính tự nhiên.

Tốt nhất cho: Text-to-speech mục đích chung với giọng điệu tự nhiênName

Thử miễn phí

MeloTTSMeloTTS Tự do

MeloTTS by MyShell. ai là thư viện TTS đa ngôn ngữ hỗ trợ tiếng Anh (Mỹ, Anh, Ấn Độ, Úc), Tây Ban Nha, Pháp, Trung Quốc, Nhật Bản, và Hàn Quốc. Nó cực nhanh, xử lý văn bản gần như tốc độ thời gian thực chỉ trên CPU. MeloTTS được thiết kế cho sử dụng sản xuất và hỗ trợ cả CPU và GPU suy luận.

Tốt nhất cho: Ứng dụng sản xuất cần TTS nhanh, đa ngôn ngữ

Thử miễn phí

Kani TTS 2Kani TTS 2 Tự do

Kani- TTS- 2 của NineNineSix là một mô hình tham số 400M siêu nhẹ được xây dựng trên một xương sống Liquid AI LFM2 với NVIDIA NanoCodec. Nó chạy trong chỉ 3GB VRAM và tạo ra ~10 giây nói trong ~2 giây trên một A100 (RTF 0. 2). Phiên bản công cộng hiện tại cung cấp một điểm kiểm tra chỉ tiếng Anh `kani- tts- 2- en` và không tiết lộ móc nhúng loa cần thiết cho sao chép giọng nói — sử dụng Chatterbox / IndexTTS2 / F5- TTS cho sao chép, hoặc Kokoro / MeloTTS cho không phải tiếng Anh.

Tốt nhất cho: Tạo tiếng Anh nhanh trên phần cứng VRAM thấp, xem trước nhanh

Thử miễn phí

OuteTTSOuteTTS Tự do

OuteTTS mở rộng các mô hình ngôn ngữ lớn với khả năng chuyển văn bản thành giọng nói trong khi vẫn giữ được kiến trúc gốc. Nó hỗ trợ nhiều backend bao gồm llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, và thậm chí là suy luận trình duyệt qua Transformers.js.

Tốt nhất cho: Thiết lập Edge, TTS dựa trên trình duyệt, môi trường ít tài nguyên

Thử miễn phí

Pocket TTSPocket TTS Tự do

Pocket TTS của Kyutai (người tạo ra Moshi) là một mô hình chuyển văn bản sang nói nhỏ gọn với tham số 100M, có hiệu suất vượt trội so với trọng lượng của nó. Nó chạy hiệu quả trên CPU, hỗ trợ sao chép giọng nói không có âm thanh từ một mẫu âm thanh duy nhất, và tạo ra giọng nói có âm thanh tự nhiên. Cỡ nhỏ của mô hình làm cho nó lý tưởng cho việc triển khai rìa và môi trường tài nguyên thấp.

Tốt nhất cho: Thiết lập nhẹ, môi trường chỉ CPU, sao chép giọng nói nhanh

Thử miễn phí

Kitten TTSKitten TTS Tự do

Kitten TTS by KittenML là một mô hình chuyển văn bản sang nói siêu nhẹ được xây dựng trên ONNX. Với các biến thể từ 15M đến 80M tham số (25- 80 MB trên đĩa), nó cung cấp tổng hợp giọng nói chất lượng cao trên CPU mà không cần GPU. Có 8 giọng nói trong, tốc độ nói có thể điều chỉnh, và xử lý văn bản trước trong cho số, tiền tệ và đơn vị. Tốt nhất cho việc triển khai rìa và các ứng dụng có độ trễ thấp.

Tốt nhất cho: TTS nhẹ nhẹ, triển khai viền, ứng dụng thời gian đợi thấp

Thử miễn phí

Ming-Omni TTSMing-Omni TTS Tự do

Ming- omni- tts- 0. 5B by inclusionAI is a compact omni- modal speech model built on the BailingMM dense backbone with a Patch- by- Patch flow- matching audio decoder. Delivers 44. 1kHz output (near CD quality), supports zero- shot voice cloning from a 3+ second reference, and includes built- in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0. 83% WER on Chinese benchmarks.

Tốt nhất cho: Truyện hai ngôn ngữ, diễn xuất lồng tiếng kiểm soát cảm xúc, nội dung sách nghe tiếng Trung

Thử miễn phí

MOSS-TTS NanoMOSS-TTS Nano Tự do

MOSS-TTS-Nano-100M là biến thể 100M-parameter của OpenMOSS của gia đình MOSS-TTS, chia sẻ kiến trúc biến tần trễ. Giao dịch chất lượng đỉnh của mô hình 8B cho ~ 80x trọng lượng nhỏ hơn và VRAM thấp hơn đáng kể trên mỗi yêu cầu, khiến nó phù hợp cho việc triển khai tầng miễn phí và lưu lượng cao. Cùng 20 ngôn ngữ.

Tốt nhất cho: TTS tầng miễn phí, sản xuất số lượng lớn, sử dụng tương tác thời gian chờ thấp

Thử miễn phí

BarkBark Mặc định

Mô hình text-to-audio dựa trên Transformer tạo ra giọng nói, âm nhạc và hiệu ứng âm thanh thực tế.

Nhà phát triển: Suno · Giấy phép: MIT

Thử đi.

Bark SmallBark Small Mặc định

Phiên bản nhẹ hơn của Bark với suy luận nhanh hơn và sử dụng bộ nhớ thấp hơn.

Nhà phát triển: Suno · Giấy phép: MIT

Thử đi.

CosyVoice 2CosyVoice 2 Mặc định

TTS streaming có thể mở rộng của Alibaba với sự tự nhiên của con người và độ trễ gần như bằng không.

Nhà phát triển: Alibaba (Tongyi Lab) · Giấy phép: Apache 2.0

Thử đi.

Dia TTSDia TTS Mặc định

Mô hình sinh ra đối thoại đa loa tạo ra các cuộc trò chuyện tự nhiên giữa các loa.

Nhà phát triển: Nari Labs · Giấy phép: Apache 2.0

Thử đi.

Parler TTSParler TTS Mặc định

Mô tả giọng nói bạn muốn bằng ngôn ngữ tự nhiên và Parler sẽ tạo ra giọng nói tương ứng.

Nhà phát triển: Hugging Face · Giấy phép: Apache 2.0

Thử đi.

IndexTTS-2IndexTTS-2 Mặc định

Zero-shot TTS với kiểm soát cảm xúc tinh tế và khả năng biểu cảm cao.

Nhà phát triển: Index Team · Giấy phép: Bilibili Model License

Thử đi.

Spark TTSSpark TTS Mặc định

TTS sao chép giọng nói với cảm xúc kiểm soát và phong cách nói thông qua lời nhắc.

Nhà phát triển: SparkAudio · Giấy phép: CC BY-NC-SA 4.0

Thử đi.

GPT-SoVITSGPT-SoVITS Mặc định

TTS sao chép giọng nói vài lần sao chép bất kỳ giọng nói nào chỉ từ 5 giây âm thanh.

Nhà phát triển: RVC-Boss · Giấy phép: MIT

Thử đi.

OrpheusOrpheus Mặc định

Mô hình TTS cảm xúc ở mức độ con người được huấn luyện trên 100K giờ dữ liệu nói.

Nhà phát triển: Canopy Labs · Giấy phép: Llama 3.2 Community

Thử đi.

Qwen3 TTSQwen3 TTS Mặc định

TTS đa ngôn ngữ của Alibaba với giọng nói sẵn có và thiết kế giọng nói từ văn bản.

Nhà phát triển: Alibaba (Qwen) · Giấy phép: Apache 2.0

Thử đi.

VieNeu-TTS-v2VieNeu-TTS-v2 Mặc định

TTS đổi mã Việt Nam + Anh với 7 giọng nói sẵn có và sao chép giọng nói không cần chụp ảnh. Chỉ CPU, không cần GPU.

Nhà phát triển: Phạm Nguyễn Ngọc Bảo · Giấy phép: Apache 2.0

Thử đi.

Chatterbox TurboChatterbox Turbo Mặc định

Chatterbox nhanh hơn với thời gian đợi dưới 200ms và các thẻ paralinguistic cho tiếng cười, ho, và nhiều hơn nữa.

Nhà phát triển: Resemble AI · Giấy phép: MIT

Thử đi.

VoxCPMVoxCPM Mặc định

Tokenizer-free TTS sản xuất âm thanh 44.1kHz với sự đồng nhất của đoạn văn nhận thức ngữ cảnh.

Nhà phát triển: OpenBMB · Giấy phép: Apache 2.0

Thử đi.

VibeVoiceVibeVoice Mặc định

Microsoft model for long-form multi-speaker content như podcasts và audiobooks.

Nhà phát triển: Microsoft · Giấy phép: MIT

Thử đi.

CosyVoice3CosyVoice3 Mặc định

TTS đa ngôn ngữ thế hệ tiếp theo với bi-streaming, kiểm soát cảm xúc, và sao chép giọng nói zero-shot.

Nhà phát triển: Alibaba (FunAudioLLM) · Giấy phép: Apache 2.0

Thử đi.

NAMAA Saudi TTSNAMAA Saudi TTS Mặc định

TTS Ả Rập Saudi mở đầu tiên. Phương ngữ Saudi bản địa với sao chép giọng nói chất lượng Chatterbox.

Nhà phát triển: NAMAA Space · Giấy phép: MIT

Thử đi.

Darwin TTSDarwin TTS Mặc định

Cross-modal Qwen3-TTS biến thể với trọng lượng FFN trộn từ Qwen3-1.7B ngôn ngữ mô hình cho kiểu nhân bản đa ngôn ngữ sắc nét hơn.

Nhà phát triển: FINAL-Bench · Giấy phép: Apache 2.0

Thử đi.

MOSS-TTSDMOSS-TTSD Mặc định

Mô hình tiếp tục đối thoại đa loa — tạo ra các cuộc trò chuyện kiểu podcast với tối đa 5 loa và 60 phút âm thanh đồng nhất.

Nhà phát triển: OpenMOSS · Giấy phép: Apache 2.0

Thử đi.

ChatterboxChatterbox Cao cấp

Kỹ thuật sao chép giọng nói không bắn với điều khiển cảm xúc từ Resemble AI.

Chất lượng:

Thử đi.

Tortoise TTSTortoise TTS Cao cấp

Text-to-speech đa giọng tập trung vào chất lượng với kiến trúc tự hồi quy.

Chất lượng:

Thử đi.

StyleTTS 2StyleTTS 2 Cao cấp

Text-to-speech ở mức độ con người thông qua phong cách lan truyền và huấn luyện đối kháng.

Chất lượng:

Thử đi.

OpenVoiceOpenVoice Cao cấp

Ký âm sao chép ngay lập tức với kiểm soát chi tiết về phong cách, cảm xúc và giọng nói.

Chất lượng:

Thử đi.

Sesame CSMSesame CSM Cao cấp

Mô hình nói chuyện tạo ra đối thoại tự nhiên với thời gian và cảm xúc thích hợp.

Chất lượng:

Thử đi.

CosyVoice 2CosyVoice 2

TTS streaming có thể mở rộng của Alibaba với sự tự nhiên của con người và độ trễ gần như bằng không.

Ngôn ngữ: en, zh, ja, ko, fr, de, it, es

Ký âm

IndexTTS-2IndexTTS-2

Zero-shot TTS với kiểm soát cảm xúc tinh tế và khả năng biểu cảm cao.

Ngôn ngữ: en, zh

Ký âm

Spark TTSSpark TTS

TTS sao chép giọng nói với cảm xúc kiểm soát và phong cách nói thông qua lời nhắc.

Ngôn ngữ: en, zh

Ký âm

GPT-SoVITSGPT-SoVITS

TTS sao chép giọng nói vài lần sao chép bất kỳ giọng nói nào chỉ từ 5 giây âm thanh.

Ngôn ngữ: en, zh, ja, ko

Ký âm

ChatterboxChatterbox

Kỹ thuật sao chép giọng nói không bắn với điều khiển cảm xúc từ Resemble AI.

Ngôn ngữ: en

Ký âm

Tortoise TTSTortoise TTS

Text-to-speech đa giọng tập trung vào chất lượng với kiến trúc tự hồi quy.

Ngôn ngữ: en

Ký âm

OpenVoiceOpenVoice

Ký âm sao chép ngay lập tức với kiểm soát chi tiết về phong cách, cảm xúc và giọng nói.

Ngôn ngữ: en, zh, ja, ko, fr, es

Ký âm

VieNeu-TTS-v2VieNeu-TTS-v2

TTS đổi mã Việt Nam + Anh với 7 giọng nói sẵn có và sao chép giọng nói không cần chụp ảnh. Chỉ CPU, không cần GPU.

Ngôn ngữ: vi, en

Ký âm

Chatterbox TurboChatterbox Turbo

Chatterbox nhanh hơn với thời gian đợi dưới 200ms và các thẻ paralinguistic cho tiếng cười, ho, và nhiều hơn nữa.

Ngôn ngữ: en

Ký âm

VoxCPMVoxCPM

Tokenizer-free TTS sản xuất âm thanh 44.1kHz với sự đồng nhất của đoạn văn nhận thức ngữ cảnh.

Ngôn ngữ: en, zh

Ký âm

OuteTTSOuteTTS

TTS dựa trên LLM chạy trên CPU, GPU, hoặc trình duyệt qua llama.cpp và Transformers.js.

Ngôn ngữ: en

Ký âm

Pocket TTSPocket TTS

Mô hình tham số nhẹ 100M của Kyutai với sao chép giọng nói từ một mẫu duy nhất.

Ngôn ngữ: en, fr

Ký âm

CosyVoice3CosyVoice3

TTS đa ngôn ngữ thế hệ tiếp theo với bi-streaming, kiểm soát cảm xúc, và sao chép giọng nói zero-shot.

Ngôn ngữ: en, zh, ja, ko, de, es, fr, it, ru

Ký âm

NAMAA Saudi TTSNAMAA Saudi TTS

TTS Ả Rập Saudi mở đầu tiên. Phương ngữ Saudi bản địa với sao chép giọng nói chất lượng Chatterbox.

Ngôn ngữ: ar

Ký âm

Darwin TTSDarwin TTS

Cross-modal Qwen3-TTS biến thể với trọng lượng FFN trộn từ Qwen3-1.7B ngôn ngữ mô hình cho kiểu nhân bản đa ngôn ngữ sắc nét hơn.

Ngôn ngữ: en, ko, ja, zh

Ký âm

MOSS-TTSDMOSS-TTSD

Mô hình tiếp tục đối thoại đa loa — tạo ra các cuộc trò chuyện kiểu podcast với tối đa 5 loa và 60 phút âm thanh đồng nhất.

Ngôn ngữ: en, zh

Ký âm

Ming-Omni TTSMing-Omni TTS

Compact 0.5B omni-modal speech model from inclusionAI với đầu ra 44.1kHz độ chính xác cao và sao chép giọng nói không bắn.

Ngôn ngữ: en, zh

Ký âm

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M MOSS-TTS variant — cùng kiến trúc, nhỏ hơn 80 lần, độ trễ tầng miễn phí.

Ngôn ngữ: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Ký âm

API của nhà phát triển

REST API tương thích với OpenAI. Một điểm cuối, 22+ mẫu. Hỗ trợ truyền tải cho các ứng dụng thời gian thực.

  • Định dạng tương thích OpenAI
  • Truyền TTS cho các ứng dụng thời gian thực
  • Xử lý hàng loạt cho các công việc lớn
  • Thông báo Webhook
Xem tài liệu API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Đơn giản, giá cả minh bạch

Bắt đầu miễn phí, tăng dần khi phát triển.

Miễn phí

$0

15,000 characters + 5,000/day

  • 7 người mẫu miễn phí bao gồm Kokoro
  • 5000 ký tự mỗi thế hệ
  • Truy cập API bao gồm
đăng ký miễn phí

Bắt đầu

$9/ms

500 điểm/tháng

  • Tất cả 22+ mẫu
  • 100. 000 ký tự mỗi thế hệ
  • Bản sao giọng
Bắt đầu
Được ưa chuộng nhất

Tốt

$29/ms

2,000,000 characters/month

  • Mọi thứ trong Starter
  • Truy cập API
  • Xử lý ưu tiên
Tải về chuyên nghiệp

Công việc

$99/ms

10,000,000 characters/month

  • Mọi thứ trong Pro
  • API tập trung
  • Xếp hàng ưu tiên
Lấy việc

Xem tất cả các kế hoạch bao gồm các gói nhân vật →

Câu hỏi thường gặp

TTS.ai là nền tảng giọng nói AI toàn diện nhất, cung cấp 22+ mô hình văn bản-để-nói, sao chép giọng nói, nói-để-nói, và công cụ âm thanh.

Có! TTS.ai cung cấp dịch thuật miễn phí với các mô hình Kokoro, Piper, VITS, và MeloTTS. Không cần tài khoản. Đăng ký để có 15.000 ký tự miễn phí và truy cập tất cả các mô hình. Các gói trả phí bắt đầu từ $9/tháng.

Để tăng tốc độ, hãy dùng Kokoro hoặc Piper. Để tăng chất lượng, hãy thử CosyVoice 2 hoặc StyleTTS 2. Để nhân bản giọng nói, hãy dùng Chatterbox hoặc GPT- SoVITS. Để so sánh, hãy dùng Dia TTS. Thử nhiều mô hình trên cùng một văn bản.

Vâng. API REST tương thích với OpenAI cho TTS, STT, sao chép giọng nói, và công cụ âm thanh. Có trong mọi kế hoạch bao gồm miễn phí, với giới hạn tốc độ được tăng dần theo cấp (Miễn phí: 10 yêu cầu/phút, Lite: 20, Starter: 30, Pro: 60, Business: 300). Xem tài liệu tại tts.ai/api/.

Chất lượng giọng nói khác nhau tùy theo mẫu. Các mẫu cao cấp như CosyVoice 2, StyleTTS 2, và Chatterbox tạo ra giọng nói gần như chất lượng con người với giọng điệu và cảm xúc tự nhiên. Các mẫu miễn phí như Kokoro cung cấp chất lượng tuyệt vời cho hầu hết các trường hợp sử dụng.

TTS.ai hỗ trợ hơn 30 ngôn ngữ trên toàn bộ thư viện mô hình của nó. tiếng Anh có hỗ trợ mô hình rộng nhất, nhưng các mô hình như CosyVoice 2 bao gồm tiếng Trung, tiếng Nhật và tiếng Hàn; GPT-SoVITS xử lý tiếng Trung, tiếng Nhật, tiếng Hàn và tiếng Anh; và MeloTTS hỗ trợ tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Trung, tiếng Nhật và tiếng Hàn.

Vâng. Tất cả xử lý diễn ra trên máy chủ GPU riêng của chúng tôi. Chúng tôi không lưu nhập văn bản của bạn hay âm thanh được tạo ra sau khi gửi. Mẫu giọng nói tải lên để sao chép chỉ được sử dụng cho phiên chạy hiện tại và không được giữ lại. Chúng tôi không bao giờ chia sẻ dữ liệu của bạn với bên thứ ba hay sử dụng nó để huấn luyện mô hình.

Vâng. Tất cả âm thanh được tạo ra trên TTS.ai là của bạn để sử dụng thương mại, bao gồm video YouTube, podcast, sách âm thanh, ứng dụng, quảng cáo và sản phẩm. Các mô hình của chúng tôi là mã nguồn mở theo giấy phép cho phép (MIT, Apache 2.0). Không cần phải trả phí bản quyền hay ghi nhận.

TTS.ai tạo âm thanh theo định dạng WAV theo mặc định để đạt chất lượng cao nhất. Bạn có thể chuyển đổi sang MP3, FLAC, OGG, hoặc M4A bằng công cụ chuyển đổi âm thanh miễn phí của chúng tôi. API hỗ trợ xác định định dạng xuất ưa thích của bạn trực tiếp trong yêu cầu.

Tải lên một mẫu âm thanh ngắn (khoảng 5 giây) của giọng nói bạn muốn nhân bản, sau đó gõ bất kỳ văn bản nào để tạo ra giọng nói trong giọng nói đó. Các mô hình như Chatterbox, GPT- SoVITS, và CosyVoice 2 hỗ trợ nhân bản giọng nói. Giọng nói nhân bản thu được giọng, giọng điệu, và phong cách nói.

Các mẫu miễn phí (Kokoro, Piper, VITS, MeloTTS) không yêu cầu tài khoản và không tốn phí ký tự. Các mẫu tiêu chuẩn (2.000 ký tự/1K nhập) bao gồm Bark, CosyVoice 2, F5-TTS, và Dia. Các mẫu Premium (4.000 ký tự/1K nhập) bao gồm OpenVoice, Chatterbox, StyleTTS 2, và Tortoise. Các mẫu trả phí thường cung cấp chất lượng cao hơn, nhiều giọng nói hơn, và các tính năng bổ sung như sao chép giọng nói.

Vâng. API hỗ trợ xử lý theo lô để chuyển đổi số lượng lớn văn bản thành lời nói. Gửi nhiều yêu cầu và lấy kết quả không đồng bộ bằng cách sử dụng UUID công việc. Kế hoạch kinh doanh ($99/ tháng) và cao hơn bao gồm truy cập hàng đợi ưu tiên để xử lý theo lô nhanh hơn. Tốt nhất cho sản xuất sách âm thanh, nội dung khóa học, và các dự án lồng tiếng quy mô lớn.
4.1/5 (42)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Bắt đầu sử dụng giọng nói AI hôm nay

Hãy tham gia với những người sáng tạo, phát triển và doanh nghiệp sử dụng TTS.ai