Text to Speech AI

Chuyển văn bản thành giọng nói tự nhiên với mô hình AI mã nguồn mở. Miễn phí sử dụng, không cần tài khoản.

đăng ký miễn phí

0/500 ký tự · Sign up for 5,000 per generation →

Đăng ký giới hạn 5000 ký tự

Chế độ SSML (Ngôn ngữ đánh dấu tổng hợp giọng nói cho điều khiển tinh xảo)

Lập vòng văn bản trong thẻ SSML để kiểm soát chính xác:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Thẻ cảm xúc/ phong cách

Thêm dấu cảm xúc để ảnh hưởng đến việc giao hàng (hỗ trợ mô hình khác nhau):

Từ điển phát âm

Định nghĩa cách phát âm tùy chỉnh (từ = phát âm):

Độ cao 0

-12 +12

Mô hình AI

Giọng nói

Ngôn ngữ

Định dạng xuất

Tốc độ 1.0x

0.5x 2.0x

Miễn phí với Piper, VITS, MeloTTS

Âm thanh đã tạo sẽ xuất hiện ở đây. Chọn một mô hình, nhập văn bản, và nhấn vào Tạo.

Chi tiết mẫu

VITS

Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Nhà phát triển:	Jaehyeon Kim et al.
Giấy phép:	MIT
Tốc độ	Fast
Chất lượng:
ngôn ngữ	4 ngôn ngữ
VRAM	1GB
Bản sao giọng	Không hỗ trợ

Tính năng:

End-to-end synthesis Natural prosody Fast inference Multiple speakers

Tốt nhất cho:: General-purpose text-to-speech with natural prosody

Gợi ý cho kết quả tốt hơn

Dùng dấu chấm cho dừng và ngâm tự nhiên
Đọc số và ký tự viết tắt để phát âm rõ ràng hơn
Thêm dấu phẩy để tạo ra những đoạn ngắn giữa các cụm từ
Dùng dấu chấm (...) cho những đoạn nghỉ dài hơn
Thử Kokoro hoặc CosyVoice 2 để có kết quả tự nhiên nhất
Dùng Dia cho hộp thoại nhiều loa và nội dung podcast

Sử dụng ký tự

Thú	Chi phí mỗi 1K ký tự
Miễn phí	0 điểm (không giới hạn)
Mặc định	2x ký tự
Cao cấp	4x ký tự

Lấy thêm ký tự

Cách AI Text to Speech hoạt động

Tạo lồng tiếng chất lượng chuyên nghiệp trong ba bước đơn giản. Không cần kiến thức kỹ thuật.

Bước 1

Nhập văn bản của bạn

Nhập, dán hoặc tải lên văn bản bạn muốn chuyển đổi thành giọng nói. Hỗ trợ đến 5. 000 ký tự mỗi lần sinh cho người dùng đã đăng nhập. Dùng văn bản đơn giản hoặc thêm thẻ SSML để kiểm soát phát âm, dừng và nhấn mạnh.

Bước 2

Chọn mẫu và giọng nói

Chọn từ hơn 20 mô hình AI trên ba cấp. Chọn một giọng nói phù hợp với nội dung của bạn, chọn ngôn ngữ mục tiêu, điều chỉnh tốc độ chơi từ 0. 5x đến 2. 0x, và chọn định dạng xuất ưa thích (MP3, WAV, OGG, hoặc FLAC).

Bước 3

Tải về

Nhấn vào Tạo và âm thanh của bạn sẽ sẵn sàng trong vài giây. Xem trước với trình phát nội bộ, tải về định dạng bạn chọn, hoặc sao chép một liên kết có thể chia sẻ. Dùng API để xử lý và tích hợp hàng loạt vào luồng công việc của bạn.

Text to Speech Use CasesComment

Text-to-speech dựa trên AI đang biến đổi cách con người tạo ra, tiêu thụ và tương tác với nội dung âm thanh trên hàng chục ngành công nghiệp.

Sách âm thanh

Chuyển toàn bộ sách thành sách âm thanh có âm thanh tự nhiên với lời giải thích chất lượng phòng thu. Hỗ trợ nhiều loa với Dia cho các đối thoại nhân vật.

Lồng tiếng Video

Tạo lồng tiếng chuyên nghiệp cho YouTube, TikTok, Instagram Reels và Shorts. 100+ giọng nói hoặc sao chép của riêng bạn.

Podcast

Tạo các tập podcast từ các văn lệnh với nhiều giọng nói AI. Dùng Dia cho các cuộc nói chuyện tự nhiên hai người.

Trò chơi

Lồng tiếng AI cho các trò chơi độc lập, visual novel, và hư cấu tương tác. Đối thoại NPC, giọng nói cutscene, hơn 30 ngôn ngữ.

Học điện tử

Chuyển đổi tài liệu khóa học, bài giảng và nội dung huấn luyện thành âm thanh. Hỗ trợ nhiều ngôn ngữ cho các nền tảng toàn cầu.

Tính truy cập

Làm cho các trang web, tài liệu và ứng dụng dễ tiếp cận. Tổng hợp API đọc màn hình và chuyển đổi bài viết thành âm thanh.

Hệ thống điện thoạiName

Hệ thống IVR, menu điện thoại, và dịch vụ khách hàng với giọng nói tự nhiên AI.

Truyền thông xã hội

TikTok, Instagram Reels, Twitter/X commentary, YouTube Shorts.

Truyền

Twitch TTS cảnh báo, chat-to-voice, AI đồng chủ, và Discord bots. thấp thời gian đợi, 100 + giọng nói, StreamElements tương thích.

Tiếp thị

Lồng tiếng quảng cáo, video giải thích, trình diễn sản phẩm và giới thiệu bán hàng.

Lồng tiếng và địa phương hóa

Dịch và lồng tiếng video thành hơn 30 ngôn ngữ với AI tương thích giọng nói. Tự động phiên dịch và phát hiện người nói.

Thiền định và sức khỏe

Tập thiền dẫn dắt, câu chuyện ngủ, bài tập thở, và khẳng định với giọng nói AI bình tĩnh, thư giãn.

Xem tất cả các trường hợp sử dụng và công cụ

Mọi mẫu chuyển văn bản sang nói

Thông số kỹ thuật chi tiết cho mỗi mô hình AI có sẵn trên TTS.ai. So sánh chất lượng, tốc độ, hỗ trợ ngôn ngữ, và các tính năng để tìm ra mô hình hoàn hảo cho dự án của bạn.

Kokoro

Free

Kokoro là một mô hình chuyển văn bản sang nói có 82 triệu tham số, vượt xa mức trọng lượng của nó. Mặc dù kích thước nhỏ bé, nó vẫn tạo ra giọng nói tự nhiên và biểu cảm. Kokoro hỗ trợ nhiều ngôn ngữ bao gồm tiếng Anh, Nhật, Trung Quốc và Hàn Quốc với nhiều giọng nói biểu cảm. Nó chạy rất nhanh — tạo ra âm thanh nhanh hơn gần 100 lần so với thời gian thực trên GPU.

Nhà phát triển::
Hexgrad

Giấy phép::
Apache 2.0

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

VRAM:
1.5GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
Miễn phí

Tham số 82M Rất nhanh Giọng nói biểu cảm Nhiều ngữ Hỗ trợ truyền tải

Tốt nhất cho:: TTS chất lượng cao với thời gian chờ tối thiểu, ứng dụng truyền tải

Thử đi. Kokoro

Piper

Free

Piper là một bộ chuyển đổi văn bản sang giọng nói nhẹ được phát triển bởi Rhasspy sử dụng kiến trúc VITS và larynx. Nó chạy hoàn toàn trên CPU, làm cho nó lý tưởng cho các thiết bị rìa, tự động hóa nhà cửa, và các ứng dụng yêu cầu TTS ngoài mạng. Với hơn 100 giọng nói trên 30+ ngôn ngữ, Piper cung cấp giọng nói có âm thanh tự nhiên với tốc độ thời gian thực ngay cả trên Raspberry Pi 4.

Nhà phát triển::
Rhasspy

Giấy phép::
MIT

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
Miễn phí

Ứng dụng CPU Có thể ngoài mạng 100+ giọng nói 30+ ngôn ngữ Hỗ trợ SSML

Tốt nhất cho:: Xem trước nhanh, khả năng truy cập, và các ứng dụng được nhúng

Thử đi. Piper

VITS

Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) là một phương pháp TTS song song từ đầu đến cuối tạo ra âm thanh có âm thanh tự nhiên hơn các mô hình hai giai đoạn hiện tại. Nó sử dụng suy luận biến đổi được tăng cường với các luồng bình thường hóa và một quá trình huấn luyện đối kháng, đạt được một cải thiện đáng kể về tính tự nhiên.

Nhà phát triển::
Jaehyeon Kim et al.

Giấy phép::
MIT

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en, zh, ja, ko

VRAM:
1GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
Miễn phí

Tổng hợp từ đầu đến cuối Từ vựng tự nhiên Suy luận nhanh Nhiều loa

Tốt nhất cho:: Text-to-speech mục đích chung với giọng điệu tự nhiênName

Thử đi. VITS

MeloTTS

Free

MeloTTS by MyShell. ai là thư viện TTS đa ngôn ngữ hỗ trợ tiếng Anh (Mỹ, Anh, Ấn Độ, Úc), Tây Ban Nha, Pháp, Trung Quốc, Nhật Bản, và Hàn Quốc. Nó cực nhanh, xử lý văn bản gần như tốc độ thời gian thực chỉ trên CPU. MeloTTS được thiết kế cho sử dụng sản xuất và hỗ trợ cả CPU và GPU suy luận.

Nhà phát triển::
MyShell.ai

Giấy phép::
MIT

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
Miễn phí

Được tối ưu hóa CPU Nhiều ngôn ngữ Nhiều giọng Sẵn sàng sản xuất Chờ thấp

Tốt nhất cho:: Ứng dụng sản xuất cần TTS nhanh, đa ngôn ngữ

Thử đi. MeloTTS

Bark

Standard

Bark by Suno là một mô hình chuyển đổi văn bản sang âm thanh dựa trên biến đổi có thể tạo ra giọng nói đa ngôn ngữ thực tế cao cũng như các âm thanh khác như âm nhạc, tiếng ồn nền và hiệu ứng âm thanh. Nó có thể tạo ra giao tiếp không nói như cười, thở dài và khóc. Bark hỗ trợ hơn 100 bộ phát âm và hơn 13 ngôn ngữ.

Nhà phát triển::
Suno

Giấy phép::
MIT

Tốc độ:
Slow

Chất lượng::

ngôn ngữ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
2x

Hiệu ứng âm thanh Cười/thở phào Tạo nhạc 100+ loa Nhiều ngữ

Tốt nhất cho:: Nội dung âm thanh sáng tạo, sách âm thanh với cảm xúc, hiệu ứng âm thanh

Thử đi. Bark

Bark Small

Standard

Bark Small là một phiên bản chưng cất của mô hình Bark trao đổi một số chất lượng âm thanh cho tốc độ suy luận nhanh hơn đáng kể và yêu cầu bộ nhớ thấp hơn.

Nhà phát triển::
Suno

Giấy phép::
MIT

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
2x

Nhẹ Nhanh hơn cả tiếng chó sủa Tiếng nói cảm xúc Nhiều ngôn ngữ

Tốt nhất cho:: Âm thanh sáng tạo nhanh khi toàn bộ Bark quá chậm

Thử đi. Bark Small

CosyVoice 2

Standard

CosyVoice 2 của Tongyi Lab của Alibaba đạt được chất lượng nói tương đương với người với độ trễ cực thấp, khiến nó trở thành ứng dụng thời gian thực lý tưởng. Nó sử dụng một phương pháp lượng tử hóa scalar hữu hạn cho tổng hợp stream và hỗ trợ sao chép giọng nói không bắn, tổng hợp đa ngôn ngữ, và kiểm soát cảm xúc hạt mịn.

Nhà phát triển::
Alibaba (Tongyi Lab)

Giấy phép::
Apache 2.0

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
2x

Truyền Sao chép không bắn Ngôn ngữ Kiểm soát cảm xúc Đẳng thức con người

Tốt nhất cho:: Ứng dụng thời gian thực, truyền TTS, trợ lý giọng nói

Thử đi. CosyVoice 2

Dia TTS

Standard

Dia của Nari Labs là một mô hình chuyển văn bản sang nói có tham số 1. 6B được thiết kế đặc biệt để tạo ra đối thoại đa người nói. Nó có thể tạo ra các cuộc nói chuyện có âm thanh tự nhiên giữa hai người nói với sự thay đổi, ngữ điệu và biểu hiện cảm xúc thích hợp. Dia hoàn hảo cho việc tạo nội dung kiểu podcast, đối thoại sách nghe và AI giao tiếp tương tác.

Nhà phát triển::
Nari Labs

Giấy phép::
Apache 2.0

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en

VRAM:
4GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
2x

Đa loa Tạo hộp thoại Lượt tự nhiên Từ biểu cảm Tính chất

Tốt nhất cho:: Podcast, đối thoại sách âm thanh, nội dung trò chuyện

Thử đi. Dia TTS

Parler TTS

Standard

Parler TTS là một mô hình chuyển văn bản sang nói sử dụng mô tả giọng nói ngôn ngữ tự nhiên để điều khiển giọng nói được tạo ra. Thay vì chọn từ những giọng nói đã định sẵn, bạn mô tả giọng nói bạn muốn (ví dụ, "một giọng nữ ấm áp với giọng Anh nhẹ, nói chậm và rõ ràng") và Parler tạo ra giọng nói phù hợp với mô tả đó. Điều này làm cho nó linh hoạt độc nhất cho các ứng dụng sáng tạo.

Nhà phát triển::
Hugging Face

Giấy phép::
Apache 2.0

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en

VRAM:
4GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
2x

Mô tả giọng nói Kiểm soát ngôn ngữ tự nhiên Tạo giọng nói linh hoạt Không cần giọng nói mặc định

Tốt nhất cho:: Ứng dụng sáng tạo cần đặc điểm giọng nói tùy chỉnh

Thử đi. Parler TTS

GLM-TTS

Standard

GLM- TTS by Zhipu AI là một hệ thống chuyển văn bản sang giọng nói được xây dựng trên kiến trúc Llama với sự tương thích dòng. Nó đạt được tỉ lệ sai lầm ký tự thấp nhất trong các mô hình TTS mã nguồn mở, có nghĩa là nó tạo ra phát âm chính xác nhất. GLM- TTS hỗ trợ tiếng Anh và tiếng Trung với sao chép giọng nói từ mẫu âm thanh 3- 10 giây.

Nhà phát triển::
Zhipu AI

Giấy phép::
GLM-4 License

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en, zh

VRAM:
4GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
2x

Tỷ lệ lỗi thấp nhất Ký âm Tương thích dòng Từ vựng tự nhiên

Tốt nhất cho:: Ứng dụng cần độ chính xác phát âm tối đaName

Thử đi. GLM-TTS

IndexTTS-2

Standard

IndexTTS- 2 là một hệ thống chuyển văn bản sang nói tiên tiến, nổi bật trong tổng hợp giọng nói không bắn với kiểm soát cảm xúc tinh tế. Nó có thể tạo ra giọng nói với những âm thanh cảm xúc cụ thể như hạnh phúc, buồn, tức giận, hay sợ hãi mà không cần dữ liệu huấn luyện đặc biệt về cảm xúc. Mô hình này sử dụng các vector cảm xúc để kiểm soát chính xác biểu hiện cảm xúc của giọng nói được tạo ra.

Nhà phát triển::
Index Team

Giấy phép::
Bilibili Model License

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en, zh

VRAM:
4GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
2x

Kiểm soát cảm xúc Zero-shot Vector cảm xúc Giọng nói biểu cảm Điều khiển mịn

Tốt nhất cho:: Nội dung thể hiện cảm xúc, sách nghe, trợ lý ảo

Thử đi. IndexTTS-2

Spark TTS

Standard

Spark TTS của SparkAudio là một mô hình chuyển văn bản thành giọng nói kết hợp sao chép giọng nói với cảm xúc và phong cách nói có thể điều khiển. Chỉ cần sử dụng 5 giây âm thanh tham chiếu, nó có thể sao chép giọng nói và sau đó tạo ra giọng nói với cảm xúc, tốc độ và phong cách khác nhau trong khi duy trì bản sắc giọng nói sao chép. Spark TTS sử dụng một hệ thống điều khiển dựa trên yêu cầu.

Nhà phát triển::
SparkAudio

Giấy phép::
CC BY-NC-SA 4.0

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en, zh

VRAM:
4GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
2x

Ký âm Kiểm soát cảm xúc. Điều khiển kiểu dáng Dựa vào lời nhắc 5 giây sao chép

Tốt nhất cho:: Tạo nội dung với giọng nói sao chép và kiểm soát cảm xúc

Thử đi. Spark TTS

GPT-SoVITS

Standard

GPT- SoVITS kết hợp mô hình ngôn ngữ kiểu GPT với SoVITS (Singing Voice Inference via Translation and Synthesis) cho việc sao chép giọng nói mạnh mẽ. Chỉ với 5 giây âm thanh tham chiếu, nó có thể sao chép chính xác một giọng nói và tạo ra giọng nói mới trong khi vẫn giữ được đặc điểm độc đáo của người nói. Nó xuất sắc trong cả việc tổng hợp giọng nói nói và hát.

Nhà phát triển::
RVC-Boss

Giấy phép::
MIT

Tốc độ:
Slow

Chất lượng::

ngôn ngữ:
en, zh, ja, ko

VRAM:
6GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
2x

5 giây sao chép Giọng hát Học vài bắn Độ chính xác cao Ngôn ngữ

Tốt nhất cho:: Ký âm, tổng hợp giọng hát, sao chép giọng của người tạo nội dung

Thử đi. GPT-SoVITS

Orpheus

Standard

Orpheus là một mô hình chuyển văn bản sang giọng nói quy mô lớn đạt được sự biểu hiện cảm xúc ở mức độ con người. Nó được huấn luyện trên hơn 100. 000 giờ dữ liệu giọng nói đa dạng, nó xuất sắc trong việc tạo ra giọng nói với cảm xúc tự nhiên, nhấn mạnh, và phong cách nói. Orpheus có thể tạo ra giọng nói hầu như không thể phân biệt được với ghi âm của con người.

Nhà phát triển::
Canopy Labs

Giấy phép::
Llama 3.2 Community

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en

VRAM:
4GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
2x

Cảm xúc ở mức độ con người. 100K giờ huấn luyện Nhấn mạnh tự nhiên Tiếng nói biểu cảm

Tốt nhất cho:: Tiếng nói cảm xúc chất lượng cao, sách nghe, diễn xuất lồng tiếng

Thử đi. Orpheus

Chatterbox

Premium

Chatterbox của Resemble AI là một mô hình sao chép giọng nói tiên tiến. Nó có thể sao chép bất kỳ giọng nói nào từ một mẫu âm thanh đơn với độ chính xác đáng chú ý, không chỉ thu được âm sắc mà còn phong cách nói và các sắc thái cảm xúc. Chatterbox cũng có tính năng kiểm soát cảm xúc tinh tế, cho phép bạn điều chỉnh âm sắc cảm xúc của giọng nói được tạo ra độc lập với bản sắc giọng nói.

Nhà phát triển::
Resemble AI

Giấy phép::
MIT

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en

VRAM:
4GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
4x

Sao chép không bắn Kiểm soát cảm xúc Độ chính xác cao Chuyển đổi kiểu dáng Ký ức

Tốt nhất cho:: Ký âm chuyên nghiệp với kiểm soát cảm xúc, tạo nội dung

Thử đi. Chatterbox

Tortoise TTS

Premium

Tortoise TTS là một hệ thống chuyển văn bản sang giọng nói đa giọng tự hồi quy, ưu tiên chất lượng âm thanh hơn tốc độ. Nó dùng kiến trúc lấy cảm hứng từ DALL- E để tạo ra giọng nói tự nhiên với âm điệu và tương đồng người nói tuyệt vời. Mặc dù chậm hơn nhiều lựa chọn khác, Tortoise tạo ra một số giọng nói tổng hợp thực tế nhất có sẵn trong hệ sinh thái mã nguồn mở.

Nhà phát triển::
James Betker

Giấy phép::
Apache 2.0

Tốc độ:
Slow

Chất lượng::

ngôn ngữ:
en

VRAM:
8GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
4x

Chất lượng cao nhất Nhiều giọng Kiến trúc DALL- E Ký âm Tự trừ

Tốt nhất cho:: Audiobooks, Premium content, quality-first applications

Thử đi. Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 đạt được tổng hợp TTS ở mức người bằng cách kết hợp sự lan truyền phong cách với huấn luyện đối kháng bằng cách sử dụng các mô hình ngôn ngữ nói lớn. Nó tạo ra giọng nói có âm thanh tự nhiên nhất trong các mô hình người nói đơn, cạnh tranh với các ghi âm của người. StyleTTS 2 sử dụng mô hình phong cách dựa trên sự lan truyền để thu được toàn bộ phạm vi biến thể giọng nói của người.

Nhà phát triển::
Columbia University

Giấy phép::
MIT

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en

VRAM:
4GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
4x

Mức người Kiểu dáng Luyện tập đối đầu Độ biến thiên tự nhiên Độ chính xác cao

Tốt nhất cho:: Tổng hợp chất lượng phòng thu, lồng tiếng chuyên nghiệp

Thử đi. StyleTTS 2

OpenVoice

Premium

OpenVoice của MyShell. ai cho phép sao chép giọng nói ngay lập tức với kiểm soát chi tiết về phong cách giọng nói, cảm xúc, giọng điệu, nhịp điệu, ngừng và độ cao. Nó có thể sao chép giọng nói từ một đoạn âm thanh ngắn và tạo ra giọng nói bằng nhiều ngôn ngữ trong khi duy trì bản sắc người nói. OpenVoice cũng có chức năng như một trình chuyển đổi giọng nói, cho phép chuyển đổi giọng nói thời gian thực.

Nhà phát triển::
MyShell.ai / MIT

Giấy phép::
MIT

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en, zh, ja, ko, fr, de, es, it

VRAM:
4GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
4x

Bản sao lập tức Biến đổi giọng nói Kiểm soát cảm xúc Điều khiển giọng điệu Nhiều ngữ

Tốt nhất cho:: Ký âm với kiểu điều khiển tinh xảo, chuyển đổi giọng nói

Thử đi. OpenVoice

Qwen3 TTS

Standard

Qwen3- TTS là một mô hình chuyển văn bản sang nói có 1, 7 tỷ tham số từ nhóm Qwen của Alibaba. Nó hỗ trợ ba chế độ: giọng nói được đặt sẵn với điều khiển cảm xúc (9 loa), sao chép giọng nói chỉ từ 3 giây âm thanh, và một chế độ thiết kế giọng nói độc đáo nơi bạn mô tả giọng nói bạn muốn bằng ngôn ngữ tự nhiên. Nó bao gồm 10 ngôn ngữ với tính biểu cảm cao và giọng điệu tự nhiên.

Nhà phát triển::
Alibaba (Qwen)

Giấy phép::
Apache 2.0

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
2x

Ký âm 9 giọng điệu đã định sẵn Thiết kế giọng nói từ văn bản Kiểm soát cảm xúc 10 ngôn ngữ

Tốt nhất cho:: Nội dung đa ngôn ngữ với kiểu giọng hoặc thiết kế giọng riêng

Thử đi. Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) là một mô hình 1 tỷ tham số được thiết kế đặc biệt để tạo ra giọng nói nói. Nó mô hình hóa các mẫu tự nhiên của giọng nói nói của con người bao gồm thời gian chuyển đổi, phản ứng kênh ngược, phản ứng cảm xúc, và dòng giọng nói nói. CSM tạo ra âm thanh nghe giống như giọng nói nói tự nhiên của con người hơn là giọng nói tổng hợp.

Nhà phát triển::
Sesame

Giấy phép::
Apache 2.0

Tốc độ:
Slow

Chất lượng::

ngôn ngữ:
en

VRAM:
8GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
4x

Thông thường Thời gian tự nhiên Đổi lượt Kênh sau Tham số 1B

Tốt nhất cho:: trợ lý AI, chatbots, ứng dụng AI trò chuyện

Thử đi. Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI là một nâng cấp tham số 350M cho Chatterbox, cung cấp tốc độ thời gian thực lên đến 6x với thời gian chờ dưới 200ms. Nó hỗ trợ các thẻ paralinguistic như [laugh], [cough], và [chuckle] trực tiếp trong văn bản. Nó bao gồm dấu nước Perth trên tất cả âm thanh được tạo ra để theo dõi nguồn gốc.

Nhà phát triển::
Resemble AI

Giấy phép::
MIT

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en

VRAM:
2GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
2x

Tốc độ chậm dưới 200ms Thẻ Paralinguistic Thời gian thực 6x Ký âm Đánh dấu nước

Tốt nhất cho:: Đặc vụ giọng nói thời gian thực, nói chuyện biểu cảm với âm thanh tự nhiên

Thử đi. Chatterbox Turbo

Zonos

Standard

Zonos v0. 1 của Zyphra là một mô hình tham số 1. 6B có tính năng kiểm soát cảm xúc tinh tế với các trượt cho hạnh phúc, tức giận, buồn bã, sợ hãi và ngạc nhiên. Nó cung cấp cả một Transformer và một biến thể SSM mới (mô hình không gian trạng thái). Được huấn luyện trên 200K+ giờ nói nhiều ngôn ngữ với sao chép giọng nói không bắn từ 10- 30 giây âm thanh tham chiếu.

Nhà phát triển::
Zyphra

Giấy phép::
Apache 2.0

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en, ja, zh, fr, de

VRAM:
6GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
2x

Kiểm soát cảm xúc Ký âm Kiến trúc SSM Nhiều ngôn ngữ Điều khiển độ cao/ tốc độ

Tốt nhất cho:: Giọng nói biểu cảm với kiểm soát cảm xúc, phòng thiết kế giọng nói

Thử đi. Zonos

Dia 2

Standard

Dia2 của Nari Labs là một bản nâng cấp đầu tiên của Dia, có sẵn trong các biến thể tham số 1B và 2B. Nó bắt đầu tổng hợp âm thanh từ vài ký hiệu đầu tiên, làm cho nó lý tưởng cho các đại diện giọng nói thời gian thực và đường ống nói- đến- nói. Hỗ trợ đối thoại nhiều người nói với thẻ [S1] / [S2] và các dấu hiệu paralinguistic như (laughs), (coughs).

Nhà phát triển::
Nari Labs

Giấy phép::
Apache 2.0

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en

VRAM:
4GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
2x

Xuất dòng Đa loa Thấp Thông điệp ngữ nghĩa Xuất lên đến 2 phút

Tốt nhất cho:: Đặc vụ giọng nói thời gian thực, tạo đối thoại, ứng dụng truyền tải

Thử đi. Dia 2

VoxCPM

Standard

VoxCPM 1. 5 của OpenBMB là một mô hình TTS mới không cần tokenizer hoạt động trong không gian liên tục thay vì token rời rạc. Nó tạo ra âm thanh 44. 1kHz độ chính xác cao, hỗ trợ sao chép giọng nói không có đạn từ 3- 10 giây, và duy trì sự nhất quán giữa các đoạn văn. Sao chép giữa các ngôn ngữ cho phép bạn áp dụng giọng nói tiếng Anh vào giọng nói tiếng Trung và ngược lại.

Nhà phát triển::
OpenBMB

Giấy phép::
Apache 2.0

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en, zh

VRAM:
4GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
2x

Âm thanh 44. 1kHz Không có tokenizer Bản sao chép giữa các ngôn ngữ Nhận thức ngữ cảnh Điều chỉnh LoRA

Tốt nhất cho:: Âm thanh chất lượng cao, sách âm thanh, nội dung dạng dài với giọng nói nhất quán

Thử đi. VoxCPM

OuteTTS

Free

OuteTTS mở rộng các mô hình ngôn ngữ lớn với khả năng chuyển văn bản thành giọng nói trong khi vẫn giữ được kiến trúc gốc. Nó hỗ trợ nhiều backend bao gồm llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, và thậm chí là suy luận trình duyệt qua Transformers.js.

Nhà phát triển::
OuteAI

Giấy phép::
Apache 2.0

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en

VRAM:
2GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
Miễn phí

Suy luận CPU Trình duyệt Ký âm Nhiều phần mềm hậu phương Hồ sơ loa

Tốt nhất cho:: Thiết lập Edge, TTS dựa trên trình duyệt, môi trường ít tài nguyên

Thử đi. OuteTTS

TADA

Standard

TADA (Text-Acoustic Dual Alignment) của Hume AI là một mô hình TTS tiên phong loại bỏ ảo giác thông qua một kiến trúc điều chỉnh đôi mới được xây dựng trên Llama 3.2. Có sẵn trong các biến thể 1B (tiếng Anh) và 3B (đa ngôn ngữ), TADA đạt được một RTF 0.09 - 5x nhanh hơn các mô hình TTS dựa trên LLM tương đương. Nó hỗ trợ lên đến 700 giây ngữ cảnh âm thanh và tạo ra lời nói biểu cảm cảm xúc với không có ảo giác trên các tiêu chuẩn tiêu chuẩn.

Nhà phát triển::
Hume AI

Giấy phép::
MIT

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en

VRAM:
5GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
2x

Không có ảo giác. Nhanh hơn 5 lần so với LLM TTS Từ biểu cảm 700s audio context Đường thẳng kép

Tốt nhất cho:: Tiếng nói không ảo giác, biểu hiện cảm xúc, suy luận nhanh.

Thử đi. TADA

VibeVoice

Standard

VibeVoice của Microsoft có hai biến thể: một mô hình 1.5B cho nội dung dạng dài (tối đa 90 phút, 4 loa) và một mô hình Realtime 0.5B cho truyền trực tuyến với độ trễ âm thanh đầu tiên ~ 200ms. biến thể 1.5B xuất sắc ở podcast và sách âm thanh với sự đồng nhất của loa trên các đoạn dài.

Nhà phát triển::
Microsoft

Giấy phép::
MIT

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en, zh

VRAM:
4GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
2x

Đa loa 90 phút Tạo podcast Định dạng loa Truyền 200ms

Tốt nhất cho:: Podcast, audiobooks, nội dung nhiều loa dạng dài

Thử đi. VibeVoice

Pocket TTS

Free

Pocket TTS của Kyutai (người tạo ra Moshi) là một mô hình chuyển văn bản sang nói nhỏ gọn với tham số 100M, có hiệu suất vượt trội so với trọng lượng của nó. Nó chạy hiệu quả trên CPU, hỗ trợ sao chép giọng nói không có âm thanh từ một mẫu âm thanh duy nhất, và tạo ra giọng nói có âm thanh tự nhiên. Cỡ nhỏ của mô hình làm cho nó lý tưởng cho việc triển khai rìa và môi trường tài nguyên thấp.

Nhà phát triển::
Kyutai

Giấy phép::
MIT

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en, fr

VRAM:
1GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
Miễn phí

Tính chất Suy luận CPU Ký âm Sao chép mẫu đơn Sẵn sàng

Tốt nhất cho:: Thiết lập nhẹ, môi trường chỉ CPU, sao chép giọng nói nhanh

Thử đi. Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Nhà phát triển::
KittenML

Giấy phép::
Apache 2.0

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en

VRAM:
0GB

Bản sao giọng:
Không.

Chi phí mỗi 1K ký tự:
Miễn phí

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

Tốt nhất cho:: Fast lightweight TTS, edge deployment, low-latency applications

Thử đi. Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Nhà phát triển::
Alibaba (FunAudioLLM)

Giấy phép::
Apache 2.0

Tốc độ:
Fast

Chất lượng::

ngôn ngữ:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

Tốt nhất cho:: Multilingual production TTS, real-time applications, voice cloning

Thử đi. CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

Nhà phát triển::
OpenMOSS

Giấy phép::
Apache 2.0

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

VRAM:
16GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

Tốt nhất cho:: Audiobooks, long-form content, multilingual production

Thử đi. MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

Nhà phát triển::
ByteDance

Giấy phép::
Apache 2.0

Tốc độ:
Slow

Chất lượng::

ngôn ngữ:
en, zh

VRAM:
8GB

Bản sao giọng:
Có

Chi phí mỗi 1K ký tự:
4x

Voice cloning Adjustable similarity Cross-lingual

Tốt nhất cho:: High-fidelity voice cloning

Thử đi. MegaTTS3

Kokoro

Miễn phí

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Nhà phát triển::
Hexgrad

Giấy phép::
Apache 2.0

Tốc độ:
Fast

Chất lượng::

ngôn ngữ: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

Tốt nhất cho:: High-quality TTS with minimal latency, streaming applications

Thử miễn phí

Piper

Miễn phí

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Nhà phát triển::
Rhasspy

Giấy phép::
MIT

Tốc độ:
Fast

Chất lượng::

ngôn ngữ: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Tốt nhất cho:: Quick previews, accessibility, and embedded applications

Thử miễn phí

Cao cấp

Nhà phát triển::
OpenMOSS

Giấy phép::
Apache 2.0

Tốc độ:
Medium

Chất lượng::

ngôn ngữ:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Bản sao giọng:
Có

VRAM:
16GB

Chi phí mỗi 1K ký tự:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

Tốt nhất cho:: Audiobooks, long-form content, multilingual production

Thử đi. MOSS-TTS

MegaTTS3

Cao cấp

Nhà phát triển::
ByteDance

Giấy phép::
Apache 2.0

Tốc độ:
Slow

Chất lượng::

ngôn ngữ:
en, zh

Bản sao giọng:
Có

VRAM:
8GB

Chi phí mỗi 1K ký tự:
4x

Voice cloningAdjustable similarityCross-lingual

Tốt nhất cho:: High-fidelity voice cloning

Thử đi. MegaTTS3

Bảng so sánh mô hình

Mô hình	Nhà phát triển:	Thú	Tốc độ	ngôn ngữ	VRAM	Giấy phép:	Chi phí
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	Miễn phí	Dùng
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	Miễn phí	Dùng
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	Miễn phí	Dùng
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Miễn phí	Dùng
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Dùng
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Dùng
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Dùng
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Dùng
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Dùng
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	Dùng
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Dùng
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Dùng
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Dùng
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Dùng
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Dùng
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Dùng
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Dùng
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	Dùng
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Dùng
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Dùng
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Dùng
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	Dùng
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	Dùng
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Dùng
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Miễn phí	Dùng
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	Dùng
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Dùng
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Miễn phí	Dùng
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Miễn phí	Dùng
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Dùng
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	Dùng
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	Dùng

Nền tảng chuyển văn bản thành giọng nói AI toàn diện nhất

Tại sao chọn TTS.ai cho Text to Speech?

Không giống như các dịch vụ độc quyền khóa bạn trong một động cơ giọng nói duy nhất, TTS.ai cho phép bạn truy cập vào hơn 20 mô hình từ các phòng thí nghiệm nghiên cứu hàng đầu bao gồm Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Đại học Tsinghua, và nhiều hơn nữa.

Mỗi mô hình là mã nguồn mở theo MIT, Apache 2. 0, hoặc giấy phép cho phép tương tự, đảm bảo bạn có quyền thương mại đầy đủ để sử dụng âm thanh được tạo ra trong các dự án của bạn. Dù bạn cần tổng hợp nhanh, nhẹ cho các ứng dụng thời gian thực hoặc xuất ra chất lượng phòng thu cao cấp cho sách âm thanh và podcast, TTS.ai có mô hình phù hợp cho mọi trường hợp sử dụng.

Mô hình miễn phí, không cần tài khoản

Bắt đầu ngay lập tức với ba mô hình TTS miễn phí: Piper (rất nhanh, nhẹ), VITS (tổng hợp thần kinh chất lượng cao), và MeloTTS (hỗ trợ nhiều ngôn ngữ). Không cần đăng ký, không cần thẻ tín dụng, không giới hạn số thế hệ. Các mô hình miễn phí hỗ trợ tiếng Anh và nhiều ngôn ngữ khác với kết quả âm thanh tự nhiên phù hợp với hầu hết các ứng dụng.

Xử lý tăng tốc GPU

Tất cả các mô hình TTS chạy trên GPU NVIDIA dành riêng cho thời gian tạo nhanh và đồng nhất. Các mô hình miễn phí thường tạo âm thanh trong chưa đến 2 giây. Các mô hình tiêu chuẩn như Kokoro, CosyVoice 2, và Bark trung bình 3-5 giây. Các mô hình cao cấp với chất lượng cao nhất, như Tortoise và Chatterbox, xử lý trong 5-15 giây tùy thuộc vào độ dài văn bản.

Hỗ trợ hơn 30 ngôn ngữ

Tạo giọng nói bằng hơn 30 ngôn ngữ bao gồm tiếng Anh, Tây Ban Nha, Pháp, Đức, Ý, Bồ Đào Nha, Trung Quốc, Nhật Bản, Hàn Quốc, Ả Rập, Hindi, Nga, và nhiều ngôn ngữ khác. Một số mẫu hỗ trợ tổng hợp đa ngôn ngữ, có nghĩa là bạn có thể tạo giọng nói bằng một ngôn ngữ mà giọng gốc chưa bao giờ được huấn luyện. CosyVoice 2 và GPT- SoVITS xuất sắc trong việc sao chép giọng nói đa ngôn ngữ.

API sẵn sàng cho nhà phát triển

Tạo TTS.ai vào ứng dụng của bạn với API REST tương thích OpenAI của chúng tôi. Một điểm cuối cho tất cả 20+ mẫu. Python, JavaScript, cURL, và Go SDKs. Hỗ trợ truyền tải cho ứng dụng thời gian thực. Xử lý theo lô cho việc tạo nội dung quy mô lớn. Webhooks cho thông báo không đồng bộ. Có sẵn trên các kế hoạch Pro và Enterprise.

Câu hỏi thường gặp

Các mô hình TTS thần kinh hiện đại như Kokoro, Chatterbox, và CosyVoice 2 sử dụng học sâu để tạo ra giọng nói có âm thanh đáng chú ý của con người, với giai điệu, cảm xúc và nhịp điệu tự nhiên.

Nó phụ thuộc vào nhu cầu của bạn. Để xem trước nhanh, hãy dùng Piper hoặc MeloTTS (miễn phí, nhanh). Để chất lượng cao, hãy thử Kokoro hoặc CosyVoice 2 (mức tiêu chuẩn). Để sao chép giọng nói, hãy dùng Chatterbox hoặc GPT- SoVITS (đạt chuẩn). Để nghe các nội dung đối thoại/ podcast, hãy thử Dia TTS. Mỗi mô hình có những điểm mạnh khác nhau — thử nghiệm để tìm ra phù hợp nhất.

Có! TTS.ai cung cấp dịch chuyển văn bản thành lời nói miễn phí với các mô hình Kokoro, Piper, VITS, và MeloTTS. Không cần tài khoản cho đến 500 ký tự và 3 thế hệ mỗi giờ. Đăng ký một tài khoản miễn phí để nhận 15 điểm và truy cập vào tất cả các mô hình.

Các mẫu TTS của chúng tôi hỗ trợ tổng cộng 30 + ngôn ngữ bao gồm tiếng Anh, Tây Ban Nha, Pháp, Đức, Ý, Bồ Đào Nha, Trung Quốc, Nhật Bản, Hàn Quốc, Ả Rập, Nga, Hindi, và nhiều ngôn ngữ khác.

Có, âm thanh được tạo ra qua TTS.ai có thể được sử dụng thương mại. Tất cả các mẫu của chúng tôi sử dụng giấy phép mã nguồn mở (MIT, Apache 2. 0). Kiểm tra giấy phép mẫu riêng lẻ cho các điều kiện cụ thể. Chúng tôi khuyên bạn xem xét giấy phép của mẫu cụ thể bạn sử dụng cho dự án của mình.

TTS.ai hỗ trợ định dạng xuất MP3, WAV, OGG, và FLAC. MP3 là định dạng mặc định cho trình phát trên mạng. WAV được khuyến cáo cho việc xử lý âm thanh tiếp theo. Bạn có thể chuyển đổi giữa các định dạng bằng công cụ chuyển đổi âm thanh của chúng tôi.

Bản sao giọng nói sử dụng AI để sao chép giọng nói cụ thể từ một mẫu âm thanh ngắn (thường là 5- 30 giây). Tải lên một bản ghi rõ ràng của giọng nói mục tiêu, và các mô hình như Chatterbox, GPT- SoVITS, hoặc OpenVoice sẽ tạo ra giọng nói mới trong giọng nói đó. Chất lượng được cải thiện với âm thanh tham chiếu sạch hơn, dài hơn.

Người dùng miễn phí có thể tạo lên đến 500 ký tự mỗi yêu cầu. Người dùng đăng ký có thể tạo lên đến 5. 000 ký tự mỗi yêu cầu. Đối với văn bản dài hơn, âm thanh được tạo thành các mảnh và tự động ghép lại với nhau. Người dùng API có thể xử lý lên đến 10. 000 ký tự mỗi yêu cầu.

Hỗ trợ SSML (Speech Synthesis Markup Language) khác nhau tùy theo mô hình. Piper và một số mô hình khác hỗ trợ các thẻ SSML cơ bản cho dừng, nhấn mạnh, và kiểm soát phát âm. Đối với các mô hình không hỗ trợ SSML bản địa, bạn có thể dùng dấu chấm tự nhiên và dấu nối dòng để ảnh hưởng đến giọng nói.

Có, hầu hết các mẫu hỗ trợ điều chỉnh tốc độ từ 0. 5x đến 2. 0x. Một số mẫu như Bark và Parler cũng cho phép điều khiển độ cao và kiểu. Bạn có thể đặt các tham số tốc độ trong bảng thiết lập cao cấp hoặc qua tham số tốc độ API.

Có, xử lý hàng loạt có sẵn thông qua API của chúng tôi. Bạn có thể gửi nhiều đoạn văn bản trong một cuộc gọi API hoặc văn lệnh, và mỗi đoạn sẽ được xử lý và trả về như là các tập tin âm thanh riêng biệt. Điều này rất thích hợp cho các chương sách âm thanh, mô- đun học trực tuyến, hoặc văn lệnh hộp thoại trò chơi.

Tạo một chìa khóa API từ bảng điều khiển tài khoản của bạn, sau đó gửi yêu cầu POST đến điểm kết thúc API REST của chúng tôi với văn bản, mô hình và tham số giọng nói của bạn. Chúng tôi cung cấp ví dụ mã trong Python, JavaScript và cURL. API tương thích với OpenAI, vì vậy các tích hợp hiện có hoạt động với những thay đổi tối thiểu.

5.0/5 (3)

Bắt đầu chuyển đổi văn bản thành giọng nói bây giờ

Hãy tham gia hàng ngàn người tạo ra bằng cách sử dụng TTS.ai. Tìm kiếm 15.000 nhân vật miễn phí với một tài khoản mới.

đăng ký miễn phí Xem giá

Text to Speech AI

Cảm ơn bạn đã tin tưởng TTS.ai!

Chi tiết mẫu

VITS

Gợi ý cho kết quả tốt hơn

Sử dụng ký tự

Cách AI Text to Speech hoạt động

Nhập văn bản của bạn

Chọn mẫu và giọng nói

Tải về

Text to Speech Use CasesComment

Sách âm thanh

Lồng tiếng Video

Podcast

Trò chơi

Học điện tử

Tính truy cập

Hệ thống điện thoạiName

Truyền thông xã hội

Truyền

Tiếp thị

Lồng tiếng và địa phương hóa

Thiền định và sức khỏe

Mọi mẫu chuyển văn bản sang nói

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

TADA

VibeVoice