Report Bug / Feature Request

Bản sao giọng nói thời gian thực — sao chép bất kỳ giọng nói nào trong vài giây

Sao chép bất kỳ giọng nói nào chỉ với 5 giây âm thanh tham chiếu. 9 mô hình sao chép giọng nói mã nguồn mở bao gồm Chatterbox, CosyVoice 2, GPT- SoVITS, và OpenVoice. Sao chép không cần đào tạo — tải lên một mẫu và tạo giọng nói ngay lập tức. Tất cả các mô hình đều được cấp phép thương mại.

Thời gian thực Mẫu 5 giây 9 Mô hình sao chép Mã nguồn mở 17+ ngôn ngữ Kiểm soát cảm xúc

Tính năng sao chép giọng nói thời gian thực

Sao chép giọng nói ngay lập tức với AI tiên tiến — không cần đào tạo, không cần tập dữ liệu, không cần chờ đợi

Bản sao Zero- Shot

Không đào tạo, không điều chỉnh, không thu thập dữ liệu. Tải lên 5 giây âm thanh và nhận được giọng nói nhân bản ngay lập tức. AI trích xuất đặc điểm của người nói trong thời gian thực.

9 Mô hình sao chép

Chọn từ Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS, và Tortoise. Mỗi mô hình có những điểm mạnh khác nhau về chất lượng, tốc độ, và ngôn ngữ.

Bản sao ngang ngôn ngữ

Sao chép giọng nói bằng tiếng Anh và tạo giọng nói bằng tiếng Trung, Nhật, Hàn, và nhiều ngôn ngữ khác. CosyVoice 2 và Qwen3-TTS bảo tồn bản sắc giọng nói trên 17+ ngôn ngữ.

Kiểm soát cảm xúc

Chatterbox, OpenVoice, và GLM- TTS hỗ trợ tạo ra cảm xúc điều kiện. Tạo ra cùng một văn bản với những cảm xúc khác nhau — hạnh phúc, buồn, tức giận, thì thầm — trong khi giữ giọng nói sao chép.

Mã nguồn mở và thương mại

Mỗi mô hình sao chép là mã nguồn mở theo giấy phép MIT hoặc Apache 2.0. Dùng giọng nói sao chép thương mại cho nội dung, sản phẩm và ứng dụng mà không cần trả phí bản quyền.

API sao chép

API REST cho sao chép giọng nói bằng chương trình. Tải lên âm thanh tham khảo, chỉ ra văn bản, và nhận giọng nói sao chép. SDK cho Python và JavaScript. Sao chép hàng loạt cho luồng công việc lớn. Name

Mô hình sao chép giọng nói

9 mô hình mã nguồn mở cho mỗi trường hợp sao chép

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 Bản sao giọng

Tốt nhất cho: Chất lượng tổng thể tốt nhất — mẫu 5 giây, kiểm soát cảm xúc, giấy phép MIT

Thử đi. Chatterbox

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Bản sao giọng

Tốt nhất cho: Ký âm đa ngôn ngữ tốt nhất — giữ lại giọng nói trên Trung Quốc, Anh, Nhật, Hàn Quốc

Thử đi. CosyVoice 2

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Bản sao giọng

Tốt nhất cho: Chuyển đổi màu sắc nhanh với cảm xúc và chuyển đổi kiểu dáng

Thử đi. OpenVoice

Spark TTSSpark TTS

Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Medium 4/5 Bản sao giọng

Tốt nhất cho: Mô hình sao chép nhanh nhất — kết quả trong ~12 giây

Thử đi. Spark TTS

IndexTTS-2IndexTTS-2

Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Medium 4/5 Bản sao giọng

Tốt nhất cho: Bản sao Trung- Anh tuyệt vời với độ tương đồng cao

Thử đi. IndexTTS-2

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Bản sao giọng

Tốt nhất cho: Kết quả chất lượng phòng thu — tốt nhất cho sách âm thanh và lời giải thích cao cấp

Thử đi. Tortoise TTS

Cách sao chép giọng nói thời gian thực

Từ một mẫu âm thanh ngắn đến lời nói sao chép không giới hạn

1

Tải lên âm thanh tham chiếu

Ghi hoặc tải lên 5- 30 giây giọng nói rõ ràng từ giọng bạn muốn sao chép. WAV, MP3, hoặc ghi trực tiếp trong trình duyệt.

2

Chọn mô hình sao chép

Chọn mô hình phù hợp với nhu cầu của bạn — Chatterbox cho chất lượng, Spark cho tốc độ, CosyVoice 2 cho đa ngôn ngữ.

3

Nhập văn bản của bạn

Nhập hoặc dán văn bản bạn muốn nói trong giọng nói nhân bản. Bất kỳ ngôn ngữ nào được hỗ trợ bởi mô hình đều hoạt động.

4

Tải về

Nhấn vào tạo và nghe giọng nói nhân bản của bạn trong 10-25 giây. Tải về dạng WAV hoặc MP3 để sử dụng ngay lập tức.

Cách sao chép giọng nói Zero-Shot hoạt động

Không điều chỉnh, không tập hợp dữ liệu — chỉ tải lên và sao chép

Trình nén

AI phân tích âm thanh tham chiếu của bạn để trích xuất một loa nhúng — một biểu diễn toán học nhỏ gọn của các đặc điểm độc đáo của giọng nói bao gồm độ cao, âm sắc, nhịp điệu nói, và kết cấu giọng nói. Điều này xảy ra trong chưa đến 1 giây.

  • Tính năng này chỉ cần 5 giây âm thanh
  • Ghi lại độ cao, âm sắc và kiểu nói
  • Không cần đào tạo hay điều chỉnh
  • Âm thanh không bao giờ được lưu vĩnh viễn

Tổng hợp giọng nói điều kiệnName

Mô hình TTS tạo ra giọng nói mới dựa trên việc nhúng người nói. Kết quả nghe giống như người nói tham chiếu nói văn bản của bạn — với giọng nói tự nhiên, nhấn mạnh thích hợp, và đặc điểm của giọng nói gốc được bảo tồn trong bất kỳ ngôn ngữ hay nội dung nào.

  • Tạo giọng nói không giới hạn từ một mẫu đơn
  • Bản sao chép giữa các ngôn ngữ (nói bằng ngôn ngữ mà tham chiếu không nói)
  • Cảm xúc và phong cách chuyển đổi
  • Kết quả trong 10-25 giây.

So sánh mô hình sao chép giọng nói

Chọn mô hình phù hợp cho trường hợp sao chép của bạn

Mô hình Điều kiện Tốc độ Chất lượng Ngôn ngữ Cảm xúc Giấy phép
Chatterbox 5s ~21s Tốt nhất EN MIT
CosyVoice 2 5s ~20s Tuyệt vời. CN, EN, JP, KO+ Apache 2.0
GPT-SoVITS 5s ~16s Tuyệt vời. CN, EN, JP, KO MIT
OpenVoice 5s ~15s Tốt EN, CN, ES, FR+ MIT
Spark TTS 5s ~12s Tốt CN, EN Apache 2.0
IndexTTS-2 5s ~18s Tuyệt vời. CN, EN Apache 2.0
GLM-TTS 5s ~25s Tuyệt vời. CN, EN Apache 2.0
Qwen3-TTS 5s ~16s Tuyệt vời. CN, EN, JP, KO+ Apache 2.0
Tortoise 15s ~60s Phòng thu EN Apache 2.0

Người ta dùng sao chép giọng nói thời gian thực để làm gì?

Từ việc tạo nội dung đến khả năng truy cập — sao chép giọng nói có vô số ứng dụng

Lời giải sách âm thanh

Các tác giả sao chép giọng nói của chính họ và tạo ra toàn bộ sách âm thanh mà không cần phải mất nhiều giờ trong một phòng thu. Sửa lỗi bằng cách tái tạo các câu đơn thay vì thu lại.

Đóng tiếng phim

Các mô hình đa ngôn ngữ như CosyVoice 2 và Qwen3-TTS giữ nguyên bản sắc giọng nói trên toàn Trung Quốc, Anh, Nhật Bản và Hàn Quốc.

Tạo nội dung

YouTubers, podcasters, và TikTok creators clone their voice for consistent branding. Tạo lồng tiếng cho nội dung mới mà không cần ghi âm, hoặc tạo phiên bản ngôn ngữ thay thế của video hiện có.

Tính truy cập

Những người đã mất giọng nói do bệnh tật hoặc phẫu thuật có thể bảo tồn nó bằng cách sao chép từ các bản thu cũ. Giọng nói sao chép cho phép họ giao tiếp bằng giọng nói của chính họ thông qua văn bản- thành- giọng nói.

Phát triển trò chơi

Sao chép diễn viên lồng tiếng và tạo ra các biến thể đối thoại không giới hạn mà không cần lên lịch thời gian làm việc. Tốt cho các trò chơi độc lập, mods, và tạo mẫu mà không thể ghi lại lại từng dòng.

Hệ thống điện thoạiName

Sao chép giọng nói của người phát ngôn công ty cho thực đơn điện thoại và đáp ứng tự động. Cập nhật thông báo IVR ngay lập tức mà không cần đặt một diễn viên lồng tiếng — chỉ cần gõ văn bản mới và tạo.

TTS.ai vs Các giải pháp sao chép giọng nói khác

Tại sao 9 mẫu vượt qua một dự án mã nguồn mở

Tính năng TTS.ai SV2TTS ElevenLabs Resemble AI
Mô hình sao chép 9 1 1 1
Âm thanh tham chiếu nhỏ nhất 5 sec 5 sec 30 sec 3 min
Cần đào tạo Không Không Không
Chất lượng âm thanh (2025) Độ chất lượng phòng thu Ngày Tuyệt vời. Tuyệt vời.
Kiểm soát cảm xúc
Bản sao ngang ngôn ngữ
Mã nguồn mở
Cần GPU Mây Mây Mây
Truy cập API
Lớp tự do 15.000 ký tự Máy tự động Giới hạn

API sao chép giọng nói

Sao chép giọng nói theo lập trình với REST API của chúng tôi

Python - Ký âm REST API
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-...")

# Clone a voice from a 5-second sample
result = client.clone_voice(
    name="My Cloned Voice",
    file="reference.wav",       # 5-30 seconds of clear speech
    model="chatterbox",         # or cosyvoice2, openvoice, spark...
    text="Hello! This is my cloned voice speaking new text.",
)

# Download the cloned audio
audio = client.poll_result(result.uuid)
with open("cloned_output.wav", "wb") as f:
    f.write(audio)
cURL — Ký âm REST API
curl -X POST https://api.tts.ai/v1/voice-clone \
  -H "Authorization: Bearer sk-tts-YOUR_KEY" \
  -F "reference=@voice_sample.wav" \
  -F "text=This is my cloned voice." \
  -F "model=chatterbox"

Gợi ý cho kết quả sao chép giọng nói tốt nhất

Lấy bản sao giọng nói chính xác nhất với các hướng dẫn ghi âm này

Môi trường yên tĩnh

Ghi âm trong một phòng yên tĩnh với tiếng ồn nền tối thiểu. AI trích xuất các tính năng giọng nói chính xác hơn từ âm thanh sạch.

10- 30 giây

Trong khi 5 giây thì hiệu quả, 10-30 giây cho kết quả tốt hơn đáng kể. AI nghe được nhiều lời nói tự nhiên hơn, bản sao chính xác hơn.

Tiếng nói tự nhiên

Nói một cách tự nhiên, không đơn điệu. Cùng với giọng điệu và nhịp điệu đa dạng. AI thu được phong cách nói tự nhiên của bạn, bao gồm cả dừng và nhấn mạnh.

Đơn loa

Dùng mẫu chỉ có một người nói. Nhiều giọng nói sẽ làm lẫn lộn việc nhúng loa và tạo ra kết quả trộn lẫn.

Bắt đầu sao chép giọng nói hôm nay

Tải lên 5 giây âm thanh và nghe giọng của bạn trong 30 giây. Miễn phí để thử.

Kênh Tài liệu API

Câu hỏi thường gặp

Câu hỏi thường gặp về sao chép giọng nói thời gian thực

Bản sao giọng nói thời gian thực là công nghệ AI có thể sao chép giọng nói của một người từ một mẫu âm thanh ngắn — chỉ 5 giây — mà không cần đào tạo hay điều chỉnh. Bạn tải lên một mẫu, và AI tạo ra giọng nói mới nghe giống như người đó. TTS.ai cung cấp 9 mô hình sao chép giọng nói khác nhau, mỗi mô hình có ưu điểm khác nhau về chất lượng, tốc độ và hỗ trợ ngôn ngữ.

Chỉ cần 5 giây là đủ với hầu hết các mẫu (Chatterbox, CosyVoice 2, Spark, GPT- SoVITS, OpenVoice). Tortoise cần 15+ giây để đạt kết quả tốt nhất. Để đạt chất lượng tối ưu trên tất cả các mẫu, khuyến cáo 10- 30 giây âm thanh rõ ràng, loa đơn. Âm thanh nên không có tiếng ồn nền và âm nhạc.

Công nghệ sao chép giọng nói là hợp pháp. Tuy nhiên, bạn chỉ nên sao chép giọng nói mà bạn được phép sử dụng — giọng nói của chính bạn, giọng nói mà bạn đã được sự đồng ý rõ ràng, hoặc giọng nói trong phạm vi công cộng. Sử dụng sao chép giọng nói để giả vờ ai đó mà không có sự đồng ý, phạm tội gian lận, hoặc tạo nội dung lừa đảo là bất hợp pháp ở hầu hết các khu vực pháp lý. Các điều khoản của TTS.ai yêu cầu bạn phải có quyền cho bất kỳ giọng nói nào bạn sao chép.

Nó phụ thuộc vào trường hợp sử dụng của bạn. Chatterbox tạo ra bản sao tiếng Anh chất lượng cao nhất với điều khiển cảm xúc. CosyVoice 2 là tốt nhất cho sao chép đa ngôn ngữ (Trung Quốc, Anh, Nhật Bản, Hàn Quốc). Spark là nhanh nhất với ~12 giây. Tortoise tạo ra kết quả chất lượng phòng thu nhưng chậm hơn. GPT- SoVITS xuất sắc trong sao chép giọng nói Trung Quốc. Thử nhiều mô hình để tìm sự phù hợp tốt nhất cho giọng nói của bạn.

Có — điều này được gọi là sao chép giọng nói giữa các ngôn ngữ. CosyVoice 2, Qwen3- TTS, và OpenVoice hỗ trợ nó. Ví dụ, bạn có thể tải lên một mẫu giọng nói tiếng Anh và tạo ra giọng nói tiếng Trung, Nhật, hoặc Hàn trong khi vẫn giữ được đặc điểm giọng nói của người nói. Chất lượng khác nhau tùy theo mẫu và cặp ngôn ngữ.

Dự án CorentinJ/Real-Time-Voice-Cloning GitHub (60K+ sao) sử dụng SV2TTS, một kiến trúc 2019. Trong khi đột phá vào thời điểm đó, các mô hình hiện đại như Chatterbox, CosyVoice 2, và GPT-SoVITS sản xuất chất lượng âm thanh tốt hơn đáng kể với sự tương đồng loa tốt hơn. TTS.ai chạy 9 mô hình hiện đại (so với SV2TTS) và không yêu cầu cài đặt GPU - chỉ cần tải lên và sao chép.

Có. TTS.ai cung cấp một API REST cho sao chép giọng nói. Tải lên âm thanh và văn bản tham khảo, chọn một mô hình, và nhận giọng nói sao chép. Có sẵn thông qua Python SDK (`pip install ttsai`), JavaScript SDK (`npm install @ttsainpm/ttsai`), hoặc yêu cầu HTTP trực tiếp. Hỗ trợ sao chép hàng loạt để xử lý nhiều văn bản với cùng một giọng nói sao chép.

Có. Sau khi sao chép, lưu giọng nói vào tài khoản của bạn và sử dụng lại nó trong nhiều thế hệ không giới hạn mà không cần tải lại âm thanh tham chiếu. Giọng nói đã lưu xuất hiện trong thư viện giọng nói của bạn trên trang sao chép giọng nói và có thể truy cập qua API.

Tất cả các định dạng WAV, MP3, OGG, FLAC và WebM đều được hỗ trợ. Bạn cũng có thể ghi trực tiếp trong trình duyệt bằng cách sử dụng bộ ghi âm micro bên trong. Để có kết quả tốt nhất, hãy dùng định dạng WAV không mất dữ liệu ở 16 kHz hoặc cao hơn. AI tự động xử lý âm thanh trước (đặt mẫu lại, lọc nhiễu) bất kể định dạng đầu vào.

Thời gian tạo âm thanh khác nhau tùy theo mẫu: Spark nhanh nhất là ~12 giây, OpenVoice là ~15 giây, GPT- SoVITS là ~16 giây, CosyVoice 2 là ~20 giây, Chatterbox là ~21 giây, và Tortoise là ~60 giây. Thời gian này là cho văn bản dài câu điển hình. Các văn bản dài hơn sẽ mất thời gian tương ứng lâu hơn.

Có. Cả 9 mô hình sao chép trên TTS.ai đều sử dụng giấy phép mã nguồn mở (MIT hoặc Apache 2. 0) cho phép sử dụng thương mại. Bạn có thể sử dụng âm thanh sao chép trong video YouTube, podcast, sách âm thanh, ứng dụng, trò chơi, hệ thống điện thoại, và bất kỳ ứng dụng thương mại nào khác — miễn là bạn có quyền sở hữu giọng nói nguồn.

Vâng. Mỗi mô hình chúng tôi chạy là mã nguồn mở và có sẵn trên GitHub/HuggingFace. Bạn có thể tự lưu trữ Chatterbox, CosyVoice 2, GPT-SoVITS, OpenVoice, Spark, IndexTTS-2, GLM-TTS, Qwen3-TTS, hoặc Tortoise trên máy chủ GPU của mình. Hầu hết các mô hình yêu cầu một GPU NVIDIA với 4-24GB VRAM tùy theo mô hình. TTS.ai xử lý tất cả cơ sở hạ tầng để bạn không cần.
5.0/5 (1)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Copy Any Voice trong vài giây

9 mô hình sao chép giọng nói mã nguồn mở. Mẫu 5 giây. Không cần đào tạo. Thử miễn phí — tải lên âm thanh của bạn và nghe bản sao ngay lập tức.