Mô hình mã nguồn mở chuyển văn bản thành giọng nói

Mỗi mô hình TTS trên nền tảng của chúng tôi là mã nguồn mở với giấy phép thương mại thân thiện. MIT, Apache 2. 0 — không khóa sở hữu, không giới hạn sử dụng, không phí cấp phép bất ngờ. Dùng chúng thông qua API lưu trữ của chúng tôi, hoặc tự lưu trữ chúng trên cơ sở hạ tầng của bạn với sự kiểm soát đầy đủ.

Mã nguồn mở Giấy phép MIT Apache 2. 0 Tự chủ GitHub

Thử ngay

Miễn phí với Kokoro, Piper, VITS, MeloTTS
Âm thanh của bạn sẽ xuất hiện ở đây
Tạo
Tải về
Cảm ơn bạn đã tin tưởng TTS.ai!

Lợi ích của TTS mã nguồn mở

Tại sao các mô hình mã nguồn mở quan trọng cho các dự án của bạn

Giấy phép mã nguồn mở

Mỗi mẫu trên TTS.ai sử dụng giấy phép mã nguồn mở không có hộp đen độc quyền, không bị nhà sản xuất khóa, không có phí cấp phép bất ngờ.

MIT / Apache 2. 0

Các mô hình được cấp phép theo MIT hoặc Apache 2.0, giấy phép mã nguồn mở cho phép nhất. Dùng thương mại, sửa đổi, phân phối lại — không giới hạn.

Tự chủ

Tải xuống bất kỳ mô hình nào và chạy nó trên phần cứng của bạn. Kiểm soát đầy đủ dữ liệu, thời gian đợi và cơ sở hạ tầng. Không cần phụ thuộc vào đám mây.

Được tối ưu hóa GPU

Các mô hình được tối ưu hóa cho GPU NVIDIA với hỗ trợ CUDA. Piper chỉ chạy trên CPU. Hầu hết các mô hình cần 2-8GB VRAM để suy luận hiệu quả.

Bảo trì cộng đồng

Các cộng đồng mã nguồn mở tích cực duy trì và cải thiện các mô hình này.

Dùng thương mại được

Tất cả các mô hình cho phép sử dụng thương mại theo giấy phép của họ. Xây dựng sản phẩm, bán dịch vụ, và tạo nội dung thương mại mà không có bản quyền hoặc phí sử dụng.

Catalogue Model Open Source của chúng tôi

Mỗi người mẫu, giấy phép của nó, và những gì nó làm tốt nhất

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Tốt nhất cho: Apache 2.0 — mô hình miễn phí chất lượng tốt nhất, 82M tham số, dễ dàng tự chủ

Thử đi. Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Tốt nhất cho: MIT — chỉ CPU, hoàn hảo cho các thiết bị edge và tự lưu trữ tích hợp

Thử đi. Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Tốt nhất cho: MIT — kiến trúc cơ sở được sử dụng bởi nhiều mô hình hạ lưu

Thử đi. VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Tốt nhất cho: MIT — khả năng tạo âm thanh độc đáo vượt quá TTS tiêu chuẩn

Thử đi. Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Bản sao giọng

Tốt nhất cho: Apache 2.0 — chất lượng tối đa, thực thi tham chiếu được nghiên cứu rộng rãi

Thử đi. Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Bản sao giọng

Tốt nhất cho: MIT — mã nguồn mở sao chép giọng nói với kiểm soát kiểu dáng hạt

Thử đi. OpenVoice

Cách sử dụng TTS mã nguồn mở

Dùng API của chúng tôi hoặc tự chạy mô hình

1

Tìm hiểu các mô hình mã nguồn mở

Xem danh mục của chúng tôi với hơn 20 mẫu TTS mã nguồn mở. Mỗi trang mẫu cho thấy giấy phép, kiến trúc, khả năng, và yêu cầu tự lưu trữ.

2

Thử trong trình duyệt

Thử nghiệm bất kỳ mô hình nào trực tiếp trên TTS.ai mà không cần cài đặt gì cả. Máy chủ GPU của chúng tôi xử lý xử lý để bạn có thể đánh giá chất lượng trước khi tự lưu trữ.

3

Tự chủ hoặc sử dụng API của chúng tôi

Clone model repos from GitHub and run locally, or use our hosted API for production. Self-hosting gives full control; our API provides managed infrastructure.

4

Xây dựng ứng dụng của bạn

Tạo TTS trong sản phẩm của bạn bằng cách sử dụng các mô hình tự lưu trữ hoặc API REST của chúng tôi. Tất cả các mô hình đều có thể sử dụng thương mại mà không cần phí cấp phép hay bản quyền.

So sánh giấy phép

Tất cả các mẫu trên TTS.ai sử dụng giấy phép mã nguồn mở thương mại thân thiện

Mô hình Giấy phép Dùng thương mại Sửa đổi Máy tự động Định danh
Kokoro Apache 2.0 Cần thiết
Piper MIT Tùy chọn
VITS MIT Tùy chọn
MeloTTS MIT Tùy chọn
Chatterbox MIT Tùy chọn
Tortoise TTS Apache 2.0 Cần thiết
StyleTTS 2 MIT Tùy chọn
OpenVoice MIT Tùy chọn
Sesame CSM Apache 2.0 Cần thiết
Orpheus Llama 3.2 "Built with Llama"

Tự lưu trữ vs lưu trữ API

Bạn tự chạy mô hình hoặc để chúng tôi xử lý cơ sở hạ tầng

Máy tự động trên phần cứng của bạn

Mỗi mô hình trên TTS.ai có sẵn như một dự án mã nguồn mở trên GitHub hoặc Hugging Face. Tải về trọng lượng, cài đặt các phụ thuộc, và chạy suy luận trên GPU của bạn. Bạn có thể kiểm soát hoàn toàn về thời gian đợi, riêng tư, và quy mô.

  • Tự do dữ liệu hoàn toàn — âm thanh không bao giờ rời máy chủ của bạn
  • Không có chi phí mỗi yêu cầu sau khi cài đặt ban đầu
  • Điều chỉnh tinh tế tùy chỉnh trên dữ liệu của bạn
  • Cần phần cứng GPU (NVIDIA khuyến nghị)
  • Bạn quản lý cập nhật, tăng kích thước và phụ thuộc

Dùng API TTS.ai

Truy cập ngay lập tức vào tất cả 20+ mô hình thông qua một API REST duy nhất. Chúng tôi xử lý việc cung cấp GPU, cập nhật mô hình, quản lý hàng đợi và tăng kích thước. Một chìa khóa API cho phép truy cập vào mỗi mô hình — không cần quản lý các triển khai riêng biệt.

  • Không cần phần cứng GPU
  • Tất cả 20+ mẫu thông qua một API
  • Cập nhật và cải tiến mô hình tự động
  • Thời gian hoạt động 99,9% với cơ sở hạ tầng dư thừa
  • Chỉ trả tiền cho những gì bạn sử dụng

Bắt đầu nhanh: API hoặc máy chủ tự động

Dùng API lưu trữ của chúng tôi, hoặc cài đặt Kokoro tại địa phương trong vài phút

Tùy chọn 1: TTS.ai API được lưu trữ Dễ nhất
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
Tùy chọn 2: Tự động máy với pip Kiểm soát toàn bộ
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Mã nguồn mở, giá cả phải chăng

API lưu trữ của chúng tôi làm cho TTS mã nguồn mở truy cập được mà không cần quản lý GPU.

Lớp tự do

$0

15,000 ký tự khi đăng ký

  • 4 mẫu mã mã nguồn mở miễn phí
  • Không đăng ký cho việc sử dụng cơ bản
  • Cho phép sử dụng thương mại

Bắt đầu

$9

500,000 ký tự/tháng

  • Tất cả 20+ mẫu mã nguồn mở
  • Ký âm
  • Truy cập API

Tốt

$29

2,000,000 characters/month

  • Xử lý ưu tiên GPU
  • Tất cả các mẫu cao cấp
  • Hỗ trợ doanh nghiệp
Xem giá đầy đủ

Câu hỏi thường gặp

Câu hỏi thường gặp về mã nguồn mở chuyển văn bản sang nói

Có. Mỗi mô hình trên TTS.ai sử dụng một giấy phép mã nguồn mở — MIT hoặc Apache 2.0. Chúng tôi đặc biệt loại trừ các mô hình với giấy phép hạn chế (như CPML của Coqui hoặc CC-BY-NC không thương mại). Bạn có thể kiểm tra giấy phép của mỗi mô hình trên kho GitHub của nó.

Cả hai đều là giấy phép mã nguồn mở cho phép sử dụng thương mại, sửa đổi và phân phối lại. Apache 2. 0 thêm các quyền sáng chế rõ ràng và yêu cầu phải ghi rõ các thay đổi nếu bạn sửa đổi mã. MIT đơn giản hơn với ít yêu cầu hơn. Cả hai đều thân thiện với doanh nghiệp.

Có. Mỗi mô hình có thể tự lưu trữ. Sao chép kho mô hình từ GitHub, cài đặt phụ thuộc, tải về trọng lượng mô hình, và chạy suy luận. Chúng tôi cung cấp tài liệu cho các yêu cầu tự lưu trữ của mỗi mô hình bao gồm GPU, RAM, và phiên bản Python.

Các yêu cầu khác nhau tùy theo mẫu. Piper không cần GPU (chỉ CPU). Kokoro và MeloTTS cần 1-2GB VRAM. Hầu hết các mẫu tiêu chuẩn cần 4GB VRAM. Tortoise và Sesame CSM cần 8GB. Một NVIDIA RTX 3060 (12GB) có thể chạy hầu hết các mẫu một cách thoải mái.

Có. Giấy phép mã nguồn mở cho phép sửa đổi bao gồm cả điều chỉnh tinh tế. Các mô hình như GPT- SoVITS và Bark cung cấp các văn lệnh điều chỉnh tinh tế. Bạn có thể huấn luyện các mô hình trên dữ liệu giọng nói của mình để tạo giọng nói tùy chỉnh hoặc cải thiện hiệu suất cho các ngôn ngữ cụ thể.

Các mô hình mã nguồn mở hàng đầu (Kokoro, StyleTTS 2, Chatterbox) hiện nay tương đương hoặc vượt trội hơn các dịch vụ thương mại như ElevenLabs và Google TTS trong các tiêu chuẩn chất lượng.

Chúng tôi đã loại trừ chúng. XTTS/XTTS-v2 (Coqui's CPML — không thương mại), F5-TTS (CC-BY-NC — không thương mại), và Higgs-v2 (Boson License — hạn chế) đều đã được loại bỏ. Mỗi mô hình trên TTS.ai được kiểm tra an toàn cho sử dụng thương mại.

Có. Hầu hết các mô hình chấp nhận đóng góp của cộng đồng qua GitHub. Bạn có thể gửi báo cáo lỗi, ghi âm giọng nói cho các ngôn ngữ mới, cải tiến mã, và tài liệu. Kiểm tra kho GitHub của mỗi mô hình để xem hướng dẫn đóng góp và các vấn đề đang hoạt động.

Tải các mô hình theo yêu cầu và tải khi không dùng để chia sẻ bộ nhớ GPU. Máy chủ GPU của chúng tôi chạy hơn 20 mô hình trên 4x Tesla P40 (tổng VRAM 96GB) bằng cách tải động. Đối với tự lưu trữ, một GPU 24GB có thể phục vụ 3-5 mô hình đồng thời.

Nhiều mô hình cung cấp hình ảnh Docker chính thức hoặc Dockerfiles. Để chạy nhiều mô hình, bạn có thể xây dựng một cài đặt Docker tùy chỉnh với NVIDIA Container Toolkit để truy cập GPU. Kiến trúc máy chủ API của chúng tôi có thể phục vụ như một thực hiện tham khảo.

Hầu hết các mẫu yêu cầu Python 3.10-3.12. Coqui TTS (VITS) đặc biệt cần Python 3.11. Chúng tôi khuyến cáo Python 3.12 cho hầu hết các mẫu. Kiểm tra file requirements.txt của mỗi mẫu để biết phiên bản tương thích chính xác.

Có. Giấy phép MIT và Apache 2.0 cho phép sử dụng thương mại. Bạn có thể xây dựng các sản phẩm SaaS, ứng dụng di động, trò chơi và dịch vụ sử dụng các mô hình này mà không cần phí cấp phép, phí bản quyền, hoặc yêu cầu ghi nhận (mặc dù ghi nhận được đánh giá cao).
5.0/5 (1)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Thử mã nguồn mở TTS hôm nay

20+ mô hình mã nguồn mở, tất cả đều được cấp phép thương mại. Dùng API của chúng tôi hoặc tự chủ — lựa chọn là của bạn.