About TTS.ai
Nền tảng giọng nói AI mã nguồn mở toàn diện nhất. 24+ mẫu, 100+ giọng nói, tất cả ở một nơi.
Nhiệm vụ của chúng ta
TTS.ai được xây dựng trên một niềm tin đơn giản: công nghệ giọng nói AI tốt nhất nên được truy cập bởi mọi người. Trong khi các dịch vụ độc quyền thu phí cao hơn cho văn bản chuyển sang nói cơ bản, cộng đồng mã nguồn mở đã tạo ra các mô hình tương đương hoặc vượt quá chất lượng thương mại.
Chúng tôi tập hợp những mô hình AI giọng nói mã nguồn mở tốt nhất vào một nền tảng đơn giản, dễ sử dụng, không bị ràng buộc bởi nhà cung cấp, không thu thập dữ liệu, chỉ có công nghệ giọng nói mạnh mẽ với giá cả hợp lý.
Chúng tôi cung cấp
Văn bản sang Giọng nóiComment
24+ mẫu bao gồm Kokoro, Chatterbox, Bark, và nhiều hơn. Từ tổng hợp nhẹ nhàng nhanh đến chất lượng sản xuất phòng thu.
Từ nói sang văn bảnName
Được cung cấp bởi Whisper, Faster-Whisper, và SenseVoice. Phiên âm âm thanh bằng hơn 100 ngôn ngữ với dấu thời gian và phát hiện người nói.
Bản sao giọng
Sao chép bất kỳ giọng nói nào từ mẫu 5 giây. Chatterbox, GPT-SoVITS, CosyVoice 2, và nhiều hơn nữa. Tạo giọng nói tùy chỉnh cho các dự án của bạn.
Xử lý âm thanh
Tăng cường âm thanh, gỡ bỏ giọng hát, tách đoạn, gỡ bỏ tiếng vang, phát hiện phím/BPM, và chuyển đổi định dạng. Tất cả đều được điều khiển bởi AI.
Thảo luận bằng giọng nói
Truyền tải giọng nói thời gian thực với AI. Chọn mô hình và giọng nói của bạn để trải nghiệm trò chuyện tương tác.
API của nhà phát triển
API REST tương thích với OpenAI. Python SDK, ví dụ mã, và tài liệu chi tiết. Xây dựng tính năng giọng nói vào ứng dụng của bạn.
Mã nguồn mở trước
Mỗi mô hình trên TTS.ai là mã nguồn mở, được cấp phép theo MIT hoặc Apache 2.0.
Chúng ta có.
Tất cả trọng lượng mô hình được tải về từ kho chính thức của chúng. Chúng tôi không thêm bất kỳ sửa đổi độc quyền nào.
Cơ sở hạ tầng
TTS.ai chạy trên máy chủ GPU chuyên dụng với GPU NVIDIA Tesla P40 (tổng cộng 96GB VRAM).
- Cụm GPU dành riêng cho suy luận - không chia sẻ tài nguyên
- Phân bổ GPU động dựa trên yêu cầu VRAM mô hình
- Hệ thống ưu tiên 5 hàng đợi cho tốc độ tối ưu
- Mô hình được tải sẵn trong VRAM để suy luận ngay lập tức
- Chuyển phát âm thanh hỗ trợ CDN để tải về nhanh
Bảo mật & Tư nhân
- Không huấn luyện dữ liệu: Chúng tôi không bao giờ dùng âm thanh hay văn bản của bạn để huấn luyện mô hình
- Tự động xoá: Âm thanh được tạo sẽ tự động xoá sau 24 giờ
- Mật mã: Tất cả dữ liệu được mã hóa khi chuyển (TLS 1. 2+) và khi nghỉ
- Không theo dõi:
- GDPR compliant: Yêu cầu dữ liệu của bạn hoặc xóa bất cứ lúc nào