TTS thời gian thực
Truyền văn bản thành lời nói với thời gian chờ âm thanh đầu tiên dưới giây. Được xây dựng cho các ứng dụng giọng nói và trực tiếp.
Văn bản
TruyềnThiết lập & giọng nói
TTS chạy như thế nào
1. Gửi văn bản
POST text to /v1/tts/stream/ như một yêu cầu Server-Sent Events.
2. Mô hình tạo ra
Kokoro chia nhỏ văn bản và tạo ra âm thanh mẫu-bằng-mẫu trên GPU.
3. Các đoạn dòng
Các đoạn WAV mã hóa Base64 đến qua SSE và bắt đầu chơi ngay lập tức.
4. Lắng nghe trực tiếp
Người dùng nghe thấy bắt đầu của câu trong chưa đến một giây, ngay cả trên các đầu vào dài.
Tình huống sử dụng
Khi độ trễ nhỏ hơn một giây mở khóa những trải nghiệm mới.
Điều khiển giọng nói
Robot nói chuyện đáp ứng nhanh như một con người.
Lồng tiếng trực tiếp
Dịch và lồng tiếng một dòng thời gian thực mà không cần tạm dừng đệm.
Trò chơiName
NPC dialog phản ứng với lựa chọn của người chơi ngay lập tức, không có VO được tạo sẵn.
Tính truy cập
Các trình đọc màn hình và công cụ hỗ trợ bắt đầu nói ngay khi người dùng nhấn vào.
Kế hoạch TTS thời gian thực
Bắt đầu miễn phí, nâng cấp khi cần nhiều hơn
- Kokoro streaming (model miễn phí)
- 500 ký tự mỗi thế hệ
- 10 stream miễn phí/ngày cho mỗi người dùng ẩn danh
- Độ trễ âm thanh đầu tiên dưới giây
- Truyền SSE qua HTTPS
- 15,000 ký tự khi đăng ký
- 5000 ký tự mỗi dòng
- Chìa khóa API cho truy cập bằng chương trình
- Lịch sử tạo
- Không giới hạn dòng mỗi ngày
- MOSS- TTS- Thời gian thực (khi trực tuyến)
- 100. 000 ký tự mỗi dòng
- Đang xếp hàng ưu tiên GPU
- Đại diện giọng nói + tích hợp Twilio
- Giới hạn tốc độ cao
Câu hỏi thường gặp
Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.
Truyền giọng nói theo thời gian thựcName
Miễn phí trong 10 thế hệ đầu tiên mỗi ngày. Đăng ký để mở khóa toàn bộ số ký tự và truy cập API.