TTS thời gian thực

Truyền văn bản thành lời nói với thời gian chờ âm thanh đầu tiên dưới giây. Được xây dựng cho các ứng dụng giọng nói và trực tiếp.

Văn bản

Truyền
0/5,000 chữ cái ~0.3s âm thanh đầu tiên

Thiết lập & giọng nói

Chỉ có các mẫu có khả năng truyền tải.

Độ trễ trực tiếp

Nhấn Stream để đo độ trễ âm thanh đầu tiên

Xuất

Các đoạn âm thanh sẽ được chơi ở đây khi chúng được truyền vào.

0:00
Mảnh đầu tiên:
Tổng số mảnh: 0
Thời gian tổng:

TTS chạy như thế nào

1. Gửi văn bản

POST text to /v1/tts/stream/ như một yêu cầu Server-Sent Events.

2. Mô hình tạo ra

Kokoro chia nhỏ văn bản và tạo ra âm thanh mẫu-bằng-mẫu trên GPU.

3. Các đoạn dòng

Các đoạn WAV mã hóa Base64 đến qua SSE và bắt đầu chơi ngay lập tức.

4. Lắng nghe trực tiếp

Người dùng nghe thấy bắt đầu của câu trong chưa đến một giây, ngay cả trên các đầu vào dài.

Tình huống sử dụng

Khi độ trễ nhỏ hơn một giây mở khóa những trải nghiệm mới.

Điều khiển giọng nói

Robot nói chuyện đáp ứng nhanh như một con người.

Lồng tiếng trực tiếp

Dịch và lồng tiếng một dòng thời gian thực mà không cần tạm dừng đệm.

Trò chơiName

NPC dialog phản ứng với lựa chọn của người chơi ngay lập tức, không có VO được tạo sẵn.

Tính truy cập

Các trình đọc màn hình và công cụ hỗ trợ bắt đầu nói ngay khi người dùng nhấn vào.

Kế hoạch TTS thời gian thực

Bắt đầu miễn phí, nâng cấp khi cần nhiều hơn

Tự do
  • Kokoro streaming (model miễn phí)
  • 500 ký tự mỗi thế hệ
  • 10 stream miễn phí/ngày cho mỗi người dùng ẩn danh
  • Độ trễ âm thanh đầu tiên dưới giây
  • Truyền SSE qua HTTPS
Nổi tiếng nhất
Tài khoản miễn phí
  • 15,000 ký tự khi đăng ký
  • 5000 ký tự mỗi dòng
  • Chìa khóa API cho truy cập bằng chương trình
  • Lịch sử tạo
  • Không giới hạn dòng mỗi ngày
Đăng ký miễn phí
Tốt
  • MOSS- TTS- Thời gian thực (khi trực tuyến)
  • 100. 000 ký tự mỗi dòng
  • Đang xếp hàng ưu tiên GPU
  • Đại diện giọng nói + tích hợp Twilio
  • Giới hạn tốc độ cao
Cập nhật

Câu hỏi thường gặp

Text- to- speech thời gian thực truyền các đoạn âm thanh khi chúng được tạo ra, thay vì chờ cho toàn bộ câu hoàn thành. Mẫu âm thanh đầu tiên đến trong chưa đầy một giây, làm cho nó phù hợp cho các nhân viên giọng nói trực tiếp, lồng tiếng, và các ứng dụng tương tác nơi mà độ trễ là vấn đề.

TTS thông thường tạo ra toàn bộ tập tin âm thanh trước khi trả về bất cứ thứ gì — bạn đợi, rồi nghe toàn bộ câu một lần. TTS thời gian thực dùng Sự kiện gửi từ máy chủ (SSE) để truyền các đoạn âm thanh ngắn khi mô hình tạo ra chúng. Người dùng nghe thấy đầu câu gần như ngay lập tức, ngay cả khi nhập nhiều.

Kokoro là phần mềm mặc định — nó tạo ra âm thanh nhanh hơn thời gian thực khoảng 100 lần trên một GPU hiện đại. Chúng tôi đang tích hợp MOSS-TTS-Realtime như một lựa chọn chất lượng cao hơn; người dùng sẽ có thể chọn theo yêu cầu khi nó được gửi.

Độ trễ âm thanh đầu tiên điển hình trên Kokoro là 300-800ms trên một kết nối công cộng. Đường đi vòng quanh mạng thống trị sau đó. Trang hiển thị thời gian đo đến âm thanh đầu tiên trong giao diện người dùng để bạn có thể thấy chính xác mỗi yêu cầu mất bao lâu.

Các đại diện giọng nói đáp ứng bằng cách nói chuyện, lồng tiếng trực tiếp cho truyền thông trực tuyến, NPC trò chơi tương tác, người đọc truy cập bắt đầu nói ngay khi người dùng nhấn nút, và bất kỳ ứng dụng nào chờ hai hoặc ba giây cho âm thanh sẽ cảm thấy chậm chạp.

Có. POST đến https://api.tts.ai/v1/tts/stream/ với cùng cơ thể như điểm kết thúc /v1/tts/ thông thường. Phản hồi là một dòng SSE của các mảnh WAV mã hóa base64. Tầng miễn phí hỗ trợ 10 thế hệ mỗi ngày cho mỗi người dùng ẩn danh; người dùng đã xác thực nhận được số ký tự cho phép đầy đủ cho mỗi tài khoản.

Kokoro sử dụng giọng nói được huấn luyện trước và không sao chép. MOSS- TTS- Realtime (khi tích hợp) hỗ trợ sao chép giọng nói không chụp từ một tham chiếu 3 giây. Để sao chép giọng nói đầy đủ ngày nay, hãy sử dụng trang /text-to-speech/ thông thường với Chatterbox hoặc GPT-SoVITS — chúng không có khả năng truyền nhưng tạo ra giọng nói tùy chỉnh.

Giá trị ký tự giống như điểm kết thúc TTS thông thường. Kokoro là cấp miễn phí (1x giá trị). MOSS- TTS- Realtime sẽ chạy ở cấp chuẩn (2x giá trị) khi bật. Giao thức truyền không thêm bất kỳ phí giá nào.

Có — kết nối điểm cuối truyền với một webhook giọng nói Twilio để cung cấp âm thanh trực tiếp vào một cuộc gọi điện thoại. Nền tảng đại diện giọng nói của chúng tôi đã làm điều này cho IVR và gọi ra. Thời gian chờ giữa hai đầu trong một cuộc gọi điện thoại thường là 1-2 giây bao gồm đáp ứng STT và LLM.

Nếu mạng của bạn bị mất một phần trong quá trình truyền, trình phát sẽ nhảy trước thay vì ngừng. Đối với các ứng dụng không thể chịu được khoảng trống, hãy quay lại điểm kết thúc không truyền thông thường, hoặc đệm 500ms âm thanh trước khi bắt đầu chơi.
5.0/5 (1)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Truyền giọng nói theo thời gian thựcName

Miễn phí trong 10 thế hệ đầu tiên mỗi ngày. Đăng ký để mở khóa toàn bộ số ký tự và truy cập API.