Báo cáo lỗi / yêu cầu tính năng

TTS thời gian thực

Truyền văn bản thành lời nói với thời gian chờ âm thanh đầu tiên dưới giây. Được xây dựng cho các ứng dụng giọng nói và trực tiếp.

đăng ký miễn phí

Văn bản

Truyền

0/5,000 chữ cái ~0.3s âm thanh đầu tiên

Thiết lập & giọng nói

Mô hình Chỉ có các mẫu có khả năng truyền tải.

Giọng nói

Tốc độ 1.0x

Độ trễ trực tiếp

—

Nhấn Stream để đo độ trễ âm thanh đầu tiên

Xuất

Các đoạn âm thanh sẽ được chơi ở đây khi chúng được truyền vào.

TTS chạy như thế nào

1. Gửi văn bản

POST text to /v1/tts/stream/ như một yêu cầu Server-Sent Events.

2. Mô hình tạo ra

Kokoro chia nhỏ văn bản và tạo ra âm thanh mẫu-bằng-mẫu trên GPU.

3. Các đoạn dòng

Các đoạn WAV mã hóa Base64 đến qua SSE và bắt đầu chơi ngay lập tức.

4. Lắng nghe trực tiếp

Người dùng nghe thấy bắt đầu của câu trong chưa đến một giây, ngay cả trên các đầu vào dài.

Tình huống sử dụng

Khi độ trễ nhỏ hơn một giây mở khóa những trải nghiệm mới.

Điều khiển giọng nói

Robot nói chuyện đáp ứng nhanh như một con người.

Lồng tiếng trực tiếp

Dịch và lồng tiếng một dòng thời gian thực mà không cần tạm dừng đệm.

Trò chơiName

NPC dialog phản ứng với lựa chọn của người chơi ngay lập tức, không có VO được tạo sẵn.

Tính truy cập

Các trình đọc màn hình và công cụ hỗ trợ bắt đầu nói ngay khi người dùng nhấn vào.

Kế hoạch TTS thời gian thực

Bắt đầu miễn phí, nâng cấp khi cần nhiều hơn

Tự do

Kokoro streaming (model miễn phí)
500 ký tự mỗi thế hệ
10 stream miễn phí/ngày cho mỗi người dùng ẩn danh
Độ trễ âm thanh đầu tiên dưới giây
Truyền SSE qua HTTPS

Nổi tiếng nhất

Tài khoản miễn phí

15,000 ký tự khi đăng ký
5000 ký tự mỗi dòng
Chìa khóa API cho truy cập bằng chương trình
Lịch sử tạo
Không giới hạn dòng mỗi ngày

Đăng ký miễn phí

Tốt

MOSS- TTS- Thời gian thực (khi trực tuyến)
100. 000 ký tự mỗi dòng
Đang xếp hàng ưu tiên GPU
Đại diện giọng nói + tích hợp Twilio
Giới hạn tốc độ cao

Cập nhật

Câu hỏi thường gặp

Text- to- speech thời gian thực truyền các đoạn âm thanh khi chúng được tạo ra, thay vì chờ cho toàn bộ câu hoàn thành. Mẫu âm thanh đầu tiên đến trong chưa đầy một giây, làm cho nó phù hợp cho các nhân viên giọng nói trực tiếp, lồng tiếng, và các ứng dụng tương tác nơi mà độ trễ là vấn đề.

TTS thông thường tạo ra toàn bộ tập tin âm thanh trước khi trả về bất cứ thứ gì — bạn đợi, rồi nghe toàn bộ câu một lần. TTS thời gian thực dùng Sự kiện gửi từ máy chủ (SSE) để truyền các đoạn âm thanh ngắn khi mô hình tạo ra chúng. Người dùng nghe thấy đầu câu gần như ngay lập tức, ngay cả khi nhập nhiều.

Kokoro là phần mềm mặc định — nó tạo ra âm thanh nhanh hơn thời gian thực khoảng 100 lần trên một GPU hiện đại. Chúng tôi đang tích hợp MOSS-TTS-Realtime như một lựa chọn chất lượng cao hơn; người dùng sẽ có thể chọn theo yêu cầu khi nó được gửi.

Độ trễ âm thanh đầu tiên điển hình trên Kokoro là 300-800ms trên một kết nối công cộng. Đường đi vòng quanh mạng thống trị sau đó. Trang hiển thị thời gian đo đến âm thanh đầu tiên trong giao diện người dùng để bạn có thể thấy chính xác mỗi yêu cầu mất bao lâu.

Các đại diện giọng nói đáp ứng bằng cách nói chuyện, lồng tiếng trực tiếp cho truyền thông trực tuyến, NPC trò chơi tương tác, người đọc truy cập bắt đầu nói ngay khi người dùng nhấn nút, và bất kỳ ứng dụng nào chờ hai hoặc ba giây cho âm thanh sẽ cảm thấy chậm chạp.

Có. POST đến https://api.tts.ai/v1/tts/stream/ với cùng cơ thể như điểm kết thúc /v1/tts/ thông thường. Phản hồi là một dòng SSE của các mảnh WAV mã hóa base64. Tầng miễn phí hỗ trợ 10 thế hệ mỗi ngày cho mỗi người dùng ẩn danh; người dùng đã xác thực nhận được số ký tự cho phép đầy đủ cho mỗi tài khoản.

Kokoro sử dụng giọng nói được huấn luyện trước và không sao chép. MOSS- TTS- Realtime (khi tích hợp) hỗ trợ sao chép giọng nói không chụp từ một tham chiếu 3 giây. Để sao chép giọng nói đầy đủ ngày nay, hãy sử dụng trang /text-to-speech/ thông thường với Chatterbox hoặc GPT-SoVITS — chúng không có khả năng truyền nhưng tạo ra giọng nói tùy chỉnh.

Giá trị ký tự giống như điểm kết thúc TTS thông thường. Kokoro là cấp miễn phí (1x giá trị). MOSS- TTS- Realtime sẽ chạy ở cấp chuẩn (2x giá trị) khi bật. Giao thức truyền không thêm bất kỳ phí giá nào.

Có — kết nối điểm cuối truyền với một webhook giọng nói Twilio để cung cấp âm thanh trực tiếp vào một cuộc gọi điện thoại. Nền tảng đại diện giọng nói của chúng tôi đã làm điều này cho IVR và gọi ra. Thời gian chờ giữa hai đầu trong một cuộc gọi điện thoại thường là 1-2 giây bao gồm đáp ứng STT và LLM.

Nếu mạng của bạn bị mất một phần trong quá trình truyền, trình phát sẽ nhảy trước thay vì ngừng. Đối với các ứng dụng không thể chịu được khoảng trống, hãy quay lại điểm kết thúc không truyền thông thường, hoặc đệm 500ms âm thanh trước khi bắt đầu chơi.

5.0/5 (1)

Truyền giọng nói theo thời gian thựcName

Miễn phí trong 10 thế hệ đầu tiên mỗi ngày. Đăng ký để mở khóa toàn bộ số ký tự và truy cập API.

đăng ký miễn phí Xem giá

TTS thời gian thực

Văn bản

Thiết lập & giọng nói

Độ trễ trực tiếp

Xuất

TTS chạy như thế nào

1. Gửi văn bản

2. Mô hình tạo ra

3. Các đoạn dòng

4. Lắng nghe trực tiếp

Tình huống sử dụng

Điều khiển giọng nói

Lồng tiếng trực tiếp

Trò chơiName

Tính truy cập

Kế hoạch TTS thời gian thực

Câu hỏi thường gặp

TTS thời gian thực là gì?

TTS thời gian thực khác với TTS thông thường như thế nào?

Mô hình nào cung cấp trang thời gian thực?

Tốc độ của âm thanh đầu tiên là bao nhiêu?

Tôi có thể xây dựng gì với TTS thời gian thực?

Có một API cho TTS thời gian thực không?

Nó có hỗ trợ sao chép giọng nói không?

TTS thời gian thực tốn bao nhiêu?

Tôi có thể dùng nó để gọi điện không?

Tại sao âm thanh đôi khi bị cắt giữa lời nói?

Truyền giọng nói theo thời gian thựcName