Report Bug / Feature Request

AI Voice Agents - Xây dựng trợ lý AI nói chuyện

Xây dựng nhân viên giọng nói thông minh với nhân vật tùy chỉnh. Thiết lập cho hỗ trợ khách hàng, tiếp khách, hướng dẫn và nhiều hơn nữa.

Nhà xây dựng đại diện

Mô tả vai trò của nhân viên, tính cách, lĩnh vực kiến thức, và các quy tắc trò chuyện.

Thiết lập

Cách làm việc của các nhân viên giọng nói

1. Anh nói đi

Nói chuyện với nhân viên của bạn một cách tự nhiên, lời nói của bạn sẽ được ghi lại và truyền trực tiếp.

2. STT Transcribes

Whisper chuyển đổi giọng nói của bạn thành văn bản chính xác trên 99 ngôn ngữ.

3. LLM Processes

Não LLM của đặc vụ xử lý thông tin của anh bằng cách sử dụng nhân vật và hệ thống.

4. Trả lời TTS

Phản ứng được chuyển đổi thành giọng nói tự nhiên sử dụng giọng nói và mô hình bạn chọn.

Kiểu đại diện

Các mẫu nhân viên được xây dựng sẵn cho mọi ngành công nghiệp và trường hợp sử dụng

Đối diện khách hàng

Giáo dục và đào tạo

Sáng tạo và giải trí

Kinh doanh & nội bộ

Cá nhân

Tại sao lại là Voice Agents?

Các nhân viên giọng nói được hỗ trợ AI, có thể tăng trưởng theo nhu cầu của bạn

Sẵn sàng 24/7

Các nhân viên giọng nói không bao giờ ngủ, xử lý cuộc gọi và cuộc trò chuyện 24/24 mà không cần nhân viên phụ.

Nhiều ngữ

Hỗ trợ khách hàng bằng hơn 30 ngôn ngữ với giọng nói tự nhiên. Không cần nhân viên đa ngôn ngữ.

Người dùng tùy chỉnh

Định nghĩa tính cách, giọng nói và chuyên môn của nhân viên của bạn.

Độ trễ thấp

Thời gian đáp ứng dưới giây được cung cấp bởi các đường ống tối ưu hóa STT, LLM và TTS trên GPU chuyên dụng.

Câu hỏi thường gặp

Các nhân viên giọng nói AI là các hệ thống AI hội thoại kết hợp nhận dạng giọng nói (STT), một mô hình ngôn ngữ (LLM) và văn bản-để-nói (TTS) để tổ chức các cuộc trò chuyện giọng nói tự nhiên.

Truyền thoại bằng giọng nói là một cuộc trò chuyện 1: 1 với AI. Các đại diện được xây dựng với mục đích cho các nhiệm vụ cụ thể — họ có một nhân vật, cơ sở kiến thức và luồng công việc được định nghĩa. Một đại diện có thể là một robot phục vụ khách hàng theo FAQ của bạn, trong khi truyền thoại bằng giọng nói là cuộc trò chuyện mở.

Robot phục vụ khách hàng, hệ thống IVR điện thoại, nhân viên tiếp tân ảo, trợ lý dạy kèm, robot chứng chỉ bán hàng, lập lịch hẹn, kể chuyện tương tác, bạn trị liệu, đối tác thực hành ngôn ngữ và nhiều hơn nữa.

Đối với các nhân viên trò chuyện có độ trễ thấp, Kokoro là lý tưởng — nó tạo ra giọng nói nhanh hơn gần 100 lần so với thời gian thực. Đối với các đối thoại tự nhiên hơn, Dia TTS hỗ trợ trò chuyện nhiều người nói. Đối với sao chép giọng nói (đồng nhất với giọng nói của thương hiệu), dùng Chatterbox hoặc GPT- SoVITS.

Có. Đường ống STT (Faster Whisper) hỗ trợ 99 ngôn ngữ để hiểu, và các mô hình TTS như CosyVoice 2 và GPT- SoVITS hỗ trợ 8+ ngôn ngữ để đáp ứng. Bạn có thể xây dựng các nhân viên đa ngôn ngữ để phát hiện và đáp ứng bằng ngôn ngữ của người gọi.

Độ trễ từ đầu đến cuối (tiếng nói vào → tiếng nói ra) thường là 1-3 giây sử dụng Kokoro cho TTS và Faster Whisper cho STT. Điều này bao gồm phiên dịch STT (~200ms), phản ứng LLM (~500ms-1s), và tổng hợp TTS (~200ms).

Có. Mỗi nhân viên có một lời nhắc hệ thống xác định tính cách, kiến thức, giọng nói và quy tắc hành vi của họ. Bạn có thể làm cho nó chính thức hoặc ngẫu nhiên, đặt ranh giới chủ đề, xác định quy tắc tăng cấp, và kiểm soát cách nó xử lý các câu hỏi không rõ.

Có. Dùng STT API của chúng tôi để nhận dạng giọng nói, bất kỳ LLM API nào để thông minh, và TTS API của chúng tôi để xuất giọng nói. Các điểm cuối tương thích OpenAI của chúng tôi làm cho việc tích hợp dễ dàng. Các kế hoạch Pro và Enterprise bao gồm truy cập API.

Kết nối API đại diện giọng nói của chúng tôi với các nền tảng điện thoại như Twilio, Vonage, hoặc Plivo để xây dựng hệ thống IVR dựa trên điện thoại, robot gọi ra, và nhân viên tiếp tân ảo xử lý cuộc gọi 24/7.

Chi phí của nhân viên phụ thuộc vào các mô hình được sử dụng. Các mô hình miễn phí (Kokoro, Piper) có chi phí 0 ký tự cho TTS. STT là 1. 000 ký tự mỗi phút. Chi phí LLM phụ thuộc vào nhà cung cấp của bạn. Kế hoạch khởi đầu ($9/ tháng) bao gồm 500. 000 ký tự, đủ cho hàng trăm tương tác nhân viên.

Có. Dùng tính năng sao chép giọng nói của chúng tôi để tạo một giọng nói tùy chỉnh từ một mẫu âm thanh ngắn (chỉ 5 giây). Các mô hình như Chatterbox và GPT- SoVITS có thể sao chép giọng nói của bạn hoặc bất kỳ giọng nói thương hiệu nào cho một trải nghiệm nhân viên nhất quán.

Có. Tất cả xử lý diễn ra trên máy chủ GPU chuyên dụng của chúng tôi. Chúng tôi không lưu trữ bản ghi cuộc nói chuyện hoặc âm thanh sau khi xử lý. Không có dữ liệu được chia sẻ với bên thứ ba hoặc được sử dụng để huấn luyện. Các kế hoạch doanh nghiệp cung cấp các tùy chọn tách dữ liệu bổ sung.
5.0/5 (1)

Chúng tôi có thể cải thiện gì? phản hồi của bạn giúp chúng tôi khắc phục vấn đề.

Tạo nhân viên giọng nói đầu tiên của bạn

Tạo nhân viên giọng nói thông minh trong vài phút. Đăng ký miễn phí và nhận 50 điểm để bắt đầu xây dựng.