Report Bug / Feature Request

AI 음성 에이전트 - 대화형 AI 보조자 구축

맞춤형 퍼소나를 갖춘 지능형 음성 에이전트를 구축하고 고객 지원, 리셉션, 튜터링 등을 위해 배포합니다.

에이전트 빌더

에이전트의 역할, 성격, 지식 영역, 대화 규칙을 설명합니다.

설정

음성 에이전트 작동 방식

1. 당신은 말한다

에이전트와 자연스럽게 이야기하세요. 귀하의 발언이 실시간으로 캡처되고 스트리밍됩니다.

2. STT 기록

Whisper는 음성을 99개 언어로 정확하게 텍스트로 변환합니다.

3. LLM 프로세스

에이전트의 LLM 뇌는 자신의 퍼소나와 시스템 프롬프트를 사용하여 입력을 처리합니다.

4. TTS 응답

응답은 선택한 음성과 모델을 사용하여 자연스러운 음성으로 변환됩니다.

에이전트 종류

모든 산업 및 사용 사례를 위한 사전 구축된 에이전트 템플릿

고객 직면

교육 & 훈련

크리에이티브 & 엔터테인먼트

비즈니스 & 내부

개인

왜 음성 에이전트?

귀사의 요구에 맞게 확장되는 AI 기반 음성 에이전트

24/7 지원

보이스 에이전트는 절대 잠을 자지 않습니다. 직원을 투입하지 않고도 24시간 내내 통화와 대화를 처리할 수 있습니다.

다국어

자연스럽게 들리는 음성으로 30개 이상의 언어로 고객을 지원하세요. 다국어 직원이 필요 없습니다.

사용자 정의 페르소나

에이전트의 성격, 톤, 전문성을 정의합니다. 각 에이전트는 독특하고 브랜드에 맞는 느낌을 줍니다.

낮은 지연 시간

전용 GPU의 최적화된 STT, LLM 및 TTS 파이프라인을 통해 초 이내의 응답 시간을 제공합니다.

자주 묻는 질문

AI 음성 에이전트는 음성 인식(STT), 언어 모델(LLM), 텍스트 음성 변환(TTS)을 결합하여 자연스러운 음성 대화를 이끌어내는 대화형 AI 시스템입니다. 이 시스템은 가상 리셉션 직원이나 지원 에이전트처럼 질문에 답하고 지시를 따르며 작업을 자율적으로 완료할 수 있습니다.

음성 채팅은 AI를 사용한 일반적인 1:1 대화입니다. 에이전트는 특정 작업을 위해 맞춤형으로 구축되어 있으며, 정의된 캐릭터, 지식 기반, 워크플로우를 가지고 있습니다. 에이전트는 FAQ를 따르는 고객 서비스 봇일 수 있지만 음성 채팅은 개방형 대화입니다.

고객 서비스 봇, 전화 IVR 시스템, 가상 리셉션 직원, 튜터링 보조자, 영업 자격 봇, 약속 스케줄러, 대화형 스토리텔러, 치료 동반자, 언어 연습 파트너 등이 있습니다.

낮은 지연 시간 대화형 에이전트를 위해 Kokoro는 이상적입니다. 실시간 대화보다 거의 100배 빠른 속도로 음성을 생성합니다. 더 자연스러운 대화를 위해 Dia TTS는 다중 스피커 대화를 지원합니다. 음성 복제(브랜드 음성과 일치)를 위해 Chatterbox 또는 GPT-SoVITS를 사용합니다.

STT 파이프라인(Faster Whisper)은 99개 언어를 이해할 수 있도록 지원하며, CosyVoice 2 및 GPT-SoVITS와 같은 TTS 모델은 응답을 위해 8개 이상의 언어를 지원합니다. 발신자의 언어로 감지하고 응답하는 다국어 에이전트를 구축할 수 있습니다.

엔드 투 엔드 지연 시간(음성 입력 → 음성 출력)은 일반적으로 TTS의 경우 Kokoro, STT의 경우 Faster Whisper를 사용하여 1-3초입니다. 여기에는 STT 전사(~200ms), LLM 응답(~500ms-1s), TTS 합성(~200ms)이 포함됩니다.

예. 각 에이전트는 개성, 지식, 음색 및 행동 규칙을 정의하는 시스템 프롬프트를 가지고 있습니다. 프롬프트를 정식 또는 비정식으로 설정하고, 주제 경계를 설정하고, 에스컬레이션 규칙을 정의하고, 알 수 없는 질문을 처리하는 방법을 제어할 수 있습니다.

음성 인식을 위해 STT API, 인텔리전스를 위해 LLM API, 음성 출력을 위해 TTS API를 사용할 수 있습니다. OpenAI 호환 엔드포인트를 통해 간편하게 통합할 수 있습니다. Pro 및 Enterprise 플랜에는 API 액세스가 포함되어 있습니다.

음성 에이전트 API를 Twilio, Vonage 또는 Plivo와 같은 전화 플랫폼에 연결하여 전화 기반 IVR 시스템, 아웃바운드 콜 봇, 연중무휴 24시간 통화를 처리하는 가상 리셉션 직원을 구축할 수 있습니다.

에이전트 비용은 사용된 모델에 따라 다릅니다. 무료 계층 모델(Kokoro, Piper)은 TTS에 대해 0자의 비용이 듭니다. STT는 분당 1,000자입니다. LLM 비용은 제공업체에 따라 다릅니다. 스타터 플랜(월 9달러)에는 500,000자가 포함되어 있으며, 수백 명의 에이전트 상호 작용에 충분합니다.

음성 복제 기능을 사용하여 짧은 오디오 샘플(최소 5초)에서 사용자 지정 음성을 만들 수 있습니다. Chatterbox 및 GPT-SoVITS와 같은 모델은 일관된 에이전트 경험을 위해 사용자의 음성 또는 브랜드 음성을 복제할 수 있습니다.

모든 처리는 전용 GPU 서버에서 이루어집니다. 처리 후 대화 기록이나 오디오는 저장되지 않으며 데이터는 제3자와 공유되거나 교육에 사용되지 않습니다. 엔터프라이즈 플랜은 추가 데이터 격리 옵션을 제공합니다.
5.0/5 (1)

개선할 수 있는 점은 무엇입니까? 고객님의 피드백이 문제를 해결하는 데 도움이 됩니다.

첫 번째 음성 에이전트 구축

몇 분 안에 지능형 음성 에이전트를 만들어 보세요. 무료로 가입하고 50 크레딧을 받아 구축을 시작하세요.