실시간 TTS
초 이내의 첫 번째 오디오 지연 시간으로 텍스트-음성 스트리밍. 음성 에이전트 및 라이브 애플리케이션을 위해 제작되었습니다.
스트리밍 TTS 작동 방법
1. 텍스트 보내기
서버-보낸 이벤트 요청으로 /v1/tts/stream/ 에 POST 텍스트를 보냅니다.
2. 모델 생성
Kokoro는 텍스트를 쪼개고 GPU에서 샘플별로 오디오를 생성합니다.
3. 스트림 덩어리
Base64 인코딩 WAV 덩어리는 SSE를 통해 도착하고 즉시 재생을 시작합니다.
4. 라이브 듣기
사용자는 긴 입력에도 불구하고 초 이내에 문장의 시작을 듣습니다.
사용 사례
초 이하의 지연 시간으로 새로운 경험을 열어 줍니다.
음성 에이전트
인간처럼 빠르게 응답하는 대화형 봇.
라이브 더빙
버퍼링 일시 정지 없이 실시간으로 스트림을 번역하고 더빙합니다.
게임
플레이어의 선택에 즉시 반응하는 NPC 대화, 사전 렌더링 VO 없음.
접근성
사용자가 클릭하는 순간 말하기를 시작하는 화면 리더 및 보조 도구.
실시간 TTS 계획
무료로 시작하고 필요할 때 업그레이드하세요
자주 묻는 질문
개선할 수 있는 점은 무엇입니까? 고객님의 피드백이 문제를 해결하는 데 도움이 됩니다.