실시간 TTS

초 이내의 첫 번째 오디오 지연 시간으로 텍스트-음성 스트리밍. 음성 에이전트 및 라이브 애플리케이션을 위해 제작되었습니다.

텍스트

스트리밍
0/5,000 문자 ~0.3s 첫 번째 오디오

음성 설정( S)

스트리밍 지원 모델만 해당.

라이브 지연 시간

스트림을 클릭하여 첫 번째 오디오 지연 시간 측정

출력

오디오 덩어리는 스트림에 따라 여기에서 재생됩니다.

0:00
첫 번째 덩어리:
총 덩어리: 0
총 시간:

스트리밍 TTS 작동 방법

1. 텍스트 보내기

서버-보낸 이벤트 요청으로 /v1/tts/stream/ 에 POST 텍스트를 보냅니다.

2. 모델 생성

Kokoro는 텍스트를 쪼개고 GPU에서 샘플별로 오디오를 생성합니다.

3. 스트림 덩어리

Base64 인코딩 WAV 덩어리는 SSE를 통해 도착하고 즉시 재생을 시작합니다.

4. 라이브 듣기

사용자는 긴 입력에도 불구하고 초 이내에 문장의 시작을 듣습니다.

사용 사례

초 이하의 지연 시간으로 새로운 경험을 열어 줍니다.

음성 에이전트

인간처럼 빠르게 응답하는 대화형 봇.

라이브 더빙

버퍼링 일시 정지 없이 실시간으로 스트림을 번역하고 더빙합니다.

게임

플레이어의 선택에 즉시 반응하는 NPC 대화, 사전 렌더링 VO 없음.

접근성

사용자가 클릭하는 순간 말하기를 시작하는 화면 리더 및 보조 도구.

실시간 TTS 계획

무료로 시작하고 필요할 때 업그레이드하세요

자유
  • Kokoro 스트리밍 (무료 모델)
  • 세대당 500자
  • 익명 사용자당 하루 10개의 무료 스트림
  • 초 이하의 첫 번째 오디오 지연 시간
  • HTTPS를 통한 SSE 스트리밍
가장 인기 있는
무료 계정
  • 가입 시 15,000자
  • 스트림당 5,000자
  • 프로그래밍 액세스를 위한 API 키
  • 1 세대 역사
  • 일일 스트림 제한 없음
무료로 가입하세요
프로
  • MOSS-TTS-Realtime (라이브 시)
  • 스트림당 100,000자
  • 우선순위 GPU 큐
  • 음성 에이전트 + Twilio 통합
  • 더 높은 속도 제한
업그레이드

자주 묻는 질문

실시간 텍스트 음성 변환은 전체 문장이 완성될 때까지 기다리는 대신 생성되는 대로 오디오 덩어리를 스트리밍합니다. 첫 번째 오디오 샘플이 1초 이내에 도착하므로 지연 시간이 중요한 라이브 음성 에이전트, 더빙 및 대화형 애플리케이션에 적합합니다.

일반 TTS는 완전한 오디오 파일을 생성한 다음에 뭔가를 반환합니다. 기다린 후에 한 번에 문장 전체를 듣게 됩니다. 실시간 TTS는 SSE(서버 전송 이벤트)를 사용하여 모델이 생성하는 짧은 오디오 덩어리를 스트리밍합니다. 사용자는 긴 입력에도 문장의 시작 부분을 거의 즉시 듣게 됩니다.

Kokoro는 기본 백엔드로 현대 GPU에서 실시간보다 약 100배 빠른 속도로 오디오를 생성합니다. 우리는 MOSS-TTS-Realtime을 더 높은 품질의 대안으로 통합하고 있습니다. 사용자는 이것이 출시되면 요청에 따라 선택할 수 있습니다.

Kokoro의 일반적인 첫 번째 오디오 지연 시간은 공용 연결에서 300-800ms입니다. 그 이후에는 네트워크 왕복이 지배적입니다. 페이지는 UI에서 실시간으로 측정된 첫 번째 오디오까지의 시간을 표시하므로 각 요청이 얼마나 걸렸는지 정확히 볼 수 있습니다.

대화로 응답하는 음성 에이전트, 스트리밍 미디어를 위한 라이브 더빙, 대화형 게임 NPC, 사용자가 클릭하는 순간 말하기 시작하는 접근성 리더, 오디오를 위해 2~3초를 기다리는 것이 느리게 느껴지는 모든 애플리케이션.

예. 일반 /v1/tts/ 엔드포인트와 동일한 본문을 사용하여 https://api.tts.ai/v1/tts/stream/ 로 POST합니다. 응답은 base64 인코딩된 WAV 덩어리의 SSE 스트림입니다. 무료 계층은 익명 사용자당 하루 10개의 생성을 지원하며 인증된 사용자는 계정당 전체 문자 허용량을 받습니다.

Kokoro는 사전 훈련된 음성을 사용하고 복제하지 않습니다. MOSS-TTS-Realtime (통합되면) 3초 참조에서 제로 샷 음성 복제를 지원합니다. 오늘날 완전한 음성 복제를 위해서는 Chatterbox 또는 GPT-SoVITS와 함께 일반적인 /text-to-speech/ 페이지를 사용합니다.

일반 TTS 엔드포인트와 동일한 문자 비용. Kokoro는 무료 계층(1x 비용). MOSS-TTS-Realtime은 활성화되면 표준 계층(2x 비용)에서 실행됩니다. 스트리밍 프로토콜은 가격 추가 요금을 부과하지 않습니다.

네, 스트리밍 엔드포인트와 Twilio 음성 웹훅을 페어링하여 전화 통화에 라이브 오디오를 공급할 수 있습니다. 당사의 음성 에이전트 플랫폼은 이미 IVR 및 아웃바운드 통화에 대해 이를 수행합니다. 전화 통화의 엔드투엔드 지연 시간은 일반적으로 STT 및 LLM 응답을 포함하여 1-2초입니다.

네트워크가 전송 중에 덩어리를 잃는 경우 스트리밍 플레이어가 정지되지 않고 앞으로 건너뜁니다. 간격을 용납할 수 없는 애플리케이션의 경우 일반 비스트리밍 엔드포인트로 돌아가거나 재생을 시작하기 전에 500ms의 오디오를 버퍼링합니다.
5.0/5 (1)

개선할 수 있는 점은 무엇입니까? 고객님의 피드백이 문제를 해결하는 데 도움이 됩니다.

실시간으로 음성 스트리밍

하루 첫 10세대 무료. 가입하여 전체 문자 허용량과 API 액세스를 잠금 해제하십시오.