개발자를 위한 텍스트 음성 API

REST API를 사용하여 음성 기반 애플리케이션을 구축합니다. 앱, 채팅 봇, 음성 지원 및 SaaS 제품에 자연스러운 텍스트-음성, 음성 복제, 음성-텍스트 및 오디오 처리를 추가합니다. OpenAI 호환 형식, 20개 이상의 모델, 간단한 통합.

REST API 채팅봇 음성 응용 프로그램 SaaS 제품 보기 자동화

지금 시도해 보세요

Kokoro, 파이퍼, VITS, MeloTTS와 무료
생성된 오디오가 여기에 나타납니다
생성됨
다운로드
TTS.ai가 마음에 드시나요? 친구들에게 알려주세요!

개발자를 위한 API 기능

음성 지원 애플리케이션을 구축하는 데 필요한 모든 것

간단한 REST API

한 번의 POST 요청으로 음성을 생성합니다. JSON 요청, 오디오 응답. HTTP를 지원하는 모든 프로그래밍 언어에서 작동합니다.

OpenAI 호환

기존 코드가 즉시 작동하도록 base_url과 API 키를 전환합니다.

사용 가능한 24+ 모델

단일 API를 통해 모든 모델에 액세스하세요. 하나의 매개변수를 변경하여 모델을 전환하세요. 품질, 속도, 비용을 비교하세요.

서브- 초 지연

Kokoro는 1초 이내에 오디오를 생성하므로 실시간 채팅봇, 음성 지원 및 대화형 애플리케이션에 완벽합니다.

음성 복제 API

API를 통해 짧은 오디오 샘플에서 어떤 목소리든 복제할 수 있습니다. 복제된 목소리를 모든 후속 세대에 사용할 수 있습니다.

여러 형식

WAV, MP3, OGG 또는 FLAC로 출력. 샘플 레이트와 비트 깊이를 선택하세요. 실시간 앱을 위한 스트리밍 오디오 지원.

개발자 통합을 위한 최고의 모델

애플리케이션의 속도, 품질 및 비용 요구 사항에 맞는 모델 선택

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

최적의 용도: 가장 빠른 모델 — 초 이하의 지연 시간, 실시간 앱 및 채팅 봇에 이상적

시도해 보기 Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 음성 복제

최적의 용도: 음성 지원 애플리케이션을 위한 음성 복제 기능이 있는 TTS 스트리밍

시도해 보기 CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

최적의 용도: 채팅봇 및 보조 음성을 위한 자연스러운 타이밍을 갖춘 대화형 AI

시도해 보기 Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

최적의 용도: 비용 없이 대용량 애플리케이션을 위한 무료 CPU 전용 모델

시도해 보기 Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

최적의 용도: 크리에이티브 및 엔터테인먼트 애플리케이션을 위한 사운드 효과가 있는 오디오 생성

시도해 보기 Bark

TTS API를 통합하는 방법

가입부터 첫 번째 API 호출까지 5분 이내

1

API 키 가져오기

무료로 가입하고 계정 대시보드에서 API 키를 생성하세요. 15,000자 포함.

2

첫번째 전화를 걸기

/v1/tts에 텍스트, 모델, 음성을 POST합니다. 오디오 바이트를 가져옵니다. 5줄의 코드로.

3

모델을 선택하세요

사용 사례에 맞는 다양한 모델을 테스트합니다. 속도, 품질 및 세대당 비용을 비교합니다.

4

생산에 배송

사용량 기반 요금제로 확장 가능합니다. 유료 플랜에 속도 제한이 없습니다. 대시보드에서 사용량을 모니터링합니다.

빠른 시작 코드 예제

REST API로 모든 언어로 TTS.ai 통합

Python 인기
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL 보편적
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI 호환 포맷 드롭인
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

개발자가 TTS.ai으로 구축하는 것

일반적인 통합 패턴 및 애플리케이션

AI 채팅봇 및 어시스턴트

채팅 봇 또는 AI 어시스턴트에 음성 출력을 추가합니다. 음성 인터페이스를 위한 TTS를 통해 LLM 응답을 파이프로 전송합니다. Kokoro는 실시간 대화를 위해 초 이하의 지연 시간을 제공합니다.

  • 음성 파이프라인에 대한 LLM 응답
  • Kokoro로 초 이하의 지연 시간
  • 참깨 CSM과 대화 연설
  • 스트리밍 오디오 출력

모바일 및 음성 앱

음성 지원 모바일 앱, 접근성 도구, 독서 앱, 언어 학습 플랫폼을 구축하세요. REST API는 모든 모바일 프레임워크에서 작동하며 오디오 파일을 다운로드하거나 클라이언트로 직접 스트리밍할 수 있습니다.

  • React Native, 플러터, 스위프트, Kotlin
  • 손쉬운 사용 및 읽기 앱
  • 언어학습 플랫폼
  • 오디오 콘텐츠 생성

SaaS 제품 목록

SaaS 제품의 화이트 라벨 음성 기능. 플랫폼에 TTS, STT, 음성 복제, 오디오 처리 기능을 추가하세요. GPU 인프라를 관리하지 않고도 API를 음성 백엔드로 사용할 수 있습니다.

  • 화이트 라벨 음성 기능
  • GPU 인프라 필요 없음
  • 사용당 요금제
  • 사용자에게 제공하는 20+ 모델

자동화 파이프라인

음성 생성을 CI/CD 파이프라인, 콘텐츠 자동화 및 일괄 처리 워크플로우에 통합합니다. 스프레드시트 데이터에서 수천 개의 오디오 파일을 생성하고, 팟캐스트 제작을 자동화하거나, 콘텐츠 현지화 파이프라인을 구축합니다.

  • API를 통한 일괄 처리
  • 콘텐츠 현지화 파이프라인
  • CI/CD 통합
  • 스프레드시트에서 오디오 자동화로

API 사양

생산 애플리케이션을 위해 제작

20+

TTS 모델

100+

목소리

30+

언어

<1s

지연 시간 (Kokoro)

자주 묻는 질문

TTS.ai 개발자 API에 대한 일반적인 질문

예. 우리의 API는 OpenAI 오디오 음성 형식을 따릅니다. OpenAI Python 또는 JavaScript 클라이언트 라이브러리를 사용하고 있다면 base_url 및 api_key 매개 변수를 변경하여 TTS.ai으로 전환할 수 있습니다. 기존 코드는 수정 없이 작동합니다.

Kokoro는 일반 문장을 1초 이내에 오디오로 생성합니다. CosyVoice 2는 스트리밍 출력을 지원하여 인식 지연 시간을 더욱 낮추고 있습니다. 채팅봇과 음성 지원자의 경우 텍스트 길이와 모델 선택에 따라 총 왕복 시간은 일반적으로 1-3초입니다.

무료 모델 (Kokoro, Piper, VITS, MeloTTS)은 완전히 무료입니다. 표준 모델은 텍스트 1K 당 2x 문자를 사용합니다. 프리미엄 모델은 텍스트 1K 당 4x 문자를 사용합니다. 15,000 문자로 무료로 등록하십시오. 플랜은 500,000 문자에 대해 월 $ 9부터 시작합니다.

예. 참조 오디오 샘플(5-30초)을 음성 복제 엔드포인트에 업로드한 다음 복제된 음성 ID를 이후 TTS 요청에 사용합니다. 복제를 지원하는 모델에는 CosyVoice 2, Chatterbox, Fish Speech 및 GPT-SoVITS가 있습니다.

무료 계층에는 기본 속도 제한(계정 없이 시간당 3건의 요청)이 있으며 유료 계층에는 생산 애플리케이션에 적합한 넓은 속도 제한이 있습니다. 엔터프라이즈 수준의 처리량 요구 사항에 대해 문의하십시오.

WAV (비압축, 최고 품질), MP3 (압축, 작은 파일), OGG (오픈 포맷), FLAC (무손실 압축). 요청에 포맷을 지정하십시오. 기본값은 모델의 네이티브 샘플 레이트의 WAV입니다.

TTS API를 음성-텍스트 모델 및 LLM과 결합하여 완벽한 음성 지원 파이프라인을 구축할 수 있습니다. Kokoro는 실시간 대화에 적합한 초 이하의 지연 시간을 제공합니다. CosyVoice 2는 스트리밍 출력을 지원하여 인식 응답 시간을 더욱 줄일 수 있습니다.

CosyVoice 2와 Kokoro는 오디오 덩어리가 생성되는 대로 전송되는 스트리밍 오디오 출력을 지원합니다. 이는 음성 지원 및 대화형 경험과 같은 실시간 애플리케이션의 첫 바이트까지의 시간을 단축시킵니다.

API는 표준 HTTP 상태 코드를 반환합니다. 5xx 오류 및 속도 제한 응답에 대한 지수적 백오프를 구현합니다. 미션 크리티컬 애플리케이션의 경우 재시도 논리가 있는 대기열을 추가합니다.

예. /v1/voices 및 /v1/models 엔드포인트는 메타데이터(언어 지원, 품질 등급, 속도 등급, 가격 계층)와 함께 사용 가능한 모든 음성 및 모델의 JSON 목록을 반환합니다. 이를 사용하여 애플리케이션에서 동적 모델 선택기를 구축할 수 있습니다.

무료 모델(Kokoro, Piper, VITS, MeloTTS)은 크레딧이 없기 때문에 효과적인 샌드박스 역할을 합니다. 무료 모델로 통합을 테스트한 다음 모델 매개 변수를 변경하여 프로덕션에서 프리미엄 모델로 전환하십시오. 별도의 테스트 환경이 필요하지 않습니다.

대부분의 모델은 오픈 소스이며 셀프 호스팅이 가능합니다. 그러나 셀프 호스팅에는 상당한 GPU 리소스가 필요합니다(NVIDIA Tesla P40 4x, 총 96GB VRAM 사용). API는 인프라 관리 없이 비용 효율적인 대안을 제공합니다.
5.0/5 (1)

개선할 수 있는 점은 무엇입니까? 고객님의 피드백이 문제를 해결하는 데 도움이 됩니다.

음성 AI로 구축할 준비가 되셨습니까?

무료 API 키를 받고 빌드를 시작하세요. 가입 시 15 크레딧, 무료 모델 사용 가능, 포괄적인 문서.