자유 AI 텍스트에서 음성으로Name

22개 이상의 오픈 소스 모델, 100개 이상의 음성, 32+ 계정이 필요하지 않습니다.

0/500 문자 자유
신용카드 없음 50 무료 크레딧 32+ 언어 상업적 사용 OK
0:00 / 0:00
오디오 다운로드 링크는 24시간 이내에 만료됩니다.
TTS.ai 처럼? 친구에게 말해!

음성 AI에 필요한 모든 것

24개 이상의 오픈 소스 AI 모델을 기반으로 한 26개의 도구

22+ AI 음성 모델

하나의 플랫폼에서 가장 포괄적인 오픈 소스 TTS 모델 컬렉션

KokoroKokoro Free

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

가장 적합한 곳: High-quality TTS with minimal latency, streaming applications

무료로 사용해 보기

PiperPiper Free

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

가장 적합한 곳: Quick previews, accessibility, and embedded applications

무료로 사용해 보기

VITSVITS Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

가장 적합한 곳: General-purpose text-to-speech with natural prosody

무료로 사용해 보기

MeloTTSMeloTTS Free

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

가장 적합한 곳: 빠른 다국어 TTS가 필요한 프로덕션 애플리케이션

무료로 사용해 보기

BarkBark Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

개발자: Suno · 라이선스: MIT

시도해 보세요

Bark SmallBark Small Standard

Lighter version of Bark with faster inference and lower memory usage.

개발자: Suno · 라이선스: MIT

시도해 보세요

CosyVoice 2CosyVoice 2 Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

개발자: Alibaba (Tongyi Lab) · 라이선스: Apache 2.0

시도해 보세요

Dia TTSDia TTS Standard

스피커 간의 자연스러운 대화를 생성하는 다중 스피커 대화 생성 모델.

개발자: Nari Labs · 라이선스: Apache 2.0

시도해 보세요

Parler TTSParler TTS Standard

Describe the voice you want in natural language and Parler generates matching speech.

개발자: Hugging Face · 라이선스: Apache 2.0

시도해 보세요

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

개발자: Index Team · 라이선스: Apache 2.0

시도해 보세요

Spark TTSSpark TTS Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

개발자: SparkAudio · 라이선스: Apache 2.0

시도해 보세요

GPT-SoVITSGPT-SoVITS Standard

Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.

개발자: RVC-Boss · 라이선스: MIT

시도해 보세요

OrpheusOrpheus Standard

Human-level emotional TTS model trained on 100K hours of speech data.

개발자: Canopy Labs · 라이선스: Llama 3.2 Community

시도해 보세요

Qwen3 TTSQwen3 TTS Standard

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.

개발자: Alibaba (Qwen) · 라이선스: Apache 2.0

시도해 보세요

ChatterboxChatterbox Premium

Resemble AI의 감정 제어 기능을 갖춘 최첨단 제로 샷 음성 복제.

품질:

시도해 보세요

Tortoise TTSTortoise TTS Premium

자가 회귀 아키텍처로 품질에 초점을 맞춘 다중 음성 텍스트 음성 변환.

품질:

시도해 보세요

StyleTTS 2StyleTTS 2 Premium

Human-level text-to-speech through style diffusion and adversarial training.

품질:

시도해 보세요

OpenVoiceOpenVoice Premium

Instant voice cloning with granular control over style, emotion, and accent.

품질:

시도해 보세요

CosyVoice 2CosyVoice 2

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

언어: en, zh, ja, ko, fr, de, it, es

음성 복제

IndexTTS-2IndexTTS-2

Zero-shot TTS with fine-grained emotion control and high expressiveness.

언어: en, zh

음성 복제

Spark TTSSpark TTS

Voice cloning TTS with controllable emotion and speaking style via prompts.

언어: en, zh

음성 복제

GPT-SoVITSGPT-SoVITS

Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.

언어: en, zh, ja, ko

음성 복제

ChatterboxChatterbox

Resemble AI의 감정 제어 기능을 갖춘 최첨단 제로 샷 음성 복제.

언어: en

음성 복제

Tortoise TTSTortoise TTS

자가 회귀 아키텍처로 품질에 초점을 맞춘 다중 음성 텍스트 음성 변환.

언어: en

음성 복제

OpenVoiceOpenVoice

Instant voice cloning with granular control over style, emotion, and accent.

언어: en, zh, ja, ko, fr, de, es, it

음성 복제

Qwen3 TTSQwen3 TTS

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.

언어: en, zh, ja, ko, de, fr, ru, pt, es, it

음성 복제

개발자 우선 API

OpenAI 호환 REST API. 하나의 엔드포인트, 22개 이상의 모델. 실시간 애플리케이션을 위한 스트리밍 지원.

  • OpenAI 호환 형식
  • 실시간 앱을 위한 TTS 스트리밍
  • 대규모 작업을 위한 일괄 처리
  • 웹훅 알림
API 문서 보기
Python
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts/",
    headers={"Authorization": "Bearer sk-tts-xxx"},
    json={
        "model": "kokoro",
        "text": "Hello from TTS.ai!",
        "voice": "af_bella",
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

간단하고 투명한 가격 정책

무료로 시작하고 성장함에 따라 확장하세요.

자유

$0

50 크레딧

  • Kokoro, Piper, VITS, MeloTTS
  • 500 문자 제한
  • 3 gen/시간 (계정 없음)
무료로 가입하기

스타터

$9/% 1 초

500 크레딧/월

  • 모든 22+ 모델
  • 5,000 문자 제한
  • 음성 복제
시작하기
가장 인기 있는

전문가

$29/% 1 초

2,000 크레딧/월

  • 스타터의 모든 것
  • API 액세스
  • 우선 처리
프로가 되기

엔터프라이즈

$99/% 1 초

10,000 크레딧/월

  • Pro의 모든 기능
  • 대량 API
  • 우선 순위 큐
영업팀에 연락하기

View all plans including credit packs →

자주 묻는 질문

TTS.ai는 가장 포괄적인 AI 음성 플랫폼으로, 22개 이상의 텍스트 음성 변환 모델, 음성 복제, 음성 텍스트 변환, 오디오 도구를 제공합니다. 모든 모델은 벤더 잠금이 없는 오픈 소스입니다.

예! TTS.ai는 Kokoro, Piper, VITS, MeloTTS 모델과 함께 무료 텍스트 음성 변환을 제공합니다. 계정이 필요하지 않습니다. 50개의 무료 크레딧을 받고 모든 모델에 액세스하려면 등록하십시오. 유료 플랜은 월 $9부터 시작합니다.

속도를 위해서는 Kokoro 또는 Piper를 사용하십시오. 품질을 위해서는 CosyVoice 2 또는 StyleTTS 2를 사용하십시오. 음성 복제를 위해서는 Chatterbox 또는 GPT-SoVITS를 사용하십시오. 대화를 위해서는 Dia TTS를 사용하십시오. 비교를 위해 동일한 텍스트에 대해 여러 모델을 사용해 보십시오.

예. TTS, STT, 음성 복제 및 오디오 도구를 위한 OpenAI 호환 REST API. Pro(월 29달러) 및 Enterprise(월 99달러) 플랜에서 사용할 수 있습니다. tts.ai/api/ 에서 설명서를 확인하십시오.

음성 품질은 모델에 따라 다릅니다. CosyVoice 2, StyleTTS 2, Chatterbox와 같은 프리미엄 모델은 자연스러운 음조와 감정을 가진 인간에 가까운 음성을 생성합니다. Kokoro와 같은 무료 모델은 대부분의 사용 사례에서 뛰어난 음질을 제공합니다.

TTS.ai는 모델 라이브러리 전반에 걸쳐 30개 이상의 언어를 지원합니다. 영어가 가장 광범위한 모델 지원을 제공하지만 CosyVoice 2와 같은 모델은 중국어, 일본어, 한국어를 지원합니다. GPT-SoVITS는 중국어, 일본어, 한국어, 영어를 지원하며 MeloTTS는 영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어를 지원합니다.

네, 모든 처리가 전용 GPU 서버에서 이루어집니다. 당사는 귀하의 텍스트 입력 또는 전송 후 생성된 오디오를 저장하지 않습니다. 복제를 위해 업로드한 음성 샘플은 현재 세션에만 사용되며 보관되지 않습니다. 당사는 귀하의 데이터를 제3자와 공유하거나 모델을 훈련하는 데 사용하지 않습니다.

Yes. All audio generated on TTS.ai is yours to use commercially, including for YouTube videos, podcasts, audiobooks, apps, advertisements, and products. Our models are open source under permissive licenses (MIT, Apache 2.0). No royalties or attribution required.

TTS.ai는 최고의 품질을 위해 기본적으로 WAV 형식의 오디오를 생성합니다. 무료 오디오 변환기 도구를 사용하여 MP3, FLAC, OGG 또는 M4A로 변환할 수 있습니다. API는 요청에서 직접 원하는 출력 형식을 지정할 수 있습니다.

Upload a short audio sample (as little as 5 seconds) of the voice you want to clone, then type any text to generate speech in that voice. Models like Chatterbox, GPT-SoVITS, and CosyVoice 2 support voice cloning. The cloned voice captures tone, accent, and speaking style.

무료 모델(Kokoro, Piper, VITS, MeloTTS)은 계정이 필요하지 않으며 크레딧이 없습니다. 표준 모델(2 크레딧/1K 캐릭터)에는 Bark, CosyVoice 2, F5-TTS, Dia가 포함되어 있습니다. 프리미엄 모델(4 크레딧/1K 캐릭터)에는 OpenVoice, Chatterbox, StyleTTS 2, Tortoise가 포함되어 있습니다. 유료 모델은 일반적으로 더 높은 품질, 더 많은 음성, 음성 복제와 같은 추가 기능을 제공합니다.

예. API는 대량의 텍스트를 음성으로 변환하는 일괄 처리를 지원합니다. 여러 요청을 제출하고 작업 UUID를 사용하여 비동기적으로 결과를 검색할 수 있습니다. 엔터프라이즈 플랜(월 99달러)에는 더 빠른 일괄 처리를 위한 우선 순위 큐 액세스가 포함되어 있습니다. 오디오북 제작, 강의 콘텐츠 및 대규모 보이스오버 프로젝트에 이상적입니다.
5.0/5 (1)

AI 음성 사용 시작하기

TTS.ai를 사용하는 크리에이터, 개발자 및 기업에 참여