자유 AI 텍스트에서 음성으로Name

33+ 오픈소스 모델, 273+ 목소리, 33+ 계정이 필요하지 않습니다.

18K+
작성자
74K+
세대
33+
AI 모델
273+
음성
TTS.ai가 마음에 드시나요? 친구들에게 알려주세요!

음성 AI에 필요한 모든 것

오픈소스 AI 모델을 기반으로 한 30개 이상의 도구

33+ AI 음성 모델

하나의 플랫폼에서 가장 포괄적인 오픈 소스 TTS 모델 컬렉션

KokoroKokoro 자유

Kokoro는 8200만 파라미터의 텍스트 음성 변환 모델로, 크기가 작지만 놀랍도록 자연스럽고 표현력 있는 음성을 생성합니다. Kokoro는 영어, 일본어, 중국어, 한국어 등 다양한 표현력 있는 음성을 지원합니다. 놀라울 정도로 빠르게 실행되며, GPU에서 실시간으로 생성하는 것보다 거의 100배 빠른 오디오를 생성합니다.

최적의 용도: 최소 지연 시간의 고품질 TTS, 스트리밍 애플리케이션

무료로 시도하십시오

PiperPiper 자유

Piper는 Rhasspy가 개발한 VITS와 larynx 아키텍처를 사용하는 경량 텍스트 음성 엔진으로, 전적으로 CPU에서 실행되므로 엣지 기기, 홈 오토메이션, 오프라인 TTS가 필요한 애플리케이션에 이상적입니다. 30개 이상의 언어로 100개 이상의 음성을 제공하는 Piper는 Raspberry Pi 4에서도 실시간으로 자연스럽게 들리는 음성을 제공합니다.

최적의 용도: 빠른 미리보기, 접근성 및 임베디드 애플리케이션

무료로 시도하십시오

VITSVITS 자유

VITS(Variation Inference with adversarial learning for end-to-end Text-to-Speech)는 현재의 2단계 모델보다 더 자연스럽게 들리는 오디오를 생성하는 병렬 엔드-투-엔드 TTS 방법입니다. 이 방법은 정상화 흐름과 대립 훈련 프로세스로 향상된 변화 추론을 채택하여 자연스러움을 크게 향상시킵니다.

최적의 용도: 자연적인 음운을 가진 일반적인 텍스트-음성 변환

무료로 시도하십시오

MeloTTSMeloTTS 자유

MyShell.ai의 MeloTTS는 영어(미국, 영국, 인도, 호주), 스페인어, 프랑스어, 중국어, 일본어, 한국어를 지원하는 다국어 TTS 라이브러리입니다. 매우 빠르며 CPU만으로도 실시간에 가까운 속도로 텍스트를 처리합니다. MeloTTS는 생산용으로 설계되었으며 CPU와 GPU 추론을 모두 지원합니다.

최적의 용도: 빠른 다국어 TTS가 필요한 프로덕션 애플리케이션

무료로 시도하십시오

Kani TTS 2Kani TTS 2 자유

NineNineSix가 개발한 Kani-TTS-2는 NVIDIA NanoCodec을 탑재한 Liquid AI LFM2 백본에 구축된 400M 파라미터의 초경량 모델로, 3GB의 VRAM으로만 실행되며 A100(RTF 0.2)에서 2초에 약 10초의 음성을 생성합니다. 현재 공개된 버전은 영어만 지원하는 `kani-tts-2-en` 체크포인트를 제공하며 음성 복제에 필요한 스피커 임베디드 훅을 노출하지 않습니다. 복제를 위해 Chatterbox / IndexTTS2 / F5-TTS를 사용하거나 영어가 아닌 경우 Kokoro / MeloTTS를 사용하십시오.

최적의 용도: 낮은 VRAM 하드웨어에서 빠른 영어 생성, 빠른 미리보기

무료로 시도하십시오

OuteTTSOuteTTS 자유

OuteTTS는 원래의 아키텍처를 유지하면서 텍스트 음성 변환 기능을 통해 대규모 언어 모델을 확장합니다. llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, 심지어 Transformers.js를 통한 브라우저 추론을 포함한 여러 백엔드를 지원합니다. JSON으로 저장된 스피커 프로필을 통해 제로 샷 음성 복제 기능을 제공합니다.

최적의 용도: 에지 배포, 브라우저 기반 TTS, 저리소스 환경

무료로 시도하십시오

Pocket TTSPocket TTS 자유

Moshi의 개발자인 Kyutai가 개발한 Pocket TTS는 100M 파라미터의 소형 텍스트 음성 변환 모델로서 무게보다 훨씬 큰 성능을 발휘합니다. CPU에서 효율적으로 실행되며, 단일 오디오 샘플에서 제로 샷 음성 복제를 지원하고 자연스럽게 들리는 음성을 생성합니다. 소형 모델 크기로 엣지 배포 및 리소스가 적은 환경에 이상적입니다.

최적의 용도: 경량 배포, CPU 전용 환경, 신속한 음성 복제

무료로 시도하십시오

Kitten TTSKitten TTS 자유

Kitten TTS by KittenML은 ONNX에 기반한 초경량 텍스트 음성 합성 모델입니다. 15M에서 80M의 파라미터(디스크 25-80MB)를 사용하여 GPU가 필요 없이 CPU에서 고품질의 음성 합성을 제공합니다. 8개의 내장 음성, 조절 가능한 음성 속도, 숫자, 통화, 단위에 대한 내장 텍스트 사전 처리 기능을 제공합니다.

최적의 용도: 빠른 경량 TTS, 에지 배포, 저지연 애플리케이션

무료로 시도하십시오

Ming-Omni TTSMing-Omni TTS 자유

inclusionAI의 Ming-omni-tts-0.5B는 패치별 흐름 매칭 오디오 디코더를 갖춘 BailingMM 집적 백본에 구축된 컴팩트한 옴니모달 음성 모델입니다. 44.1kHz 출력(CD 품질에 가까운)을 제공하고, 3초 이상의 참조에서 제로 샷 음성 복제를 지원하며, JSON 명령을 통해 내장된 감정 / 방언 / BGM 제어를 포함합니다.

최적의 용도: 고품질 이중언어 내레이션, 감정 제어 음성 연기, 중국어 오디오북 콘텐츠

무료로 시도하십시오

MOSS-TTS NanoMOSS-TTS Nano 자유

MOSS-TTS-Nano-100M은 OpenMOSS의 MOSS-TTS 제품군의 컴팩트한 100M 파라미터 변형으로, 지연 변환기 아키텍처를 공유합니다. 8B 모델의 최고 품질을 약 80배 낮은 무게와 요청당 극적으로 낮은 VRAM으로 교환하여 무료 계층 및 고처리량 배포에 적합하게 만듭니다.

최적의 용도: 무료 계층 TTS, 대량 생산, 저지연 대화형 사용

무료로 시도하십시오

BarkBark 표준

현실적인 음성, 음악, 사운드 효과를 생성하는 변환기 기반 텍스트-오디오 모델.

개발자: Suno · 라이선스: MIT

시도해 보세요

Bark SmallBark Small 표준

더 빠른 추론과 낮은 메모리 사용량을 가진 Bark의 가벼운 버전.

개발자: Suno · 라이선스: MIT

시도해 보세요

CosyVoice 2CosyVoice 2 표준

인간과 같은 자연스러움과 거의 무지연을 갖춘 알리바바의 확장 가능한 스트리밍 TTS.

개발자: Alibaba (Tongyi Lab) · 라이선스: Apache 2.0

시도해 보세요

Dia TTSDia TTS 표준

스피커 간의 자연스러운 대화를 만들어내는 다중 스피커 대화 생성 모델.

개발자: Nari Labs · 라이선스: Apache 2.0

시도해 보세요

Parler TTSParler TTS 표준

자연어로 원하는 목소리를 설명하고 Parler가 일치하는 음성을 생성합니다.

개발자: Hugging Face · 라이선스: Apache 2.0

시도해 보세요

IndexTTS-2IndexTTS-2 표준

미세한 감정 제어와 높은 표현력을 갖춘 제로 샷 TTS.

개발자: Index Team · 라이선스: Bilibili Model License

시도해 보세요

Spark TTSSpark TTS 표준

음성 복제 TTS 제어 가능한 감정과 프롬프트를 통해 말하는 스타일.

개발자: SparkAudio · 라이선스: CC BY-NC-SA 4.0

시도해 보세요

GPT-SoVITSGPT-SoVITS 표준

몇 샷 음성 복제 TTS는 오디오의 단지 5 초에서 어떤 목소리를 복제합니다.

개발자: RVC-Boss · 라이선스: MIT

시도해 보세요

OrpheusOrpheus 표준

100K 시간의 음성 데이터를 기반으로 훈련된 인간 수준의 감정 TTS 모델.

개발자: Canopy Labs · 라이선스: Llama 3.2 Community

시도해 보세요

Qwen3 TTSQwen3 TTS 표준

텍스트에서 미리 설정된 음성과 음성 디자인 알리바바의 다국어 TTS.

개발자: Alibaba (Qwen) · 라이선스: Apache 2.0

시도해 보세요

VieNeu-TTS-v2VieNeu-TTS-v2 표준

베트남어 + 영어 코드 스위칭 TTS 7 사전 설정 음성과 제로 샷 음성 복제. CPU 전용, GPU 필요 없음.

개발자: Phạm Nguyễn Ngọc Bảo · 라이선스: Apache 2.0

시도해 보세요

Chatterbox TurboChatterbox Turbo 표준

웃음, 기침 등을 위한 200ms 미만의 지연 시간과 언어 태그를 갖춘 더 빠른 Chatterbox.

개발자: Resemble AI · 라이선스: MIT

시도해 보세요

VoxCPMVoxCPM 표준

문맥 인식 단락 일관성을 갖춘 44.1kHz 오디오를 생성하는 토켄이저가 없는 TTS.

개발자: OpenBMB · 라이선스: Apache 2.0

시도해 보세요

VibeVoiceVibeVoice 표준

팟캐스트 및 오디오북과 같은 긴 형식의 다중 스피커 콘텐츠를 위한 Microsoft 모델.

개발자: Microsoft · 라이선스: MIT

시도해 보세요

CosyVoice3CosyVoice3 표준

양방향 스트리밍, 감정 제어, 제로 샷 음성 복제 기능을 갖춘 차세대 다국어 TTS.

개발자: Alibaba (FunAudioLLM) · 라이선스: Apache 2.0

시도해 보세요

NAMAA Saudi TTSNAMAA Saudi TTS 표준

처음으로 오픈 사우디 아라비아 TTS. Chatterbox-품질의 음성 복제와 함께 네이티브 사우디 방언.

개발자: NAMAA Space · 라이선스: MIT

시도해 보세요

Darwin TTSDarwin TTS 표준

Qwen3-1.7B 언어 모델에서 혼합된 FFN 가중치를 가진 크로스 모달 Qwen3-TTS 변형은 더욱 선명한 다국어 복제를 제공합니다.

개발자: FINAL-Bench · 라이선스: Apache 2.0

시도해 보세요

MOSS-TTSDMOSS-TTSD 표준

다중 스피커 대화 연속 모델 — 최대 5명의 스피커와 60분의 일관된 오디오로 팟캐스트 스타일 대화를 생성합니다.

개발자: OpenMOSS · 라이선스: Apache 2.0

시도해 보세요

ChatterboxChatterbox 프리미엄

Resemble AI의 감정 제어 기능을 갖춘 최첨단 제로 샷 음성 복제.

품질:

시도해 보세요

Tortoise TTSTortoise TTS 프리미엄

자가 회귀 아키텍처를 통해 품질에 초점을 맞춘 다중 음성 텍스트 음성 변환.

품질:

시도해 보세요

StyleTTS 2StyleTTS 2 프리미엄

스타일 확산과 대립 훈련을 통해 인간 수준의 텍스트-음성 변환.

품질:

시도해 보세요

OpenVoiceOpenVoice 프리미엄

스타일, 감정, 억양을 세부적으로 제어하는 즉각적인 음성 복제.

품질:

시도해 보세요

Sesame CSMSesame CSM 프리미엄

적절한 타이밍과 감정을 가진 자연스러운 대화를 생성하는 대화형 음성 모델.

품질:

시도해 보세요

CosyVoice 2CosyVoice 2

인간과 같은 자연스러움과 거의 무지연을 갖춘 알리바바의 확장 가능한 스트리밍 TTS.

언어: en, zh, ja, ko, fr, de, it, es

음성 복제

IndexTTS-2IndexTTS-2

미세한 감정 제어와 높은 표현력을 갖춘 제로 샷 TTS.

언어: en, zh

음성 복제

Spark TTSSpark TTS

음성 복제 TTS 제어 가능한 감정과 프롬프트를 통해 말하는 스타일.

언어: en, zh

음성 복제

GPT-SoVITSGPT-SoVITS

몇 샷 음성 복제 TTS는 오디오의 단지 5 초에서 어떤 목소리를 복제합니다.

언어: en, zh, ja, ko

음성 복제

ChatterboxChatterbox

Resemble AI의 감정 제어 기능을 갖춘 최첨단 제로 샷 음성 복제.

언어: en

음성 복제

Tortoise TTSTortoise TTS

자가 회귀 아키텍처를 통해 품질에 초점을 맞춘 다중 음성 텍스트 음성 변환.

언어: en

음성 복제

OpenVoiceOpenVoice

스타일, 감정, 억양을 세부적으로 제어하는 즉각적인 음성 복제.

언어: en, zh, ja, ko, fr, es

음성 복제

VieNeu-TTS-v2VieNeu-TTS-v2

베트남어 + 영어 코드 스위칭 TTS 7 사전 설정 음성과 제로 샷 음성 복제. CPU 전용, GPU 필요 없음.

언어: vi, en

음성 복제

Chatterbox TurboChatterbox Turbo

웃음, 기침 등을 위한 200ms 미만의 지연 시간과 언어 태그를 갖춘 더 빠른 Chatterbox.

언어: en

음성 복제

VoxCPMVoxCPM

문맥 인식 단락 일관성을 갖춘 44.1kHz 오디오를 생성하는 토켄이저가 없는 TTS.

언어: en, zh

음성 복제

OuteTTSOuteTTS

CPU, GPU 또는 llama.cpp 및 Transformers.js를 통해 브라우저에서 실행되는 LLM 기반 TTS.

언어: en

음성 복제

Pocket TTSPocket TTS

단일 샘플에서 음성 복제를 지원하는 Kyutai의 경량 100M 파라미터 모델.

언어: en, fr

음성 복제

CosyVoice3CosyVoice3

양방향 스트리밍, 감정 제어, 제로 샷 음성 복제 기능을 갖춘 차세대 다국어 TTS.

언어: en, zh, ja, ko, de, es, fr, it, ru

음성 복제

NAMAA Saudi TTSNAMAA Saudi TTS

처음으로 오픈 사우디 아라비아 TTS. Chatterbox-품질의 음성 복제와 함께 네이티브 사우디 방언.

언어: ar

음성 복제

Darwin TTSDarwin TTS

Qwen3-1.7B 언어 모델에서 혼합된 FFN 가중치를 가진 크로스 모달 Qwen3-TTS 변형은 더욱 선명한 다국어 복제를 제공합니다.

언어: en, ko, ja, zh

음성 복제

MOSS-TTSDMOSS-TTSD

다중 스피커 대화 연속 모델 — 최대 5명의 스피커와 60분의 일관된 오디오로 팟캐스트 스타일 대화를 생성합니다.

언어: en, zh

음성 복제

Ming-Omni TTSMing-Omni TTS

inclusionAI의 컴팩트한 0.5B 옴니모달 음성 모델로, 고품질 44.1kHz 출력 및 제로 샷 음성 복제 기능을 제공합니다.

언어: en, zh

음성 복제

MOSS-TTS NanoMOSS-TTS Nano

작은 100M MOSS-TTS 변형 — 동일한 아키텍처, 80배 작은, 무계층 지연.

언어: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

음성 복제

개발자 우선 API

OpenAI 호환 REST API. 하나의 엔드포인트, 22개 이상의 모델. 실시간 애플리케이션을 위한 스트리밍 지원.

  • OpenAI 호환 형식
  • 실시간 앱을 위한 TTS 스트리밍
  • 대규모 작업을 위한 일괄 처리
  • 웹훅 알림
API 문서 보기
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

간단하고 투명한 가격

무료로 시작하고 성장함에 따라 확장하세요.

자유

$0

15,000 문자 + 5,000/일

  • Kokoro를 포함한 7개의 무료 모델
  • 세대당 5,000자
  • API 액세스 포함
무료로 가입하기

시작

$9/% 1 초

500 크레딧/월

  • 모든 22+ 모델
  • 세대당 100,000자
  • 음성 복제
시작하기
가장 인기 있는

프로

$29/% 1 초

2,000 크레딧/월

  • 스타터의 모든 것
  • API 액세스
  • 우선 처리
프로가 되기

비즈니스

$99/% 1 초

10,000 크레딧/월

  • Pro의 모든 기능
  • 대량 API
  • 우선 순위 큐
비즈니스 가져 오기

크레딧 팩을 포함한 모든 플랜 보기 →

자주 묻는 질문

TTS.ai은 22개 이상의 텍스트 음성 모델, 음성 복제, 음성 텍스트, 오디오 도구를 제공하는 가장 포괄적인 AI 음성 플랫폼입니다. 모든 모델은 벤더 잠금이 없는 오픈 소스입니다.

TTS.ai은 Kokoro, Piper, VITS, MeloTTS 모델을 통해 무료 텍스트 음성 변환을 제공합니다. 계정이 필요하지 않습니다. 15개의 무료 크레딧을 받고 모든 모델에 액세스하려면 등록하십시오. 유료 플랜은 월 $9부터 시작합니다.

속도를 위해서는 Kokoro 또는 Piper를 사용하세요. 품질을 위해서는 CosyVoice 2 또는 StyleTTS 2를 사용하세요. 음성 복제를 위해서는 Chatterbox 또는 GPT-SoVITS를 사용하세요. 대화를 위해서는 Dia TTS를 사용하세요. 비교를 위해 동일한 텍스트에 대해 여러 모델을 사용해 보세요.

예. TTS, STT, 음성 복제 및 오디오 도구를 위한 OpenAI 호환 REST API. 무료 플랜을 포함한 모든 플랜에 포함되어 있으며, 속도 제한은 계층별로 확장됩니다(무료: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Business: 300). tts.ai/api/에서 문서를 참조하십시오.

음성 품질은 모델에 따라 다릅니다. CosyVoice 2, StyleTTS 2, Chatterbox와 같은 프리미엄 모델은 자연스러운 음조와 감정을 가진 인간에 가까운 음성을 생성합니다. Kokoro와 같은 무료 모델은 대부분의 사용 사례에서 뛰어난 음질을 제공합니다.

TTS.ai은 모델 라이브러리 전반에 걸쳐 30개 이상의 언어를 지원합니다. 영어는 가장 넓은 모델 지원을 가지고 있지만, CosyVoice 2와 같은 모델은 중국어, 일본어, 한국어를 포함합니다. GPT-SoVITS는 중국어, 일본어, 한국어, 영어를 처리하며, MeloTTS는 영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어를 지원합니다.

네, 모든 처리가 전용 GPU 서버에서 이루어집니다. 귀하의 텍스트 입력 또는 전송 후 생성된 오디오는 저장되지 않습니다. 복제를 위해 업로드한 음성 샘플은 현재 세션에만 사용되며 보관되지 않습니다. 귀하의 데이터는 제 3 자와 공유되지 않으며 모델을 훈련하는 데 사용되지 않습니다.

예. TTS.ai에서 생성된 모든 오디오는 YouTube 동영상, 팟캐스트, 오디오북, 앱, 광고 및 제품 등 상업적 용도로 사용할 수 있습니다. 저희 모델은 허용 라이선스(MIT, Apache 2.0) 하에 오픈 소스이며 로열티 또는 크레딧이 필요하지 않습니다.

TTS.ai은 최고의 품질을 위해 기본적으로 WAV 형식의 오디오를 생성합니다. 무료 오디오 변환기 도구를 사용하여 MP3, FLAC, OGG 또는 M4A로 변환할 수 있습니다. API는 요청에서 직접 원하는 출력 형식을 지정할 수 있습니다.

복제할 목소리의 짧은 오디오 샘플(최소 5초)을 업로드한 다음 텍스트를 입력하여 해당 목소리로 음성을 생성합니다. Chatterbox, GPT-SoVITS, CosyVoice 2와 같은 모델은 음성 복제를 지원합니다. 복제된 음성은 음조, 억양, 말하기 스타일을 포착합니다.

무료 모델(Kokoro, Piper, VITS, MeloTTS)은 계정이 필요하지 않으며 크레딧이 없습니다. 표준 모델(2 크레딧/1K 문자)에는 Bark, CosyVoice 2, F5-TTS, Dia가 포함되어 있습니다. 프리미엄 모델(4 크레딧/1K 문자)에는 OpenVoice, Chatterbox, StyleTTS 2, Tortoise가 포함됩니다. 유료 모델은 일반적으로 더 높은 품질, 더 많은 음성, 음성 복제와 같은 추가 기능을 제공합니다.

예. API는 대량의 텍스트를 음성으로 변환하는 일괄 처리를 지원합니다. 여러 요청을 제출하고 작업 UUID를 사용하여 비동기적으로 결과를 검색할 수 있습니다. 비즈니스 플랜(월 99달러 이상)에는 더 빠른 일괄 처리를 위한 우선 순위 큐 액세스가 포함되어 있습니다. 오디오북 제작, 강의 콘텐츠 및 대규모 보이스오버 프로젝트에 이상적입니다.
4.1/5 (45)

개선할 수 있는 점은 무엇입니까? 고객님의 피드백이 문제를 해결하는 데 도움이 됩니다.

AI 음성을 지금 사용하기 시작하세요

TTS.ai을 사용하는 크리에이터, 개발자 및 기업에 참여하십시오.