자유 AI 텍스트에서 음성으로Name

82M 매개변수 초고속 표현적인 목소리 다국어 스트리밍 지원

경량 82M 파라미터 모델은 초고속 추론을 통해 스튜디오 품질의 음성을 제공합니다.

빠르게 · 1.5GB VRAM 시도해 보세요

Piper

CPU 친화적 오프라인 사용 가능 100개 이상의 음성 35개 이상의 언어 지원 SSML 지원

Raspberry Pi 및 임베디드 장치에 최적화된 빠른 로컬 신경 텍스트 음성 시스템.

빠르게 · 0 (CPU only) VRAM 시도해 보세요

VITS

엔드 투 엔드 합성 자연 음운론 빠른 추론 여러 스피커

엔드투엔드 텍스트 음성 변환을 위한 대립 학습을 갖춘 조건부 변형 자동 인코더.

빠르게 · 1GB VRAM 시도해 보세요

MeloTTS

CPU 최적화 다국어 여러 악센트 생산 준비 낮은 지연 시간

최소한의 지연 시간으로 CPU에서 실행되는 고품질 다국어 텍스트 음성 변환.

빠르게 · 0.5GB (GPU optional) VRAM 시도해 보세요

Bark

사운드 효과 웃음 / 탄식 음악 생성 100명 이상의 스피커 다국어

현실적인 음성, 음악, 사운드 효과를 생성하는 변환기 기반 텍스트-오디오 모델.

느리게 · 5GB VRAM 시도해 보세요

Bark Small

경량 전체 껍질보다 빠르다 감정적 언어 다국어

더 빠른 추론과 낮은 메모리 사용량을 가진 Bark의 가벼운 버전.

중간 · 2GB VRAM 시도해 보세요

CosyVoice 2

스트리밍 제로 샷 복제 언어 간 감정 통제 인간 패리티

인간과 같은 자연스러움과 거의 무지연을 갖춘 알리바바의 확장 가능한 스트리밍 TTS.

Dia TTS

다중 스피커 대화상자 생성 자연스러운 턴테이킹 감정 표현 1.6B 매개변수

스피커 간의 자연스러운 대화를 만들어내는 다중 스피커 대화 생성 모델.

Parler TTS

음성 설명 자연 언어 제어 유연한 음성 생성 미리 설정된 음성이 필요하지 않음

자연어로 원하는 목소리를 설명하고 Parler가 일치하는 음성을 생성합니다.

Indic Parler TTS

11 인도어 음성 설명 자연어 제어 인도의 발음

자연어 음성 컨트롤을 사용한 8개 이상의 인도 언어의 고품질 음성.

느리게 · 8GB VRAM 시도해 보세요

KhanomTan TTS

태국어 TTS 여러 스피커 YourTTS 아키텍처 상업적 안전 라이선스

스피커 음성의 선택과 태국어 첫 번째 텍스트-음성.

빠르게 · 2GB VRAM 시도해 보세요

IndexTTS-2

감정 통제 제로 샷 감정 벡터 표현적 연설 미세 입자 컨트롤

미세한 감정 제어와 높은 표현력을 갖춘 제로 샷 TTS.

Spark TTS

음성 복제 감정 통제 스타일 제어 프롬프트 기반 5초 복제

음성 복제 TTS 제어 가능한 감정과 프롬프트를 통해 말하는 스타일.

GPT-SoVITS

5초 복제 노래하는 목소리 몇 번 찍어서 배우는 방법 고음질 언어 간

몇 샷 음성 복제 TTS는 오디오의 단지 5 초에서 어떤 목소리를 복제합니다.

느리게 · 6GB VRAM 시도해 보세요

Orpheus

인간 수준의 감정 100K 시간 훈련 자연스러운 강조 표현적인 연설

100K 시간의 음성 데이터를 기반으로 훈련된 인간 수준의 감정 TTS 모델.

Chatterbox

제로 샷 복제 감정 통제 고음질 스타일 전송 단일 샘플 복제

Resemble AI의 감정 제어 기능을 갖춘 최첨단 제로 샷 음성 복제.

Tortoise TTS

최고의 품질 다중 음성 DALL-E 아키텍처 음성 복제 자동 회귀

자가 회귀 아키텍처를 통해 품질에 초점을 맞춘 다중 음성 텍스트 음성 변환.

느리게 · 8GB VRAM 시도해 보세요

StyleTTS 2

인간 수준 스타일 퍼브 대립형 훈련 자연변이 고음질

스타일 확산과 대립 훈련을 통해 인간 수준의 텍스트-음성 변환.

OpenVoice

즉각적인 복제 음성 변환 감정 통제 악센트 제어 다국어

스타일, 감정, 억양을 세부적으로 제어하는 즉각적인 음성 복제.

Qwen3 TTS

9 사전 설정 음성 텍스트에서 음성 디자인 감정 통제 10 개 언어 지원

텍스트에서 미리 설정된 음성과 음성 디자인 알리바바의 다국어 TTS.

중간 · 7GB VRAM 시도해 보세요

VieNeu-TTS-v2

7 사전 설정 음성 (북부 + 남부 악센트) En-Vi 코드 전환 음성 복제 (3-5s 참조) 팟캐스트/다중 스피커 지원 CPU 전용 — GPU 필요 없음

베트남어 + 영어 코드 스위칭 TTS 7 사전 설정 음성과 제로 샷 음성 복제. CPU 전용, GPU 필요 없음.

빠르게 · CPU VRAM 시도해 보세요

Sesame CSM

대화형 자연 타이밍 차례 백채널 1B 매개변수

적절한 타이밍과 감정을 가진 자연스러운 대화를 생성하는 대화형 음성 모델.

느리게 · 8GB VRAM 시도해 보세요

Chatterbox Turbo

200ms 미만의 지연 시간 언어 태그 6배 실시간 음성 복제 워터마크

웃음, 기침 등을 위한 200ms 미만의 지연 시간과 언어 태그를 갖춘 더 빠른 Chatterbox.

빠르게 · 2GB VRAM 시도해 보세요

VoxCPM

44.1kHz 오디오 토켄이저 없음 크로스 언어 복제 컨텍스트 인식 LoRA 미세 조정

문맥 인식 단락 일관성을 갖춘 44.1kHz 오디오를 생성하는 토켄이저가 없는 TTS.

빠르게 · 4GB VRAM 시도해 보세요

Kani TTS 2

3GB VRAM으로 작동하는 초경량 400M 영어 TTS 모델.

3GB VRAM 초고속 경량 나노코덱 자유

빠르게 · 3GB VRAM 시도해 보세요

OuteTTS

CPU 추론 브라우저 추론 여러 백엔드 스피커 프로필

CPU, GPU 또는 llama.cpp 및 Transformers.js를 통해 브라우저에서 실행되는 LLM 기반 TTS.

느리게 · 2GB VRAM 시도해 보세요

VibeVoice

다중 스피커 최대 90분 팟캐스트 생성 스피커 일관성 200ms 스트리밍

팟캐스트 및 오디오북과 같은 긴 형식의 다중 스피커 콘텐츠를 위한 Microsoft 모델.

빠르게 · 4GB VRAM 시도해 보세요

Pocket TTS

100M 매개 변수 CPU 추론 음성 복제 단일 샘플 복제 에지 준비됨

단일 샘플에서 음성 복제를 지원하는 Kyutai의 경량 100M 파라미터 모델.

빠르게 · 1GB VRAM 시도해 보세요

Kitten TTS

CPU 전용 추론 80MB 미만의 모델 크기 8개의 내장 음성 속도 제어 ONNX 기반 24kHz 출력

80MB 이하의 초경량 TTS. GPU 없이 CPU에서 실행.

빠르게 · 0GB VRAM 시도해 보세요

CosyVoice3

양방향 스트림 감정 통제 음성 복제 속도/볼륨 제어 명령어 순서

양방향 스트리밍, 감정 제어, 제로 샷 음성 복제 기능을 갖춘 차세대 다국어 TTS.

빠르게 · 4GB VRAM 시도해 보세요

NAMAA Saudi TTS

사우디아라비아 아랍어 방언 현대 표준 아랍어 제로 샷 음성 복제 감정 통제 본국어 발음

처음으로 오픈 사우디 아라비아 TTS. Chatterbox-품질의 음성 복제와 함께 네이티브 사우디 방언.

중간 · 6GB VRAM 시도해 보세요

Darwin TTS

음성 복제 언어 간 FFN 블렌드 4개의 핵심 언어 Qwen3 백본

Qwen3-1.7B 언어 모델에서 혼합된 FFN 가중치를 가진 크로스 모달 Qwen3-TTS 변형은 더욱 선명한 다국어 복제를 제공합니다.

중간 · 7GB VRAM 시도해 보세요

MOSS-TTSD

다중 스피커 대화 최대 5개의 스피커 60분 일관된 오디오 음성 복제 팟캐스트 최적화

다중 스피커 대화 연속 모델 — 최대 5명의 스피커와 60분의 일관된 오디오로 팟캐스트 스타일 대화를 생성합니다.

중간 · 12GB VRAM 시도해 보세요

Ming-Omni TTS

44.1kHz 출력 음성 복제 감정 통제 방언 제어 BGM 생성 컴팩트 0. 5B

inclusionAI의 컴팩트한 0.5B 옴니모달 음성 모델로, 고품질 44.1kHz 출력 및 제로 샷 음성 복제 기능을 제공합니다.

중간 · 3GB VRAM 시도해 보세요

MOSS-TTS Nano