AI 텍스트에서 음성으로

오픈 소스 AI 모델을 사용하여 텍스트를 자연스럽게 들리는 음성으로 변환합니다.

무료로 가입하기

0/500 문자 · Sign up for 5,000 per generation →

가입하기 5,000자 한도

SSML 모드 (미세한 제어를 위한 음성 합성 마크업 언어)

정확한 제어를 위해 SSML 태그로 텍스트를 래핑하십시오.

<speak><prosody rate="slow">Slow speech</prosody></speak>

감정 / 스타일 태그

전달에 영향을 미치는 감정 표시자를 추가합니다(모델 지원에 따라 다름):

발음 사전

사용자 지정 발음 정의 (단어 = 발음):

피치 0

-12 +12

Dia 대화상자 형식: [S1]와 [S2] 태그를 사용하여 다른 발언자를 표시합니다. 예:

[S1] 안녕하세요! [S2] 안녕하세요, 어떻게 지내시나요?



                
                
                    
                    
                        AI 모델
                        
                    

                    
                    
                        음성
                        
                    
                
                

                
                
                    
                    
                        언어
                        
                    

                    
                    
                        출력 형식
                        
                    

                    
                    
                        
                            속도
                            1.0x
                        
                        
                        
                            0.5x
                            2.0x
                        
                    
                

                
                
                    
                    
                        
                        파이퍼, VITS, MeloTTS와 무료



        
        
            
                생성된 오디오가 여기에 나타납니다. 모델을 선택하고 텍스트를 입력한 다음 생성 을 클릭합니다.
            
            
            
                
                
                    생성 실패
                    
                
            
        

            
                
                    
                        오디오가 성공적으로 생성되었습니다
                        
                    
                    
                        


    
        
            
            
                
                    
                
                
            
        
    


                        
                            
                                오디오 다운로드
                            
                            
                            
                            링크는 24시간 이내에 만료됩니다.
                            
                                
                                    
                                    
                                    
                                    
                                    
                                
                            
                        
                    
                
            
        

        

    
        
            
                
                    TTS.ai가 마음에 드시나요? 친구들에게 알려주세요!



    
    
        
        
            
                모델 세부사항
            
            
                
                
                    
                    Chatterbox
                
                Premium
                Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.
                
                    
                        
                            개발자:
                            Resemble AI
                        
                        
                            라이선스:
                            MIT
                        
                        
                            속도
                            
                                Medium
                            
                        
                        
                            품질:
                            
                                
                            
                        
                        
                            언어
                            1 언어
                        
                        
                            비디오 메모리
                            4GB
                        
                        
                            음성 복제
                             지원됨
                        
                    
                
                
                
                    기능:
                    
                        
                        Zero-shot cloning
                        
                        Emotion control
                        
                        High fidelity
                        
                        Style transfer
                        
                        Single sample cloning
                        
                    
                
                
                
                최적의 용도:: 
                Professional voice cloning with emotional control, content creation
                
                
            
        

        
        
            
                더 나은 결과를위한 팁
            
            
                
                    자연스러운 휴식과 억양을 위한 적절한 구두점 사용
                    더 명확한 발음을 위해 숫자와 약어를 맞추기
                    쉼표를 추가하여 문장 사이에 짧은 휴식을 만들기
                    긴 극적인 휴식을 위해서는 엘리프스 (...)를 사용합니다.
                    가장 자연스러운 결과를 위해 Kokoro 또는 CosyVoice 2를 시도
                    다중 스피커 대화 및 팟캐스트 콘텐츠를 위한 Dia 사용
                
            
        

        
        
            
                신용 비용
            
            
                
                    
                        
                            종
                            1K 문자당 비용
                        
                    
                    
                        
                            자유
                            0 크레딧 (무제한)
                        
                        
                            표준
                            2 크레딧 / 1K 문자
                        
                        
                            최고급
                            4 크레딧 / 1K 문자
                        
                    
                
            
            
                더 많은 문자를 가져오기

종	1K 문자당 비용
자유	0 크레딧 (무제한)
표준	2 크레딧 / 1K 문자
최고급	4 크레딧 / 1K 문자






    
        
            
                
                
                    
                    
    광고 없음
    무제한 사용
    우선 지원
    새로운 기능에 대한 조기 액세스


                
                

                
                    
                        더 많은 크레딧 얻기






    
        AI 텍스트 음성 변환 작동 방식
        간단한 세 단계로 전문가급 음성을 생성하세요. 기술 지식이 필요하지 않습니다.
        
            
                
                    
                        
                            
                        
                        1단계
                        텍스트 입력
                        음성으로 변환할 텍스트를 입력, 붙여넣기 또는 업로드합니다. 로그인한 사용자의 경우 1세대당 최대 5,000자까지 지원합니다. 일반 텍스트를 사용하거나 SSML 태그를 추가하여 발음, 일시 정지, 강조를 고급으로 제어할 수 있습니다.
                    
                
            
            
                
                    
                        
                            
                        
                        2단계
                        모델 및 음성 선택
                        3가지 레벨로 나뉘어 있는 20개 이상의 AI 모델 중에서 선택하세요. 콘텐츠에 맞는 음성을 선택하고, 대상 언어를 선택하고, 재생 속도를 0.5x에서 2.0x로 조정하고, 원하는 출력 형식(MP3, WAV, OGG 또는 FLAC)을 선택하세요.
                    
                
            
            
                
                    
                        
                            
                        
                        3단계
                        생성 및 다운로드
                        생성을 클릭하면 몇 초 만에 오디오가 준비됩니다. 내장된 플레이어로 미리보기, 선택한 형식으로 다운로드 또는 공유 가능한 링크 복사 API를 사용하여 일괄 처리하고 워크플로우에 통합하십시오.
                    
                
            
        
    






    
        텍스트 음성 변환 사용 사례
        AI 기반 텍스트 음성 변환은 수십 개의 산업 분야에서 사람들이 오디오 콘텐츠를 생성, 소비 및 상호 작용하는 방식을 변화시키고 있습니다.
        
            
                
                    
                        
                        오디오북
                        스튜디오 품질의 내레이션으로 전체 책을 자연스럽게 들리는 오디오북으로 변환할 수 있습니다.
                    
                
            
            
                
                    
                        
                        비디오 보이스오버
                        YouTube, TikTok, Instagram Reels, Shorts를 위한 전문 보이스오버를 만들어보세요. 100개 이상의 음성을 사용할 수 있으며, 자신만의 음성을 복제할 수도 있습니다.
                    
                
            
            
                
                    
                        
                        팟캐스트
                        여러 AI 음성을 사용하여 스크립트에서 팟캐스트 에피소드를 생성합니다.
                    
                
            
            
                
                    
                        
                        게임
                        인디 게임, 비주얼 노벨, 인터랙티브 소설을 위한 AI 음성 연기. NPC 대화, 컷시네 음성, 30개 이상의 언어.
                    
                
            
            
                
                    
                        
                        전자 학습
                        강의 자료, 강연 및 교육 콘텐츠를 오디오로 변환합니다. 글로벌 플랫폼을 위한 다국어 지원.
                    
                
            
            
                
                    
                        
                        접근성
                        웹 사이트, 문서 및 앱을 접근 가능하게 만듭니다. 스크린 리더 API 통합 및 기사-오디오 변환.
                    
                
            
            
                
                    
                        
                        IVR & 전화 시스템
                        자연스러운 AI 음성으로 IVR 시스템, 전화 메뉴, 고객 서비스를 지원합니다. 콜센터를 위한 저지연 스트리밍.
                    
                
            
            
                
                    
                        
                        소셜 미디어
                        TikTok 내레이션, Instagram Reels, Twitter/X 코멘터리, YouTube Shorts. 무료 모델로 빠른 생성.
                    
                
            
            
                
                    
                        
                        스트리밍
                        Twitch TTS 알림, 채팅 음성, AI 공동 호스트, Discord 봇. 낮은 지연 시간, 100 개 이상의 음성, StreamElements 호환.
                    
                
            
            
                
                    
                        
                        마케팅
                        광고 보이스오버, 설명 동영상, 제품 데모 및 판매 프레젠테이션. 캠페인 전반에 걸쳐 오디오 콘텐츠 생산을 확장합니다.
                    
                
            
            
                
                    
                        
                        더빙 및 현지화
                        음성을 맞추는 AI로 30개 이상의 언어로 비디오를 번역하고 더빙하세요. 자동 번역 및 발음기 감지.
                    
                
            
            
                
                    
                        
                        명상 & 웰빙
                        가이드 명상, 수면 이야기, 호흡 운동, 그리고 진정, 진정 AI 목소리와 확인.
                    
                
            
        
        
            모든 사용 사례 및 도구 보기
        
    






    
        모든 텍스트 음성 변환 모델
        품질, 속도, 언어 지원 및 기능을 비교하여 프로젝트에 완벽한 모델을 찾으십시오. TTS.ai에서 사용 가능한 모든 AI 모델에 대한 자세한 사양을 확인하십시오.

        
        
            모두 (32)
            자유 (7)
            표준 (18)
            최고급 (7)
        

        
            
            
                
                    
                    
                        
                            
                                Kokoro
                                Free
                            
                            
                                Kokoro는 8200만 파라미터의 텍스트 음성 변환 모델로, 크기가 작지만 놀랍도록 자연스럽고 표현력 있는 음성을 생성합니다. Kokoro는 영어, 일본어, 중국어, 한국어 등 다양한 표현력 있는 음성을 지원합니다. 놀라울 정도로 빠르게 실행되며, GPU에서 실시간으로 생성하는 것보다 거의 100배 빠른 오디오를 생성합니다.

                                
                                    
                                        개발자::

                                        Hexgrad
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, ja, zh, ko, fr, de, it, pt, es, hi, ru
                                    
                                    
                                        비디오 메모리:

                                        1.5GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        자유
                                    
                                

                                
                                
                                    
                                        
                                        82M 매개변수
                                        
                                        초고속
                                        
                                        표현적인 목소리
                                        
                                        다국어
                                        
                                        스트리밍 지원
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                최소 지연 시간의 고품질 TTS, 스트리밍 애플리케이션
                                
                            
                            
                                
                                    시도해 보기 Kokoro
                                
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                Free
                            
                            
                                Piper는 Rhasspy가 개발한 VITS와 larynx 아키텍처를 사용하는 경량 텍스트 음성 엔진으로, 전적으로 CPU에서 실행되므로 엣지 기기, 홈 오토메이션, 오프라인 TTS가 필요한 애플리케이션에 이상적입니다. 30개 이상의 언어로 100개 이상의 음성을 제공하는 Piper는 Raspberry Pi 4에서도 실시간으로 자연스럽게 들리는 음성을 제공합니다.

                                
                                    
                                        개발자::

                                        Rhasspy
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                    
                                    
                                        비디오 메모리:

                                        0 (CPU only)
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        자유
                                    
                                

                                
                                
                                    
                                        
                                        CPU 친화적
                                        
                                        오프라인 사용 가능
                                        
                                        100개 이상의 음성
                                        
                                        30개 이상의 언어 지원
                                        
                                        SSML 지원
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                빠른 미리보기, 접근성 및 임베디드 애플리케이션
                                
                            
                            
                                
                                    시도해 보기 Piper
                                
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                Free
                            
                            
                                VITS(Variation Inference with adversarial learning for end-to-end Text-to-Speech)는 현재의 2단계 모델보다 더 자연스럽게 들리는 오디오를 생성하는 병렬 엔드-투-엔드 TTS 방법입니다. 이 방법은 정상화 흐름과 대립 훈련 프로세스로 향상된 변화 추론을 채택하여 자연스러움을 크게 향상시킵니다.

                                
                                    
                                        개발자::

                                        Jaehyeon Kim et al.
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh, ja, ko
                                    
                                    
                                        비디오 메모리:

                                        1GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        자유
                                    
                                

                                
                                
                                    
                                        
                                        엔드 투 엔드 합성
                                        
                                        자연 음운론
                                        
                                        빠른 추론
                                        
                                        여러 스피커
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                자연적인 음운을 가진 일반적인 텍스트-음성 변환
                                
                            
                            
                                
                                    시도해 보기 VITS
                                
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                Free
                            
                            
                                MyShell.ai의 MeloTTS는 영어(미국, 영국, 인도, 호주), 스페인어, 프랑스어, 중국어, 일본어, 한국어를 지원하는 다국어 TTS 라이브러리입니다. 매우 빠르며 CPU만으로도 실시간에 가까운 속도로 텍스트를 처리합니다. MeloTTS는 생산용으로 설계되었으며 CPU와 GPU 추론을 모두 지원합니다.

                                
                                    
                                        개발자::

                                        MyShell.ai
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, es, fr, zh, ja, ko
                                    
                                    
                                        비디오 메모리:

                                        0.5GB (GPU optional)
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        자유
                                    
                                

                                
                                
                                    
                                        
                                        CPU 최적화
                                        
                                        다국어
                                        
                                        여러 악센트
                                        
                                        생산 준비
                                        
                                        낮은 지연 시간
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                빠른 다국어 TTS가 필요한 프로덕션 애플리케이션
                                
                            
                            
                                
                                    시도해 보기 MeloTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark
                                Standard
                            
                            
                                Suno의 Bark는 변환기 기반의 텍스트 오디오 모델로서 음악, 배경 소음, 사운드 효과 등의 오디오뿐만 아니라 매우 현실적인 다국어 음성을 생성할 수 있습니다. Bark는 웃음, 탄식, 울음 등의 비언어적 의사소통을 생성할 수 있습니다. Bark는 100개 이상의 스피커 사전 설정과 13개 이상의 언어를 지원합니다.

                                
                                    
                                        개발자::

                                        Suno
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Slow
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        비디오 메모리:

                                        5GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        사운드 효과
                                        
                                        웃음 / 탄식
                                        
                                        음악 생성
                                        
                                        100명 이상의 스피커
                                        
                                        다국어
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                크리에이티브 오디오 콘텐츠, 감정을 가진 오디오북, 사운드 효과
                                
                            
                            
                                
                                    시도해 보기 Bark
                                
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                Standard
                            
                            
                                Bark Small는 Bark 모델의 증류 버전으로, 약간의 오디오 품질을 훨씬 더 빠른 추론 속도와 낮은 메모리 요구 사항과 교환합니다. Bark의 감정, 웃음, 다중 언어를 포함한 음성을 생성하는 능력을 유지합니다.

                                
                                    
                                        개발자::

                                        Suno
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    
                                    
                                        비디오 메모리:

                                        2GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        경량
                                        
                                        전체 껍질보다 빠르다
                                        
                                        감정적 언어
                                        
                                        다국어
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                전체 울음소리가 너무 느릴 때 빠른 창조적인 오디오
                                
                            
                            
                                
                                    시도해 보기 Bark Small
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                Standard
                            
                            
                                알리바바의 Tongyi Lab에서 개발한 CosyVoice 2는 지연 시간이 매우 낮은 인간과 비슷한 음성 품질을 제공하므로 실시간 애플리케이션에 이상적입니다. 스트리밍 합성에 유한 스칼라 양자화 접근 방식을 사용하고 제로 샷 음성 복제, 언어 간 합성, 미세 감정 제어를 지원하며 주관적 평가에서 많은 상용 TTS 시스템을 능가합니다.

                                
                                    
                                        개발자::

                                        Alibaba (Tongyi Lab)
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh, ja, ko, fr, de, it, es
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        스트리밍
                                        
                                        제로 샷 복제
                                        
                                        언어 간
                                        
                                        감정 통제
                                        
                                        인간 패리티
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                실시간 애플리케이션, 스트리밍 TTS, 음성 지원
                                
                            
                            
                                
                                    시도해 보기 CosyVoice 2
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                Standard
                            
                            
                                Nari Labs의 Dia는 다중 스피커 대화를 생성하기 위해 특별히 설계된 1.6B 파라미터 텍스트 음성 모델입니다. Dia는 적절한 턴테이킹, 음운, 감정 표현을 통해 두 스피커 간의 자연스럽게 들리는 대화를 생성할 수 있습니다. Dia는 팟캐스트 스타일의 콘텐츠, 오디오북 대화, 대화형 인공지능을 생성하는 데 완벽합니다.

                                
                                    
                                        개발자::

                                        Nari Labs
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        다중 스피커
                                        
                                        대화상자 생성
                                        
                                        자연스러운 턴테이킹
                                        
                                        감정 표현
                                        
                                        1.6B 매개변수
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                팟캐스트, 오디오북 대화, 대화형 콘텐츠
                                
                            
                            
                                
                                    시도해 보기 Dia TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                Standard
                            
                            
                                Parler TTS는 생성된 음성을 제어하기 위해 자연어 음성 설명을 사용하는 텍스트 음성 변환 모델입니다. 미리 설정된 음성 중에서 선택하는 대신, 원하는 음성을 설명하면 됩니다(예: "약간의 영국 억양을 가진 따뜻한 여성 음성, 천천히 명확하게 말하는") Parler는 해당 설명에 맞는 음성을 생성합니다. 이는 창의적인 애플리케이션에 유연성을 제공합니다.

                                
                                    
                                        개발자::

                                        Hugging Face
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        음성 설명
                                        
                                        자연 언어 제어
                                        
                                        유연한 음성 생성
                                        
                                        미리 설정된 음성이 필요하지 않음
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                사용자 정의 음성 특성이 필요한 크리에이티브 애플리케이션
                                
                            
                            
                                
                                    시도해 보기 Parler TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                Standard
                            
                            
                                GLM-TTS by Zhipu AI는 흐름 매칭 기능을 갖춘 Llama 아키텍처에 기반한 텍스트 음성 변환 시스템으로, 오픈 소스 TTS 모델 중 가장 낮은 문자 오류율을 달성하며, 가장 정확한 발음을 생성합니다. GLM-TTS는 3-10초 오디오 샘플에서 음성 복제를 통해 영어와 중국어를 지원합니다.

                                
                                    
                                        개발자::

                                        Zhipu AI
                                    
                                    
                                        라이선스::

                                        GLM-4 License
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        최저 오류율
                                        
                                        음성 복제
                                        
                                        흐름 일치
                                        
                                        자연 음운론
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                최대 발음 정확도를 요구하는 응용 분야
                                
                            
                            
                                
                                    시도해 보기 GLM-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                Standard
                            
                            
                                IndexTTS-2는 미세한 감정 제어를 통해 제로 샷 음성 합성에 탁월한 고급 텍스트 음성 변환 시스템입니다. 감정별 훈련 데이터가 필요하지 않고도 행복, 슬픔, 화, 두려움과 같은 특정 감정 톤의 음성을 생성할 수 있습니다. 이 모델은 감정 벡터를 사용하여 생성된 음성의 감정 표현을 정확하게 제어합니다.

                                
                                    
                                        개발자::

                                        Index Team
                                    
                                    
                                        라이선스::

                                        Bilibili Model License
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        감정 통제
                                        
                                        제로 샷
                                        
                                        감정 벡터
                                        
                                        표현적 연설
                                        
                                        미세 입자 컨트롤
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                감정적으로 표현할 수 있는 콘텐츠, 오디오북, 가상 조수
                                
                            
                            
                                
                                    시도해 보기 IndexTTS-2
                                
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                Standard
                            
                            
                                Spark TTS by SparkAudio는 음성 복제와 제어 가능한 감정 및 말하기 스타일을 결합한 텍스트-음성 모델입니다. 단 5초의 참조 오디오를 사용하여 음성을 복제한 다음 복제된 음성 정체성을 유지하면서 다른 감정, 속도 및 스타일의 음성을 생성할 수 있습니다. Spark TTS는 프롬프트 기반 제어 시스템을 사용합니다.

                                
                                    
                                        개발자::

                                        SparkAudio
                                    
                                    
                                        라이선스::

                                        CC BY-NC-SA 4.0
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        음성 복제
                                        
                                        감정 통제
                                        
                                        스타일 제어
                                        
                                        프롬프트 기반
                                        
                                        5초 복제
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                복제된 음성과 감정 제어를 사용한 콘텐츠 제작
                                
                            
                            
                                
                                    시도해 보기 Spark TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                Standard
                            
                            
                                GPT-SoVITS는 GPT 스타일의 언어 모델링과 SoVITS(번역 및 합성을 통한 노래 음성 추론)를 결합하여 강력한 몇 샷 음성 복제를 제공합니다. 5초의 참조 오디오로 음성을 정확하게 복제하고 스피커의 고유한 특성을 유지하면서 새로운 음성을 생성할 수 있습니다.

                                
                                    
                                        개발자::

                                        RVC-Boss
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Slow
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh, ja, ko
                                    
                                    
                                        비디오 메모리:

                                        6GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        5초 복제
                                        
                                        노래하는 목소리
                                        
                                        몇 번 찍어서 배우는 방법
                                        
                                        고음질
                                        
                                        언어 간
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                음성 복제, 노래 합성, 콘텐츠 제작자 음성 복제
                                
                            
                            
                                
                                    시도해 보기 GPT-SoVITS
                                
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                Standard
                            
                            
                                Orpheus는 인간 수준의 감정 표현을 달성하는 대규모 텍스트 음성 변환 모델입니다. 100,000시간 이상의 다양한 음성 데이터를 기반으로 훈련된 Orpheus는 자연스러운 감정, 강조, 말하기 스타일을 갖춘 음성을 생성하는 데 탁월합니다. Orpheus는 인간의 녹음과 거의 구분할 수 없는 음성을 생성할 수 있습니다.

                                
                                    
                                        개발자::

                                        Canopy Labs
                                    
                                    
                                        라이선스::

                                        Llama 3.2 Community
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        인간 수준의 감정
                                        
                                        100K 시간 훈련
                                        
                                        자연스러운 강조
                                        
                                        표현적인 연설
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                고품질 감정적인 연설, 오디오북, 음성 행위
                                
                            
                            
                                
                                    시도해 보기 Orpheus
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox
                                Premium
                            
                            
                                Resemble AI의 Chatterbox는 최첨단 제로 샷 음성 복제 모델로서 단일 오디오 샘플에서 어떤 음성이든 놀라운 정확도로 복제할 수 있으며, 음색뿐만 아니라 말하는 스타일과 감정적인 뉘앙스까지 포착할 수 있습니다. Chatterbox는 또한 음성 정체성과 독립적으로 생성된 음성의 감정적인 톤을 조정할 수 있는 미세한 감정 제어 기능을 제공합니다.

                                
                                    
                                        개발자::

                                        Resemble AI
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        제로 샷 복제
                                        
                                        감정 통제
                                        
                                        고음질
                                        
                                        스타일 전송
                                        
                                        단일 샘플 복제
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                감정 제어, 콘텐츠 생성을 갖춘 전문 음성 복제
                                
                            
                            
                                
                                    시도해 보기 Chatterbox
                                
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                Premium
                            
                            
                                Tortoise TTS는 속도보다 오디오 품질을 우선시하는 자기 회귀 다중 음성 텍스트 음성 변환 시스템입니다. DALL-E에서 영감을 받은 아키텍처를 사용하여 뛰어난 음운과 발음 유사성을 갖춘 매우 자연스러운 음성을 생성합니다. Tortoise는 많은 대안보다 느리지만 오픈 소스 에코시스템에서 사용할 수 있는 가장 현실적인 합성 음성 중 일부를 생성합니다.

                                
                                    
                                        개발자::

                                        James Betker
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Slow
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        8GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        최고의 품질
                                        
                                        다중 음성
                                        
                                        DALL-E 아키텍처
                                        
                                        음성 복제
                                        
                                        자동 회귀
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                오디오북, 프리미엄 콘텐츠, 품질 우선 애플리케이션
                                
                            
                            
                                
                                    시도해 보기 Tortoise TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                Premium
                            
                            
                                StyleTTS 2는 대형 음성 언어 모델을 사용하여 스타일 확산과 대립 훈련을 결합하여 인간 수준의 TTS 합성을 달성합니다. 싱글 스피커 모델 중에서 가장 자연스럽게 들리는 음성을 생성하여 인간 녹음과 경쟁합니다. StyleTTS 2는 확산 기반 스타일 모델링을 사용하여 인간의 음성 변화의 전체 범위를 포착합니다.

                                
                                    
                                        개발자::

                                        Columbia University
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        인간 수준
                                        
                                        스타일 퍼브
                                        
                                        대립형 훈련
                                        
                                        자연변이
                                        
                                        고음질
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                스튜디오 품질의 단일 스피커 합성, 전문적인 내레이션
                                
                            
                            
                                
                                    시도해 보기 StyleTTS 2
                                
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                Premium
                            
                            
                                MyShell.ai에 의한 OpenVoice는 음성 스타일, 감정, 억양, 리듬, 일시 정지, 음조를 세부적으로 제어하는 즉각적인 음성 복제를 가능하게 합니다. 짧은 오디오 클립에서 음성을 복제하고 발음자의 정체성을 유지하면서 여러 언어로 음성을 생성할 수 있습니다. OpenVoice는 또한 음성 변환기로 작동하여 실시간 음성 변환을 가능하게 합니다.

                                
                                    
                                        개발자::

                                        MyShell.ai / MIT
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh, ja, ko, fr, de, es, it
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        즉각적인 복제
                                        
                                        음성 변환
                                        
                                        감정 통제
                                        
                                        악센트 제어
                                        
                                        다국어
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                미세한 입자 스타일 제어, 음성 변환을 갖춘 음성 복제
                                
                            
                            
                                
                                    시도해 보기 OpenVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                Standard
                            
                            
                                Qwen3-TTS는 알리바바의 Qwen 팀이 개발한 17억 파라미터의 텍스트 음성 변환 모델로, 감정 제어 기능이 있는 사전 설정 음성(9개의 스피커), 3초의 오디오로부터 음성 복제, 원하는 음성을 자연어로 설명할 수 있는 독특한 음성 디자인 모드의 세 가지 모드를 지원합니다. 10개 언어를 표현력과 자연스러운 음운으로 처리합니다.

                                
                                    
                                        개발자::

                                        Alibaba (Qwen)
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh, ja, ko, de, fr, ru, pt, es, it
                                    
                                    
                                        비디오 메모리:

                                        7GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        음성 복제
                                        
                                        9 사전 설정 음성
                                        
                                        텍스트에서 음성 디자인
                                        
                                        감정 통제
                                        
                                        10 개 언어 지원
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                음성 복제 또는 맞춤형 음성 디자인을 통한 다국어 콘텐츠
                                
                            
                            
                                
                                    시도해 보기 Qwen3 TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                Premium
                            
                            
                                Sesame CSM(Conversational Speech Model)은 대화 음성을 생성하기 위해 특별히 설계된 10억 파라미터 모델입니다. 이 모델은 턴테이킹 타이밍, 백채널 응답, 감정 반응, 대화 흐름 등 인간 대화의 자연스러운 패턴을 모델링합니다. CSM은 합성 음성 대신 자연스러운 인간 대화처럼 들리는 오디오를 생성합니다.

                                
                                    
                                        개발자::

                                        Sesame
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Slow
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        8GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        대화형
                                        
                                        자연 타이밍
                                        
                                        차례
                                        
                                        백채널
                                        
                                        1B 매개변수
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                AI 어시스턴트, 채팅봇, 대화형 AI 애플리케이션
                                
                            
                            
                                
                                    시도해 보기 Sesame CSM
                                
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                Standard
                            
                            
                                Resemble AI의 Chatterbox Turbo는 Chatterbox의 350M 파라미터 업그레이드로, 200ms 미만의 지연 시간으로 최대 6배의 실시간 속도를 제공합니다. [laugh], [cough], [chuckle]와 같은 언어 태그를 텍스트에 직접 지원합니다.

                                
                                    
                                        개발자::

                                        Resemble AI
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        2GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        200ms 미만의 지연 시간
                                        
                                        언어 태그
                                        
                                        6배 실시간
                                        
                                        음성 복제
                                        
                                        워터마크
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                실시간 음성 에이전트, 자연스러운 소리로 표현적인 음성
                                
                            
                            
                                
                                    시도해 보기 Chatterbox Turbo
                                
                            
                        
                    
                    
                    
                        
                            
                                Zonos
                                Standard
                            
                            
                                Zyphra의 Zonos v0.1은 행복, 분노, 슬픔, 두려움, 놀라움에 대한 슬라이더를 사용하여 미세한 감정 제어를 특징으로 하는 1.6B 파라미터 모델입니다. 트랜스포머와 새로운 SSM(상태 공간 모델) 변형 모두를 제공합니다. 10-30초의 참조 오디오에서 제로 샷 음성 복제를 사용하여 200K+ 시간의 다국어 음성을 훈련했습니다.

                                
                                    
                                        개발자::

                                        Zyphra
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, ja, zh, fr, de
                                    
                                    
                                        비디오 메모리:

                                        6GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        감정 통제
                                        
                                        음성 복제
                                        
                                        SSM 아키텍처
                                        
                                        다국어
                                        
                                        피치/속도 제어
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                감정 제어, 음성 디자인 스튜디오와 표현적인 연설
                                
                            
                            
                                
                                    시도해 보기 Zonos
                                
                            
                        
                    
                    
                    
                        
                            
                                Dia 2
                                Standard
                            
                            
                                Nari Labs의 Dia2는 1B 및 2B 파라미터 변형으로 제공되는 Dia의 스트리밍 퍼스트 업그레이드입니다. 처음 몇 개의 토큰에서 오디오를 합성하기 시작하므로 실시간 음성 에이전트 및 음성 대 음성 파이프라인에 이상적입니다. [S1]/[S2] 태그 및 (laughs), (coughs)와 같은 비언어적 큐와 함께 다중 스피커 대화를 지원합니다.

                                
                                    
                                        개발자::

                                        Nari Labs
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        스트리밍 출력
                                        
                                        다중 스피커
                                        
                                        낮은 지연 시간
                                        
                                        언어학적 힌트
                                        
                                        최대 2분 출력
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                실시간 음성 에이전트, 대화 생성, 스트리밍 애플리케이션
                                
                            
                            
                                
                                    시도해 보기 Dia 2
                                
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                Standard
                            
                            
                                OpenBMB의 VoxCPM 1.5는 이산 토큰 대신 연속 공간에서 작동하는 토큰화 없는 새로운 TTS 모델입니다. 고품질 44.1kHz 오디오를 생성하고 3-10초의 제로 샷 음성 복제를 지원하며 단락 전체에 걸쳐 일관성을 유지합니다. 언어 간 복제를 통해 영어 음성을 중국어 음성에 적용하고 그 반대로도 할 수 있습니다.

                                
                                    
                                        개발자::

                                        OpenBMB
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        44.1kHz 오디오
                                        
                                        토켄이저 없음
                                        
                                        크로스 언어 복제
                                        
                                        컨텍스트 인식
                                        
                                        LoRA 미세 조정
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                음성 일관성을 갖춘 고품질 오디오, 오디오북, 긴 형식의 콘텐츠
                                
                            
                            
                                
                                    시도해 보기 VoxCPM
                                
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                Free
                            
                            
                                OuteTTS는 원래의 아키텍처를 유지하면서 텍스트 음성 변환 기능을 통해 대규모 언어 모델을 확장합니다. llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, 심지어 Transformers.js를 통한 브라우저 추론을 포함한 여러 백엔드를 지원합니다. JSON으로 저장된 스피커 프로필을 통해 제로 샷 음성 복제 기능을 제공합니다.

                                
                                    
                                        개발자::

                                        OuteAI
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        2GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        자유
                                    
                                

                                
                                
                                    
                                        
                                        CPU 추론
                                        
                                        브라우저 추론
                                        
                                        음성 복제
                                        
                                        여러 백엔드
                                        
                                        스피커 프로필
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                에지 배포, 브라우저 기반 TTS, 저리소스 환경
                                
                            
                            
                                
                                    시도해 보기 OuteTTS
                                
                            
                        
                    
                    
                    
                        
                            
                                TADA
                                Standard
                            
                            
                                Hume AI의 TADA(Text-Acoustic Dual Alignment)는 Llama 3.2에 기반한 새로운 듀얼 알라인먼트 아키텍처를 통해 환각을 제거하는 혁신적인 TTS 모델입니다. 1B(영어) 및 3B(다국어) 버전으로 제공되는 TADA는 비슷한 LLM 기반 TTS 모델보다 5배 빠른 0.09의 RTF를 달성합니다. 최대 700초의 오디오 컨텍스트를 지원하고 표준 벤치마크에서 환각이 없는 감정적으로 표현력 있는 음성을 생성합니다.

                                
                                    
                                        개발자::

                                        Hume AI
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        5GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        환각 없음
                                        
                                        LLM TTS보다 5배 빠르다
                                        
                                        감정 표현
                                        
                                        700s 오디오 컨텍스트
                                        
                                        이중 정렬
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                환각 없는 고품질 연설, 감정 표현, 빠른 추론
                                
                            
                            
                                
                                    시도해 보기 TADA
                                
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                Standard
                            
                            
                                Microsoft의 VibeVoice는 두 가지 버전으로 제공됩니다. 긴 형식의 콘텐츠(최대 90분, 4명의 스피커)를 위한 1.5B 모델과 첫 번째 오디오 지연 시간이 약 200ms인 스트리밍을 위한 Realtime 0.5B 모델입니다. 1.5B 버전은 긴 구절에 걸쳐 스피커 일관성을 갖춘 팟캐스트 및 오디오북에서 뛰어납니다. 참고: Microsoft는 TTS 코드를 저장소에서 제거했으며 생성된 오디오에는 청취 가능한 AI 면책 조항이 포함되어 있습니다.

                                
                                    
                                        개발자::

                                        Microsoft
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        다중 스피커
                                        
                                        최대 90분
                                        
                                        팟캐스트 생성
                                        
                                        스피커 일관성
                                        
                                        200ms 스트리밍
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                팟캐스트, 오디오북, 장식형 다중 스피커 콘텐츠
                                
                            
                            
                                
                                    시도해 보기 VibeVoice
                                
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                Free
                            
                            
                                Moshi의 개발자인 Kyutai가 개발한 Pocket TTS는 100M 파라미터의 소형 텍스트 음성 변환 모델로서 무게보다 훨씬 큰 성능을 발휘합니다. CPU에서 효율적으로 실행되며, 단일 오디오 샘플에서 제로 샷 음성 복제를 지원하고 자연스럽게 들리는 음성을 생성합니다. 소형 모델 크기로 엣지 배포 및 리소스가 적은 환경에 이상적입니다.

                                
                                    
                                        개발자::

                                        Kyutai
                                    
                                    
                                        라이선스::

                                        MIT
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, fr
                                    
                                    
                                        비디오 메모리:

                                        1GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        자유
                                    
                                

                                
                                
                                    
                                        
                                        100M 매개 변수
                                        
                                        CPU 추론
                                        
                                        음성 복제
                                        
                                        단일 샘플 복제
                                        
                                        에지 준비됨
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                경량 배포, CPU 전용 환경, 신속한 음성 복제
                                
                            
                            
                                
                                    시도해 보기 Pocket TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                Free
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

                                
                                    
                                        개발자::

                                        KittenML
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en
                                    
                                    
                                        비디오 메모리:

                                        0GB
                                    
                                    
                                        음성 복제:

                                         아니요
                                    
                                    
                                        1K 문자당 비용:

                                        자유
                                    
                                

                                
                                
                                    
                                        
                                        CPU-only inference
                                        
                                        Under 80MB model size
                                        
                                        8 built-in voices
                                        
                                        Speed control
                                        
                                        ONNX-based
                                        
                                        24kHz output
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                Fast lightweight TTS, edge deployment, low-latency applications
                                
                            
                            
                                
                                    시도해 보기 Kitten TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                Standard
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

                                
                                    
                                        개발자::

                                        Alibaba (FunAudioLLM)
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Fast
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh, ja, ko, de, es, fr, it, ru
                                    
                                    
                                        비디오 메모리:

                                        4GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        2x
                                    
                                

                                
                                
                                    
                                        
                                        Bi-streaming
                                        
                                        Emotion control
                                        
                                        Voice cloning
                                        
                                        Speed/volume control
                                        
                                        Instruction following
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                Multilingual production TTS, real-time applications, voice cloning
                                
                            
                            
                                
                                    시도해 보기 CosyVoice3
                                
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS
                                Premium
                            
                            
                                MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

                                
                                    
                                        개발자::

                                        OpenMOSS
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Medium
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
                                    
                                    
                                        비디오 메모리:

                                        16GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Ultra-long generation
                                        
                                        20 languages
                                        
                                        Voice cloning
                                        
                                        Duration control
                                        
                                        Pronunciation control
                                        
                                        Code-switching
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                Audiobooks, long-form content, multilingual production
                                
                            
                            
                                
                                    시도해 보기 MOSS-TTS
                                
                            
                        
                    
                    
                    
                        
                            
                                MegaTTS3
                                Premium
                            
                            
                                MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

                                
                                    
                                        개발자::

                                        ByteDance
                                    
                                    
                                        라이선스::

                                        Apache 2.0
                                    
                                    
                                        속도:

                                        Slow
                                    
                                    
                                        품질::

                                        
                                    
                                    
                                        언어:

                                        en, zh
                                    
                                    
                                        비디오 메모리:

                                        8GB
                                    
                                    
                                        음성 복제:

                                         네
                                    
                                    
                                        1K 문자당 비용:

                                        4x
                                    
                                

                                
                                
                                    
                                        
                                        Voice cloning
                                        
                                        Adjustable similarity
                                        
                                        Cross-lingual
                                        
                                    
                                
                                

                                
                                최적의 용도:: 
                                High-fidelity voice cloning
                                
                            
                            
                                
                                    시도해 보기 MegaTTS3
                                
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Kokoro
                                자유
                            
                            
                                Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
                                
                                    개발자::
Hexgrad
                                    라이선스::
Apache 2.0
                                    속도:
Fast
                                    품질::

                                    언어: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
                                
                                최적의 용도:: High-quality TTS with minimal latency, streaming applications
                            
                            
                                무료로 사용해 보기
                            
                        
                    
                    
                    
                        
                            
                                Piper
                                자유
                            
                            
                                Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
                                
                                    개발자::
Rhasspy
                                    라이선스::
MIT
                                    속도:
Fast
                                    품질::

                                    언어: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
                                
                                최적의 용도:: Quick previews, accessibility, and embedded applications
                            
                            
                                무료로 사용해 보기
                            
                        
                    
                    
                    
                        
                            
                                VITS
                                자유
                            
                            
                                VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
                                
                                    개발자::
Jaehyeon Kim et al.
                                    라이선스::
MIT
                                    속도:
Fast
                                    품질::

                                    언어: en, zh, ja, ko
                                
                                최적의 용도:: General-purpose text-to-speech with natural prosody
                            
                            
                                무료로 사용해 보기
                            
                        
                    
                    
                    
                        
                            
                                MeloTTS
                                자유
                            
                            
                                MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
                                
                                    개발자::
MyShell.ai
                                    라이선스::
MIT
                                    속도:
Fast
                                    품질::

                                    언어: en, es, fr, zh, ja, ko
                                
                                최적의 용도:: Production applications needing fast, multilingual TTS
                            
                            
                                무료로 사용해 보기
                            
                        
                    
                    
                    
                        
                            
                                OuteTTS
                                자유
                            
                            
                                OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.
                                
                                    개발자::
OuteAI
                                    라이선스::
Apache 2.0
                                    속도:
Fast
                                    품질::

                                    언어: en
                                
                                최적의 용도:: Edge deployment, browser-based TTS, low-resource environments
                            
                            
                                무료로 사용해 보기
                            
                        
                    
                    
                    
                        
                            
                                Pocket TTS
                                자유
                            
                            
                                Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.
                                
                                    개발자::
Kyutai
                                    라이선스::
MIT
                                    속도:
Fast
                                    품질::

                                    언어: en, fr
                                
                                최적의 용도:: Lightweight deployment, CPU-only environments, quick voice cloning
                            
                            
                                무료로 사용해 보기
                            
                        
                    
                    
                    
                        
                            
                                Kitten TTS
                                자유
                            
                            
                                Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
                                
                                    개발자::
KittenML
                                    라이선스::
Apache 2.0
                                    속도:
Fast
                                    품질::

                                    언어: en
                                
                                최적의 용도:: Fast lightweight TTS, edge deployment, low-latency applications
                            
                            
                                무료로 사용해 보기
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Bark
                                표준
                            
                            
                                Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
                                
                                    개발자::
Suno
                                    라이선스::
MIT
                                    속도:
Slow
                                    품질::

                                    언어:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    음성 복제:
 아니요
                                
                                Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
                                최적의 용도:: Creative audio content, audiobooks with emotion, sound effects
                            
                            
                                시도해 보기 Bark
                            
                        
                    
                    
                    
                        
                            
                                Bark Small
                                표준
                            
                            
                                Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
                                
                                    개발자::
Suno
                                    라이선스::
MIT
                                    속도:
Medium
                                    품질::

                                    언어:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
                                    음성 복제:
 아니요
                                
                                LightweightFaster than full BarkEmotional speechMultilingual
                                최적의 용도:: Quick creative audio when full Bark is too slow
                            
                            
                                시도해 보기 Bark Small
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice 2
                                표준
                            
                            
                                CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
                                
                                    개발자::
Alibaba (Tongyi Lab)
                                    라이선스::
Apache 2.0
                                    속도:
Medium
                                    품질::

                                    언어:
en, zh, ja, ko, fr, de, it, es
                                    음성 복제:
 네
                                
                                StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
                                최적의 용도:: Real-time applications, streaming TTS, voice assistants
                            
                            
                                시도해 보기 CosyVoice 2
                            
                        
                    
                    
                    
                        
                            
                                Dia TTS
                                표준
                            
                            
                                Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
                                
                                    개발자::
Nari Labs
                                    라이선스::
Apache 2.0
                                    속도:
Medium
                                    품질::

                                    언어:
en
                                    음성 복제:
 아니요
                                
                                Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
                                최적의 용도:: Podcasts, audiobook dialogues, conversational content
                            
                            
                                시도해 보기 Dia TTS
                            
                        
                    
                    
                    
                        
                            
                                Parler TTS
                                표준
                            
                            
                                Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
                                
                                    개발자::
Hugging Face
                                    라이선스::
Apache 2.0
                                    속도:
Medium
                                    품질::

                                    언어:
en
                                    음성 복제:
 아니요
                                
                                Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
                                최적의 용도:: Creative applications where you need custom voice characteristics
                            
                            
                                시도해 보기 Parler TTS
                            
                        
                    
                    
                    
                        
                            
                                GLM-TTS
                                표준
                            
                            
                                GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.
                                
                                    개발자::
Zhipu AI
                                    라이선스::
GLM-4 License
                                    속도:
Medium
                                    품질::

                                    언어:
en, zh
                                    음성 복제:
 네
                                
                                Lowest error rateVoice cloningFlow matchingNatural prosody
                                최적의 용도:: Applications requiring maximum pronunciation accuracy
                            
                            
                                시도해 보기 GLM-TTS
                            
                        
                    
                    
                    
                        
                            
                                IndexTTS-2
                                표준
                            
                            
                                IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
                                
                                    개발자::
Index Team
                                    라이선스::
Bilibili Model License
                                    속도:
Medium
                                    품질::

                                    언어:
en, zh
                                    음성 복제:
 네
                                
                                Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
                                최적의 용도:: Emotionally expressive content, audiobooks, virtual assistants
                            
                            
                                시도해 보기 IndexTTS-2
                            
                        
                    
                    
                    
                        
                            
                                Spark TTS
                                표준
                            
                            
                                Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
                                
                                    개발자::
SparkAudio
                                    라이선스::
CC BY-NC-SA 4.0
                                    속도:
Medium
                                    품질::

                                    언어:
en, zh
                                    음성 복제:
 네
                                
                                Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
                                최적의 용도:: Content creation with cloned voices and emotional control
                            
                            
                                시도해 보기 Spark TTS
                            
                        
                    
                    
                    
                        
                            
                                GPT-SoVITS
                                표준
                            
                            
                                GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
                                
                                    개발자::
RVC-Boss
                                    라이선스::
MIT
                                    속도:
Slow
                                    품질::

                                    언어:
en, zh, ja, ko
                                    음성 복제:
 네
                                
                                5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
                                최적의 용도:: Voice cloning, singing synthesis, content creator voice replication
                            
                            
                                시도해 보기 GPT-SoVITS
                            
                        
                    
                    
                    
                        
                            
                                Orpheus
                                표준
                            
                            
                                Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
                                
                                    개발자::
Canopy Labs
                                    라이선스::
Llama 3.2 Community
                                    속도:
Medium
                                    품질::

                                    언어:
en
                                    음성 복제:
 아니요
                                
                                Human-level emotion100K hours trainingNatural emphasisExpressive speech
                                최적의 용도:: High-quality emotional speech, audiobooks, voice acting
                            
                            
                                시도해 보기 Orpheus
                            
                        
                    
                    
                    
                        
                            
                                Qwen3 TTS
                                표준
                            
                            
                                Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
                                
                                    개발자::
Alibaba (Qwen)
                                    라이선스::
Apache 2.0
                                    속도:
Medium
                                    품질::

                                    언어:
en, zh, ja, ko, de, fr, ru, pt, es, it
                                    음성 복제:
 네
                                
                                Voice cloning9 preset voicesVoice design from textEmotion control10 languages
                                최적의 용도:: Multilingual content with voice cloning or custom voice design
                            
                            
                                시도해 보기 Qwen3 TTS
                            
                        
                    
                    
                    
                        
                            
                                Chatterbox Turbo
                                표준
                            
                            
                                Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.
                                
                                    개발자::
Resemble AI
                                    라이선스::
MIT
                                    속도:
Fast
                                    품질::

                                    언어:
en
                                    음성 복제:
 네
                                
                                Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking
                                최적의 용도:: Real-time voice agents, expressive speech with natural sounds
                            
                            
                                시도해 보기 Chatterbox Turbo
                            
                        
                    
                    
                    
                        
                            
                                Zonos
                                표준
                            
                            
                                Zonos v0.1 by Zyphra is a 1.6B parameter model featuring fine-grained emotion control with sliders for happiness, anger, sadness, fear, and surprise. It offers both a Transformer and a novel SSM (state-space model) variant. Trained on 200K+ hours of multilingual speech with zero-shot voice cloning from 10-30 seconds of reference audio.
                                
                                    개발자::
Zyphra
                                    라이선스::
Apache 2.0
                                    속도:
Medium
                                    품질::

                                    언어:
en, ja, zh, fr, de
                                    음성 복제:
 네
                                
                                Emotion controlVoice cloningSSM architectureMultilingualPitch/rate control
                                최적의 용도:: Expressive speech with emotion control, voice design studio
                            
                            
                                시도해 보기 Zonos
                            
                        
                    
                    
                    
                        
                            
                                Dia 2
                                표준
                            
                            
                                Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).
                                
                                    개발자::
Nari Labs
                                    라이선스::
Apache 2.0
                                    속도:
Fast
                                    품질::

                                    언어:
en
                                    음성 복제:
 아니요
                                
                                Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output
                                최적의 용도:: Real-time voice agents, dialogue generation, streaming applications
                            
                            
                                시도해 보기 Dia 2
                            
                        
                    
                    
                    
                        
                            
                                VoxCPM
                                표준
                            
                            
                                VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.
                                
                                    개발자::
OpenBMB
                                    라이선스::
Apache 2.0
                                    속도:
Fast
                                    품질::

                                    언어:
en, zh
                                    음성 복제:
 네
                                
                                44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning
                                최적의 용도:: High-fidelity audio, audiobooks, long-form content with voice consistency
                            
                            
                                시도해 보기 VoxCPM
                            
                        
                    
                    
                    
                        
                            
                                TADA
                                표준
                            
                            
                                TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.
                                
                                    개발자::
Hume AI
                                    라이선스::
MIT
                                    속도:
Fast
                                    품질::

                                    언어:
en
                                    음성 복제:
 아니요
                                
                                Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment
                                최적의 용도:: High-quality hallucination-free speech, emotional expression, fast inference
                            
                            
                                시도해 보기 TADA
                            
                        
                    
                    
                    
                        
                            
                                VibeVoice
                                표준
                            
                            
                                VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.
                                
                                    개발자::
Microsoft
                                    라이선스::
MIT
                                    속도:
Fast
                                    품질::

                                    언어:
en, zh
                                    음성 복제:
 아니요
                                
                                Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency
                                최적의 용도:: Podcasts, dialogues, long-form narration, multi-speaker content
                            
                            
                                시도해 보기 VibeVoice
                            
                        
                    
                    
                    
                        
                            
                                CosyVoice3
                                표준
                            
                            
                                CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.
                                
                                    개발자::
Alibaba (FunAudioLLM)
                                    라이선스::
Apache 2.0
                                    속도:
Fast
                                    품질::

                                    언어:
en, zh, ja, ko, de, es, fr, it, ru
                                    음성 복제:
 네
                                
                                Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following
                                최적의 용도:: Multilingual production TTS, real-time applications, voice cloning
                            
                            
                                시도해 보기 CosyVoice3
                            
                        
                    
                    
                
            

            
            
                
                    
                    
                        
                            
                                Chatterbox
                                최고급
                            
                            
                                Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.
                                
                                    개발자::
Resemble AI
                                    라이선스::
MIT
                                    속도:
Medium
                                    품질::

                                    언어:
en
                                    음성 복제:
 네
                                    비디오 메모리:
4GB
                                    1K 문자당 비용:
4x
                                
                                Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
                                최적의 용도:: Professional voice cloning with emotional control, content creation
                            
                            
                                시도해 보기 Chatterbox
                            
                        
                    
                    
                    
                        
                            
                                Tortoise TTS
                                최고급
                            
                            
                                Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.
                                
                                    개발자::
James Betker
                                    라이선스::
Apache 2.0
                                    속도:
Slow
                                    품질::

                                    언어:
en
                                    음성 복제:
 네
                                    비디오 메모리:
8GB
                                    1K 문자당 비용:
4x
                                
                                Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
                                최적의 용도:: Audiobooks, premium content, quality-first applications
                            
                            
                                시도해 보기 Tortoise TTS
                            
                        
                    
                    
                    
                        
                            
                                StyleTTS 2
                                최고급
                            
                            
                                StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.
                                
                                    개발자::
Columbia University
                                    라이선스::
MIT
                                    속도:
Medium
                                    품질::

                                    언어:
en
                                    음성 복제:
 아니요
                                    비디오 메모리:
4GB
                                    1K 문자당 비용:
4x
                                
                                Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
                                최적의 용도:: Studio-quality single-speaker synthesis, professional narration
                            
                            
                                시도해 보기 StyleTTS 2
                            
                        
                    
                    
                    
                        
                            
                                OpenVoice
                                최고급
                            
                            
                                OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.
                                
                                    개발자::
MyShell.ai / MIT
                                    라이선스::
MIT
                                    속도:
Medium
                                    품질::

                                    언어:
en, zh, ja, ko, fr, de, es, it
                                    음성 복제:
 네
                                    비디오 메모리:
4GB
                                    1K 문자당 비용:
4x
                                
                                Instant cloningVoice conversionEmotion controlAccent controlMultilingual
                                최적의 용도:: Voice cloning with fine-grained style control, voice conversion
                            
                            
                                시도해 보기 OpenVoice
                            
                        
                    
                    
                    
                        
                            
                                Sesame CSM
                                최고급
                            
                            
                                Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.
                                
                                    개발자::
Sesame
                                    라이선스::
Apache 2.0
                                    속도:
Slow
                                    품질::

                                    언어:
en
                                    음성 복제:
 아니요
                                    비디오 메모리:
8GB
                                    1K 문자당 비용:
4x
                                
                                ConversationalNatural timingTurn-takingBackchannel1B parameters
                                최적의 용도:: AI assistants, chatbots, conversational AI applications
                            
                            
                                시도해 보기 Sesame CSM
                            
                        
                    
                    
                    
                        
                            
                                MOSS-TTS
                                최고급
                            
                            
                                MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.
                                
                                    개발자::
OpenMOSS
                                    라이선스::
Apache 2.0
                                    속도:
Medium
                                    품질::

                                    언어:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
                                    음성 복제:
 네
                                    비디오 메모리:
16GB
                                    1K 문자당 비용:
4x
                                
                                Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching
                                최적의 용도:: Audiobooks, long-form content, multilingual production
                            
                            
                                시도해 보기 MOSS-TTS
                            
                        
                    
                    
                    
                        
                            
                                MegaTTS3
                                최고급
                            
                            
                                MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.
                                
                                    개발자::
ByteDance
                                    라이선스::
Apache 2.0
                                    속도:
Slow
                                    품질::

                                    언어:
en, zh
                                    음성 복제:
 네
                                    비디오 메모리:
8GB
                                    1K 문자당 비용:
4x
                                
                                Voice cloningAdjustable similarityCross-lingual
                                최적의 용도:: High-fidelity voice cloning
                            
                            
                                시도해 보기 MegaTTS3
                            
                        
                    
                    
                
            
        

        
        
            모델 비교 표
            
                
                    
                        
                            모델
                            개발자:
                            종
                            품질:
                            속도
                            언어
                            음성 복제
                            비디오 메모리
                            라이선스:
                            크레딧
                            
                        
                    
                    
                        
                        
                            Kokoro
                            Hexgrad
                            Free
                            
                            Fast
                            11
                            
                            1.5GB
                            Apache 2.0
                            자유
                            사용
                        
                        
                        
                            Piper
                            Rhasspy
                            Free
                            
                            Fast
                            31
                            
                            0 (CPU only)
                            MIT
                            자유
                            사용
                        
                        
                        
                            VITS
                            Jaehyeon Kim et al.
                            Free
                            
                            Fast
                            4
                            
                            1GB
                            MIT
                            자유
                            사용
                        
                        
                        
                            MeloTTS
                            MyShell.ai
                            Free
                            
                            Fast
                            6
                            
                            0.5GB (GPU optional)
                            MIT
                            자유
                            사용
                        
                        
                        
                            Bark
                            Suno
                            Standard
                            
                            Slow
                            13
                            
                            5GB
                            MIT
                            2
                            사용
                        
                        
                        
                            Bark Small
                            Suno
                            Standard
                            
                            Medium
                            13
                            
                            2GB
                            MIT
                            2
                            사용
                        
                        
                        
                            CosyVoice 2
                            Alibaba (Tongyi Lab)
                            Standard
                            
                            Medium
                            8
                            
                            4GB
                            Apache 2.0
                            2
                            사용
                        
                        
                        
                            Dia TTS
                            Nari Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            사용
                        
                        
                        
                            Parler TTS
                            Hugging Face
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            사용
                        
                        
                        
                            GLM-TTS
                            Zhipu AI
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            GLM-4 License
                            2
                            사용
                        
                        
                        
                            IndexTTS-2
                            Index Team
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            Bilibili Model License
                            2
                            사용
                        
                        
                        
                            Spark TTS
                            SparkAudio
                            Standard
                            
                            Medium
                            2
                            
                            4GB
                            CC BY-NC-SA 4.0
                            2
                            사용
                        
                        
                        
                            GPT-SoVITS
                            RVC-Boss
                            Standard
                            
                            Slow
                            4
                            
                            6GB
                            MIT
                            2
                            사용
                        
                        
                        
                            Orpheus
                            Canopy Labs
                            Standard
                            
                            Medium
                            1
                            
                            4GB
                            Llama 3.2 Community
                            2
                            사용
                        
                        
                        
                            Chatterbox
                            Resemble AI
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            사용
                        
                        
                        
                            Tortoise TTS
                            James Betker
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            사용
                        
                        
                        
                            StyleTTS 2
                            Columbia University
                            Premium
                            
                            Medium
                            1
                            
                            4GB
                            MIT
                            4
                            사용
                        
                        
                        
                            OpenVoice
                            MyShell.ai / MIT
                            Premium
                            
                            Medium
                            8
                            
                            4GB
                            MIT
                            4
                            사용
                        
                        
                        
                            Qwen3 TTS
                            Alibaba (Qwen)
                            Standard
                            
                            Medium
                            10
                            
                            7GB
                            Apache 2.0
                            2
                            사용
                        
                        
                        
                            Sesame CSM
                            Sesame
                            Premium
                            
                            Slow
                            1
                            
                            8GB
                            Apache 2.0
                            4
                            사용
                        
                        
                        
                            Chatterbox Turbo
                            Resemble AI
                            Standard
                            
                            Fast
                            1
                            
                            2GB
                            MIT
                            2
                            사용
                        
                        
                        
                            Zonos
                            Zyphra
                            Standard
                            
                            Medium
                            5
                            
                            6GB
                            Apache 2.0
                            2
                            사용
                        
                        
                        
                            Dia 2
                            Nari Labs
                            Standard
                            
                            Fast
                            1
                            
                            4GB
                            Apache 2.0
                            2
                            사용
                        
                        
                        
                            VoxCPM
                            OpenBMB
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            Apache 2.0
                            2
                            사용
                        
                        
                        
                            OuteTTS
                            OuteAI
                            Free
                            
                            Fast
                            1
                            
                            2GB
                            Apache 2.0
                            자유
                            사용
                        
                        
                        
                            TADA
                            Hume AI
                            Standard
                            
                            Fast
                            1
                            
                            5GB
                            MIT
                            2
                            사용
                        
                        
                        
                            VibeVoice
                            Microsoft
                            Standard
                            
                            Fast
                            2
                            
                            4GB
                            MIT
                            2
                            사용
                        
                        
                        
                            Pocket TTS
                            Kyutai
                            Free
                            
                            Fast
                            2
                            
                            1GB
                            MIT
                            자유
                            사용
                        
                        
                        
                            Kitten TTS
                            KittenML
                            Free
                            
                            Fast
                            1
                            
                            0GB
                            Apache 2.0
                            자유
                            사용
                        
                        
                        
                            CosyVoice3
                            Alibaba (FunAudioLLM)
                            Standard
                            
                            Fast
                            9
                            
                            4GB
                            Apache 2.0
                            2
                            사용
                        
                        
                        
                            MOSS-TTS
                            OpenMOSS
                            Premium
                            
                            Medium
                            19
                            
                            16GB
                            Apache 2.0
                            4
                            사용
                        
                        
                        
                            MegaTTS3
                            ByteDance
                            Premium
                            
                            Slow
                            2
                            
                            8GB
                            Apache 2.0
                            4
                            사용
                        
                        
                    
                
            
        
    




    
        
            
                가장 포괄적인 AI 텍스트 음성 플랫폼

                
                    
                        텍스트 음성 변환을 위해 TTS.ai을 선택해야 하는 이유는 무엇입니까?
                        TTS.ai은 세계 최고의 오픈 소스 텍스트 음성 변환 모델을 사용이 용이한 단일 플랫폼에 통합합니다. 단일 음성 엔진에 갇혀 있는 독점 서비스와 달리, TTS.ai은 Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, 칭화 대학 등을 포함한 선도적인 연구소의 20개 이상의 모델에 액세스할 수 있도록 해줍니다.
                        모든 모델은 MIT, Apache 2.0 또는 유사한 허용 라이선스 하에 오픈 소스이므로 생성된 오디오를 프로젝트에 사용할 수 있는 상업적 권리를 보장합니다. 실시간 애플리케이션을 위한 빠르고 가벼운 합성이 필요하든 오디오북과 팟캐스트를 위한 프리미엄 스튜디오 품질의 출력이 필요하든, TTS.ai은 모든 사용 사례에 적합한 모델을 제공합니다.

                        무료 모델, 계정 필요 없음
                        세 가지 무료 TTS 모델인 Piper(초고속, 경량), VITS(고품질 신경 합성), MeloTTS(다중 언어 지원)로 즉시 시작하세요. 가입도, 신용카드도, 세대 제한도 없습니다. 무료 모델은 대부분의 애플리케이션에 적합한 자연스럽게 들리는 출력으로 영어와 여러 다른 언어를 지원합니다.
                    
                    
                        GPU 가속 처리
                        모든 TTS 모델은 전용 NVIDIA GPU에서 빠르고 일관된 생성 시간을 위해 실행됩니다. 무료 모델은 일반적으로 2초 이내에 오디오를 생성합니다. Kokoro, CosyVoice 2, Bark와 같은 표준 모델은 평균 3-5초입니다. Tortoise 및 Chatterbox와 같은 최고 품질의 프리미엄 모델은 텍스트 길이에 따라 5-15초 내에 처리합니다.

                        30개 이상의 언어 지원
                        영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 중국어, 일본어, 한국어, 아랍어, 힌디어, 러시아어 등 30개 이상의 언어로 음성을 생성할 수 있습니다. 여러 모델이 언어 간 합성을 지원하므로 원본 음성이 훈련되지 않은 언어로 음성을 생성할 수 있습니다. CosyVoice 2와 GPT-SoVITS는 언어 간 음성 복제에서 뛰어납니다.

                        개발자 준비 API
                        OpenAI 호환 REST API를 사용하여 TTS.ai을 애플리케이션에 통합하십시오. 20개 이상의 모델에 대한 단일 엔드포인트. Python, JavaScript, cURL 및 Go SDK. 실시간 애플리케이션을 위한 스트리밍 지원. 대규모 콘텐츠 생성을 위한 일괄 처리. 비동기 알림을 위한 Webhooks. Pro 및 Enterprise 플랜에서 사용 가능.
                    
                
            
        
    









    



    
        
        
        더 알아보기 →
        
    










    
        자주 묻는 질문
        
            
                
                    
                    
                        
                            
                        
                        
                            
                                텍스트 음성 변환(TTS)은 쓰여진 텍스트를 자연스럽게 들리는 말하는 오디오로 변환하는 AI 기술입니다. Kokoro, Chatterbox, CosyVoice 2와 같은 최신 신경 음성 변환 모델은 딥 러닝을 사용하여 자연스러운 음조, 감정, 리듬으로 놀랍도록 인간답게 들리는 음성을 생성합니다.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                필요에 따라 다릅니다. 빠른 미리보기를 위해서는 Piper 또는 MeloTTS (무료, 빠른)를 사용하십시오. 고품질을 위해서는 Kokoro 또는 CosyVoice 2 (표준 계층)를 사용하십시오. 음성 복제를 위해서는 Chatterbox 또는 GPT-SoVITS (프리미엄)를 사용하십시오. 대화/팟캐스트 콘텐츠를 위해서는 Dia TTS를 사용하십시오. 각 모델은 다른 장점을 가지고 있습니다.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                예! TTS.ai는 Kokoro, Piper, VITS, MeloTTS 모델을 통해 무료 텍스트 음성 변환 기능을 제공합니다. 최대 500개의 문자와 시간당 3개의 음성을 생성할 수 있으므로 계정이 필요하지 않습니다. 무료 계정에 가입하면 15개의 크레딧을 받고 모든 모델에 액세스할 수 있습니다.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                트위터의 TTS 모델은 영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 중국어, 일본어, 한국어, 아랍어, 러시아어, 힌디어 등 30개 이상의 언어를 지원합니다.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                TTS.ai을 통해 생성된 오디오는 상업적으로 사용할 수 있습니다. 모든 모델은 오픈 소스 라이선스(MIT, Apache 2.0)를 사용합니다. 특정 조건에 대한 개별 모델 라이선스를 확인하십시오. 프로젝트에 사용하는 특정 모델의 라이선스를 검토하는 것이 좋습니다.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                TTS.ai은 MP3, WAV, OGG, FLAC 출력 형식을 지원합니다. MP3는 웹 재생을 위해 기본값입니다. WAV는 추가 오디오 처리를 위해 권장됩니다. 오디오 변환기 도구를 사용하여 형식을 변환할 수 있습니다.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                음성 복제는 인공지능을 사용하여 짧은 오디오 샘플(일반적으로 5-30초)에서 특정 음성을 복제합니다. 대상 음성의 명확한 녹음을 업로드하면 Chatterbox, GPT-SoVITS 또는 OpenVoice와 같은 모델이 해당 음성으로 새로운 음성을 생성합니다.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                무료 사용자는 요청당 최대 500자를 생성할 수 있으며, 등록 사용자는 요청당 최대 5,000자를 생성할 수 있습니다. 긴 텍스트의 경우 오디오가 덩어리로 생성되어 자동으로 합쳐집니다. API 사용자는 요청당 최대 10,000자를 처리할 수 있습니다.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                SSML(Speech Synthesis Markup Language) 지원은 모델에 따라 다릅니다. Piper와 일부 다른 모델은 일시 정지, 강조, 발음 제어를 위한 기본 SSML 태그를 지원합니다. 네이티브 SSML 지원이 없는 모델의 경우 자연스러운 구두점과 줄바꿈을 사용하여 음운에 영향을 줄 수 있습니다.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                예, 대부분의 모델은 0.5x에서 2.0x까지 속도 조정을 지원합니다. Bark 및 Parler와 같은 일부 모델은 피치 및 스타일 제어를 지원합니다. 고급 설정 패널 또는 API 속도 매개 변수를 통해 속도 매개 변수를 설정할 수 있습니다.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                예, API를 통해 일괄 처리를 사용할 수 있습니다. 하나의 API 호출 또는 스크립트로 여러 개의 텍스트 세그먼트를 제출할 수 있으며, 각 세그먼트는 별도의 오디오 파일로 처리되어 반환됩니다. 이는 오디오북 챕터, 전자 학습 모듈 또는 게임 대화 스크립트에 이상적입니다.
                            
                        
                    
                    
                    
                        
                            
                        
                        
                            
                                계정 대시보드에서 API 키를 생성한 다음 텍스트, 모델 및 음성 매개 변수를 사용하여 REST API 엔드포인트로 POST 요청을 보냅니다. 파이썬, 자바스크립트 및 cURL 코드 샘플을 제공합니다. API는 OpenAI와 호환되므로 기존 통합이 최소한의 변경만으로 작동합니다.
                            
                        
                    
                    
                
            
        
    








    
        
            
                
                
                
                
                
                
                
                
                
                
                
                
                
            
            5.0/5 (3)
        
        
            개선할 수 있는 점은 무엇입니까? 고객님의 피드백이 문제를 해결하는 데 도움이 됩니다.
            
                
                
                
                
            
            
                
                
            
        
    







    
        지금 텍스트를 음성으로 변환하기
        TTS.ai을 사용하는 수천 명의 크리에이터들과 함께하세요. 새 계정으로 15,000개의 무료 캐릭터를 받으세요.
        
            
            무료로 가입하기
            가격 정보 보기

개발자:	Resemble AI
라이선스:	MIT
속도	Medium
품질:
언어	1 언어
비디오 메모리	4GB
음성 복제	지원됨

모델	개발자:	종	속도	언어	비디오 메모리	라이선스:	크레딧
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	자유	사용
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	자유	사용
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	자유	사용
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	자유	사용
Bark	Suno	Standard	Slow	13	5GB	MIT	2	사용
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	사용
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	사용
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	사용
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	사용
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	사용
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	사용
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	사용
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	사용
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	사용
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	사용
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	사용
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	사용
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	사용
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	사용
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	사용
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	사용
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	사용
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	사용
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	사용
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	자유	사용
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	사용
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	사용
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	자유	사용
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	자유	사용
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	사용
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	사용
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	사용