නිදහස් AI පෙළ සිට කථාවName

82M පරාමිතීන් අති- වේගවත් ප්‍රකාශිත හඬ බහුභාෂා විකාශන සහාය

සැහැල්ලු 82M පරාමිති ආකෘතිය ස්ටූඩියෝ-ගුණාත්මක කථාව සමග දැවෙන-ඉක්මන් නිගමනය ලබා දෙයි.

ස්ථිර · 1.5GB VRAM උත්සහ කරන්න.

Piper

CPU- හිතකාමී නොබැඳි හැකියාව 100+ හඬ 35+ භාෂා SSML සහාය

රාස්ප්බෙරි පයි සහ embedded උපාංග සඳහා පරිපූර්ණ වේගවත්, දේශීය ස්නායුක වදන් පද්ධතියට පෙළ.

ස්ථිර · 0 (CPU only) VRAM උත්සහ කරන්න.

VITS

අවසානයේ සිට අවසානය දක්වා සංස්ලේෂණය ස්වභාවික ව්‍යංජනාක්ෂර වේගවත් නිගමනය බහු කථාකරන්නන්

සන්නිවේදන ක්‍රමවේදයන්ගේ වෙනස්වීමත් සමගම සන්නිවේදන ක්‍රමවේදයන්ගේ වෙනස්වීමත් සමගම සන්නිවේදන ක්‍රමවේදයන්හි වෙනස්වීමක් දක්නට ලැබේ.

ස්ථිර · 1GB VRAM උත්සහ කරන්න.

MeloTTS

CPU- උපරිමකරණය බහුභාෂා බහු වචන නිෂ්පාදනය-සූදානම් අඩු ප්‍රමාදයක්

සරල ක්‍රමලේඛන භාෂාවන්හිදී, සරල ක්‍රමලේඛන භාෂාවන්හිදී මෙන් නොව, CPU හි ධාරිතාවය අඩු වේ.

ස්ථිර · 0.5GB (GPU optional) VRAM උත්සහ කරන්න.

Bark

ශබ්ද සැරසිලි හිනාවෙනවා/සුසුම් හෙලනවා සංගීතය ජනනය කථානායකයන් 100+ බහුභාෂා

පරිවර්තනය මත පදනම් වූ ලේඛන-ශ්‍රවණ ආකෘතිය, යථාර්ථවාදී කථාව, සංගීතය සහ ශබ්ද බලපෑම් ජනනය කරයි.

මන්දගාමී · 5GB VRAM උත්සහ කරන්න.

Bark Small

සැහැල්ලු සම්පූර්ණ බර්ක් වඩා වේගවත් චිත්තවේගීය කථාව බහුභාෂා

සරල රේඛීය ශ්‍රිතයක් සරල රේඛීය ශ්‍රිතයක් හා අඩු ශ්‍රිතයක් ලෙසද හැඳින්වේ.

මධ්‍යම · 2GB VRAM උත්සහ කරන්න.

CosyVoice 2

ශ්‍රිතය ශුන්‍ය-ෂොට් ක්ලෝන කිරීම අන්තර් භාෂාName හැඟීම් පාලනය මිනිස්-සමානතාව

අලිබාබාගේ පරිමාණගත ශ්‍රව්‍ය-දෘශ්‍ය TTS මානව-පාරිශුද්ධ ස්වභාවය සහ ශුන්‍ය ආසන්න පරතරය සමග.

Dia TTS

බහු- කථානායක සංවාද ජනනය ස්වභාවිකව හැරෙමින් හැඟීම් ප්‍රකාශනය 1.6B පරාමිතීන්

සන්නිවේදන ක්‍රමවේදයන්ගේ සංකීර්ණතාවය නිසා විවිධ සංස්කෘතීන් අතර සංවාදයන් ඇති වේ.

Parler TTS

හඬ විස්තරය ස්වභාවික භාෂා පාලනය නම්යශීලී හඬ නිර්මාණය පෙර සැකසූ හඬක් අවශ්‍ය නොවේ

ස්වභාවික භාෂාවෙන් ඔබට අවශ්ය හඬ විස්තර සහ Parler ගැලපෙන කථාව ජනනය කරයි.

Indic Parler TTS

11 ඉන්දියානු භාෂා හඬ විස්තරය ස්වභාවික භාෂා පාලන සත්ය ඉන්දියානු උච්චාරණය

ස්වභාවික භාෂා හඬ පාලනය සමග 8+ ඉන්දියානු භාෂා සඳහා උසස් තත්ත්වයේ කථාව.

මන්දගාමී · 8GB VRAM උත්සහ කරන්න.

KhanomTan TTS

තායි TTS බහු කථාකරන්නන් YourTTS ආකෘතිය වාණිජ-ආරක්ෂිත බලපත්රය

කථානායක හඬ තෝරා ගැනීම සමග තායි-පළමු පෙළ-කථාව.

ස්ථිර · 2GB VRAM උත්සහ කරන්න.

IndexTTS-2

හැඟීම් පාලනය ශූන්‍ය-ෂොට් හැඟීම් දෛශික නිරූපණාත්මක කථාව කුඩා ධාන්ය පාලන

ඝන-අංශු හැඟීම් පාලනය සහ ඉහළ ප්‍රකාශනශීලීත්වය සමග ශුන්‍ය-ෂොට් TTS.

Spark TTS

හඬ ක්ලෝන කිරීම හැඟීම් පාලනය රටා පාලකය ප්‍රශ්ණ- පාදක තත්පර 5ක ක්ලෝන කිරීම

හඬ ක්ලෝන TTS පාලනය කළ හැකි හැඟීම් සහ ඉල්ලීම් හරහා කතා ශෛලිය.

GPT-SoVITS

තත්පර 5ක ක්ලෝන කිරීම සින්දු කියන හඬ ටිකක්-ෂොට් ඉගෙනීම ඉහළ විශ්වාසනීයත්වය භාෂා

හුදෙක් ශ්රව්ය තත්පර5ක ඕනෑම හඬක් අනුපිටපත් කරන හඬ කිහිපයක්-ෂොට් ක්ලෝන TTS.

මන්දගාමී · 6GB VRAM උත්සහ කරන්න.

Orpheus

මිනිස් මට්ටමේ හැඟීම් 100K පැය පුහුණු ස්වභාවික අවධාරණය නිරූපණාත්මක කථාව

10 කට අධික සංඛ්‍යාවක මනෝවිද්‍යාත්මක දත්ත මත පදනම්ව සකස් කරන ලද මානව මට්ටමේ හැඟීම් සන්නිවේදන ආකෘතියකි.

Chatterbox

ශුන්‍ය-ෂොට් ක්ලෝන කිරීම හැඟීම් පාලනය ඉහළ විශ්වාසනීයත්වය රටා හුවමාරුව තනි සාම්පල ක්ලෝන කිරීම

මනෝවිද්‍යාවේදී, මනෝවිශ්ලේෂණය යනු මනෝවිද්‍යාවේ මනෝවිද්‍යාව පිළිබඳ අධ්‍යයනයයි.

Tortoise TTS

උසස්ම තත්ත්වයේ බහු හඬ DALL-E ගෘහ නිර්මාණ ශිල්පය හඬ ක්ලෝන කිරීම ස්වයංක්‍රීය ප්‍රතික්‍රියාකාරක

ව්‍යවහාරික භාෂා විද්‍යාව යනු භාෂාවන්හි ව්‍යවහාරික ගුණාංග පිළිබඳ අධ්‍යයනයයි.

මන්දගාමී · 8GB VRAM උත්සහ කරන්න.

StyleTTS 2

මිනිස් මට්ටම රටාව විහිදීම තරගකාරී පුහුණුව ස්වභාවික වෙනස්වීම ඉහළ විශ්වාසනීයත්වය

මනෝවිද්‍යාව යනු මනෝවිද්‍යාවේ හා මනෝවිද්‍යාව සම්බන්ධ විෂය ක්ෂේත්‍රයකි.

OpenVoice

ක්ෂණික ක්ලෝනකරණය හඬ පරිවර්තනය හැඟීම් පාලනය උපසර්ග පාලකය බහුභාෂා

ශෛලිය, හැඟීම්, සහ උච්චාරණය මත කැටිති පාලනය සමග ක්ෂණික හඬ ක්ලෝන.

Qwen3 TTS

9 පෙරනිමි හඬ පෙළ සිට හඬ සැලසුම් හැඟීම් පාලනය භාෂා 10

අලිබාබාගේ පෙර සැකසූ හඬ සහ පෙළ සිට හඬ සැලසුම් සමග බහුභාෂා TTS.

මධ්‍යම · 7GB VRAM උත්සහ කරන්න.

VieNeu-TTS-v2

7 පෙර සැකසූ හඬ (උතුරු + දකුණු හඬ) En-Vi කේත මාරු කිරීම හඬ ක්ලෝන (3-5s උපුටා) පොඩ්කාස්ට් / බහු කථික සහාය CPU- පමණයි - GPU අවශ්ය නොවේ

වියට්නාම + ඉංග්රීසි කේතය-ස්විච් TTS සමග7පෙර-සැකසූ හඬ සහ ශුන්‍ය-ෂොට් හඬ ක්ලෝන. CPU-එක්, කිසිදු GPU අවශ්ය.

ස්ථිර · CPU VRAM උත්සහ කරන්න.

Sesame CSM

සංවාදාත්මක ස්වභාවික වේලාව ආපසු හැරවීම පසු නාලිකාව 1B පරාමිතීන්

ස්වභාවික සංසිද්ධි හා සංකල්ප අතර ඇති සම්බන්ධතාවය තේරුම් ගැනීමේ දී මනෝවිද්‍යාව වැදගත් වේ.

මන්දගාමී · 8GB VRAM උත්සහ කරන්න.

Chatterbox Turbo

යටතේ-200ms ප්‍රමාද Paralinguistic ටැග 6x සැබෑ කාලය හඬ ක්ලෝන කිරීම ජල ලකුණු

සිනහව සඳහා උප-200ms කල් ඉකුත්වීම සහ paralinguistic ටැග් සමග වේගවත් Chatterbox, කැස්ස, සහ තවත්.

ස්ථිර · 2GB VRAM උත්සහ කරන්න.

VoxCPM

44.1kHz ශ්‍රව්‍ය ටොකනයිසර්- නිදහස් අන්තර්- භාෂා ක්ලෝන කිරීම සන්දර්භය- දැනෙන LoRA නිවැරදි කිරීම

Tokenizer-නිදහස් TTS 44.1kHz ශ්රව්ය සන්දර්භය-දැනුවත් පරිච්ඡේදය සමග අනුකූලතාවයක් නිෂ්පාදනය.

ස්ථිර · 4GB VRAM උත්සහ කරන්න.

Kani TTS 2

3GB VRAM අති- වේගවත් සැහැල්ලු නානෝකොඩෙක් නිදහස්

3GB VRAM හි ධාවනය වන අතිශය සැහැල්ලු 400M ඉංග්‍රීසි TTS ආකෘතිය.

ස්ථිර · 3GB VRAM උත්සහ කරන්න.

OuteTTS

CPU නිගමනය ගවේශක අනුමාන කිරීම බහු පසුඉම කථානායක පැතිකඩ

LLM-පාදක TTS CPU, GPU, හෝ lama.cpp සහ Transformers.js හරහා බ්‍රව්සරයේ ධාවනය වේ.

මන්දගාමී · 2GB VRAM උත්සහ කරන්න.

VibeVoice

බහු- කථානායක මිනිත්තු 90 ක් දක්වා පොඩ්කාස්ට් ජනනය කථානායක අනුකූලතාව 200ms විකාශනය

මයික්‍රොසොෆ්ට් ආකෘතිය පොඩ්කාස්ට් සහ ශ්‍රව්‍ය පොත් වැනි දිගු ආකෘති බහු-කථික අන්තර්ගතය සඳහා.

ස්ථිර · 4GB VRAM උත්සහ කරන්න.

Pocket TTS

100M පරාමිතීන් CPU නිගමනය හඬ ක්ලෝන කිරීම තනි-සාම්පල ක්ලෝන කිරීම අගල්- සූදානම්

100M පරාමිති ආකෘතිය Kyutai විසින් තනි සාම්පලයකින් හඬ ක්ලෝන කිරීම.

ස්ථිර · 1GB VRAM උත්සහ කරන්න.

Kitten TTS

CPU- පමණක් නිගමනය 80MB ට අඩු ආකෘති ප්‍රමාණයක් 8 තිළැලි හඬ වේග පාලකය ONNX- පදනම් 24kHz ප්රතිදානය

80MB යටතේ අතිශය සැහැල්ලු TTS. GPU නොමැතිව CPU මත ධාවනය වේ.

ස්ථිර · 0GB VRAM උත්සහ කරන්න.

CosyVoice3

ද්විත්ව- ධාරා හැඟීම් පාලනය හඬ ක්ලෝන කිරීම වේගය / පරිමාව පාලනය උපදෙස් පහත

ද්විත්ව-ස්වභාවික, හැඟීම් පාලනය, සහ ශුන්‍ය-ෂොට් හඬ ක්ලෝන සමග ඊළඟ පරම්පරාව බහුභාෂා TTS.

ස්ථිර · 4GB VRAM උත්සහ කරන්න.

NAMAA Saudi TTS

සවුදි අරාබි උපභාෂාව නවීන සම්මත අරාබි ශූරතාවය-අවිශ්වාස හඬ ක්ලෝන හැඟීම් පාලනය ස්වදේශීය උච්චාරණය

පළමු විවෘත සවුදි අරාබි TTS. Chatterbox-ගුණාත්මක හඬ ක්ලෝන සමග ස්වදේශීය සවුදි භාෂාව.

මධ්‍යම · 6GB VRAM උත්සහ කරන්න.

Darwin TTS

හඬ ක්ලෝන කිරීම භාෂා FFN- මිශ්‍ර 4 මූලික භාෂා Qwen3 පසුබිම

Qwen3-1.7B භාෂා ආකෘතිය මඟින් FFN බර සහිතව ක්‍රමාංකනය කරන ලද Qwen3-TTS වර්ගය වඩාත් තීව්‍ර බහුභාෂා ක්ලෝන කිරීම සඳහා මිශ්‍ර කර ඇත.

මධ්‍යම · 7GB VRAM උත්සහ කරන්න.

MOSS-TTSD

බහු කථික සංවාදය කථානායකයන්5දක්වා 60min සමබර ශ්රව්ය හඬ ක්ලෝන කිරීම පොඩ්කාස්ට් උපරිමකරණය

බහු-කථික සංවාදය දිගටම ආකෘතිය - දක්වා5කථිකයන් හා 60 මිනිත්තු සමගාමී ශ්‍රව්‍ය සමග පොඩ්කාස්ට්-ශෛලිය සංවාදයක් ජනනය.

මධ්‍යම · 12GB VRAM උත්සහ කරන්න.

Ming-Omni TTS

44. 1kHz ප්රතිදානය හඬ ක්ලෝන කිරීම හැඟීම් පාලනය භාෂා පාලකය BGM ජනනය සංයුක්ත 0. 5B

0.5B සම්මත-මෝඩල් කථා ආකෘතිය ඉහළ විශ්වාසනීයත්වය 44.1kHz ප්රතිදානය සහ ශුන්‍ය-ෂොට් හඬ ක්ලෝන කිරීම සමග inclusionAI සිට සංයුක්ත.

මධ්‍යම · 3GB VRAM උත්සහ කරන්න.

MOSS-TTS Nano