လွတ်လပ်သော AI စာသားမှစကားပြော

82M parameters များ အလွန်မြန် ဖော်ပြချက် အသံများ ဘာသာစကား များစွာ စီးဆင်းမှုထောက်ပံ့မှု

lightweight 82M parameter model ဟာ blazing-fast inference နဲ့ စတူဒီယိုအရည်အသွေးရှိတဲ့ စကားပြောကို ပေးပို့ပေးပါတယ်။

မြန်နှုန်းမြင့် · 1.5GB VRAM စမ်းကြည့်ပါ

Piper

CPU သက်သာသည် အွန်လိုင်းမှမပါ 100+ အသံများ 35+ ဘာသာစကားများ SSML ထောက်ခံမှု

Raspberry Pi နှင့် embedded devices များအတွက် အကောင်းဆုံးဖြစ်စေရန် မြန်ဆန်သော ဒေသတွင်း ဆဲလ် ဘာသာစကား ပြောင်းပေးသည့် စနစ်

မြန်နှုန်းမြင့် · 0 (CPU only) VRAM စမ်းကြည့်ပါ

VITS

ပြီးဆုံးသည့်အထိပေါင်းစပ်ခြင်း သဘာဝ ဝေါဟာရ ဖွဲ့စည်းပုံ မြန်ဆန်သော ကောက်ချက်ချခြင်း အမျိုးမျိုးသော ထုတ်လွှင့်သူများ

အခြေအနေ variational autoencoder ၏ end-to-end စာသား-to-စကားပြောအတွက် adversarial သင်ယူမှုနှင့်အတူ။

မြန်နှုန်းမြင့် · 1GB VRAM စမ်းကြည့်ပါ

MeloTTS

CPU-optimized ဘာသာစကား များစွာ အက္ခရာ ပေါင်းစုံ ထုတ်လုပ်မှု-အသင့် အချိန်ကြာမြင့်မှု နည်းပါးခြင်း

အနည်းဆုံး latency နှင့်အတူ CPU ပေါ်တွင် run သောအရည်အသွေးမြင့်ဘာသာစကားများစွာစာသား-to-စကားပြော။

မြန်နှုန်းမြင့် · 0.5GB (GPU optional) VRAM စမ်းကြည့်ပါ

Bark

အသံ သက်ရောက်မှု ရယ်မောခြင်း/အော်ဟစ်ခြင်း ဂီတထုတ်လုပ်မှု 100+ ဟောပြောသူများ ဘာသာစကား များစွာ

အမှန်တကယ်စကားပြောဆိုမှု၊ ဂီတနှင့် အသံသက်ရောက်မှုများကို ထုတ်လုပ်ပေးသော Transformer-based text-to-audio ပုံစံ။

နှေးတယ် · 5GB VRAM စမ်းကြည့်ပါ

Bark Small

အလင်းရောင် အပြည့်အဝ Bark ထက်ပိုမြန် စိတ်ခံစားမှုဆိုင်ရာ စကားပြောဆိုမှု ဘာသာစကား များစွာ

မြန်နှုန်းမြင့် inference နှင့်အောက်ခြေမှတ်ဉာဏ်အသုံးပြုမှုနှင့်အတူ Bark ၏အလင်း version ကို။

ကြားခံ · 2GB VRAM စမ်းကြည့်ပါ

CosyVoice 2

စီးဆင်းနေသည် Zero-shot ကူးယူခြင်း ဘာသာစကားပေါင်းစုံ စိတ်ခံစားမှု ထိန်းချုပ်မှု လူသား-တူညီမှု

Alibaba ၏လူသား-အညီအမျှသဘာဝနှင့်နီးကပ်သော-ဇယား latency နှင့်အတူ scaleable streaming TTS ။

Dia TTS

အမျိုးမျိုးသော ထုတ်လွှင့်သူများ အညွှန်းစာမျက်နှာ ထုတ်လုပ် သဘာဝ ပြောင်းပြန် ခံစားမှု ဖော်ပြချက် 1.6B parameters တွေကို

ထုတ်လွှင့်သူအကြားသဘာဝစကားပြောဆိုမှုဖန်တီးသော multi-ထုတ်လွှင့်သူစကားပြောခန်းမျိုးဆက်မော်ဒယ်။

Parler TTS

အသံဖော်ပြချက် သဘာဝဘာသာစကားထိန်းချုပ်မှု ပြောင်းလွယ်ပြင်လွယ် အသံဖန်တီးမှု အသံများ မလိုအပ်ပါ

သင်လိုချင်တဲ့အသံကိုသဘာဝဘာသာစကားနဲ့ဖော်ပြပြီး Parler ကလိုက်ဖက်တဲ့စကားပြောကိုထုတ်လုပ်ပါတယ်။

Indic Parler TTS

အိန္ဒိယဘာသာစကားများ အသံဖော်ပြချက် သဘာဝဘာသာစကားထိန်းချုပ်မှု အစစ်အမှန် အိန္ဒိယ အသံထွက်

သဘာဝဘာသာစကား voice control နဲ့ 8+ အိန္ဒိယဘာသာစကားများအတွက်အရည်အသွေးမြင့်စကားပြောဆိုမှု။

နှေးတယ် · 8GB VRAM စမ်းကြည့်ပါ

KhanomTan TTS

ထိုင်း TTS အမျိုးမျိုးသော ထုတ်လွှင့်သူများ YourTTS တည်ဆောက်ပုံ စီးပွားရေး-လုံခြုံလိုင်စင်

ရွေးချယ်နိုင်သော စကားပြောသံများဖြင့် ထိုင်းနိုင်ငံတွင် ပထမဆုံး ရေးသားပြောဆိုခြင်း။

မြန်နှုန်းမြင့် · 2GB VRAM စမ်းကြည့်ပါ

IndexTTS-2

ခံစားမှုထိန်းချုပ်မှု ရိုက်ချက်-၀ ခံစားမှု ဗီကိန်းများ ထုတ်ဖော်ပြောဆိုမှု အသေးစိတ် ထိန်းချုပ်မှု

မြင့်မားသော ထုတ်ဖော်ပြောဆိုမှုနှင့် ခံစားမှုထိန်းချုပ်မှုဖြင့် Zero-shot TTS

Spark TTS

အသံကို ကူးယူခြင်း စိတ်ခံစားမှု ထိန်းချုပ်မှု ပုံစံ ထိန်းချုပ်မှု မေးမြန်းချက် အခြေခံ ၅-စက္ကန့် ကူးယူခြင်း

Voice cloning TTS with controlable emotion and speaking style via prompts.

GPT-SoVITS

၅-စက္ကန့် ကူးယူခြင်း သီချင်းဆိုသံ နည်းနည်းလေး သင်ယူခြင်း အရည်အသွေးမြင့် ဘာသာစကားပေါင်းစုံ

အနည်းငယ်-ရိုက်ချက်အသံကို cloning TTS တစ်ခုတည်းအသံမှမည်သည့်အသံကို replicates5အသံ၏စက္ကန့်.

နှေးတယ် · 6GB VRAM စမ်းကြည့်ပါ

Orpheus

လူသားအဆင့် ခံစားချက် 100K နာရီလေ့ကျင့်ရေး သဘာဝ အသားပေး ထုတ်ဖော်ပြောဆိုမှု

လူ့-အဆင့်ခံစားချက် TTS ပုံစံစကားပြောဒေတာ 100K နာရီအပေါ်လေ့ကျင့်.

Chatterbox

Zero-shot ကူးယူခြင်း ခံစားမှုထိန်းချုပ်မှု မြင့်မားသော တိကျမှု ပုံစံ လွှဲပြောင်းခြင်း နမူနာတစ်ခုတည်းကို ကူးယူခြင်း

Resemble AI မှ စိတ်ခံစားမှုထိန်းချုပ်မှုနှင့်အတူ ခေတ်မီသော zero-shot အသံကူးယူခြင်း။

Tortoise TTS

အရည်အသွေးအမြင့်ဆုံး အသံစုံ DALL-E ဗိသုကာ အသံကို ကူးယူခြင်း အလိုအလျောက် ပြန်ကျဆင်းခြင်း

အမျိုးမျိုးသောအသံများဖြင့် စာသားမှစကားပြောခြင်းသည် autoregressive architecture နှင့်အတူအရည်အသွေးကိုအာရုံစိုက်သည်။

နှေးတယ် · 8GB VRAM စမ်းကြည့်ပါ

StyleTTS 2

လူသားအဆင့် ပုံစံ ပျံ့နှံ့မှု အငြင်းပွားဖွယ်လေ့ကျင့်ခန်း သဘာဝ ကွဲပြားမှု မြင့်မားသော တိကျမှု

ပုံစံဖြန့်ချိခြင်းနှင့် ရန်သူ့ဘက်မှ လေ့ကျင့်ခြင်းမှတစ်ဆင့် လူ့အဆင့် စာသားမှစကားပြောခြင်း။

OpenVoice

ချက်ချင်းကူးယူခြင်း အသံပြောင်းခြင်း ခံစားမှုထိန်းချုပ်မှု အသံထွက်ထိန်းချုပ်မှု ဘာသာစကား များစွာ

ပုံစံ, ခံစားချက်, နှင့်အသံထွက်အပေါ် granular ထိန်းချုပ်မှုနှင့်အတူချက်ချင်းအသံ cloning ။

Qwen3 TTS

9 preset အသံများ စာသားမှ အသံဒီဇိုင်း ခံစားမှုထိန်းချုပ်မှု 10 ဘာသာစကားများ

Alibaba ၏စာသားမှ preset အသံများနှင့်အသံဒီဇိုင်းနှင့်အတူဘာသာစကားများစွာ TTS.

ကြားခံ · 7GB VRAM စမ်းကြည့်ပါ

VieNeu-TTS-v2

7 preset အသံများ (မြောက် + တောင် accents) En-Vi ကုဒ်ပြောင်းခြင်း အသံကို clone (3-5s ရည်ညွှန်း) Podcast / multi-ပြောဆိုသူထောက်ခံမှု CPU-only — GPU မလိုပါ

ဗီယက်နမ် + အင်္ဂလိပ်7preset အသံများနှင့် Zero-shot အသံ cloning နှင့်အတူ code-switching TTS. CPU-သာ, GPU ကိုလိုအပ်ပါတယ်မဟုတ်.

မြန်နှုန်းမြင့် · CPU VRAM စမ်းကြည့်ပါ

Sesame CSM

စကားပြော သဘာဝအချိန်သတ်မှတ်ချက် ပြောင်းပြန် နောက်ပိုင်း ချာနယ် 1B parameters များ

သင့်လျော်သောအချိန်နှင့်စိတ်ခံစားမှုနှင့်အတူသဘာဝစကားပြောဆိုမှုထုတ်လုပ် Conversational စကားပြောပုံစံ။

နှေးတယ် · 8GB VRAM စမ်းကြည့်ပါ

Chatterbox Turbo

Sub-200ms latency ဘာသာစကားဆိုင်ရာ အမှတ်အသားများ 6x မှန်ကန်သောအချိန် အသံကို ကူးယူခြင်း တံဆိပ်ခေါင်း

ရယ်မောခြင်း, ချောင်းဆိုး, နှင့်ပိုမိုများအတွက် sub-200ms latency နှင့် paralinguistic tags များနှင့်အတူပိုမိုမြန်ဆန် Chatterbox.

မြန်နှုန်းမြင့် · 2GB VRAM စမ်းကြည့်ပါ

VoxCPM

44.1kHz အသံ Tokenizer-free ဘာသာပေါင်းစုံ ကူးယူခြင်း အကြောင်းအရာသိ LoRA အသေးစိတ် ချိန်ညှိခြင်း

Tokenizer-အခမဲ့ TTS 44.1kHz audio ကို context-အသိအမှတ်ပြုပုဒ်မတည်ငြိမ်မှုနှင့်အတူထုတ်လုပ်.

မြန်နှုန်းမြင့် · 4GB VRAM စမ်းကြည့်ပါ

Kani TTS 2

၃GB ဗီဒီယိုမှတ်ဉာဏ် အလွန်မြန် အလင်းရောင် NanoCodec လွတ်လပ်မှု

Ultra-အလေးချိန် 400M အင်္ဂလိပ် TTS မော်ဒယ် 3GB VRAM တွင်သာ လုပ်ဆောင်နေသည်။

မြန်နှုန်းမြင့် · 3GB VRAM စမ်းကြည့်ပါ

OuteTTS

CPU ကောက်ချက်ချခြင်း ရှာဖွေရေးကိရိယာ ကောက်ချက်ချခြင်း အမျိုးမျိုးသော backends ဟောပြောသူ အချက်အလက်များ

LLM-based TTS ဟာ CPU, GPU, llama.cpp နဲ့ Transformers.js ကနေတဆင့် browser ပေါ်မှာ run တဲ့။

နှေးတယ် · 2GB VRAM စမ်းကြည့်ပါ

VibeVoice

အမျိုးမျိုးသော ထုတ်လွှင့်သူများ 90 မိနစ်အထိ Podcast ထုတ်လုပ်မှု ထုတ်လွှင့်သူ တည်ငြိမ်မှု 200ms စီးဆင်းမှု

podcasts နှင့်အသံစာအုပ်များကဲ့သို့သောရှည်လျားသောပုံစံ multi-speaker အကြောင်းအရာများအတွက် Microsoft ရဲ့မော်ဒယ်။

မြန်နှုန်းမြင့် · 4GB VRAM စမ်းကြည့်ပါ

Pocket TTS

100M parameters များ CPU ကောက်ချက်ချခြင်း အသံကို ကူးယူခြင်း နမူနာတစ်ခုတည်းကို ကူးယူခြင်း အပြင်ဘက် အဆင်သင့်

တစ်ခုတည်းသောနမူနာမှအသံ clone နှင့်အတူ Kyutai အားဖြင့်အလေးချိန် 100M parameter ကိုမော်ဒယ်။

မြန်နှုန်းမြင့် · 1GB VRAM စမ်းကြည့်ပါ

Kitten TTS

CPU-only ကောက်ချက်ချခြင်း 80MB အောက်မှာမော်ဒယ်အရွယ်အစား 8 built-in အသံများ အမြန်နှုန်းထိန်းချုပ်မှု ONNX အခြေခံ 24kHz ထုတ်လုပ်မှု

80MB အောက်မှာအလွန်အလင်း TTS. GPU မရှိဘဲ CPU ကိုပေါ်တွင် Runs.

မြန်နှုန်းမြင့် · 0GB VRAM စမ်းကြည့်ပါ

CosyVoice3

စီးဆင်းမှုနှစ်မျိုး ခံစားမှုထိန်းချုပ်မှု အသံကို ကူးယူခြင်း အမြန်နှုန်း/အသံပမာဏထိန်းချုပ်မှု အမိန့်ပေးချက် လိုက်နာခြင်း

bi-streaming, ခံစားမှုထိန်းချုပ်မှုနှင့် zero-shot အသံ cloning နှင့်အတူနောက်ဆုံးပေါ်မျိုးဆက်ဘာသာစကားများစွာ TTS ။

မြန်နှုန်းမြင့် · 4GB VRAM စမ်းကြည့်ပါ

NAMAA Saudi TTS

ဆော်ဒီအာရေဗျ ဘာသာစကား ခေတ်မီ စံအဘိဓာန် အင်္ဂလိပ် Zero-shot အသံကူးယူခြင်း ခံစားမှုထိန်းချုပ်မှု ဘာသာစကား

ပထမဦးဆုံးဖွင့်လှစ်သမ္မတနိုင်ငံ-အရပ်ဘက် TTS. Chatterbox-အရည်အသွေးအသံ cloning နှင့်အတူမိခင်သမ္မတနိုင်ငံဘာသာစကား.

ကြားခံ · 6GB VRAM စမ်းကြည့်ပါ

Darwin TTS

အသံကို ကူးယူခြင်း ဘာသာစကားပေါင်းစုံ FFN-ရောစပ် 4 core ဘာသာစကားများ Qwen3 အခြေခံ

ဘာသာစကားပေါင်းစုံကို ကူးယူခြင်းအတွက် Qwen3-1.7B ဘာသာစကား ပုံစံမှ ပေါင်းစပ်ထားသော FFN ချိန်ခွင်လျှာများပါရှိသော Cross-modal Qwen3-TTS အမျိုးအစား။

ကြားခံ · 7GB VRAM စမ်းကြည့်ပါ

MOSS-TTSD

အမျိုးမျိုးသော ထုတ်လွှင့်သူ အညွှန်းစာမျက်နှာ 5 speakers အထိ 60min အတူတကွအသံ အသံကို ကူးယူခြင်း Podcast များ အကောင်းဆုံးဖြစ်စေရန်

Multi-speaker စကားပြောဆက်လက်မော်ဒယ် - အထိ5ပြောဆိုသူများနှင့်အတူ podcast-style စကားပြောဆိုမှုများကိုထုတ်လုပ် 60 ပေါင်းစပ်အသံ၏မိနစ်။

ကြားခံ · 12GB VRAM စမ်းကြည့်ပါ

Ming-Omni TTS

44.1kHz ထုတ်လုပ်မှု အသံကို ကူးယူခြင်း ခံစားမှုထိန်းချုပ်မှု ဘာသာစကား ထိန်းချုပ်မှု BGM ထုတ်လုပ်မှု 0.5B သေးငယ်တဲ့

မြင့်မားသောယုံကြည်စိတ်ချရမှု 44.1kHz output နဲ့ zero-shot voice cloning တွေနဲ့ inclusionAI မှ compact 0.5B omni-modal စကားပြောမော်ဒယ်။

ကြားခံ · 3GB VRAM စမ်းကြည့်ပါ

MOSS-TTS Nano