Bug / Feature Request များ တင်ပြရန်

AI စာသားမှစကားပြော

သဘာဝ-အသံထွက်စကားပြောဖို့ open-source AI ပုံစံများဖြင့်စာသားကိုပြောင်းပါ။ အသုံးပြုရန်အခမဲ့, အကောင့်လိုအပ်ပါသည်မဟုတ်။

အခမဲ့ Sign Up

ကျွန်တော်တို့ဟာသင့်ရဲ့ဘာသာစကားအတွက် TTS အသံတွေမရှိသေးပါဘူး. ကျွန်တော်တို့ကိုသင့်ရဲ့ add ကူညီပါ! သင့်အသံကိုရောင်း

0/500 အက္ခရာ · 5,000 မျိုးဆက်တစ်ဦးလျှင်များအတွက် Sign Up →

မှတ်ပုံတင်ပါ 5,000 စာလုံးအဆုံးသတ်

SSML နည်းလမ်း (ထိန်းချုပ်မှုအတွက် ဘာသာစကား ပေါင်းစပ်ရေးဆွဲခြင်း)

တိကျသောထိန်းချုပ်မှုများအတွက် SSML tags များအတွင်းသင်၏စာသားကို Wrap:

<speak><prosody rate="slow">Slow speech</prosody></speak>

ခံစားချက် / Style Tags

ပေးပို့မှုအပေါ်သက်ရောက်မှုခံစားချက်အမှတ်အသားများ Add (မော်ဒယ်ထောက်ခံမှုကွဲပြားခြားနားသည်):

အသံထွက် အဘိဓာန်

custom pronunciations ကိုသတ်မှတ်ပါ (word = pronunciation):

မြှင့်တင်ပါ 0

-12 +12

AI မော်ဒယ်

အသံ

ဘာသာစကား

ထုတ်လုပ်မှုပုံစံ

အမြန်နှုန်း 1.0x

0.5x 2.0x

Piper, VITS, MeloTTS နှင့်အတူအခမဲ့

သင်၏ထုတ်လုပ်အသံဒီမှာပေါ်လာလိမ့်မည်။ ရွေးချယ်ပါ, စာသားကိုထည့်သွင်း, နှင့် Generate ကိုကလစ်နှိပ်ပါ.

မော်ဒယ် အသေးစိတ်များ

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

ဖန်တီးသူ -	KittenML
လိုင်စင် -	Apache 2.0
အမြန်နှုန်း	Fast
အရည်အသွေး -
ဘာသာစကားများ	1 ဘာသာစကား
ဗီဒီယိုမှတ်ဉာဏ်	0GB
အသံခိုးယူခြင်း	မထောက်ပံ့ပါ

အင်္ဂါရပ်များ:

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

အကောင်းဆုံး:: Fast lightweight TTS, edge deployment, low-latency applications

ပိုကောင်းတဲ့ရလဒ်များအတွက်အကြံပြုချက်များ

သဘာဝကျသော ရပ်နားခြင်းနှင့် လေသံသွင်းခြင်းအတွက် မှန်ကန်သော အမှတ်အသားများကို အသုံးပြုပါ
ရှင်းလင်းသော အသံထွက်အတွက် နံပါတ်များနှင့် အတိုကောက်များကို ရေးသားပါ
စကားစုများအကြား ရပ်နားချိန်တိုများ ဖန်တီးရန် ကြိယာများ ထည့်ပါ
ကြာရှည်သော ရပ်နားချိန်များအတွက် (...) သုံးပါ
အများဆုံးသဘာဝရလဒ်များအတွက် Kokoro သို့မဟုတ် CosyVoice 2ကိုစမ်းကြည့်ပါ
အမျိုးမျိုးသော ထုတ်လွှင့်သူများနှင့် podcast အကြောင်းအရာများအတွက် Dia ကိုအသုံးပြုပါ

အက္ခရာ အသုံးပြုပုံ

အမျိုးအစား	1K အက္ခရာများအတွက်ကုန်ကျစရိတ်
အခမဲ့	1:1 (အခမဲ့)
အလိုအလျောက်	2 ခရက်ဒစ် / 1K chars
ပရီမီယံ	4 ခရက်ဒစ် / 1K chars

အက္ခရာများ ထပ်ယူပါ

AI Text to Speech လုပ်ဆောင်ပုံ

ရိုးရှင်းသောခြေလှမ်းသုံးခုတွင်ပရော်ဖက်ရှင်နယ်အရည်အသွေး voiceovers ထုတ်လုပ်ပါ။ လိုအပ်သောနည်းပညာဆိုင်ရာအသိပညာမရှိပါ။

ခြေလှမ်း ၁

စာသားထည့်ပါ

အမျိုးအစား, paste, သို့မဟုတ်သင်စကားပြောသို့ပြောင်းချင်တဲ့စာသားကို upload လုပ်ပါ. အထိထောက်ခံ 5,000 ဝင်ရောက်အသုံးပြုသူများကိုများအတွက်မျိုးဆက်တစ်ဦးလျှင်စာလုံးများ. ရိုးရှင်းသောစာသားကိုအသုံးပြုခြင်းသို့မဟုတ်အသံထွက်အပေါ်အဆင့်မြင့်ထိန်းချုပ်မှုအတွက် SSML tags တွေကိုထည့်သွင်း, ရပ်နား, နှင့်အလေးပေး.

ခြေလှမ်း ၂

မော်ဒယ်နှင့် အသံကို ရွေးပါ

20+ AI ပုံစံများသုံးဆင့်အကြားမှရွေးချယ်ပါ။ သင့်ရဲ့အကြောင်းအရာနှင့်ကိုက်ညီသောအသံကိုရွေးပါ၊ သင့်ရည်မှန်းချက်ဘာသာစကားကိုရွေးချယ်ပါ၊ 0.5x မှ 2.0x သို့ playback speed ကိုချိန်ညှိပါ၊ သင့်ရဲ့နှစ်သက်ရာ output format ကိုရွေးချယ်ပါ (MP3, WAV, OGG, or FLAC)။

ခြေလှမ်း ၃

ဖန်တီးပြီး ဒေါင်းလုဒ်လုပ်

Generate ကိုကလစ်နှိပ်ပါနှင့်သင်၏အသံသည်စက္ကန့်အနည်းငယ်အတွင်းအဆင်သင့်ဖြစ်ပါသည်. built-in ကိုကစားသမားနှင့်အတူ Preview, သင့်ရဲ့ရွေးချယ်ထားသော format ထဲမှာဒေါင်းလုပ်, သို့မဟုတ် shareable link ကိုကူးယူ. သင့်ရဲ့အလုပ်အသွားအလာထဲသို့ batch စီမံခန့်ခွဲမှုနှင့်ပေါင်းစည်းမှုအတွက် API ကိုသုံးပါ.

စာသားမှစကားပြောအသုံးပြုမှုဖြစ်ရပ်များ

AI-powered text-to-speech ဟာ စက်မှုလုပ်ငန်းပေါင်းစုံမှာ လူတွေ ဘယ်လိုဖန်တီး၊ သုံးစွဲ၊ အသံဖိုင်နဲ့ ဆက်သွယ်ဆက်ဆံကြသလဲဆိုတာကို ပြောင်းလဲပေးနေပါတယ်။

အသံစာအုပ်များ

စာအုပ်အပြည့်အစုံများကိုစတူဒီယိုအရည်အသွေးရှိသော ပြောပြချက်နှင့်အတူ သဘာဝအသံထွက် အသံစာအုပ်များသို့ ပြောင်းပါ။

ရုပ်သံ အသံသွင်း

YouTube အတွက်ပရော်ဖက်ရှင်နယ် voiceovers ဖန်တီး, TikTok, Instagram ကို Reels, နှင့် Shorts. 100+ အသံများသို့မဟုတ်သင်၏ကိုယ်ပိုင် clone.

Podcast များ

အမျိုးမျိုးသော AI အသံများနှင့်အတူစာသားများမှ podcast အပိုင်းအစများဖန်တီးပါ။ သဘာဝနှစ်-ပြောဆိုသူစကားပြောဆိုမှုများအတွက် Dia ကိုအသုံးပြုပါ။

ဂိမ်းကစားခြင်း

အင်ဒီဂိမ်းများအတွက် AI အသံသရုပ်ဆောင်, ရုပ်ပိုင်းဆိုင်ရာ Novels, နှင့်အပြန်အလှန်ဖန်တီးမှု။ NPC စကားပြော, cutscene အသံများ, 30+ ဘာသာစကားများ။

ပညာရေး

သင်တန်းပစ္စည်းများ, ဟောပြောပွဲ, နှင့်အသံသို့လေ့ကျင့်ရေးအကြောင်းအရာကိုပြောင်းပါ. ကမ္ဘာလုံးဆိုင်ရာ platforms များအတွက် Multi-ဘာသာစကားထောက်ခံမှု.

သုံးစွဲနိုင်မှု

Screen reader API ပေါင်းစည်းမှုနှင့်ဆောင်းပါး-to-audio ပြောင်းပြန်။

IVR & ဖုန်းစနစ်များ

Power IVR systems, phone menus, and customer service with natural AI voices. call centers များအတွက် low-latency streaming.

လူမှုရေးမီဒီယာ

TikTok narrations, Instagram Reels, Twitter / X မှတ်ချက်, YouTube Shorts. အခမဲ့မော်ဒယ်များနှင့်အတူမြန်ဆန်သောမျိုးဆက်.

စီးဆင်းမှု

Twitch TTS သတိပေးချက်များ, chat-to-voice, AI ကို co-hosts, နှင့် Discord bots များ။ အနည်းငယ် latency, 100+ အသံများ, StreamElements ကိုသဟဇာတဖြစ်ကြသည်။

စျေးကွက်ရှာဖွေရေး

ကြော်ငြာ voiceovers, ရှင်းလင်းပြတ်သားတဲ့ဗီဒီယိုများ, ထုတ်ကုန် demo များ, နှင့်ရောင်းချမှုတင်ဆက်မှု။

ဘာသာပြန်ခြင်းနှင့် နေရာချထားခြင်း

30+ ဘာသာစကားများအသံ-ကိုက်ညီ AI နဲ့ဘာသာပြန်ဆိုနှင့် dub video ကို။ Auto-transcription နှင့် Speaker ရှာဖွေတွေ့ရှိ.

သတိပဋ္ဌာန် & Wellness

ဦးဆောင်တရားထိုင်, အိပ်စက်ခြင်းဇာတ်လမ်းများ, အသက်ရှူလေ့ကျင့်ခန်း, ငြိမ်းချမ်းသောနှင့်အတူအတည်ပြုချက်, ငြိမ်းချမ်းရေး AI အသံများ.

အားလုံးအသုံးပြုမှုဖြစ်ရပ်များ & Tools များကိုကြည့်ပါ

စာသားမှစကားပြောသည့်ပုံစံများ

TTS.ai ပေါ်တွင်ရရှိနိုင်တစ်ဦးချင်းစီ AI မော်ဒယ်များအတွက်အသေးစိတ်ဖော်ပြချက်. အရည်အသွေးကိုနှိုင်းယှဉ်, အမြန်နှုန်း, ဘာသာစကားထောက်ခံမှု, နှင့်သင်၏စီမံကိန်းအတွက်ပြီးပြည့်စုံသောမော်ဒယ်ကိုရှာဖွေတွေ့ရှိရန် features တွေ.

Kokoro

Free

Kokoro သည်၎င်း၏အလေးချိန်အတန်းထက်ကောင်းစွာထိုးသွင်းသော 82 သန်း parameter text-to-speech model တစ်ခုဖြစ်သည်။ ၎င်း၏သေးငယ်သောအရွယ်အစားကိုပင်ဖြစ်စေ၊ ၎င်းသည်ထူးခြားစွာသဘာဝနှင့်အသံထွက်ပြောဆိုမှုကိုထုတ်လုပ်သည်။ Kokoro သည်အင်္ဂလိပ်၊ ဂျပန်၊ တရုတ်နှင့်ကမ္ဘာ့ဘာသာစကားများစွာကိုထောက်ခံသည်။

ဖန်တီးသူ -:
Hexgrad

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, ja, zh, fr, it, pt, es, hi

ဗီဒီယိုမှတ်ဉာဏ်:
1.5GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

82M parameters များ အလွန်မြန် ဖော်ပြချက် အသံများ ဘာသာစကား များစွာ စီးဆင်းမှုထောက်ပံ့မှု

အကောင်းဆုံး:: အနည်းဆုံး latency နှင့်အတူအရည်အသွေးမြင့် TTS, streaming applications များ

စမ်းကြည့်ပါ Kokoro

Piper

Free

Piper သည် VITS နှင့် larynx architectures ကိုအသုံးပြုသော Rhasspy မှတီထွင်ထားသော အလေးချိန်သက်သာသော text-to-speech engine တစ်ခုဖြစ်သည်။ ၎င်းသည် CPU ပေါ်တွင်လုံးဝလည်ပတ်ပြီး Edge Devices, အိမ်သုံးစက်ကိရိယာများနှင့် offline TTS ကိုလိုအပ်သော application များအတွက်အလွန်သင့်လျော်သည်။ 30+ ဘာသာစကားများအကြား 100 အသံများဖြင့် Piper သည် Raspberry Pi တွင်ပင်အမှန်တကယ်အချိန်အမြန်နှုန်းဖြင့်သဘာဝအသံထွက်စကားပြောဆိုမှုပေးသည်။ 4.

ဖန်တီးသူ -:
Rhasspy

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ဗီဒီယိုမှတ်ဉာဏ်:
0 (CPU only)

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

CPU သက်သာသည် အွန်လိုင်းမှမပါ 100+ အသံများ 30+ ဘာသာစကားများ SSML ထောက်ခံမှု

အကောင်းဆုံး:: မြန်ဆန်သော နမူနာများ၊ အသုံးပြုနိုင်မှုနှင့် ထည့်သွင်းထားသော အက်ပလီကေးရှင်းများ

စမ်းကြည့်ပါ Piper

VITS

Free

VITS (end-to-end Text-to-Speech အတွက် adversarial သင်ယူမှုနှင့်အတူ Variation Inference) ဟာလက်ရှိနှစ်ဆင့်မော်ဒယ်များထက်ပိုမိုသဘာဝကျကျအသံထွက်သောအသံကိုထုတ်လုပ်ပေးသောပထမဆုံးအဆင့်မှအဆုံးသတ် TTS နည်းလမ်းတစ်ခုဖြစ်သည်။ သဘာဝကျကျအရည်အသွေးမြင့်မားစေရန်အတွက် သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော

ဖန်တီးသူ -:
Jaehyeon Kim et al.

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

ဗီဒီယိုမှတ်ဉာဏ်:
1GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

ပြီးဆုံးသည့်အထိပေါင်းစပ်ခြင်း သဘာဝ ဝေါဟာရ ဖွဲ့စည်းပုံ မြန်ဆန်သော ကောက်ချက်ချခြင်း အမျိုးမျိုးသော ထုတ်လွှင့်သူများ

အကောင်းဆုံး:: သဘာဝကျသော ဘာသာစကားဖြင့် အများသုံး စာသားမှစကားပြော

စမ်းကြည့်ပါ VITS

MeloTTS

Free

MeloTTS by MyShell.ai is an multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

ဖန်တီးသူ -:
MyShell.ai

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, es, fr, zh, ja, ko

ဗီဒီယိုမှတ်ဉာဏ်:
0.5GB (GPU optional)

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

CPU-optimized ဘာသာစကား များစွာ အက္ခရာ ပေါင်းစုံ ထုတ်လုပ်မှု-အသင့် အချိန်ကြာမြင့်မှု နည်းပါးခြင်း

အကောင်းဆုံး:: ထုတ်လုပ်မှု applications များလိုအပ်ချက်မြန်, ဘာသာစကားစုံ TTS

စမ်းကြည့်ပါ MeloTTS

Bark

Standard

Suno အားဖြင့် Bark ဟာအလွန်အမှန်တကယ်ဖြစ်စေနိုင်တဲ့ transformer-based text-to-audio model တစ်ခုဖြစ်ပါတယ်, ဘာသာစကားများစွာပြောဆိုခြင်းနှင့်ဂီတကဲ့သို့အခြားအသံများ, နောက်ခံအသံ, နှင့်အသံသက်ရောက်မှုများ. ဒါဟာရယ်မောခြင်း, ငိုကြွေးခြင်းနှင့်ငိုခြင်းကဲ့သို့သောစကားလုံးမပါသောဆက်သွယ်မှုများကိုထုတ်လုပ်နိုင်သည်။ Bark သည် 100 speaker presets နှင့် 13+ ဘာသာစကားများကိုထောက်ပံ့သည်။

ဖန်တီးသူ -:
Suno

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Slow

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ဗီဒီယိုမှတ်ဉာဏ်:
5GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အသံ သက်ရောက်မှု ရယ်မောခြင်း/အော်ဟစ်ခြင်း ဂီတထုတ်လုပ်မှု 100+ ဟောပြောသူများ ဘာသာစကား များစွာ

အကောင်းဆုံး:: ဖန်တီးမှုအသံအကြောင်းအရာ, စိတ်ခံစားမှုနှင့်အတူအသံစာအုပ်များ, အသံသက်ရောက်မှု

စမ်းကြည့်ပါ Bark

Bark Small

Standard

Bark Small ထင်ရှားစွာပိုမိုမြန်ဆန် inference မြန်နှုန်းနှင့်အနည်းငယ်မှတ်ဉာဏ်လိုအပ်ချက်များကိုများအတွက်အချို့သော audio အရည်အသွေးကိုကုန်သွယ် Bark ပုံစံ၏တစ်ဦးစွန့်ပစ်ဗားရှင်းဖြစ်ပါသည်. ဒါဟာစိတ်ခံစားမှုနှင့်အတူစကားပြောထုတ်လုပ်ရန် Bark ရဲ့စွမ်းရည်ကိုထိန်းသိမ်းထား, ရယ်မော, နှင့်ဘာသာစကားများစွာ.

ဖန်တီးသူ -:
Suno

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ဗီဒီယိုမှတ်ဉာဏ်:
2GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အလင်းရောင် အပြည့်အဝ Bark ထက်ပိုမြန် စိတ်ခံစားမှုဆိုင်ရာ စကားပြောဆိုမှု ဘာသာစကား များစွာ

အကောင်းဆုံး:: အပြည့်အဝ Bark သည်နှေးလွန်းလျှင်အမြန်ဖန်တီးမှုအသံ

စမ်းကြည့်ပါ Bark Small

CosyVoice 2

Standard

CosyVoice2Alibaba ၏ Tongyi Lab ကအလွန်နိမ့် latency နှင့်အတူလူသား-နှိုင်းယှဉ်စကားပြောအရည်အသွေးကိုရရှိ, အစစ်အမှန်အချိန် applications များအဘို့အသင့်လျော်သောဖြစ်စေသည်။ ဒါဟာ streaming ပေါင်းစပ်အတွက်အဆုံးသတ် scalar quantization နည်းလမ်းကိုအသုံးပြုပြီး Zero-shot အသံ clone ကိုထောက်ခံ, cross-ဘာသာစကားပေါင်းစပ်, နှင့် fine-grained စိတ်ခံစားမှုထိန်းချုပ်မှု။ ဒါဟာ subjective ဆန်းစစ်ခြင်းများပြုလုပ်ထားခြင်းတွင်အများအပြားစီးပွားရေးလုပ်ငန်း TTS စနစ်များကို outperform ။

ဖန်တီးသူ -:
Alibaba (Tongyi Lab)

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko, fr, de, it, es

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

စီးဆင်းနေသည် Zero-shot ကူးယူခြင်း ဘာသာစကားပေါင်းစုံ စိတ်ခံစားမှု ထိန်းချုပ်မှု လူသား-တူညီမှု

အကောင်းဆုံး:: အစစ်အမှန်အချိန် application များ, streaming TTS, အသံထောက်ခံမှု

စမ်းကြည့်ပါ CosyVoice 2

Dia TTS

Standard

Nari Labs မှ Dia သည် 1.6B parameter text-to-speech model ဖြစ်ပြီး အမျိုးမျိုးသော speaker များကြားတွင် စကားပြောဆိုမှု ပြုလုပ်ရန် ရည်ရွယ်ထားသည်။ ၎င်းသည် သင့်လျော်သော turn-taking, prosody နှင့် စိတ်ခံစားမှု ထုတ်ဖော်ပြောဆိုမှု တို့ဖြင့် speaker နှစ်ဦးအကြား သဘာဝကျကျ ထွက်ပေါ်လာသော စကားပြောဆိုမှုများကို ထုတ်လုပ်နိုင်သည်။ Dia သည် podcast-style content, audiobook dialogues နှင့် အပြန်အလှန်စကားပြော AI များကို ဖန်တီးရန်အတွက် သင့်လျော်သည်။

ဖန်တီးသူ -:
Nari Labs

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အမျိုးမျိုးသော ထုတ်လွှင့်သူများ အညွှန်းစာမျက်နှာ ထုတ်လုပ် သဘာဝ ပြောင်းပြန် ခံစားမှု ဖော်ပြချက် 1.6B parameters တွေကို

အကောင်းဆုံး:: Podcasts, audiobook စကားပြောဆိုမှု, စကားပြောဆိုမှုအကြောင်းအရာ

စမ်းကြည့်ပါ Dia TTS

Parler TTS

Standard

Parler TTS ထုတ်လုပ်စကားပြောကိုထိန်းချုပ်ဖို့သဘာဝဘာသာစကားအသံဖော်ပြချက်ကိုအသုံးပြုသောစာသား-to-စကားပြောမော်ဒယ်တစ်ခုဖြစ်ပါသည်. preset အသံများမှရွေးချယ်ခြင်းအစား, သင်လိုချင်သောအသံကိုဖော်ပြ (ဥပမာ, "အနည်းငယ်ဘရစ်တန်အသံနှင့်အတူအေးမြအမျိုးသမီးအသံ, နှေးနှင့်ရှင်းလင်းစွာပြောဆို") နှင့် Parler ထုတ်လုပ်စကားပြောကိုဖော်ပြချက်ကိုလိုက်ဖက်တဲ့. ဒီဖန်တီးမှု applications များအတွက်ထူးခြားတဲ့ပြောင်းလွယ်ပြင်လွယ်ဖြစ်စေသည်။

ဖန်တီးသူ -:
Hugging Face

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အသံဖော်ပြချက် သဘာဝဘာသာစကားထိန်းချုပ်မှု ပြောင်းလွယ်ပြင်လွယ် အသံဖန်တီးမှု အသံများ မလိုအပ်ပါ

အကောင်းဆုံး:: သင့်အသံကို သင့်စိတ်ကြိုက် သတ်မှတ်ပေးနိုင်သော ဖန်တီးမှုဆိုင်ရာ အက်ပလီကေးရှင်းများ

စမ်းကြည့်ပါ Parler TTS

GLM-TTS

Standard

GLM-TTS by Zhipu AI isatext-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

ဖန်တီးသူ -:
Zhipu AI

လိုင်စင် -:
GLM-4 License

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အနည်းဆုံးအမှားနှုန်း အသံကို ကူးယူခြင်း စီးဆင်းမှု လိုက်ဖက်မှု သဘာဝ ဝေါဟာရ ဖွဲ့စည်းပုံ

အကောင်းဆုံး:: အမြင့်ဆုံး ထုတ်ဝေမှု တိကျမှုလိုအပ်သော အပလီကေးရှင်းများ

စမ်းကြည့်ပါ GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 သည် အလွန်ကောင်းမွန်သော ခံစားမှုထိန်းချုပ်မှုနှင့်အတူ zero-shot voice synthesis တွင် ထူးချွန်သော အဆငျ့မွငျ့ စာသားမှစကားပြောစနစ် ဖြစ်သည်။ ၎င်းသည် ခံစားမှု-တိကျသော လေ့ကျင့်ရေးဒေတာများ မလိုအပ်ဘဲ ပျော်ရွှင်မှု၊ ဝမ်းနည်းမှု၊ ဒေါသ၊ သို့မဟုတ် ကြောက်ရွံ့မှုကဲ့သို့သော တိကျသော ခံစားမှုအသံများကို ထုတ်လုပ်နိုင်သည်။

ဖန်တီးသူ -:
Index Team

လိုင်စင် -:
Bilibili Model License

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

ခံစားမှုထိန်းချုပ်မှု ရိုက်ချက်-၀ ခံစားမှု ဗီကိန်းများ ထုတ်ဖော်ပြောဆိုမှု အသေးစိတ် ထိန်းချုပ်မှု

အကောင်းဆုံး:: စိတ်ခံစားမှုအရ ထုတ်ဖော်ပြောဆိုနိုင်သော အကြောင်းအရာများ, အသံစာအုပ်များ, အွန်လိုင်းအကူများ

စမ်းကြည့်ပါ IndexTTS-2

Spark TTS

Standard

Spark TTS by SparkAudio isatext-to-speech model that combines voice cloning with controllable emotion and speaking style. မှတ်ချက်အသံ၏5စက္ကန့်သာအသုံးပြုခြင်း, it can cloneavoice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS သည် prompt-based control system ကိုအသုံးပြုသည်။

ဖန်တီးသူ -:
SparkAudio

လိုင်စင် -:
CC BY-NC-SA 4.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အသံကို ကူးယူခြင်း စိတ်ခံစားမှု ထိန်းချုပ်မှု ပုံစံ ထိန်းချုပ်မှု မေးမြန်းချက် အခြေခံ ၅-စက္ကန့် ကူးယူခြင်း

အကောင်းဆုံး:: cloned အသံများနှင့်စိတ်ခံစားမှုထိန်းချုပ်မှုနှင့်အတူအကြောင်းအရာဖန်တီးမှု

စမ်းကြည့်ပါ Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS SoVITS နှင့်အတူ GPT-style ဘာသာစကား modeling ကိုပေါင်းစပ် (ဘာသာပြန်ခြင်းနှင့်ပေါင်းစပ်ခြင်းမှတဆင့်သီချင်းဆိုခြင်းအသံ Inference) အစွမ်းထက်အနည်းငယ်-ရိုက်ချက်အသံ cloning များအတွက်. နည်းနည်းအဖြစ်5စက္ကန့်အရည်အသွေးမြင့် audio ကို, ဒါဟာတိကျစွာစကားပြောသူ၏ထူးခြားသောလက္ခဏာများကိုထိန်းသိမ်းထားစဉ်အသံကို clone နိုင်ပြီးစကားပြောအသစ်ကိုထုတ်လုပ်. ဒါဟာစကားပြောနှင့်သီချင်းဆိုအသံပေါင်းစပ်ခြင်းနှစ်ခုလုံးတွင်ထူးချွန်.

ဖန်တီးသူ -:
RVC-Boss

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Slow

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko

ဗီဒီယိုမှတ်ဉာဏ်:
6GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

၅-စက္ကန့် ကူးယူခြင်း သီချင်းဆိုသံ နည်းနည်းလေး သင်ယူခြင်း အရည်အသွေးမြင့် ဘာသာစကားပေါင်းစုံ

အကောင်းဆုံး:: Voice clone, သီချင်းဆို synthesizer, အကြောင်းအရာဖန်တီးသူအသံတု

စမ်းကြည့်ပါ GPT-SoVITS

Orpheus

Standard

Orpheus သည် လူသားအဆင့် စိတ်ခံစားမှု ထုတ်ဖော်ပြောဆိုမှုကို ရရှိစေသော ကြီးမားသော အတိုင်းအတာဖြင့် စာသားမှစကားပြောသည့် မော်ဒယ်တစ်ခုဖြစ်သည်။ ကွဲပြားခြားနားသော စကားပြော အချက်အလက်များ၏ 100,000 နာရီ ကျော်တွင် လေ့ကျင့်သင်ကြားထားသည့် Orpheus သည် သဘာဝကျသော စိတ်ခံစားမှု၊ အာရုံစူးစိုက်မှုနှင့် စကားပြောစတိုင်များဖြင့် စကားပြောမှုကို ထုတ်လုပ်ရာတွင် ထူးချွန်သည်။ Orpheus သည် လူသား မှတ်တမ်းတင်မှုများမှ ခွဲခြားမရနိုင်သော စကားပြောကို ထုတ်လုပ်နိုင်သည်။

ဖန်တီးသူ -:
Canopy Labs

လိုင်စင် -:
Llama 3.2 Community

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

လူသားအဆင့် ခံစားချက် 100K နာရီလေ့ကျင့်ရေး သဘာဝ အသားပေး ထုတ်ဖော်ပြောဆိုမှု

အကောင်းဆုံး:: အရည်အသွေးမြင့်စိတ်ခံစားမှုစကားပြော, audiobooks, အသံသရုပ်ဆောင်

စမ်းကြည့်ပါ Orpheus

Chatterbox

Premium

Chatterbox by Resemble AI isacutting-edge zero-shot voice cloning model. It can replicate any voice fromasingle audio sample with remarkable accuracy, capturing not only the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the generated speech's emotional tone independently from the voice identity.

ဖန်တီးသူ -:
Resemble AI

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

Zero-shot ကူးယူခြင်း ခံစားမှုထိန်းချုပ်မှု မြင့်မားသော တိကျမှု ပုံစံ လွှဲပြောင်းခြင်း နမူနာတစ်ခုတည်းကို ကူးယူခြင်း

အကောင်းဆုံး:: စိတ်ခံစားမှုထိန်းချုပ်မှုနှင့်အတူပရော်ဖက်ရှင်နယ်အသံ cloning, အကြောင်းအရာဖန်တီးမှု

စမ်းကြည့်ပါ Chatterbox

Tortoise TTS

Premium

Tortoise TTS မြန်နှုန်းထက် audio အရည်အသွေးကိုအလေးပေးသော autoregressive multi-voice text-to-speech system တစ်ခုဖြစ်သည်။ ၎င်းသည်ကောင်းမွန်သော prosody နှင့် speaker တူညီမှုနှင့်အတူအလွန်သဘာဝစကားပြောကိုထုတ်လုပ်ရန် DALL-E-စိတ်ကူးယဉ်ဗိသုကာကိုအသုံးပြုသည်။ များစွာသောအခြားရွေးချယ်စရာများထက်နှေးသော်လည်း၊ Tortoise သည် Open-source ecosystem တွင်ရရှိနိုင်သောအမှန်တကယ် synthesized စကားပြော၏အချို့ကိုထုတ်လုပ်သည်။

ဖန်တီးသူ -:
James Betker

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Slow

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
8GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

အရည်အသွေးအမြင့်ဆုံး အသံစုံ DALL-E ဗိသုကာ အသံကို ကူးယူခြင်း အလိုအလျောက် ပြန်ကျဆင်းခြင်း

အကောင်းဆုံး:: အသံစာအုပ်များ, ပရီမီယံအကြောင်းအရာ, အရည်အသွေး-ပထမဦးဆုံး application များ

စမ်းကြည့်ပါ Tortoise TTS

StyleTTS 2

Premium

StyleTTS2ကြီးမားသောစကားပြောဘာသာစကားမော်ဒယ်များအသုံးပြုခြင်းအားဖြင့်ဆန့်ကျင်ဘက်လေ့ကျင့်ရေးနှင့်အတူစတိုင်ပျံ့နှံ့ပေါင်းစပ်ခြင်းအားဖြင့်လူ့-အဆင့် TTS ပေါင်းစပ်အောင်မြင်သည်။ ဒါဟာလူ့မှတ်တမ်းတင်ပြိုင်ဘက်တစ်ဦးတည်းသောပြောဆိုသူမော်ဒယ်များအကြားအများဆုံးသဘာဝအသံထွက်စကားပြောဖြစ်ပေါ်စေသည်။ StyleTTS2လူ့စကားပြောကွဲပြားမှု၏အပြည့်အဝအကွာအဝေးကိုဖမ်းဖို့စတိုင်ပျံ့နှံ့အခြေခံစတိုင် modeling ကိုအသုံးပြုသည်။

ဖန်တီးသူ -:
Columbia University

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

လူသားအဆင့် ပုံစံ ပျံ့နှံ့မှု အငြင်းပွားဖွယ်လေ့ကျင့်ခန်း သဘာဝ ကွဲပြားမှု မြင့်မားသော တိကျမှု

အကောင်းဆုံး:: စတူဒီယို-အရည်အသွေး single-speaker ပေါင်းစပ်, ပရော်ဖက်ရှင်နယ်ပြောပြ

စမ်းကြည့်ပါ StyleTTS 2

OpenVoice

Premium

MyShell.ai အားဖြင့် OpenVoice အသံစတိုင်, စိတ်ခံစားမှု, အသံထွက်, စည်းချက်, ရပ်နား, နှင့် intonation အပေါ် granular ထိန်းချုပ်မှုနှင့်အတူချက်ချင်းအသံ cloning ခွင့်ပြု. ဒါဟာအတို audio clip မှအသံကို clone နိုင်ပြီးစကားပြောသူအမည်ကိုထိန်းသိမ်းထားစဉ်ဘာသာစကားများစွာတွင်စကားပြောထုတ်လုပ်. OpenVoice လည်းအသံ converter အဖြစ် functions, အစစ်အမှန်အချိန်အသံပြောင်းလဲမှုခွင့်ပြု.

ဖန်တီးသူ -:
MyShell.ai / MIT

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko, fr, es

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

ချက်ချင်းကူးယူခြင်း အသံပြောင်းခြင်း ခံစားမှုထိန်းချုပ်မှု အသံထွက်ထိန်းချုပ်မှု ဘာသာစကား များစွာ

အကောင်းဆုံး:: Fine-grained စတိုင်ထိန်းချုပ်မှုနှင့်အတူအသံ cloning, အသံပြောင်းပြန်

စမ်းကြည့်ပါ OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS သည် Alibaba ၏ Qwen အဖွဲ့မှ 1.7 ဘီလီယံ parameter text-to-speech model တစ်ခုဖြစ်သည်။ ၎င်းသည် mode သုံးခုကိုထောက်ပံ့သည်။ ခံစားမှုထိန်းချုပ်မှုနှင့်အတူ preset အသံများ (9 speakers),3စက္ကန့်အသံခိုးယူခြင်းနှင့်သင်လိုချင်သောအသံကိုသဘာဝဘာသာစကားဖြင့်ဖော်ပြသည့်ထူးခြားသောအသံဒီဇိုင်း mode ဖြစ်သည်။ ၎င်းသည်မြင့်မားသောဖော်ပြမှုနှင့်သဘာဝ prosody နှင့်အတူဘာသာစကား ၁၀ ခုကိုဖုံးလွှမ်းသည်။

ဖန်တီးသူ -:
Alibaba (Qwen)

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko, de, fr, ru, pt, es, it

ဗီဒီယိုမှတ်ဉာဏ်:
7GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အသံကို ကူးယူခြင်း 9 preset အသံများ စာသားမှ အသံဒီဇိုင်း ခံစားမှုထိန်းချုပ်မှု 10 ဘာသာစကားများ

အကောင်းဆုံး:: ဘာသာစကားများစွာပါဝင်သော ဘာသာစကားပေါင်းစုံ ဘာသာစကားများဖြင့် ဘာသာပြန်ထားသော အကြောင်းအရာများ

စမ်းကြည့်ပါ Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) 1 ဘီလီယံ parameter ကိုမော်ဒယ်စကားပြောပြောဆိုမှုဖန်တီးရန်အထူးဒီဇိုင်းထုတ်ထားသည်။ ဒါဟာ turn-ယူအချိန်, backchannel တုံ့ပြန်မှု, စိတ်ခံစားမှုတုံ့ပြန်မှု, နှင့်စကားပြောစကားစီးဆင်းမှုအပါအဝင်လူသားစကားပြောဆိုမှု၏သဘာဝပုံစံများကို model ။ CSM synthesized စကားပြောထက်သဘာဝလူသားစကားပြောဆိုမှုလို sounds တဲ့အသံကို generates ။

ဖန်တီးသူ -:
Sesame

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Slow

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
8GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

စကားပြော သဘာဝအချိန်သတ်မှတ်ချက် ပြောင်းပြန် နောက်ပိုင်း ချာနယ် 1B parameters များ

အကောင်းဆုံး:: AI ထောက်ခံမှု, chatbots, စကားပြော AI လျှောက်လွှာ

စမ်းကြည့်ပါ Sesame CSM

Chatterbox Turbo

Standard

Resemble AI က Chatterbox Turbo Chatterbox ဖို့ 350M parameter ကိုအဆင့်မြှင့်တင်ခြင်းဖြစ်ပါတယ်, sub-200ms latency နဲ့ 6x အစစ်အမှန်အချိန်အမြန်နှုန်းအထိပေးပို့. ဒါဟာ [ရယ်မော] ကဲ့သို့ paralinguistic tags တွေကိုထောက်ခံ, [ချောင်းဆိုး], နှင့် [ရယ်မော] တိုက်ရိုက်စာသားထဲမှာ. ရင်းမြစ်ခြေရာခံမှုများအတွက်အားလုံးထုတ်လုပ်အသံပေါ်တွင် Perth ရေစင်ကာပါဝင်သည်.

ဖန်တီးသူ -:
Resemble AI

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
2GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

Sub-200ms latency ဘာသာစကားဆိုင်ရာ အမှတ်အသားများ 6x မှန်ကန်သောအချိန် အသံကို ကူးယူခြင်း တံဆိပ်ခေါင်း

အကောင်းဆုံး:: သဘာဝအသံများနှင့်အတူအမှန်တကယ်အချိန်အသံအရာရှိများ, ထုတ်ဖော်ပြောဆို

စမ်းကြည့်ပါ Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 by OpenBMB isanew tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

ဖန်တီးသူ -:
OpenBMB

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

44.1kHz အသံ Tokenizer-free ဘာသာပေါင်းစုံ ကူးယူခြင်း အကြောင်းအရာသိ LoRA အသေးစိတ် ချိန်ညှိခြင်း

အကောင်းဆုံး:: အသံတည်ငြိမ်မှုနှင့်အတူအမြင့်-ယုံကြည်စိတ်ချရသောအသံ, audiobooks, ကြာ-ပုံစံအကြောင်းအရာ

စမ်းကြည့်ပါ VoxCPM

Kani TTS 2

Free

ဖန်တီးသူ -:
NineNineSix

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
3GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

၃GB ဗီဒီယိုမှတ်ဉာဏ် အလွန်မြန် အလင်းရောင် NanoCodec လွတ်လပ်မှု

အကောင်းဆုံး:: အမြန်အင်္ဂလိပ်မျိုးဆက်အနည်းငယ်-VRAM ဟာ့ဒ်ဝဲ, မြန်ဆန် previews

စမ်းကြည့်ပါ Kani TTS 2

OuteTTS

Free

OuteTTS မူရင်းဗိသုကာကိုထိန်းသိမ်းထားစဉ်စာသား-to-စကားပြောစွမ်းရည်များနှင့်အတူကြီးမားသောဘာသာစကားမော်ဒယ်များတိုးချဲ့. ဒါဟာ llama.cpp (CPU / GPU) အပါအဝင် backends များစွာကိုထောက်ခံ, Hugging မျက်နှာ Transformers, ExLlamaV2, VLLM, နှင့် Transformers.js ကနေတဆင့်ဘရောက်ဆာကိုပင်ကောက်ချက်ချ. JSON အဖြစ်သိမ်းဆည်းထားသော Speaker profiles များမှတဆင့် zero-shot အသံ cloning features.

ဖန်တီးသူ -:
OuteAI

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
2GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

CPU ကောက်ချက်ချခြင်း ရှာဖွေရေးကိရိယာ ကောက်ချက်ချခြင်း အသံကို ကူးယူခြင်း အမျိုးမျိုးသော backends ဟောပြောသူ အချက်အလက်များ

အကောင်းဆုံး:: Edge ဖြန့်ချိ, browser ကိုအခြေခံ TTS, အနည်းငယ်-resource ပတ်ဝန်းကျင်

စမ်းကြည့်ပါ OuteTTS

VibeVoice

Standard

VibeVoice by Microsoft အားဖြင့်နှစ်ခုကွဲပြားခြားနားသောလာ: အရှည်-ပုံစံအကြောင်းအရာများအတွက် 1.5B ပုံစံ (အထိ 90 မိနစ်,4ပြောဆိုသူ) နှင့် ~ 200ms ပထမဦးဆုံးအသံ latency နှင့်အတူ streaming များအတွက် Realtime 0.5B ပုံစံ. အဆိုပါ 1.5B မျိုးကွဲ podcasts နှင့်အသံစာအုပ်များမှာရှည်လျားသော passages ကျော်ပြောဆိုသူတည်ငြိမ်မှုနှင့်အတူ excels. မှတ်ချက်: Microsoft က repository မှ TTS code ကိုဖယ်ရှားပစ်ပြီးထုတ်လုပ်အသံကြားနိုင် AI တာဝန်ယူမှုငြင်းပယ်မှုများပါဝင်သည်.

ဖန်တီးသူ -:
Microsoft

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အမျိုးမျိုးသော ထုတ်လွှင့်သူများ 90 မိနစ်အထိ Podcast ထုတ်လုပ်မှု ထုတ်လွှင့်သူ တည်ငြိမ်မှု 200ms စီးဆင်းမှု

အကောင်းဆုံး:: Podcasts, audiobooks, ကြာရှည်-ပုံစံ multi-ပြောဆိုသူအကြောင်းအရာ

စမ်းကြည့်ပါ VibeVoice

Pocket TTS

Free

Kyutai (Moshi ၏ဖန်တီးသူများ) က Pocket TTS သည်၎င်း၏အလေးချိန်ထက်ကောင်းစွာထိုးသွင်းသော compact 100M parameter text-to-speech model တစ်ခုဖြစ်သည်။ ၎င်းသည် CPU ပေါ်တွင်ထိရောက်စွာလည်ပတ်ပြီးတစ်ဦးတည်းသော audio sample မှ zero-shot voice clone ကိုထောက်ပံ့ပြီးသဘာဝ-အသံထွက်စကားပြောဆိုမှုကိုထုတ်လုပ်သည်။

ဖန်တီးသူ -:
Kyutai

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, fr

ဗီဒီယိုမှတ်ဉာဏ်:
1GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

100M parameters များ CPU ကောက်ချက်ချခြင်း အသံကို ကူးယူခြင်း နမူနာတစ်ခုတည်းကို ကူးယူခြင်း အပြင်ဘက် အဆင်သင့်

အကောင်းဆုံး:: အလေးချိန်နည်းသော ဖြန့်ချိမှု၊ CPU-only ပတ်ဝန်းကျင်၊ အမြန်အသံ ကူးယူခြင်း

စမ်းကြည့်ပါ Pocket TTS

Kitten TTS

Free

KittenML က Kitten TTS ONNX ပေါ်တွင်တည်ဆောက်အလွန်အလင်း-အလေးချိန်စာသား-to-စကားပြောမော်ဒယ်တစ်ခုဖြစ်ပါသည်. 15M မှ 80M parameters တွေကို (25-80 MB ကို disk ကိုပေါ်တွင်) မှကွဲပြားခြားနားသော, ဒါဟာ GPU ကိုမလိုအပ်ဘဲ CPU ကိုအပေါ်အရည်အသွေးမြင့်စကားသံ synthesizing ပေးပို့. Features 8 built-in အသံများ, ချိန်ညှိနိုင်သောစကားပြောအမြန်နှုန်း, နှင့်နံပါတ်များ, ငွေကြေး, နှင့်ယူနစ်များအတွက် built-in ကိုစာသား preprocessing. edge ဖြန့်ချိနှင့်အနည်းငယ်-latency applications များများအတွက်အလွန်အစွမ်းထက်တဲ့.

ဖန်တီးသူ -:
KittenML

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
0GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

CPU-only ကောက်ချက်ချခြင်း 80MB အောက်မှာမော်ဒယ်အရွယ်အစား 8 built-in အသံများ အမြန်နှုန်းထိန်းချုပ်မှု ONNX အခြေခံ 24kHz ထုတ်လုပ်မှု

အကောင်းဆုံး:: မြန်မြန်ဆန်ဆန်အလေးချိန်ပေါ့ပါး TTS, edge ဖြန့်ချိ, အနည်းငယ်- latency applications များ

စမ်းကြည့်ပါ Kitten TTS

CosyVoice3

Standard

CosyVoice3 Alibaba ၏ FunAudioLLM အဖွဲ့မှနောက်ဆုံးပေါ်ဖွံ့ဖြိုးတိုးတက်မှုဖြစ်ပါသည်. ဒါဟာ ~ 150ms latency နှင့်အတူ bi-streaming ကောက်ချက်ချ features, ခံစားချက် / အမြန်နှုန်း / အရွယ်အစားအတွက်ညွှန်ကြားချက်-အခြေခံထိန်းချုပ်မှု, နှင့် zero-shot cloning အတွက်တိုးတက်ကောင်းမွန်သောပြောကြားသူတူညီ. Supports9languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

ဖန်တီးသူ -:
Alibaba (FunAudioLLM)

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko, de, es, fr, it, ru

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

စီးဆင်းမှုနှစ်မျိုး ခံစားမှုထိန်းချုပ်မှု အသံကို ကူးယူခြင်း အမြန်နှုန်း/အသံပမာဏထိန်းချုပ်မှု အမိန့်ပေးချက် လိုက်နာခြင်း

အကောင်းဆုံး:: ဘာသာစကားများစွာထုတ်လုပ်မှု TTS, အစစ်အမှန်အချိန် application များ, အသံ cloning

စမ်းကြည့်ပါ CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

ဖန်တီးသူ -:
NAMAA Space

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
ar

ဗီဒီယိုမှတ်ဉာဏ်:
6GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

ဆော်ဒီအာရေဗျ ဘာသာစကား ခေတ်မီ စံအဘိဓာန် အင်္ဂလိပ် Zero-shot အသံကူးယူခြင်း ခံစားမှုထိန်းချုပ်မှု ဘာသာစကား

အကောင်းဆုံး:: ဆော်ဒီအာရေဗျပရိသတ်များအတွက်အဘိဓါန်, MSA ပြောပြ, Khaleeji-စကားပြောသံအရာရှိများ, အဘိဓါန် audiobooks

စမ်းကြည့်ပါ NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1.7B-Cross by FINAL-Bench 84 talker-FFN tensors (8.6%) Qwen3-1.7B-Base မှလိုက်ဖက် tensors နှင့်အတူ α =3% တွင်ရောနှောနေကြသည် Qwen3-TTS-1.7B ၏သုတေသနမျိုးကွဲဖြစ်ပါသည်. ရောနှော retraining မရှိဘဲတည်ဆောက်ပြီးသိသာထင်ရှား crisper ဘာသာစကားများအကြားအသံကိုကူးယူထုတ်လုပ်သည်ကိုရီးယား, အင်္ဂလိပ်, ဂျပန်, နှင့်တရုတ်. Zero-shot အသံ-clone mode ကို (3 စက္ကန့်အသံကိုရည်ညွှန်း) တွင်လည်ပတ်.

ဖန်တီးသူ -:
FINAL-Bench

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, ko, ja, zh

ဗီဒီယိုမှတ်ဉာဏ်:
7GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အသံကို ကူးယူခြင်း ဘာသာစကားပေါင်းစုံ FFN-ရောစပ် 4 core ဘာသာစကားများ Qwen3 အခြေခံ

အကောင်းဆုံး:: တစ်ခုတည်းသောအသံကိုရည်ညွှန်းနှင့်အတူအင်္ဂလိပ် / ကိုရီးယား / ဂျပန် / တရုတ်အကြား cross-ဘာသာစကားအသံကို cloning

စမ်းကြည့်ပါ Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 ကနေ OpenMOSS ကနေ 7B စကားပြောစာသား-to-စကားပြောပုံစံတစ်ခုဖြစ်ပါတယ် အတို audio prompt မှစကားပြောဆက်လက်. အထိ5တစ်ပြိုင်နက်တည်းပြောဆိုသူ [S1] / [S2] tags များ, 3-10s ရည်ညွှန်းအသံကနေ Zero-shot အသံ cloning, နှင့် 60 မိနစ်အထိ 20 ဘာသာစကားများအကြား coherent multi-turn စကားပြော. MOSS-TTS မှကွဲပြားခြားနား — TTSD podcast / audiobook / dubbing အလုပ်လုပ်ကိုင်မှုများအတွက်အထူးပြုဖြစ်ပါသည်.

ဖန်တီးသူ -:
OpenMOSS

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
12GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အမျိုးမျိုးသော ထုတ်လွှင့်သူ အညွှန်းစာမျက်နှာ 5 speakers အထိ 60min အတူတကွအသံ အသံကို ကူးယူခြင်း Podcast များ အကောင်းဆုံးဖြစ်စေရန်

အကောင်းဆုံး:: Podcasts, audiobooks, dubbed စကားပြော, အသံပေါင်းစုံနှင့်အတူစကားပြောအကြောင်းအရာ

စမ်းကြည့်ပါ MOSS-TTSD

Ming-Omni TTS

Free

inclusionAI အားဖြင့် Ming-omni-tts-0.5B သည် Patch-by-Patch စီးဆင်းမှု-ကိုက်ညီသော audio decoder နှင့်အတူ BailingMM ၏ထူထပ်သော backbone ပေါ်တွင်တည်ဆောက်ထားသော compact omni-modal စကားပြောပုံစံတစ်ခုဖြစ်သည်။ 44.1kHz output ကို (CD အရည်အသွေးအနီး) ပေးပို့သည်။ 3+ စက္ကန့်အညွှန်းမှ zero-shot voice clone ကိုထောက်ပံ့ပေးပြီး JSON အမိန့်များမှတဆင့် built-in ခံစားမှု / ဘာသာစကား / BGM ထိန်းချုပ်မှုပါဝင်သည်။

ဖန်တီးသူ -:
inclusionAI

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
3GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

44.1kHz ထုတ်လုပ်မှု အသံကို ကူးယူခြင်း ခံစားမှုထိန်းချုပ်မှု ဘာသာစကား ထိန်းချုပ်မှု BGM ထုတ်လုပ်မှု 0.5B သေးငယ်တဲ့

အကောင်းဆုံး:: မြင့်မားသောယုံကြည်မှုနှစ်ဘာသာပြောဆိုမှု, စိတ်ခံစားမှုထိန်းချုပ်အသံသရုပ်ဆောင်, တရုတ်အသံစာအုပ်အကြောင်းအရာ

စမ်းကြည့်ပါ Ming-Omni TTS

Kokoro

အခမဲ့

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

ဖန်တီးသူ -:
Hexgrad

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en, ja, zh, fr, it, pt, es, hi

အကောင်းဆုံး:: High-quality TTS with minimal latency, streaming applications

အခမဲ့စမ်းသပ်

Piper

အခမဲ့

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

ဖန်တီးသူ -:
Rhasspy

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

အကောင်းဆုံး:: Quick previews, accessibility, and embedded applications

အခမဲ့စမ်းသပ်

VITS

အခမဲ့

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

ဖန်တီးသူ -:
Jaehyeon Kim et al.

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

အကောင်းဆုံး:: General-purpose text-to-speech with natural prosody

အခမဲ့စမ်းသပ်

MeloTTS

အခမဲ့

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

ဖန်တီးသူ -:
MyShell.ai

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en, es, fr, zh, ja, ko

အကောင်းဆုံး:: Production applications needing fast, multilingual TTS

အခမဲ့စမ်းသပ်

Kani TTS 2

အခမဲ့

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

ဖန်တီးသူ -:
NineNineSix

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en

အကောင်းဆုံး:: Fast English generation on low-VRAM hardware, quick previews

အခမဲ့စမ်းသပ်

OuteTTS

အခမဲ့

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

ဖန်တီးသူ -:
OuteAI

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en

အကောင်းဆုံး:: Edge deployment, browser-based TTS, low-resource environments

အခမဲ့စမ်းသပ်

Pocket TTS

အခမဲ့

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

ဖန်တီးသူ -:
Kyutai

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en, fr

အကောင်းဆုံး:: Lightweight deployment, CPU-only environments, quick voice cloning

အခမဲ့စမ်းသပ်

Kitten TTS

အခမဲ့

ဖန်တီးသူ -:
KittenML

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en

အကောင်းဆုံး:: Fast lightweight TTS, edge deployment, low-latency applications

အလိုအလျောက်

ဖန်တီးသူ -:
NAMAA Space

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
ar

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

အကောင်းဆုံး:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

စမ်းကြည့်ပါ NAMAA Saudi TTS

Darwin TTS

အလိုအလျောက်

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

ဖန်တီးသူ -:
FINAL-Bench

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, ko, ja, zh

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

အကောင်းဆုံး:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

မော်ဒယ်	ဖန်တီးသူ -	အမျိုးအစား	အမြန်နှုန်း	ဘာသာစကားများ	ဗီဒီယိုမှတ်ဉာဏ်	လိုင်စင် -	ကုန်ကျစရိတ်
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	အခမဲ့	သုံးစွဲမှု
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	အခမဲ့	သုံးစွဲမှု
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	အခမဲ့	သုံးစွဲမှု
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	အခမဲ့	သုံးစွဲမှု
Bark	Suno	Standard	Slow	13	5GB	MIT	2	သုံးစွဲမှု
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	သုံးစွဲမှု
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	သုံးစွဲမှု
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	သုံးစွဲမှု
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	သုံးစွဲမှု
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	သုံးစွဲမှု
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	သုံးစွဲမှု
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	သုံးစွဲမှု
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	သုံးစွဲမှု
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	သုံးစွဲမှု
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	သုံးစွဲမှု
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	သုံးစွဲမှု
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	သုံးစွဲမှု
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	သုံးစွဲမှု
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	သုံးစွဲမှု
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	သုံးစွဲမှု
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	သုံးစွဲမှု
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	သုံးစွဲမှု
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	အခမဲ့	သုံးစွဲမှု
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	အခမဲ့	သုံးစွဲမှု
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	သုံးစွဲမှု
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	အခမဲ့	သုံးစွဲမှု
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	အခမဲ့	သုံးစွဲမှု
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	သုံးစွဲမှု
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	သုံးစွဲမှု
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	သုံးစွဲမှု
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	သုံးစွဲမှု
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	အခမဲ့	သုံးစွဲမှု

အများဆုံးကျယ်ပြန့် AI စာသားစကားပြော Platform

TTS.ai ကို အသုံးပြု၍ စာသားမှ စကားပြောခြင်း

TTS.ai တစ်ခုတည်းသော, အသုံးပြုရန်လွယ်ကူသောပလက်ဖောင်းတစ်ခုတွင်ကမ္ဘာ့အကြီးဆုံးဖွင့်-source စာသား-to-စကားပြောမော်ဒယ်များပေါင်းစပ်။ တစ်ခုတည်းသောအသံအင်ဂျင်ထဲသို့သင်တို့ကို lock ထားတဲ့ပိုင်ဆိုင်မှုဝန်ဆောင်မှုများမတူဘဲ, TTS.ai Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua တက္ကသိုလ်, နှင့်ပိုပြီးအပါအဝင်ဦးဆောင်သုတေသနလက်တွေ့စမ်းသပ်ခန်းမှ 20+ မော်ဒယ်များသို့သင်တို့ကို access ကိုပေးသည်။

တိုင်းမော်ဒယ် MIT, Apache 2.0, သို့မဟုတ်အလားတူခွင့်ပြုချက်လိုင်စင်အောက်တွင်ဖွင့်အရင်းအမြစ်ဖြစ်ပါသည်, သင်သည်သင်၏စီမံကိန်းများတွင်ထုတ်လုပ်အသံကိုအသုံးပြုရန်အပြည့်အဝကုန်သွယ်ရေးအခွင့်အရေးရှိကြောင်းသေချာစေခြင်းငှါ။ သင်အသံစာအုပ်များနှင့် podcasts များအတွက်အမှန်တကယ်အချိန် applications များသို့မဟုတ်ပရီမီယံစတူဒီယို-အရည်အသွေး output ကိုများအတွက်မြန်နှုန်းမြင့်, အလေးချိန်သက်သာပေါင်းစပ်လိုအပ်ပါစေ, TTS.ai အသုံးပြုမှုတိုင်းအတွက်မှန်ကန်သောမော်ဒယ်ရှိသည်။

အခမဲ့မော်ဒယ်များ, အဘယ်သူမျှမအကောင့်လိုအပ်

Piper (ultra-မြန်, အလေးချိန်ပေါ့ပါး), VITS (အရည်အသွေးမြင့် neurosynthesis), နှင့် MeloTTS (multi-ဘာသာစကားထောက်ခံမှု). No sign-up, no credit card, no limits on generations. Free models support English and multiple other languages with natural-sounding output suitable for most applications များ.

GPU-အရှိန်မြှင့်စီမံခြင်း

အားလုံး TTS မော်ဒယ်များအလျင်အမြန်, ခိုင်မာသောမျိုးဆက်အချိန်များအတွက်ရည်ရွယ် NVIDIA GPUs အပေါ် run. အခမဲ့မော်ဒယ်များပုံမှန်အားအောက်တွင်အသံထုတ်လုပ်2စက္ကန့်. Kokoro ကဲ့သို့စံချိန်စံညွှန်းမော်ဒယ်များ, CosyVoice 2, နှင့် Bark ပျမ်းမျှ 3-5 စက္ကန့်. အဖြစ်အမြင့်ဆုံးအရည်အသွေးနှင့်အတူပရီမီယံမော်ဒယ်များ, Tortoise နှင့် Chatterbox, စာသားအရှည်ပေါ် မူတည်. 5-15 စက္ကန့်အတွင်းလုပ်ငန်းစဉ်.

30+ ဘာသာစကားများထောက်ခံ

ကျော်စကားပြော Generate 30 အင်္ဂလိပ်, စပိန်, ပြင်သစ်, ဂျာမန်, အီတလီ, ပေါ်တူဂီ, တရုတ်, ဂျပန်, ကိုရီးယား, အရပ်ဘက်, ဟိန္ဒူ, ရုရှား, နှင့်များစွာသောပို. အမျိုးမျိုးသောပုံစံများ cross-ဘာသာစကားပေါင်းစပ်ထောက်ခံ, သင်မူရင်းအသံအပေါ်လေ့ကျင့်ခဲ့ဖူးသောဘာသာစကားတစ်ခုစကားပြော generate နိုင်ပါတယ်ဆိုလို. CosyVoice2နှင့် GPT-SoVITS cross-ဘာသာစကား voice cloning မှာထူးချွန်.

Developer-Ready API

ကျွန်ုပ်တို့၏ OpenAI-ကိုက်ညီ REST API နှင့်အတူသင့် application များထဲသို့ပေါင်းစည်း TTS.ai. အားလုံး 20+ မော်ဒယ်များအတွက်တစ်ဦး endpoint ကို. Python, JavaScript, cURL, နှင့် Go SDKs. အမှန်တကယ်အချိန် application များအတွက် streaming ကိုထောက်ခံမှု. ကြီးမားတဲ့-scale အကြောင်းအရာမျိုးဆက်များအတွက် batch processing ကို. async အသိပေးချက်များအတွက် Webhooks. API ကို access ကိုအခမဲ့အပါအဝင်အစီအစဉ်တိုင်းပေါ်တွင်ပါဝင်သည်။

မေးလေ့ရှိသောမေးခွန်းများ

Kokoro, Chatterbox, နှင့် CosyVoice2ကဲ့သို့သောခေတ်သစ် neuro TTS မော်ဒယ်များဟာ သဘာဝကျကျ လူသားဆန်တဲ့ အသံနဲ့ စကားပြောနိုင်အောင် နက်နက်ရှိုင်းရှိုင်း သင်ယူနိုင်အောင် အသုံးပြုကြပါတယ်။

မြန်ဆန်စွာကြည့်ရှုရန်အတွက် Piper သို့မဟုတ် MeloTTS (အခမဲ့၊ အမြန်) ကိုအသုံးပြုပါ။ အရည်အသွေးမြင့်အတွက် Kokoro သို့မဟုတ် CosyVoice2(စံအဆင့်) ကိုအသုံးပြုပါ။ အသံဖမ်းယူရန် Chatterbox သို့မဟုတ် GPT-SoVITS (ပရီမီယံ) ကိုအသုံးပြုပါ။ စကားပြောခန်း/podcast အကြောင်းအရာများအတွက် Dia TTS ကိုအသုံးပြုပါ။ အမျိုးအစားတစ်ခုစီတွင် ကွဲပြားခြားနားသော အားသာချက်များရှိသည်။

ဟုတ်ကဲ့! TTS.ai Kokoro, Piper, VITS နှင့် MeloTTS တို့နှင့်အတူအခမဲ့စာသားမှစကားပြောခြင်းကိုပေးသည်။ 500 စာလုံးနှင့်နာရီလျှင်3မျိုးဆက်များအတွက်အကောင့်လိုအပ်ခြင်းမရှိပါ။ 15,000 စာလုံးများနှင့်မော်ဒယ်အားလုံးကိုရယူရန်အခမဲ့အကောင့်တစ်ခုအတွက်မှတ်ပုံတင်ပါ။

ကျွန်တော်တို့ရဲ့ TTS မော်ဒယ်များစုပေါင်းထောက်ခံ 30+ အင်္ဂလိပ်အပါအဝင်ဘာသာစကားများ, စပိန်, ပြင်သစ်, ဂျာမန်, အီတလီ, ပေါ်တူဂီ, တရုတ်, ဂျပန်, ကိုရီးယား, အရပ်ဘက်, ရုရှား, ဟိန္ဒူ, နှင့်များစွာသောပို. ဘာသာစကားရရှိနိုင်မှုမော်ဒယ်များအားဖြင့်ကွဲပြားခြားနား.

ဟုတ်ကဲ့, TTS.ai ကနေတဆင့်ထုတ်လုပ်အသံကိုစီးပွားရေးလုပ်ငန်းသုံးနိုင်ပါတယ်. ကျွန်တော်တို့ရဲ့မော်ဒယ်အားလုံးကို open-source လိုင်စင်ကိုအသုံးပြု (MIT, Apache 2.0). တိကျတဲ့စည်းကမ်းချက်များကိုများအတွက်တစ်ဦးချင်းစီကိုမော်ဒယ်လိုင်စင်ကိုစစ်ဆေးပါ။ ကျွန်တော်တို့ကသင့်ရဲ့ပရောဂျက်အတွက်အသုံးပြုတဲ့တိကျတဲ့မော်ဒယ်၏လိုင်စင်ကိုပြန်လည်ဆန်းစစ်ခြင်းကိုအကြံပြု.

TTS.ai MP3 ကိုထောက်ခံ, WAV, OGG, နှင့် FLAC output formats ကို။ MP3 ကို web playback အတွက် default ဖြစ်ပါတယ်။ WAV ကိုအပိုအသံ processing အတွက်အကြံပြုထားသည်။ သင်သည်ကျွန်ုပ်တို့၏ Audio Converter tool ကိုအသုံးပြုခြင်းဖြင့် formats များအကြားပြောင်းနိုင်သည်။

Voice cloning သည်အတိုအသံနမူနာ (ပုံမှန်အားဖြင့်5- 30 စက္ကန့်) မှတိကျသောအသံကိုတုံ့ပြန်ရန် AI ကိုအသုံးပြုသည်။ ရည်မှန်းထားသောအသံ၏ရှင်းလင်းသောမှတ်တမ်းတင်မှုကို upload လုပ်ပြီး Chatterbox, GPT-SoVITS ကဲ့သို့သောမော်ဒယ်များသို့မဟုတ် OpenVoice သည်အသံတွင်စကားပြောအသစ်များကိုထုတ်လုပ်လိမ့်မည်။ အရည်အသွေးသည်သန့်ရှင်းပြီးကြာရှည်သောရည်ညွှန်းအသံနှင့်အတူတိုးတက်လာသည်။

အခမဲ့အသုံးပြုသူများသည်အထက်သို့ထုတ်လုပ်နိုင်ပါတယ် 500 စာလုံးတစ်လျှောက်လွှာလျှင်. မှတ်ပုံတင်အသုံးပြုသူများသည်အထက်သို့ရယူ 5,000 စာလုံးတစ်လျှောက်လွှာလျှင်. ပိုမိုရှည်လျားသောစာသားများအတွက်, အသံချဲ့စက်အပိုင်းပိုင်းတွင်ထုတ်လုပ်ပြီးအတူတကွအလိုအလျောက်ချည်ထားသည်. API ကိုအသုံးပြုသူများသည်အထက်သို့စီမံခန့်ခွဲနိုင်ပါတယ် 10,000 စာလုံးတစ်လျှောက်လွှာလျှင်.

SSML (Speech Synthesis Markup Language) ထောက်ခံမှုမော်ဒယ်အားဖြင့်ကွဲပြားခြားနားသည်။ Piper နှင့်အခြားမော်ဒယ်များအချို့သည်ရပ်နား, အဓိကထား, နှင့်အသံထွက်ထိန်းချုပ်မှုများအတွက်အခြေခံ SSML tags များကိုထောက်ခံသည်။ သဘာဝ SSML ထောက်ခံမှုမရှိဘဲမော်ဒယ်များအတွက်, သင် prosody ကိုသက်ရောက်စေရန်သဘာဝအက္ခရာစနစ်နှင့်လိုင်း breaks ကိုအသုံးပြုနိုင်သည်။

ဟုတ်ကဲ့, အများဆုံးမော်ဒယ်များ 0.5x မှ 2.0x အထိအမြန်နှုန်းချိန်ညှိမှုကိုထောက်ခံသည်။ Bark နှင့် Parler ကဲ့သို့အချို့သောမော်ဒယ်များသည်အမြင့်နှင့်စတိုင်ထိန်းချုပ်မှုကိုခွင့်ပြုသည်။ သင်သည်အဆင့်မြင့် settings panel တွင်သို့မဟုတ် API မြန်နှုန်း parameter ကိုမှတဆင့်အမြန်နှုန်း parameters များကိုသတ်မှတ်နိုင်သည်။

ဟုတ်ကဲ့, batch processing ကျွန်တော်တို့ရဲ့ API ကိုမှတဆင့်ရရှိနိုင်ပါသည်. သင်တစ်ဦးတည်း API ကိုခေါ်ဆိုမှုသို့မဟုတ်စာသားထဲမှာစာသားအမျိုးမျိုး segments တင်သွင်းနိုင်ပါတယ်, နှင့်တစ်ဦးချင်းစီကိုစီမံခန့်ခွဲပြီးသီးခြားအသံဖိုင်များအဖြစ်ပြန်လာကြလိမ့်မည်. ဤသည်အသံစာအုပ်အခန်းများအတွက်အကောင်းဆုံးဖြစ်ပါသည်, e-သင်ယူမှု module များ, သို့မဟုတ်ဂိမ်းစကားပြောခန်းစာသားများ.

သင့်ရဲ့အကောင့် dashboard မှတစ်ဆင့် API key ကို generate, ထို့နောက်သင်၏စာသား, မော်ဒယ်, နှင့်အသံ parameters တွေကိုနှင့်အတူကျွန်တော်တို့ရဲ့ REST API ကို endpoint ကို POST ကိုတောင်းဆိုမှုများကိုပို့. ကျနော်တို့ Python ကို, JavaScript ကို, နှင့် cURL အတွက် code ကိုဥပမာများကိုပေးအပ်.

5.0/5 (4)

စာသားကိုစကားပြောရန်ပြောင်းလဲခြင်းကိုစတင်ပါ

TTS.ai အသုံးပြုခြင်းဖန်တီးသူများ၏ထောင်ပေါင်းများစွာ၏ join. Get 15,000 အသစ်အကောင့်နှင့်အတူအခမဲ့စာလုံးများ. signup မပါဘဲရရှိနိုင်အခမဲ့မော်ဒယ်များ.

အခမဲ့ Sign Up ကြည့်ရှုစျေးနှုန်းများ

AI စာသားမှစကားပြော

TTS.ai ကိုချစ်ပါသလား?

မော်ဒယ် အသေးစိတ်များ

Kitten TTS

ပိုကောင်းတဲ့ရလဒ်များအတွက်အကြံပြုချက်များ

အက္ခရာ အသုံးပြုပုံ

AI Text to Speech လုပ်ဆောင်ပုံ

စာသားထည့်ပါ

မော်ဒယ်နှင့် အသံကို ရွေးပါ

ဖန်တီးပြီး ဒေါင်းလုဒ်လုပ်

စာသားမှစကားပြောအသုံးပြုမှုဖြစ်ရပ်များ

အသံစာအုပ်များ

ရုပ်သံ အသံသွင်း

Podcast များ

ဂိမ်းကစားခြင်း

ပညာရေး

သုံးစွဲနိုင်မှု

IVR & ဖုန်းစနစ်များ

လူမှုရေးမီဒီယာ

စီးဆင်းမှု

စျေးကွက်ရှာဖွေရေး

ဘာသာပြန်ခြင်းနှင့် နေရာချထားခြင်း

သတိပဋ္ဌာန် & Wellness

စာသားမှစကားပြောသည့်ပုံစံများ

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3