Report Bug / Feature Request

AI စာသားမှစကားပြော

သဘာဝ-အသံထွက်စကားပြောဖို့ open-source AI ပုံစံများဖြင့်စာသားကိုပြောင်းပါ။ အသုံးပြုရန်အခမဲ့, အကောင့်လိုအပ်ပါသည်မဟုတ်။

အခမဲ့ Sign Up

ကျွန်တော်တို့ဟာသင့်ရဲ့ဘာသာစကားအတွက် TTS အသံတွေမရှိသေးပါဘူး. ကျွန်တော်တို့ကိုသင့်ရဲ့ add ကူညီပါ! သင့်အသံကိုရောင်း

0/500 အက္ခရာ · Sign up for 5,000 per generation →

မှတ်ပုံတင်ပါ 5,000 စာလုံးအဆုံးသတ်

SSML နည်းလမ်း (ထိန်းချုပ်မှုအတွက် ဘာသာစကား ပေါင်းစပ်ရေးဆွဲခြင်း)

တိကျသောထိန်းချုပ်မှုများအတွက် SSML tags များအတွင်းသင်၏စာသားကို Wrap:

<speak><prosody rate="slow">Slow speech</prosody></speak>

ခံစားချက် / Style Tags

ပေးပို့မှုအပေါ်သက်ရောက်မှုခံစားချက်အမှတ်အသားများ Add (မော်ဒယ်ထောက်ခံမှုကွဲပြားခြားနားသည်):

အသံထွက် အဘိဓာန်

custom pronunciations ကိုသတ်မှတ်ပါ (word = pronunciation):

မြှင့်တင်ပါ 0

-12 +12

AI မော်ဒယ်

အသံ

ဘာသာစကား

ထုတ်လုပ်မှုပုံစံ

အမြန်နှုန်း 1.0x

0.5x 2.0x

Piper, VITS, MeloTTS နှင့်အတူအခမဲ့

သင်၏ထုတ်လုပ်အသံဒီမှာပေါ်လာလိမ့်မည်။ ရွေးချယ်ပါ, စာသားကိုထည့်သွင်း, နှင့် Generate ကိုကလစ်နှိပ်ပါ.

မော်ဒယ် အသေးစိတ်များ

Parler TTS

Standard

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

ဖန်တီးသူ -	Hugging Face
လိုင်စင် -	Apache 2.0
အမြန်နှုန်း	Medium
အရည်အသွေး -
ဘာသာစကားများ	1 ဘာသာစကား
ဗီဒီယိုမှတ်ဉာဏ်	4GB
အသံခိုးယူခြင်း	မထောက်ပံ့ပါ

အင်္ဂါရပ်များ:

Voice description Natural language control Flexible voice creation No preset voices needed

အကောင်းဆုံး:: Creative applications where you need custom voice characteristics

ပိုကောင်းတဲ့ရလဒ်များအတွက်အကြံပြုချက်များ

သဘာဝကျသော ရပ်နားခြင်းနှင့် လေသံသွင်းခြင်းအတွက် မှန်ကန်သော အမှတ်အသားများကို အသုံးပြုပါ
ရှင်းလင်းသော အသံထွက်အတွက် နံပါတ်များနှင့် အတိုကောက်များကို ရေးသားပါ
စကားစုများအကြား ရပ်နားချိန်တိုများ ဖန်တီးရန် ကြိယာများ ထည့်ပါ
ကြာရှည်သော ရပ်နားချိန်များအတွက် (...) သုံးပါ
အများဆုံးသဘာဝရလဒ်များအတွက် Kokoro သို့မဟုတ် CosyVoice 2ကိုစမ်းကြည့်ပါ
အမျိုးမျိုးသော ထုတ်လွှင့်သူများနှင့် podcast အကြောင်းအရာများအတွက် Dia ကိုအသုံးပြုပါ

အက္ခရာ အသုံးပြုပုံ

အမျိုးအစား	1K အက္ခရာများအတွက်ကုန်ကျစရိတ်
အခမဲ့	1:1 (အခမဲ့)
အလိုအလျောက်	2 ခရက်ဒစ် / 1K chars
ပရီမီယံ	4 ခရက်ဒစ် / 1K chars

အက္ခရာများ ထပ်ယူပါ

AI Text to Speech လုပ်ဆောင်ပုံ

ရိုးရှင်းသောခြေလှမ်းသုံးခုတွင်ပရော်ဖက်ရှင်နယ်အရည်အသွေး voiceovers ထုတ်လုပ်ပါ။ လိုအပ်သောနည်းပညာဆိုင်ရာအသိပညာမရှိပါ။

ခြေလှမ်း ၁

စာသားထည့်ပါ

အမျိုးအစား, paste, သို့မဟုတ်သင်စကားပြောသို့ပြောင်းချင်တဲ့စာသားကို upload လုပ်ပါ. အထိထောက်ခံ 5,000 ဝင်ရောက်အသုံးပြုသူများကိုများအတွက်မျိုးဆက်တစ်ဦးလျှင်စာလုံးများ. ရိုးရှင်းသောစာသားကိုအသုံးပြုခြင်းသို့မဟုတ်အသံထွက်အပေါ်အဆင့်မြင့်ထိန်းချုပ်မှုအတွက် SSML tags တွေကိုထည့်သွင်း, ရပ်နား, နှင့်အလေးပေး.

ခြေလှမ်း ၂

မော်ဒယ်နှင့် အသံကို ရွေးပါ

20+ AI ပုံစံများသုံးဆင့်အကြားမှရွေးချယ်ပါ။ သင့်ရဲ့အကြောင်းအရာနှင့်ကိုက်ညီသောအသံကိုရွေးပါ၊ သင့်ရည်မှန်းချက်ဘာသာစကားကိုရွေးချယ်ပါ၊ 0.5x မှ 2.0x သို့ playback speed ကိုချိန်ညှိပါ၊ သင့်ရဲ့နှစ်သက်ရာ output format ကိုရွေးချယ်ပါ (MP3, WAV, OGG, or FLAC)။

ခြေလှမ်း ၃

ဖန်တီးပြီး ဒေါင်းလုဒ်လုပ်

Generate ကိုကလစ်နှိပ်ပါနှင့်သင်၏အသံသည်စက္ကန့်အနည်းငယ်အတွင်းအဆင်သင့်ဖြစ်ပါသည်. built-in ကိုကစားသမားနှင့်အတူ Preview, သင့်ရဲ့ရွေးချယ်ထားသော format ထဲမှာဒေါင်းလုပ်, သို့မဟုတ် shareable link ကိုကူးယူ. သင့်ရဲ့အလုပ်အသွားအလာထဲသို့ batch စီမံခန့်ခွဲမှုနှင့်ပေါင်းစည်းမှုအတွက် API ကိုသုံးပါ.

စာသားမှစကားပြောအသုံးပြုမှုဖြစ်ရပ်များ

AI-powered text-to-speech ဟာ စက်မှုလုပ်ငန်းပေါင်းစုံမှာ လူတွေ ဘယ်လိုဖန်တီး၊ သုံးစွဲ၊ အသံဖိုင်နဲ့ ဆက်သွယ်ဆက်ဆံကြသလဲဆိုတာကို ပြောင်းလဲပေးနေပါတယ်။

အသံစာအုပ်များ

စာအုပ်အပြည့်အစုံများကိုစတူဒီယိုအရည်အသွေးရှိသော ပြောပြချက်နှင့်အတူ သဘာဝအသံထွက် အသံစာအုပ်များသို့ ပြောင်းပါ။

ရုပ်သံ အသံသွင်း

YouTube အတွက်ပရော်ဖက်ရှင်နယ် voiceovers ဖန်တီး, TikTok, Instagram ကို Reels, နှင့် Shorts. 100+ အသံများသို့မဟုတ်သင်၏ကိုယ်ပိုင် clone.

Podcast များ

အမျိုးမျိုးသော AI အသံများနှင့်အတူစာသားများမှ podcast အပိုင်းအစများဖန်တီးပါ။ သဘာဝနှစ်-ပြောဆိုသူစကားပြောဆိုမှုများအတွက် Dia ကိုအသုံးပြုပါ။

ဂိမ်းကစားခြင်း

အင်ဒီဂိမ်းများအတွက် AI အသံသရုပ်ဆောင်, ရုပ်ပိုင်းဆိုင်ရာ Novels, နှင့်အပြန်အလှန်ဖန်တီးမှု။ NPC စကားပြော, cutscene အသံများ, 30+ ဘာသာစကားများ။

ပညာရေး

သင်တန်းပစ္စည်းများ, ဟောပြောပွဲ, နှင့်အသံသို့လေ့ကျင့်ရေးအကြောင်းအရာကိုပြောင်းပါ. ကမ္ဘာလုံးဆိုင်ရာ platforms များအတွက် Multi-ဘာသာစကားထောက်ခံမှု.

သုံးစွဲနိုင်မှု

Screen reader API ပေါင်းစည်းမှုနှင့်ဆောင်းပါး-to-audio ပြောင်းပြန်။

IVR & ဖုန်းစနစ်များ

Power IVR systems, phone menus, and customer service with natural AI voices. call centers များအတွက် low-latency streaming.

လူမှုရေးမီဒီယာ

TikTok narrations, Instagram Reels, Twitter / X မှတ်ချက်, YouTube Shorts. အခမဲ့မော်ဒယ်များနှင့်အတူမြန်ဆန်သောမျိုးဆက်.

စီးဆင်းမှု

Twitch TTS သတိပေးချက်များ, chat-to-voice, AI ကို co-hosts, နှင့် Discord bots များ။ အနည်းငယ် latency, 100+ အသံများ, StreamElements ကိုသဟဇာတဖြစ်ကြသည်။

စျေးကွက်ရှာဖွေရေး

ကြော်ငြာ voiceovers, ရှင်းလင်းပြတ်သားတဲ့ဗီဒီယိုများ, ထုတ်ကုန် demo များ, နှင့်ရောင်းချမှုတင်ဆက်မှု။

ဘာသာပြန်ခြင်းနှင့် နေရာချထားခြင်း

30+ ဘာသာစကားများအသံ-ကိုက်ညီ AI နဲ့ဘာသာပြန်ဆိုနှင့် dub video ကို။ Auto-transcription နှင့် Speaker ရှာဖွေတွေ့ရှိ.

သတိပဋ္ဌာန် & Wellness

ဦးဆောင်တရားထိုင်, အိပ်စက်ခြင်းဇာတ်လမ်းများ, အသက်ရှူလေ့ကျင့်ခန်း, ငြိမ်းချမ်းသောနှင့်အတူအတည်ပြုချက်, ငြိမ်းချမ်းရေး AI အသံများ.

အားလုံးအသုံးပြုမှုဖြစ်ရပ်များ & Tools များကိုကြည့်ပါ

စာသားမှစကားပြောသည့်ပုံစံများ

TTS.ai ပေါ်တွင်ရရှိနိုင်တစ်ဦးချင်းစီ AI မော်ဒယ်များအတွက်အသေးစိတ်ဖော်ပြချက်. အရည်အသွေးကိုနှိုင်းယှဉ်, အမြန်နှုန်း, ဘာသာစကားထောက်ခံမှု, နှင့်သင်၏စီမံကိန်းအတွက်ပြီးပြည့်စုံသောမော်ဒယ်ကိုရှာဖွေတွေ့ရှိရန် features တွေ.

Kokoro

Free

Kokoro သည်၎င်း၏အလေးချိန်အတန်းထက်ကောင်းစွာထိုးသွင်းသော 82 သန်း parameter text-to-speech model တစ်ခုဖြစ်သည်။ ၎င်း၏သေးငယ်သောအရွယ်အစားကိုပင်ဖြစ်စေ၊ ၎င်းသည်ထူးခြားစွာသဘာဝနှင့်အသံထွက်ပြောဆိုမှုကိုထုတ်လုပ်သည်။ Kokoro သည်အင်္ဂလိပ်၊ ဂျပန်၊ တရုတ်နှင့်ကမ္ဘာ့ဘာသာစကားများစွာကိုထောက်ခံသည်။

ဖန်တီးသူ -:
Hexgrad

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

ဗီဒီယိုမှတ်ဉာဏ်:
1.5GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

82M parameters များ အလွန်မြန် ဖော်ပြချက် အသံများ ဘာသာစကား များစွာ စီးဆင်းမှုထောက်ပံ့မှု

အကောင်းဆုံး:: အနည်းဆုံး latency နှင့်အတူအရည်အသွေးမြင့် TTS, streaming applications များ

စမ်းကြည့်ပါ Kokoro

Piper

Free

Piper သည် VITS နှင့် larynx architectures ကိုအသုံးပြုသော Rhasspy မှတီထွင်ထားသော အလေးချိန်သက်သာသော text-to-speech engine တစ်ခုဖြစ်သည်။ ၎င်းသည် CPU ပေါ်တွင်လုံးဝလည်ပတ်ပြီး Edge Devices, အိမ်သုံးစက်ကိရိယာများနှင့် offline TTS ကိုလိုအပ်သော application များအတွက်အလွန်သင့်လျော်သည်။ 30+ ဘာသာစကားများအကြား 100 အသံများဖြင့် Piper သည် Raspberry Pi တွင်ပင်အမှန်တကယ်အချိန်အမြန်နှုန်းဖြင့်သဘာဝအသံထွက်စကားပြောဆိုမှုပေးသည်။ 4.

ဖန်တီးသူ -:
Rhasspy

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ဗီဒီယိုမှတ်ဉာဏ်:
0 (CPU only)

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

CPU သက်သာသည် အွန်လိုင်းမှမပါ 100+ အသံများ 30+ ဘာသာစကားများ SSML ထောက်ခံမှု

အကောင်းဆုံး:: မြန်ဆန်သော နမူနာများ၊ အသုံးပြုနိုင်မှုနှင့် ထည့်သွင်းထားသော အက်ပလီကေးရှင်းများ

စမ်းကြည့်ပါ Piper

VITS

Free

VITS (end-to-end Text-to-Speech အတွက် adversarial သင်ယူမှုနှင့်အတူ Variation Inference) ဟာလက်ရှိနှစ်ဆင့်မော်ဒယ်များထက်ပိုမိုသဘာဝကျကျအသံထွက်သောအသံကိုထုတ်လုပ်ပေးသောပထမဆုံးအဆင့်မှအဆုံးသတ် TTS နည်းလမ်းတစ်ခုဖြစ်သည်။ သဘာဝကျကျအရည်အသွေးမြင့်မားစေရန်အတွက် သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော သဘာဝကျကျဖြစ်ပေါ်လာသော

ဖန်တီးသူ -:
Jaehyeon Kim et al.

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

ဗီဒီယိုမှတ်ဉာဏ်:
1GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

ပြီးဆုံးသည့်အထိပေါင်းစပ်ခြင်း သဘာဝ ဝေါဟာရ ဖွဲ့စည်းပုံ မြန်ဆန်သော ကောက်ချက်ချခြင်း အမျိုးမျိုးသော ထုတ်လွှင့်သူများ

အကောင်းဆုံး:: သဘာဝကျသော ဘာသာစကားဖြင့် အများသုံး စာသားမှစကားပြော

စမ်းကြည့်ပါ VITS

MeloTTS

Free

MeloTTS by MyShell.ai is an multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

ဖန်တီးသူ -:
MyShell.ai

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, es, fr, zh, ja, ko

ဗီဒီယိုမှတ်ဉာဏ်:
0.5GB (GPU optional)

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

CPU-optimized ဘာသာစကား များစွာ အက္ခရာ ပေါင်းစုံ ထုတ်လုပ်မှု-အသင့် အချိန်ကြာမြင့်မှု နည်းပါးခြင်း

အကောင်းဆုံး:: ထုတ်လုပ်မှု applications များလိုအပ်ချက်မြန်, ဘာသာစကားစုံ TTS

စမ်းကြည့်ပါ MeloTTS

Bark

Standard

Suno အားဖြင့် Bark ဟာအလွန်အမှန်တကယ်ဖြစ်စေနိုင်တဲ့ transformer-based text-to-audio model တစ်ခုဖြစ်ပါတယ်, ဘာသာစကားများစွာပြောဆိုခြင်းနှင့်ဂီတကဲ့သို့အခြားအသံများ, နောက်ခံအသံ, နှင့်အသံသက်ရောက်မှုများ. ဒါဟာရယ်မောခြင်း, ငိုကြွေးခြင်းနှင့်ငိုခြင်းကဲ့သို့သောစကားလုံးမပါသောဆက်သွယ်မှုများကိုထုတ်လုပ်နိုင်သည်။ Bark သည် 100 speaker presets နှင့် 13+ ဘာသာစကားများကိုထောက်ပံ့သည်။

ဖန်တီးသူ -:
Suno

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Slow

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ဗီဒီယိုမှတ်ဉာဏ်:
5GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အသံ သက်ရောက်မှု ရယ်မောခြင်း/အော်ဟစ်ခြင်း ဂီတထုတ်လုပ်မှု 100+ ဟောပြောသူများ ဘာသာစကား များစွာ

အကောင်းဆုံး:: ဖန်တီးမှုအသံအကြောင်းအရာ, စိတ်ခံစားမှုနှင့်အတူအသံစာအုပ်များ, အသံသက်ရောက်မှု

စမ်းကြည့်ပါ Bark

Bark Small

Standard

Bark Small ထင်ရှားစွာပိုမိုမြန်ဆန် inference မြန်နှုန်းနှင့်အနည်းငယ်မှတ်ဉာဏ်လိုအပ်ချက်များကိုများအတွက်အချို့သော audio အရည်အသွေးကိုကုန်သွယ် Bark ပုံစံ၏တစ်ဦးစွန့်ပစ်ဗားရှင်းဖြစ်ပါသည်. ဒါဟာစိတ်ခံစားမှုနှင့်အတူစကားပြောထုတ်လုပ်ရန် Bark ရဲ့စွမ်းရည်ကိုထိန်းသိမ်းထား, ရယ်မော, နှင့်ဘာသာစကားများစွာ.

ဖန်တီးသူ -:
Suno

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ဗီဒီယိုမှတ်ဉာဏ်:
2GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အလင်းရောင် အပြည့်အဝ Bark ထက်ပိုမြန် စိတ်ခံစားမှုဆိုင်ရာ စကားပြောဆိုမှု ဘာသာစကား များစွာ

အကောင်းဆုံး:: အပြည့်အဝ Bark သည်နှေးလွန်းလျှင်အမြန်ဖန်တီးမှုအသံ

စမ်းကြည့်ပါ Bark Small

CosyVoice 2

Standard

CosyVoice2Alibaba ၏ Tongyi Lab ကအလွန်နိမ့် latency နှင့်အတူလူသား-နှိုင်းယှဉ်စကားပြောအရည်အသွေးကိုရရှိ, အစစ်အမှန်အချိန် applications များအဘို့အသင့်လျော်သောဖြစ်စေသည်။ ဒါဟာ streaming ပေါင်းစပ်အတွက်အဆုံးသတ် scalar quantization နည်းလမ်းကိုအသုံးပြုပြီး Zero-shot အသံ clone ကိုထောက်ခံ, cross-ဘာသာစကားပေါင်းစပ်, နှင့် fine-grained စိတ်ခံစားမှုထိန်းချုပ်မှု။ ဒါဟာ subjective ဆန်းစစ်ခြင်းများပြုလုပ်ထားခြင်းတွင်အများအပြားစီးပွားရေးလုပ်ငန်း TTS စနစ်များကို outperform ။

ဖန်တီးသူ -:
Alibaba (Tongyi Lab)

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko, fr, de, it, es

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

စီးဆင်းနေသည် Zero-shot ကူးယူခြင်း ဘာသာစကားပေါင်းစုံ စိတ်ခံစားမှု ထိန်းချုပ်မှု လူသား-တူညီမှု

အကောင်းဆုံး:: အစစ်အမှန်အချိန် application များ, streaming TTS, အသံထောက်ခံမှု

စမ်းကြည့်ပါ CosyVoice 2

Dia TTS

Standard

Nari Labs မှ Dia သည် 1.6B parameter text-to-speech model ဖြစ်ပြီး အမျိုးမျိုးသော speaker များကြားတွင် စကားပြောဆိုမှု ပြုလုပ်ရန် ရည်ရွယ်ထားသည်။ ၎င်းသည် သင့်လျော်သော turn-taking, prosody နှင့် စိတ်ခံစားမှု ထုတ်ဖော်ပြောဆိုမှု တို့ဖြင့် speaker နှစ်ဦးအကြား သဘာဝကျကျ ထွက်ပေါ်လာသော စကားပြောဆိုမှုများကို ထုတ်လုပ်နိုင်သည်။ Dia သည် podcast-style content, audiobook dialogues နှင့် အပြန်အလှန်စကားပြော AI များကို ဖန်တီးရန်အတွက် သင့်လျော်သည်။

ဖန်တီးသူ -:
Nari Labs

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အမျိုးမျိုးသော ထုတ်လွှင့်သူများ အညွှန်းစာမျက်နှာ ထုတ်လုပ် သဘာဝ ပြောင်းပြန် ခံစားမှု ဖော်ပြချက် 1.6B parameters တွေကို

အကောင်းဆုံး:: Podcasts, audiobook စကားပြောဆိုမှု, စကားပြောဆိုမှုအကြောင်းအရာ

စမ်းကြည့်ပါ Dia TTS

Parler TTS

Standard

Parler TTS ထုတ်လုပ်စကားပြောကိုထိန်းချုပ်ဖို့သဘာဝဘာသာစကားအသံဖော်ပြချက်ကိုအသုံးပြုသောစာသား-to-စကားပြောမော်ဒယ်တစ်ခုဖြစ်ပါသည်. preset အသံများမှရွေးချယ်ခြင်းအစား, သင်လိုချင်သောအသံကိုဖော်ပြ (ဥပမာ, "အနည်းငယ်ဘရစ်တန်အသံနှင့်အတူအေးမြအမျိုးသမီးအသံ, နှေးနှင့်ရှင်းလင်းစွာပြောဆို") နှင့် Parler ထုတ်လုပ်စကားပြောကိုဖော်ပြချက်ကိုလိုက်ဖက်တဲ့. ဒီဖန်တီးမှု applications များအတွက်ထူးခြားတဲ့ပြောင်းလွယ်ပြင်လွယ်ဖြစ်စေသည်။

ဖန်တီးသူ -:
Hugging Face

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အသံဖော်ပြချက် သဘာဝဘာသာစကားထိန်းချုပ်မှု ပြောင်းလွယ်ပြင်လွယ် အသံဖန်တီးမှု အသံများ မလိုအပ်ပါ

အကောင်းဆုံး:: သင့်အသံကို သင့်စိတ်ကြိုက် သတ်မှတ်ပေးနိုင်သော ဖန်တီးမှုဆိုင်ရာ အက်ပလီကေးရှင်းများ

စမ်းကြည့်ပါ Parler TTS

GLM-TTS

Standard

GLM-TTS by Zhipu AI isatext-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

ဖန်တီးသူ -:
Zhipu AI

လိုင်စင် -:
GLM-4 License

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အနည်းဆုံးအမှားနှုန်း အသံကို ကူးယူခြင်း စီးဆင်းမှု လိုက်ဖက်မှု သဘာဝ ဝေါဟာရ ဖွဲ့စည်းပုံ

အကောင်းဆုံး:: အမြင့်ဆုံး ထုတ်ဝေမှု တိကျမှုလိုအပ်သော အပလီကေးရှင်းများ

စမ်းကြည့်ပါ GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 သည် အလွန်ကောင်းမွန်သော ခံစားမှုထိန်းချုပ်မှုနှင့်အတူ zero-shot voice synthesis တွင် ထူးချွန်သော အဆငျ့မွငျ့ စာသားမှစကားပြောစနစ် ဖြစ်သည်။ ၎င်းသည် ခံစားမှု-တိကျသော လေ့ကျင့်ရေးဒေတာများ မလိုအပ်ဘဲ ပျော်ရွှင်မှု၊ ဝမ်းနည်းမှု၊ ဒေါသ၊ သို့မဟုတ် ကြောက်ရွံ့မှုကဲ့သို့သော တိကျသော ခံစားမှုအသံများကို ထုတ်လုပ်နိုင်သည်။

ဖန်တီးသူ -:
Index Team

လိုင်စင် -:
Bilibili Model License

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

ခံစားမှုထိန်းချုပ်မှု ရိုက်ချက်-၀ ခံစားမှု ဗီကိန်းများ ထုတ်ဖော်ပြောဆိုမှု အသေးစိတ် ထိန်းချုပ်မှု

အကောင်းဆုံး:: စိတ်ခံစားမှုအရ ထုတ်ဖော်ပြောဆိုနိုင်သော အကြောင်းအရာများ, အသံစာအုပ်များ, အွန်လိုင်းအကူများ

စမ်းကြည့်ပါ IndexTTS-2

Spark TTS

Standard

Spark TTS by SparkAudio isatext-to-speech model that combines voice cloning with controllable emotion and speaking style. မှတ်ချက်အသံ၏5စက္ကန့်သာအသုံးပြုခြင်း, it can cloneavoice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS သည် prompt-based control system ကိုအသုံးပြုသည်။

ဖန်တီးသူ -:
SparkAudio

လိုင်စင် -:
CC BY-NC-SA 4.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အသံကို ကူးယူခြင်း စိတ်ခံစားမှု ထိန်းချုပ်မှု ပုံစံ ထိန်းချုပ်မှု မေးမြန်းချက် အခြေခံ ၅-စက္ကန့် ကူးယူခြင်း

အကောင်းဆုံး:: cloned အသံများနှင့်စိတ်ခံစားမှုထိန်းချုပ်မှုနှင့်အတူအကြောင်းအရာဖန်တီးမှု

စမ်းကြည့်ပါ Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS SoVITS နှင့်အတူ GPT-style ဘာသာစကား modeling ကိုပေါင်းစပ် (ဘာသာပြန်ခြင်းနှင့်ပေါင်းစပ်ခြင်းမှတဆင့်သီချင်းဆိုခြင်းအသံ Inference) အစွမ်းထက်အနည်းငယ်-ရိုက်ချက်အသံ cloning များအတွက်. နည်းနည်းအဖြစ်5စက္ကန့်အရည်အသွေးမြင့် audio ကို, ဒါဟာတိကျစွာစကားပြောသူ၏ထူးခြားသောလက္ခဏာများကိုထိန်းသိမ်းထားစဉ်အသံကို clone နိုင်ပြီးစကားပြောအသစ်ကိုထုတ်လုပ်. ဒါဟာစကားပြောနှင့်သီချင်းဆိုအသံပေါင်းစပ်ခြင်းနှစ်ခုလုံးတွင်ထူးချွန်.

ဖန်တီးသူ -:
RVC-Boss

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Slow

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko

ဗီဒီယိုမှတ်ဉာဏ်:
6GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

၅-စက္ကန့် ကူးယူခြင်း သီချင်းဆိုသံ နည်းနည်းလေး သင်ယူခြင်း အရည်အသွေးမြင့် ဘာသာစကားပေါင်းစုံ

အကောင်းဆုံး:: Voice clone, သီချင်းဆို synthesizer, အကြောင်းအရာဖန်တီးသူအသံတု

စမ်းကြည့်ပါ GPT-SoVITS

Orpheus

Standard

Orpheus သည် လူသားအဆင့် စိတ်ခံစားမှု ထုတ်ဖော်ပြောဆိုမှုကို ရရှိစေသော ကြီးမားသော အတိုင်းအတာဖြင့် စာသားမှစကားပြောသည့် မော်ဒယ်တစ်ခုဖြစ်သည်။ ကွဲပြားခြားနားသော စကားပြော အချက်အလက်များ၏ 100,000 နာရီ ကျော်တွင် လေ့ကျင့်သင်ကြားထားသည့် Orpheus သည် သဘာဝကျသော စိတ်ခံစားမှု၊ အာရုံစူးစိုက်မှုနှင့် စကားပြောစတိုင်များဖြင့် စကားပြောမှုကို ထုတ်လုပ်ရာတွင် ထူးချွန်သည်။ Orpheus သည် လူသား မှတ်တမ်းတင်မှုများမှ ခွဲခြားမရနိုင်သော စကားပြောကို ထုတ်လုပ်နိုင်သည်။

ဖန်တီးသူ -:
Canopy Labs

လိုင်စင် -:
Llama 3.2 Community

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

လူသားအဆင့် ခံစားချက် 100K နာရီလေ့ကျင့်ရေး သဘာဝ အသားပေး ထုတ်ဖော်ပြောဆိုမှု

အကောင်းဆုံး:: အရည်အသွေးမြင့်စိတ်ခံစားမှုစကားပြော, audiobooks, အသံသရုပ်ဆောင်

စမ်းကြည့်ပါ Orpheus

Chatterbox

Premium

Chatterbox by Resemble AI isacutting-edge zero-shot voice cloning model. It can replicate any voice fromasingle audio sample with remarkable accuracy, capturing not only the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the generated speech's emotional tone independently from the voice identity.

ဖန်တီးသူ -:
Resemble AI

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

Zero-shot ကူးယူခြင်း ခံစားမှုထိန်းချုပ်မှု မြင့်မားသော တိကျမှု ပုံစံ လွှဲပြောင်းခြင်း နမူနာတစ်ခုတည်းကို ကူးယူခြင်း

အကောင်းဆုံး:: စိတ်ခံစားမှုထိန်းချုပ်မှုနှင့်အတူပရော်ဖက်ရှင်နယ်အသံ cloning, အကြောင်းအရာဖန်တီးမှု

စမ်းကြည့်ပါ Chatterbox

Tortoise TTS

Premium

Tortoise TTS မြန်နှုန်းထက် audio အရည်အသွေးကိုအလေးပေးသော autoregressive multi-voice text-to-speech system တစ်ခုဖြစ်သည်။ ၎င်းသည်ကောင်းမွန်သော prosody နှင့် speaker တူညီမှုနှင့်အတူအလွန်သဘာဝစကားပြောကိုထုတ်လုပ်ရန် DALL-E-စိတ်ကူးယဉ်ဗိသုကာကိုအသုံးပြုသည်။ များစွာသောအခြားရွေးချယ်စရာများထက်နှေးသော်လည်း၊ Tortoise သည် Open-source ecosystem တွင်ရရှိနိုင်သောအမှန်တကယ် synthesized စကားပြော၏အချို့ကိုထုတ်လုပ်သည်။

ဖန်တီးသူ -:
James Betker

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Slow

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
8GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

အရည်အသွေးအမြင့်ဆုံး အသံစုံ DALL-E ဗိသုကာ အသံကို ကူးယူခြင်း အလိုအလျောက် ပြန်ကျဆင်းခြင်း

အကောင်းဆုံး:: အသံစာအုပ်များ, ပရီမီယံအကြောင်းအရာ, အရည်အသွေး-ပထမဦးဆုံး application များ

စမ်းကြည့်ပါ Tortoise TTS

StyleTTS 2

Premium

StyleTTS2ကြီးမားသောစကားပြောဘာသာစကားမော်ဒယ်များအသုံးပြုခြင်းအားဖြင့်ဆန့်ကျင်ဘက်လေ့ကျင့်ရေးနှင့်အတူစတိုင်ပျံ့နှံ့ပေါင်းစပ်ခြင်းအားဖြင့်လူ့-အဆင့် TTS ပေါင်းစပ်အောင်မြင်သည်။ ဒါဟာလူ့မှတ်တမ်းတင်ပြိုင်ဘက်တစ်ဦးတည်းသောပြောဆိုသူမော်ဒယ်များအကြားအများဆုံးသဘာဝအသံထွက်စကားပြောဖြစ်ပေါ်စေသည်။ StyleTTS2လူ့စကားပြောကွဲပြားမှု၏အပြည့်အဝအကွာအဝေးကိုဖမ်းဖို့စတိုင်ပျံ့နှံ့အခြေခံစတိုင် modeling ကိုအသုံးပြုသည်။

ဖန်တီးသူ -:
Columbia University

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

လူသားအဆင့် ပုံစံ ပျံ့နှံ့မှု အငြင်းပွားဖွယ်လေ့ကျင့်ခန်း သဘာဝ ကွဲပြားမှု မြင့်မားသော တိကျမှု

အကောင်းဆုံး:: စတူဒီယို-အရည်အသွေး single-speaker ပေါင်းစပ်, ပရော်ဖက်ရှင်နယ်ပြောပြ

စမ်းကြည့်ပါ StyleTTS 2

OpenVoice

Premium

MyShell.ai အားဖြင့် OpenVoice အသံစတိုင်, စိတ်ခံစားမှု, အသံထွက်, စည်းချက်, ရပ်နား, နှင့် intonation အပေါ် granular ထိန်းချုပ်မှုနှင့်အတူချက်ချင်းအသံ cloning ခွင့်ပြု. ဒါဟာအတို audio clip မှအသံကို clone နိုင်ပြီးစကားပြောသူအမည်ကိုထိန်းသိမ်းထားစဉ်ဘာသာစကားများစွာတွင်စကားပြောထုတ်လုပ်. OpenVoice လည်းအသံ converter အဖြစ် functions, အစစ်အမှန်အချိန်အသံပြောင်းလဲမှုခွင့်ပြု.

ဖန်တီးသူ -:
MyShell.ai / MIT

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko, fr, de, es, it

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

ချက်ချင်းကူးယူခြင်း အသံပြောင်းခြင်း ခံစားမှုထိန်းချုပ်မှု အသံထွက်ထိန်းချုပ်မှု ဘာသာစကား များစွာ

အကောင်းဆုံး:: Fine-grained စတိုင်ထိန်းချုပ်မှုနှင့်အတူအသံ cloning, အသံပြောင်းပြန်

စမ်းကြည့်ပါ OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS သည် Alibaba ၏ Qwen အဖွဲ့မှ 1.7 ဘီလီယံ parameter text-to-speech model တစ်ခုဖြစ်သည်။ ၎င်းသည် mode သုံးခုကိုထောက်ပံ့သည်။ ခံစားမှုထိန်းချုပ်မှုနှင့်အတူ preset အသံများ (9 speakers),3စက္ကန့်အသံခိုးယူခြင်းနှင့်သင်လိုချင်သောအသံကိုသဘာဝဘာသာစကားဖြင့်ဖော်ပြသည့်ထူးခြားသောအသံဒီဇိုင်း mode ဖြစ်သည်။ ၎င်းသည်မြင့်မားသောဖော်ပြမှုနှင့်သဘာဝ prosody နှင့်အတူဘာသာစကား ၁၀ ခုကိုဖုံးလွှမ်းသည်။

ဖန်တီးသူ -:
Alibaba (Qwen)

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko, de, fr, ru, pt, es, it

ဗီဒီယိုမှတ်ဉာဏ်:
7GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အသံကို ကူးယူခြင်း 9 preset အသံများ စာသားမှ အသံဒီဇိုင်း ခံစားမှုထိန်းချုပ်မှု 10 ဘာသာစကားများ

အကောင်းဆုံး:: ဘာသာစကားများစွာပါဝင်သော ဘာသာစကားပေါင်းစုံ ဘာသာစကားများဖြင့် ဘာသာပြန်ထားသော အကြောင်းအရာများ

စမ်းကြည့်ပါ Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) 1 ဘီလီယံ parameter ကိုမော်ဒယ်စကားပြောပြောဆိုမှုဖန်တီးရန်အထူးဒီဇိုင်းထုတ်ထားသည်။ ဒါဟာ turn-ယူအချိန်, backchannel တုံ့ပြန်မှု, စိတ်ခံစားမှုတုံ့ပြန်မှု, နှင့်စကားပြောစကားစီးဆင်းမှုအပါအဝင်လူသားစကားပြောဆိုမှု၏သဘာဝပုံစံများကို model ။ CSM synthesized စကားပြောထက်သဘာဝလူသားစကားပြောဆိုမှုလို sounds တဲ့အသံကို generates ။

ဖန်တီးသူ -:
Sesame

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Slow

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
8GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

စကားပြော သဘာဝအချိန်သတ်မှတ်ချက် ပြောင်းပြန် နောက်ပိုင်း ချာနယ် 1B parameters များ

အကောင်းဆုံး:: AI ထောက်ခံမှု, chatbots, စကားပြော AI လျှောက်လွှာ

စမ်းကြည့်ပါ Sesame CSM

Chatterbox Turbo

Standard

Resemble AI က Chatterbox Turbo Chatterbox ဖို့ 350M parameter ကိုအဆင့်မြှင့်တင်ခြင်းဖြစ်ပါတယ်, sub-200ms latency နဲ့ 6x အစစ်အမှန်အချိန်အမြန်နှုန်းအထိပေးပို့. ဒါဟာ [ရယ်မော] ကဲ့သို့ paralinguistic tags တွေကိုထောက်ခံ, [ချောင်းဆိုး], နှင့် [ရယ်မော] တိုက်ရိုက်စာသားထဲမှာ. ရင်းမြစ်ခြေရာခံမှုများအတွက်အားလုံးထုတ်လုပ်အသံပေါ်တွင် Perth ရေစင်ကာပါဝင်သည်.

ဖန်တီးသူ -:
Resemble AI

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
2GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

Sub-200ms latency ဘာသာစကားဆိုင်ရာ အမှတ်အသားများ 6x မှန်ကန်သောအချိန် အသံကို ကူးယူခြင်း တံဆိပ်ခေါင်း

အကောင်းဆုံး:: သဘာဝအသံများနှင့်အတူအမှန်တကယ်အချိန်အသံအရာရှိများ, ထုတ်ဖော်ပြောဆို

စမ်းကြည့်ပါ Chatterbox Turbo

Dia 2

Standard

Nari Labs ရဲ့ Dia2 ဟာ 1B နဲ့ 2B parameter variants တွေမှာရရှိနိုင်တဲ့ Dia ရဲ့ streaming-first upgrade တစ်ခုဖြစ်ပါတယ်။ ဒါဟာ ပထမဆုံး tokens အနည်းငယ်ကနေ audio ကို synthesizing စတင်ပါတယ်။ ဒါဟာ အစစ်အမှန်အချိန် voice agents တွေနဲ့ speech-to-speech pipelines များအတွက် အသင့်တော်ဆုံးဖြစ်စေပါတယ်။ [S1]/[S2] tags နဲ့ paralinguistic cues တွေနဲ့ multi-speaker dialogue ကို support လုပ်ပါတယ်။ (ရယ်သံများ), (ချောင်းဆိုးသံ)

ဖန်တီးသူ -:
Nari Labs

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

ထုတ်လွှင့်မှု ထွက်လာမှု အမျိုးမျိုးသော ထုတ်လွှင့်သူများ စောင့်ကြည့်မှုနည်းပါး ဘာသာစကားဆိုင်ရာ အချက်ပြမှုများ 2 မိနစ် output ကိုအထိ

အကောင်းဆုံး:: အစစ်အမှန်အချိန်အသံအရာရှိများ, စကားပြောမျိုးဆက်, streaming applications များ

စမ်းကြည့်ပါ Dia 2

VoxCPM

Standard

VoxCPM 1.5 by OpenBMB isanew tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

ဖန်တီးသူ -:
OpenBMB

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

44.1kHz အသံ Tokenizer-free ဘာသာပေါင်းစုံ ကူးယူခြင်း အကြောင်းအရာသိ LoRA အသေးစိတ် ချိန်ညှိခြင်း

အကောင်းဆုံး:: အသံတည်ငြိမ်မှုနှင့်အတူအမြင့်-ယုံကြည်စိတ်ချရသောအသံ, audiobooks, ကြာ-ပုံစံအကြောင်းအရာ

စမ်းကြည့်ပါ VoxCPM

OuteTTS

Free

OuteTTS မူရင်းဗိသုကာကိုထိန်းသိမ်းထားစဉ်စာသား-to-စကားပြောစွမ်းရည်များနှင့်အတူကြီးမားသောဘာသာစကားမော်ဒယ်များတိုးချဲ့. ဒါဟာ llama.cpp (CPU / GPU) အပါအဝင် backends များစွာကိုထောက်ခံ, Hugging မျက်နှာ Transformers, ExLlamaV2, VLLM, နှင့် Transformers.js ကနေတဆင့်ဘရောက်ဆာကိုပင်ကောက်ချက်ချ. JSON အဖြစ်သိမ်းဆည်းထားသော Speaker profiles များမှတဆင့် zero-shot အသံ cloning features.

ဖန်တီးသူ -:
OuteAI

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
2GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

CPU ကောက်ချက်ချခြင်း ရှာဖွေရေးကိရိယာ ကောက်ချက်ချခြင်း အသံကို ကူးယူခြင်း အမျိုးမျိုးသော backends ဟောပြောသူ အချက်အလက်များ

အကောင်းဆုံး:: Edge ဖြန့်ချိ, browser ကိုအခြေခံ TTS, အနည်းငယ်-resource ပတ်ဝန်းကျင်

စမ်းကြည့်ပါ OuteTTS

TADA

Standard

TADA (Text-Acoustic Dual Alignment) by Hume AI သည် Llama 3.2 တွင်တည်ဆောက်ထားသောအသစ်သော dual alignment architecture ကိုမှတဆင့် hallucinations ကိုဖယ်ရှားပေးသောဆန်းသစ်တီထွင်သော TTS ပုံစံတစ်ခုဖြစ်သည်။ 1B (အင်္ဂလိပ်) နှင့် 3B (ဘာသာစကားစုံ) မျိုးကွဲများတွင်ရရှိနိုင်သည်။ TADA သည် 0.09 ၏ RTF ကိုရရှိသည်။ - 5x ကိုနှိုင်းယှဉ်နိုင်သော LLM အခြေခံ TTS ပုံစံများထက်မြန်သည်။ ၎င်းသည် audio context ၏ 700 စက္ကန့်အထိထောက်ပံ့ပေးပြီးစံသတ်မှတ်ချက်စံချိန်စံညွှန်းများပေါ်တွင် Zero hallucinations နှင့်အတူစိတ်ခံစားမှုဖြင့်ဖော်ပြသောစကားပြောကိုထုတ်လုပ်သည်။

ဖန်တီးသူ -:
Hume AI

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
5GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

မြင်ကွင်းလွဲခြင်း LLM TTS ထက် 5x ပိုမြန် ခံစားမှု ဖော်ပြချက် 700s အသံဆိုင်ရာ အကြောင်းအရာ နှစ်ဆ တန်းစီခြင်း

အကောင်းဆုံး:: မြင့်မားသော-အရည်အသွေး halucinations-အခမဲ့စကားပြော, စိတ်ခံစားမှုထုတ်ဖော်ပြောဆို, မြန်နှုန်းမြင့် inference

စမ်းကြည့်ပါ TADA

VibeVoice

Standard

VibeVoice by Microsoft အားဖြင့်နှစ်ခုကွဲပြားခြားနားသောလာ: အရှည်-ပုံစံအကြောင်းအရာများအတွက် 1.5B ပုံစံ (အထိ 90 မိနစ်,4ပြောဆိုသူ) နှင့် ~ 200ms ပထမဦးဆုံးအသံ latency နှင့်အတူ streaming များအတွက် Realtime 0.5B ပုံစံ. အဆိုပါ 1.5B မျိုးကွဲ podcasts နှင့်အသံစာအုပ်များမှာရှည်လျားသော passages ကျော်ပြောဆိုသူတည်ငြိမ်မှုနှင့်အတူ excels. မှတ်ချက်: Microsoft က repository မှ TTS code ကိုဖယ်ရှားပစ်ပြီးထုတ်လုပ်အသံကြားနိုင် AI တာဝန်ယူမှုငြင်းပယ်မှုများပါဝင်သည်.

ဖန်တီးသူ -:
Microsoft

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

အမျိုးမျိုးသော ထုတ်လွှင့်သူများ 90 မိနစ်အထိ Podcast ထုတ်လုပ်မှု ထုတ်လွှင့်သူ တည်ငြိမ်မှု 200ms စီးဆင်းမှု

အကောင်းဆုံး:: Podcasts, audiobooks, ကြာရှည်-ပုံစံ multi-ပြောဆိုသူအကြောင်းအရာ

စမ်းကြည့်ပါ VibeVoice

Pocket TTS

Free

Kyutai (Moshi ၏ဖန်တီးသူများ) က Pocket TTS သည်၎င်း၏အလေးချိန်ထက်ကောင်းစွာထိုးသွင်းသော compact 100M parameter text-to-speech model တစ်ခုဖြစ်သည်။ ၎င်းသည် CPU ပေါ်တွင်ထိရောက်စွာလည်ပတ်ပြီးတစ်ဦးတည်းသော audio sample မှ zero-shot voice clone ကိုထောက်ပံ့ပြီးသဘာဝ-အသံထွက်စကားပြောဆိုမှုကိုထုတ်လုပ်သည်။

ဖန်တီးသူ -:
Kyutai

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, fr

ဗီဒီယိုမှတ်ဉာဏ်:
1GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

100M parameters များ CPU ကောက်ချက်ချခြင်း အသံကို ကူးယူခြင်း နမူနာတစ်ခုတည်းကို ကူးယူခြင်း အပြင်ဘက် အဆင်သင့်

အကောင်းဆုံး:: အလေးချိန်နည်းသော ဖြန့်ချိမှု၊ CPU-only ပတ်ဝန်းကျင်၊ အမြန်အသံ ကူးယူခြင်း

စမ်းကြည့်ပါ Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

ဖန်တီးသူ -:
KittenML

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

ဗီဒီယိုမှတ်ဉာဏ်:
0GB

အသံခိုးယူခြင်း:
မဟုတ်ပါ

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
အခမဲ့

CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output

အကောင်းဆုံး:: Fast lightweight TTS, edge deployment, low-latency applications

စမ်းကြည့်ပါ Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

ဖန်တီးသူ -:
Alibaba (FunAudioLLM)

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko, de, es, fr, it, ru

ဗီဒီယိုမှတ်ဉာဏ်:
4GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

အကောင်းဆုံး:: Multilingual production TTS, real-time applications, voice cloning

စမ်းကြည့်ပါ CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

ဖန်တီးသူ -:
OpenMOSS

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

ဗီဒီယိုမှတ်ဉာဏ်:
16GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

အကောင်းဆုံး:: Audiobooks, long-form content, multilingual production

စမ်းကြည့်ပါ MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

ဖန်တီးသူ -:
ByteDance

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Slow

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

ဗီဒီယိုမှတ်ဉာဏ်:
8GB

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

Voice cloning Adjustable similarity Cross-lingual

အကောင်းဆုံး:: High-fidelity voice cloning

စမ်းကြည့်ပါ MegaTTS3

Kokoro

အခမဲ့

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

ဖန်တီးသူ -:
Hexgrad

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

အကောင်းဆုံး:: High-quality TTS with minimal latency, streaming applications

အခမဲ့စမ်းသပ်

Piper

အခမဲ့

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

ဖန်တီးသူ -:
Rhasspy

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

အကောင်းဆုံး:: Quick previews, accessibility, and embedded applications

အခမဲ့စမ်းသပ်

VITS

အခမဲ့

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

ဖန်တီးသူ -:
Jaehyeon Kim et al.

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en, de, es, fr, pt, nl, fi, hu, bg, uk, pl

အကောင်းဆုံး:: General-purpose text-to-speech with natural prosody

အခမဲ့စမ်းသပ်

MeloTTS

အခမဲ့

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

ဖန်တီးသူ -:
MyShell.ai

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en, es, fr, zh, ja, ko

အကောင်းဆုံး:: Production applications needing fast, multilingual TTS

အခမဲ့စမ်းသပ်

OuteTTS

အခမဲ့

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

ဖန်တီးသူ -:
OuteAI

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en

အကောင်းဆုံး:: Edge deployment, browser-based TTS, low-resource environments

အခမဲ့စမ်းသပ်

Pocket TTS

အခမဲ့

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

ဖန်တီးသူ -:
Kyutai

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ: en, fr

အလိုအလျောက်

ဖန်တီးသူ -:
Hugging Face

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

အသံခိုးယူခြင်း:
မဟုတ်ပါ

Voice descriptionNatural language controlFlexible voice creationNo preset voices needed

အကောင်းဆုံး:: Creative applications where you need custom voice characteristics

စမ်းကြည့်ပါ Parler TTS

GLM-TTS

အလိုအလျောက်

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

ဖန်တီးသူ -:
Zhipu AI

လိုင်စင် -:
GLM-4 License

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

Lowest error rateVoice cloningFlow matchingNatural prosody

အကောင်းဆုံး:: Applications requiring maximum pronunciation accuracy

စမ်းကြည့်ပါ GLM-TTS

IndexTTS-2

အလိုအလျောက်

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

ဖန်တီးသူ -:
Index Team

လိုင်စင် -:
Bilibili Model License

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control

အကောင်းဆုံး:: Emotionally expressive content, audiobooks, virtual assistants

စမ်းကြည့်ပါ IndexTTS-2

Spark TTS

အလိုအလျောက်

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

ဖန်တီးသူ -:
SparkAudio

လိုင်စင် -:
CC BY-NC-SA 4.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

Voice cloningEmotion controlStyle controlPrompt-based5-second cloning

အကောင်းဆုံး:: Content creation with cloned voices and emotional control

စမ်းကြည့်ပါ Spark TTS

GPT-SoVITS

အလိုအလျောက်

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

ဖန်တီးသူ -:
RVC-Boss

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Slow

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual

အကောင်းဆုံး:: Voice cloning, singing synthesis, content creator voice replication

စမ်းကြည့်ပါ GPT-SoVITS

Orpheus

အလိုအလျောက်

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

ဖန်တီးသူ -:
Canopy Labs

လိုင်စင် -:
Llama 3.2 Community

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en

အသံခိုးယူခြင်း:
မဟုတ်ပါ

Human-level emotion100K hours trainingNatural emphasisExpressive speech

အကောင်းဆုံး:: High-quality emotional speech, audiobooks, voice acting

စမ်းကြည့်ပါ Orpheus

Qwen3 TTS

အလိုအလျောက်

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

ဖန်တီးသူ -:
Alibaba (Qwen)

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, ja, ko, de, fr, ru, pt, es, it

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

Voice cloning9 preset voicesVoice design from textEmotion control10 languages

အကောင်းဆုံး:: Multilingual content with voice cloning or custom voice design

စမ်းကြည့်ပါ Qwen3 TTS

Chatterbox Turbo

အလိုအလျောက်

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

ဖန်တီးသူ -:
Resemble AI

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking

အကောင်းဆုံး:: Real-time voice agents, expressive speech with natural sounds

စမ်းကြည့်ပါ Chatterbox Turbo

Dia 2

အလိုအလျောက်

Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It begins synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Supports multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs).

ဖန်တီးသူ -:
Nari Labs

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

အသံခိုးယူခြင်း:
မဟုတ်ပါ

Streaming outputMulti-speakerLow latencyParalinguistic cuesUp to 2 min output

အကောင်းဆုံး:: Real-time voice agents, dialogue generation, streaming applications

စမ်းကြည့်ပါ Dia 2

VoxCPM

အလိုအလျောက်

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

ဖန်တီးသူ -:
OpenBMB

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning

အကောင်းဆုံး:: High-fidelity audio, audiobooks, long-form content with voice consistency

စမ်းကြည့်ပါ VoxCPM

TADA

အလိုအလျောက်

TADA (Text-Acoustic Dual Alignment) by Hume AI is a groundbreaking TTS model that eliminates hallucinations through a novel dual alignment architecture built on Llama 3.2. Available in 1B (English) and 3B (multilingual) variants, TADA achieves an RTF of 0.09 — 5x faster than comparable LLM-based TTS models. It supports up to 700 seconds of audio context and produces emotionally expressive speech with zero hallucinations on standard benchmarks.

ဖန်တီးသူ -:
Hume AI

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en

အသံခိုးယူခြင်း:
မဟုတ်ပါ

Zero hallucinations5x faster than LLM TTSEmotional expression700s audio contextDual alignment

အကောင်းဆုံး:: High-quality hallucination-free speech, emotional expression, fast inference

စမ်းကြည့်ပါ TADA

VibeVoice

အလိုအလျောက်

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

ဖန်တီးသူ -:
Microsoft

လိုင်စင် -:
MIT

အမြန်နှုန်း:
Fast

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

အသံခိုးယူခြင်း:
မဟုတ်ပါ

Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency

ပရီမီယံ

ဖန်တီးသူ -:
OpenMOSS

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Medium

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

ဗီဒီယိုမှတ်ဉာဏ်:
16GB

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

အကောင်းဆုံး:: Audiobooks, long-form content, multilingual production

စမ်းကြည့်ပါ MOSS-TTS

MegaTTS3

ပရီမီယံ

ဖန်တီးသူ -:
ByteDance

လိုင်စင် -:
Apache 2.0

အမြန်နှုန်း:
Slow

အရည်အသွေး -:

ဘာသာစကားများ:
en, zh

အသံခိုးယူခြင်း:
ဟုတ်ကဲ့

ဗီဒီယိုမှတ်ဉာဏ်:
8GB

1K အက္ခရာများအတွက်ကုန်ကျစရိတ်:
4x

Voice cloningAdjustable similarityCross-lingual

အကောင်းဆုံး:: High-fidelity voice cloning

စမ်းကြည့်ပါ MegaTTS3

မော်ဒယ်နှိုင်းယှဉ်ဇယား

မော်ဒယ်	ဖန်တီးသူ -	အမျိုးအစား	အမြန်နှုန်း	ဘာသာစကားများ	ဗီဒီယိုမှတ်ဉာဏ်	လိုင်စင် -	ကုန်ကျစရိတ်
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	အခမဲ့	သုံးစွဲမှု
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	အခမဲ့	သုံးစွဲမှု
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	အခမဲ့	သုံးစွဲမှု
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	အခမဲ့	သုံးစွဲမှု
Bark	Suno	Standard	Slow	13	5GB	MIT	2	သုံးစွဲမှု
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	သုံးစွဲမှု
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	သုံးစွဲမှု
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	သုံးစွဲမှု
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	သုံးစွဲမှု
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	သုံးစွဲမှု
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	သုံးစွဲမှု
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	သုံးစွဲမှု
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	သုံးစွဲမှု
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	သုံးစွဲမှု
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	သုံးစွဲမှု
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	သုံးစွဲမှု
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	သုံးစွဲမှု
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	သုံးစွဲမှု
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	သုံးစွဲမှု
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	သုံးစွဲမှု
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	သုံးစွဲမှု
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	သုံးစွဲမှု
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	သုံးစွဲမှု
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	အခမဲ့	သုံးစွဲမှု
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	သုံးစွဲမှု
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	သုံးစွဲမှု
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	အခမဲ့	သုံးစွဲမှု
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	အခမဲ့	သုံးစွဲမှု
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	သုံးစွဲမှု
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	သုံးစွဲမှု
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	သုံးစွဲမှု

အများဆုံးကျယ်ပြန့် AI စာသားစကားပြော Platform

TTS.ai ကို အသုံးပြု၍ စာသားမှ စကားပြောခြင်း

TTS.ai တစ်ခုတည်းသော, အသုံးပြုရန်လွယ်ကူသောပလက်ဖောင်းတစ်ခုတွင်ကမ္ဘာ့အကြီးဆုံးဖွင့်-source စာသား-to-စကားပြောမော်ဒယ်များပေါင်းစပ်။ တစ်ခုတည်းသောအသံအင်ဂျင်ထဲသို့သင်တို့ကို lock ထားတဲ့ပိုင်ဆိုင်မှုဝန်ဆောင်မှုများမတူဘဲ, TTS.ai Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua တက္ကသိုလ်, နှင့်ပိုပြီးအပါအဝင်ဦးဆောင်သုတေသနလက်တွေ့စမ်းသပ်ခန်းမှ 20+ မော်ဒယ်များသို့သင်တို့ကို access ကိုပေးသည်။

တိုင်းမော်ဒယ် MIT, Apache 2.0, သို့မဟုတ်အလားတူခွင့်ပြုချက်လိုင်စင်အောက်တွင်ဖွင့်အရင်းအမြစ်ဖြစ်ပါသည်, သင်သည်သင်၏စီမံကိန်းများတွင်ထုတ်လုပ်အသံကိုအသုံးပြုရန်အပြည့်အဝကုန်သွယ်ရေးအခွင့်အရေးရှိကြောင်းသေချာစေခြင်းငှါ။ သင်အသံစာအုပ်များနှင့် podcasts များအတွက်အမှန်တကယ်အချိန် applications များသို့မဟုတ်ပရီမီယံစတူဒီယို-အရည်အသွေး output ကိုများအတွက်မြန်နှုန်းမြင့်, အလေးချိန်သက်သာပေါင်းစပ်လိုအပ်ပါစေ, TTS.ai အသုံးပြုမှုတိုင်းအတွက်မှန်ကန်သောမော်ဒယ်ရှိသည်။

အခမဲ့မော်ဒယ်များ, အဘယ်သူမျှမအကောင့်လိုအပ်

Piper (ultra-မြန်, အလေးချိန်ပေါ့ပါး), VITS (အရည်အသွေးမြင့် neurosynthesis), နှင့် MeloTTS (multi-ဘာသာစကားထောက်ခံမှု). No sign-up, no credit card, no limits on generations. Free models support English and multiple other languages with natural-sounding output suitable for most applications များ.

GPU-အရှိန်မြှင့်စီမံခြင်း

အားလုံး TTS မော်ဒယ်များအလျင်အမြန်, ခိုင်မာသောမျိုးဆက်အချိန်များအတွက်ရည်ရွယ် NVIDIA GPUs အပေါ် run. အခမဲ့မော်ဒယ်များပုံမှန်အားအောက်တွင်အသံထုတ်လုပ်2စက္ကန့်. Kokoro ကဲ့သို့စံချိန်စံညွှန်းမော်ဒယ်များ, CosyVoice 2, နှင့် Bark ပျမ်းမျှ 3-5 စက္ကန့်. အဖြစ်အမြင့်ဆုံးအရည်အသွေးနှင့်အတူပရီမီယံမော်ဒယ်များ, Tortoise နှင့် Chatterbox, စာသားအရှည်ပေါ် မူတည်. 5-15 စက္ကန့်အတွင်းလုပ်ငန်းစဉ်.

30+ ဘာသာစကားများထောက်ခံ

ကျော်စကားပြော Generate 30 အင်္ဂလိပ်, စပိန်, ပြင်သစ်, ဂျာမန်, အီတလီ, ပေါ်တူဂီ, တရုတ်, ဂျပန်, ကိုရီးယား, အရပ်ဘက်, ဟိန္ဒူ, ရုရှား, နှင့်များစွာသောပို. အမျိုးမျိုးသောပုံစံများ cross-ဘာသာစကားပေါင်းစပ်ထောက်ခံ, သင်မူရင်းအသံအပေါ်လေ့ကျင့်ခဲ့ဖူးသောဘာသာစကားတစ်ခုစကားပြော generate နိုင်ပါတယ်ဆိုလို. CosyVoice2နှင့် GPT-SoVITS cross-ဘာသာစကား voice cloning မှာထူးချွန်.

Developer-Ready API

ကျွန်ုပ်တို့၏ OpenAI-ကိုက်ညီ REST API နှင့်အတူသင့် application များထဲသို့ TTS.ai ကိုပေါင်းစပ်ပါ။ အားလုံး 20+ မော်ဒယ်များအတွက်တစ်ဦး endpoint ကို။ Python, JavaScript, cURL, နှင့် Go SDKs ။ အမှန်တကယ်အချိန် application များအတွက် streaming ထောက်ခံမှု။ ကြီးမားသော-scale အကြောင်းအရာမျိုးဆက်များအတွက် batch processing ။ async အသိပေးချက်များအတွက် Webhooks ။ Pro နှင့် Enterprise အစီအစဉ်များပေါ်တွင်ရရှိနိုင်။

မေးလေ့ရှိသောမေးခွန်းများ

Kokoro, Chatterbox, နှင့် CosyVoice2ကဲ့သို့သောခေတ်သစ် neuro TTS မော်ဒယ်များဟာ သဘာဝကျကျ လူသားဆန်တဲ့ အသံနဲ့ စကားပြောနိုင်အောင် နက်နက်ရှိုင်းရှိုင်း သင်ယူနိုင်အောင် အသုံးပြုကြပါတယ်။

မြန်ဆန်စွာကြည့်ရှုရန်အတွက် Piper သို့မဟုတ် MeloTTS (အခမဲ့၊ အမြန်) ကိုအသုံးပြုပါ။ အရည်အသွေးမြင့်အတွက် Kokoro သို့မဟုတ် CosyVoice2(စံအဆင့်) ကိုအသုံးပြုပါ။ အသံဖမ်းယူရန် Chatterbox သို့မဟုတ် GPT-SoVITS (ပရီမီယံ) ကိုအသုံးပြုပါ။ စကားပြောခန်း/podcast အကြောင်းအရာများအတွက် Dia TTS ကိုအသုံးပြုပါ။ အမျိုးအစားတစ်ခုစီတွင် ကွဲပြားခြားနားသော အားသာချက်များရှိသည်။

ဟုတ်ကဲ့! TTS.ai Kokoro, Piper, VITS နှင့် MeloTTS တို့နှင့်အတူအခမဲ့စာသားမှစကားပြောခြင်းကိုပေးသည်။ 500 စာလုံးနှင့်နာရီလျှင်3မျိုးဆက်များအတွက်အကောင့်လိုအပ်ခြင်းမရှိပါ။ 15,000 စာလုံးများနှင့်မော်ဒယ်အားလုံးကိုရယူရန်အခမဲ့အကောင့်တစ်ခုအတွက်မှတ်ပုံတင်ပါ။

ကျွန်တော်တို့ရဲ့ TTS မော်ဒယ်များစုပေါင်းထောက်ခံ 30+ အင်္ဂလိပ်အပါအဝင်ဘာသာစကားများ, စပိန်, ပြင်သစ်, ဂျာမန်, အီတလီ, ပေါ်တူဂီ, တရုတ်, ဂျပန်, ကိုရီးယား, အရပ်ဘက်, ရုရှား, ဟိန္ဒူ, နှင့်များစွာသောပို. ဘာသာစကားရရှိနိုင်မှုမော်ဒယ်များအားဖြင့်ကွဲပြားခြားနား.

ဟုတ်ကဲ့, TTS.ai ကနေတဆင့်ထုတ်လုပ်အသံကိုစီးပွားရေးလုပ်ငန်းသုံးနိုင်ပါတယ်. ကျွန်တော်တို့ရဲ့မော်ဒယ်အားလုံးကို open-source လိုင်စင်ကိုအသုံးပြု (MIT, Apache 2.0). တိကျတဲ့စည်းကမ်းချက်များကိုများအတွက်တစ်ဦးချင်းစီကိုမော်ဒယ်လိုင်စင်ကိုစစ်ဆေးပါ။ ကျွန်တော်တို့ကသင့်ရဲ့ပရောဂျက်အတွက်အသုံးပြုတဲ့တိကျတဲ့မော်ဒယ်၏လိုင်စင်ကိုပြန်လည်ဆန်းစစ်ခြင်းကိုအကြံပြု.

TTS.ai MP3 ကိုထောက်ခံ, WAV, OGG, နှင့် FLAC output formats ကို။ MP3 ကို web playback အတွက် default ဖြစ်ပါတယ်။ WAV ကိုအပိုအသံ processing အတွက်အကြံပြုထားသည်။ သင်သည်ကျွန်ုပ်တို့၏ Audio Converter tool ကိုအသုံးပြုခြင်းဖြင့် formats များအကြားပြောင်းနိုင်သည်။

Voice cloning သည်အတိုအသံနမူနာ (ပုံမှန်အားဖြင့်5- 30 စက္ကန့်) မှတိကျသောအသံကိုတုံ့ပြန်ရန် AI ကိုအသုံးပြုသည်။ ရည်မှန်းထားသောအသံ၏ရှင်းလင်းသောမှတ်တမ်းတင်မှုကို upload လုပ်ပြီး Chatterbox, GPT-SoVITS ကဲ့သို့သောမော်ဒယ်များသို့မဟုတ် OpenVoice သည်အသံတွင်စကားပြောအသစ်များကိုထုတ်လုပ်လိမ့်မည်။ အရည်အသွေးသည်သန့်ရှင်းပြီးကြာရှည်သောရည်ညွှန်းအသံနှင့်အတူတိုးတက်လာသည်။

အခမဲ့အသုံးပြုသူများသည်အထက်သို့ထုတ်လုပ်နိုင်ပါတယ် 500 စာလုံးတစ်လျှောက်လွှာလျှင်. မှတ်ပုံတင်အသုံးပြုသူများသည်အထက်သို့ရယူ 5,000 စာလုံးတစ်လျှောက်လွှာလျှင်. ပိုမိုရှည်လျားသောစာသားများအတွက်, အသံချဲ့စက်အပိုင်းပိုင်းတွင်ထုတ်လုပ်ပြီးအတူတကွအလိုအလျောက်ချည်ထားသည်. API ကိုအသုံးပြုသူများသည်အထက်သို့စီမံခန့်ခွဲနိုင်ပါတယ် 10,000 စာလုံးတစ်လျှောက်လွှာလျှင်.

SSML (Speech Synthesis Markup Language) ထောက်ခံမှုမော်ဒယ်အားဖြင့်ကွဲပြားခြားနားသည်။ Piper နှင့်အခြားမော်ဒယ်များအချို့သည်ရပ်နား, အဓိကထား, နှင့်အသံထွက်ထိန်းချုပ်မှုများအတွက်အခြေခံ SSML tags များကိုထောက်ခံသည်။ သဘာဝ SSML ထောက်ခံမှုမရှိဘဲမော်ဒယ်များအတွက်, သင် prosody ကိုသက်ရောက်စေရန်သဘာဝအက္ခရာစနစ်နှင့်လိုင်း breaks ကိုအသုံးပြုနိုင်သည်။

ဟုတ်ကဲ့, အများဆုံးမော်ဒယ်များ 0.5x မှ 2.0x အထိအမြန်နှုန်းချိန်ညှိမှုကိုထောက်ခံသည်။ Bark နှင့် Parler ကဲ့သို့အချို့သောမော်ဒယ်များသည်အမြင့်နှင့်စတိုင်ထိန်းချုပ်မှုကိုခွင့်ပြုသည်။ သင်သည်အဆင့်မြင့် settings panel တွင်သို့မဟုတ် API မြန်နှုန်း parameter ကိုမှတဆင့်အမြန်နှုန်း parameters များကိုသတ်မှတ်နိုင်သည်။

ဟုတ်ကဲ့, batch processing ကျွန်တော်တို့ရဲ့ API ကိုမှတဆင့်ရရှိနိုင်ပါသည်. သင်တစ်ဦးတည်း API ကိုခေါ်ဆိုမှုသို့မဟုတ်စာသားထဲမှာစာသားအမျိုးမျိုး segments တင်သွင်းနိုင်ပါတယ်, နှင့်တစ်ဦးချင်းစီကိုစီမံခန့်ခွဲပြီးသီးခြားအသံဖိုင်များအဖြစ်ပြန်လာကြလိမ့်မည်. ဤသည်အသံစာအုပ်အခန်းများအတွက်အကောင်းဆုံးဖြစ်ပါသည်, e-သင်ယူမှု module များ, သို့မဟုတ်ဂိမ်းစကားပြောခန်းစာသားများ.

သင့်ရဲ့အကောင့် dashboard မှတစ်ဆင့် API key ကို generate, ထို့နောက်သင်၏စာသား, မော်ဒယ်, နှင့်အသံ parameters တွေကိုနှင့်အတူကျွန်တော်တို့ရဲ့ REST API ကို endpoint ကို POST ကိုတောင်းဆိုမှုများကိုပို့. ကျနော်တို့ Python ကို, JavaScript ကို, နှင့် cURL အတွက် code ကိုဥပမာများကိုပေးအပ်.

5.0/5 (3)

စာသားကိုစကားပြောရန်ပြောင်းလဲခြင်းကိုစတင်ပါ

TTS.ai အသုံးပြုခြင်းဖန်တီးသူများ၏ထောင်ပေါင်းများစွာ၏ join. Get 15,000 အသစ်အကောင့်နှင့်အတူအခမဲ့စာလုံးများ. signup မပါဘဲရရှိနိုင်အခမဲ့မော်ဒယ်များ.

အခမဲ့ Sign Up ကြည့်ရှုစျေးနှုန်းများ

AI စာသားမှစကားပြော

TTS.ai ကိုချစ်ပါသလား?

မော်ဒယ် အသေးစိတ်များ

Parler TTS

ပိုကောင်းတဲ့ရလဒ်များအတွက်အကြံပြုချက်များ

အက္ခရာ အသုံးပြုပုံ

AI Text to Speech လုပ်ဆောင်ပုံ

စာသားထည့်ပါ

မော်ဒယ်နှင့် အသံကို ရွေးပါ

ဖန်တီးပြီး ဒေါင်းလုဒ်လုပ်

စာသားမှစကားပြောအသုံးပြုမှုဖြစ်ရပ်များ

အသံစာအုပ်များ

ရုပ်သံ အသံသွင်း

Podcast များ

ဂိမ်းကစားခြင်း

ပညာရေး

သုံးစွဲနိုင်မှု

IVR & ဖုန်းစနစ်များ

လူမှုရေးမီဒီယာ

စီးဆင်းမှု

စျေးကွက်ရှာဖွေရေး

ဘာသာပြန်ခြင်းနှင့် နေရာချထားခြင်း

သတိပဋ္ဌာန် & Wellness

စာသားမှစကားပြောသည့်ပုံစံများ

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Dia 2

VoxCPM

TADA

VibeVoice

CosyVoice3

Chatterbox