ነጻ AI ጽሑፉን ወደ ንግግር ለውጥ
33+ ክፍት ምንጭ ሞዴሎች, 273+ ድምጾች 33+ ቋንቋዎች. የግልጽነት ያስፈልጋል
ለድምፅ AI የሚያስፈልግዎ ሁሉ
30+ መሣሪያዎች በነጻ ምንጭ AI ሞዴሎች የተገነቡ
33+ የድምፅ ሞዴሎች
በአንድ መድረክ ውስጥ የ TTS ሞዴሎችን በጣም የተሟላ ስብስብ
Kokoro ነጻ
ኮኮሮ ከክብደቱ ክፍል በላይ የሚቆጠር 82 ሚሊዮን ፓራሜትሮችን የሚይዝ የጽሑፍ-ወደ-ንግግር ሞዴል ነው. በትንሹ መጠንም ቢሆን፣ አስደናቂ የሆነ ተፈጥሯዊና ግልጽ ንግግርን ያወጣል. ኮኮሮ ብዙ ቋንቋዎችን ያጠቃልላል - አማርኛ፣ ጃፓንኛ፣ ቻይንኛ፣ ኮሪያኛ፣ በተለያዩ ግልጽ ድምጾች. በጣም ፈጣን ነው - ከጂፒዩ ላይ ከሚገኝ እውነተኛ ጊዜ ድምፅ 100x ፈጣን ነው.
ምርጥ ለ: ከፍተኛ ጥራት ያለው TTS በጥቂት ጊዜ ውስጥ, የዥረት ፕሮግራሞች
ነጻ
Piper ነጻ
ፒፐር በራሳስፒ የተፈጠረ ቀላል የጽሑፍ-ወደ-ንግግር ማሽን ነው VITS እና ላርኒክስ አርክቴክቸሮችን የሚጠቀም. በሙሉ በሲፒዩ ላይ ይሠራል ፣ ለ Edge መሣሪያዎች ፣ ለቤት አውቶማቲክስ ፣ እና ለኦፍላይን TTS የሚያስፈልጉ ፕሮግራሞች ተስማሚ ያደርገዋል. በ 30+ ቋንቋዎች ውስጥ ከ 100 በላይ ድምጾች ፣ ፒፐር በራስቤሪ ፒ 4 ላይም ቢሆን በፍጥነት ጊዜ ውስጥ ተፈጥሯዊ የሆነ ንግግር ይሰጣል ፡፡
ምርጥ ለ: የቅርብ ጊዜ ቅድመ ዕይታዎች፣ አቅላይነት፣ እና የተካተቱ ፕሮግራሞች
ነጻ
VITS ነጻ
VITS (የማሻሻያ ውጤት ለመጨረሻው-ወደ-መጨረሻው ጽሑፍ-ወደ-ንግግር ለመማር) ከቀድሞው ሁለት-ደረጃ ሞዴሎች የበለጠ ተፈጥሯዊ የሆነ ድምፅ የሚያመነጭ የመጨረሻ-ወደ-መጨረሻ TTS ዘዴ ነው. በነፃነት ውስጥ ትልቅ ማሻሻያ የሚያገኝ በሆነ የቀድሞው-ወደ-መጨረሻው ቴክኖሎጂ የተሻሻለ የመጨረሻ-ወደ-መጨረሻ TTS ዘዴ ነው.
ምርጥ ለ: የቀን መቁጠሪያ አሳይ
ነጻ
MeloTTS ነጻ
MeloTTS በ MyShell.ai የተሰራ የብዙ ቋንቋዎች TTS መዝገብ ቤት ነው እንግሊዝኛ (አሜሪካዊ፣ ብሪታኒያዊ፣ የህንድ፣ የአውስትራሊያ), ስፓኒሽ, ፈረንሳይኛ, ቻይንኛ, ጃፓንኛ, እና ኮሪያኛ. በጣም ፈጣን ነው, ጽሑፍን በቅርብ ጊዜ ፍጥነት በ CPU ብቻ ላይ ይሠራል. MeloTTS ለምርት ጥቅም የተሰራ ነው እና CPU እና GPU ግምትን ይደግፋል.
ምርጥ ለ: ምርት ፕሮግራሞች ፈጣን, ብዙ ቋንቋዎች TTS ያስፈልጋሉ
ነጻ
Kani TTS 2 ነጻ
Kani-TTS-2 by NineNineSix በነዳጅ AI LFM2 backbone ላይ የተገነባ የ 400M ፓራሜትር ሞዴል ነው NVIDIA NanoCodec. በ 3GB VRAM ብቻ ይሠራል እና በ A100 (RTF 0.2) ላይ በ ~ 2 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶ
ምርጥ ለ: የፍጥነት እንግሊዝኛ መፍጠር በትንሽ-VRAM ሃርድዌር ላይ, ፈጣን ቅድመ ዕይታዎች
ነጻ
OuteTTS ነጻ
OuteTTS ትልቅ ቋንቋ ሞዴሎች ጋር ጽሑፍ-ወደ-ንግግር ችሎታዎችን በመጀመሪያው አርክቴክቸር ሲጠብቅ ይጨምራል. ይህ llama.cpp (CPU / GPU), Hugging ፊት ትራንስፎርሜሽን, ExLlamaV2, VLLM, እና ይልቅ ብራውዘር በ Transformers.js በመጠቀም ውጤት ጨምሮ ብዙ backends ይደግፋል. ባህሪያት zero-shot የድምፅ ክሎኒንግ እንደ JSON የተጠበቀ ተናጋሪ ፕሮፊሎች በመጠቀም.
ምርጥ ለ: የ Edge ማሰራጨት, የድር አሳሽ ላይ የተመሠረተ TTS, ዝቅተኛ-መዳረሻ አካባቢዎች
ነጻ
Pocket TTS ነጻ
Pocket TTS በኩዩታይ (የሞሺ ፈጣሪዎች) የተሰራው ከክብደቱ በላይ የሚቆረጥ የ100 ሜጋባት የጽሑፍ-ወደ-ንግግር ሞዴል ነው። በሲፒዩ ላይ በጥሩ ሁኔታ ይሠራል፣ ከአንድ ድምፅ ምሳሌ ጀምሮ የድምፅ ክሎኒንግን ይደግፋል፣ እናም ተፈጥሯዊ የሆነ ንግግርን ያወጣል። የቀን መቁጠሪያው ትንሽ መጠን ለ Edge ማሰራጨት እና ለጥቂት የኃይል ምንጮች አካባቢዎች ተስማሚ ያደርገዋል ፡፡
ምርጥ ለ: ቀላል ማሰራጨት, CPU- ብቻ አካባቢዎች, ፈጣን የድምፅ ክሎኒንግ
ነጻ
Kitten TTS ነጻ
Kitten TTS by KittenML on ONNX built an ultra-lightweight text-to-speech model. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
ምርጥ ለ: ፈጣን ቀላል TTS, ዳርቻ መዘርጋት, ዝቅተኛ-Latency ፕሮግራሞች
ነጻ
Ming-Omni TTS ነጻ
ሜንግ-Omni-tts-0.5B በ inclusionAI አንድ ከባድ Omni-modal ንግግር ሞዴል ነው በ BailingMM ጠንካራ backbone ላይ የተገነባ አንድ Patch-በ-Patch ፍሰት-ማጣጣም ድምፅ decoder ጋር. 44.1kHz ምርት (CD ጥራት ቅርብ) ይሰጣል, ከ 3 + ሴኮንድ ማመልከት zero-shot የድምፅ ክሎኒንግ ይደግፋል, እና በ JSON መመሪያዎች በኩል የተገነባው ስሜት / ተናጋሪ / BGM ቁጥጥር ያካትታል. ምርጥ መረጋጋት - 0.83% WER በቻይናኛ ባንኮች ላይ.
ምርጥ ለ: የሁለት ቋንቋዎች መናገር፣ ስሜት የሚቆጣጠረው የድምፅ አጫዋች፣ የቻይና የድምፅ መጽሐፍ ይዘት
ነጻ
MOSS-TTS Nano ነጻ
MOSS-TTS-Nano-100M የ MOSS-TTS ቤተሰብ የ OpenMOSS 100M-parameter ልዩነት ነው, የጊዜ-ትራንስፎርመር አርክቴክቸር የሚጋራ. የ 8B ሞዴል የከፍተኛ ጥራት ለ ~ 80x ትንሽ ክብደት እና በጥብቅ በየጠየቁት VRAM ዝቅተኛ ነው, ለነፃ-ደረጃ እና ከፍተኛ-throughput መተላለፊያዎች ተስማሚ ያደርገዋል. ተመሳሳይ 20-language reach.
ምርጥ ለ: ነጻ-ደረጃ TTS, ከፍተኛ-ብዛት ምርት, ዝቅተኛ-Latency ተለዋዋጭ ጥቅም
ነጻ
Bark መደበኛ
የትራንስፎርመር የተመሠረተ ጽሑፍ-ወደ-ኦዲዮ ሞዴል እውነተኛ ንግግር፣ ሙዚቃ፣ እና የድምፅ ውጤቶችን የሚያመነጭ ነው።
አዘጋጅ፦ Suno · ፈቃድ፦ MIT
ይሞክሩት
CosyVoice 2 መደበኛ
የአሊባባ የሰው-አማካይ ተፈጥሮአዊነት እና የዝቅተኛ-ዝቅተኛነት የጨዋታ TTS
አዘጋጅ፦ Alibaba (Tongyi Lab) · ፈቃድ፦ Apache 2.0
ይሞክሩት
Dia TTS መደበኛ
በብዙ ተናጋሪዎች መካከል ተፈጥሯዊ ውይይቶችን የሚፈጥር የዳታ ግራፊክ ሞዴል
አዘጋጅ፦ Nari Labs · ፈቃድ፦ Apache 2.0
ይሞክሩት
Parler TTS መደበኛ
የሚፈልጉትን ድምፅ በነፃ ቋንቋ ግለጹና ፓርለር የሚስማማውን ንግግር ያወጣል
አዘጋጅ፦ Hugging Face · ፈቃድ፦ Apache 2.0
ይሞክሩት
IndexTTS-2 መደበኛ
0-shot TTS በጥሩ-ግሬን ፍላጎት ቁጥጥር እና ከፍተኛ መግለጫነት.
አዘጋጅ፦ Index Team · ፈቃድ፦ Bilibili Model License
ይሞክሩት
Spark TTS መደበኛ
የድምፅ ክሎኒንግ TTS የተቆጣጠረ ስሜት እና የመናገር ዘይቤ በመጠየቅ.
አዘጋጅ፦ SparkAudio · ፈቃድ፦ CC BY-NC-SA 4.0
ይሞክሩት
Orpheus መደበኛ
የሰው ደረጃ የስነ-ልቦና TTS ሞዴል በ 100K ሰዓታት የንግግር መረጃዎች ላይ የተጠናቀቀ ነው።
አዘጋጅ፦ Canopy Labs · ፈቃድ፦ Llama 3.2 Community
ይሞክሩት
Qwen3 TTS መደበኛ
የአሊባባ የብዙ ቋንቋ TTS ከጽሑፍ ጋር የተቀመጡ ድምጾች እና የድምፅ ዲዛይን
አዘጋጅ፦ Alibaba (Qwen) · ፈቃድ፦ Apache 2.0
ይሞክሩት
VieNeu-TTS-v2 መደበኛ
ቪዬትናምኛ + እንግሊዝኛ ኮድ-ማስተካከል TTS ጋር 7 ቀድሞ የተሰረዙ ድምጾች እና zero-shot የድምፅ ክሎኒንግ. CPU- ብቻ, ምንም GPU ያስፈልጋል.
አዘጋጅ፦ Phạm Nguyễn Ngọc Bảo · ፈቃድ፦ Apache 2.0
ይሞክሩት
Chatterbox Turbo መደበኛ
የፍጥነት ቻተርቦክስ ከ200 ሚሊሴኮንዶች ኋላቀርነት እና ለቁጭት፣ ለጉንፋን እና ለሌሎችም የቋንቋ ምልክቶች ጋር
አዘጋጅ፦ Resemble AI · ፈቃድ፦ MIT
ይሞክሩት
VoxCPM መደበኛ
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency
አዘጋጅ፦ OpenBMB · ፈቃድ፦ Apache 2.0
ይሞክሩት
VibeVoice መደበኛ
ማይክሮሶፍት ሞዴል ለረጅም ቅርጽ ብዙ-ተናጋሪ ይዘት እንደ ፖድካስቶች እና የድምፅ መጽሐፍት.
አዘጋጅ፦ Microsoft · ፈቃድ፦ MIT
ይሞክሩት
CosyVoice3 መደበኛ
የወደፊቱ ትውልድ የብዙ ቋንቋ TTS በሁለት-streaming, ስሜት ቁጥጥር, እና zero-shot የድምፅ ክሎኒንግ ጋር.
አዘጋጅ፦ Alibaba (FunAudioLLM) · ፈቃድ፦ Apache 2.0
ይሞክሩት
NAMAA Saudi TTS መደበኛ
የመጀመሪያው የቀረበው የሳዑዲ-ዐረብኛ TTS. የሳዑዲ ቋንቋ በቻተርቦክስ-ጥራት የድምፅ ክሎኒንግ ጋር
አዘጋጅ፦ NAMAA Space · ፈቃድ፦ MIT
ይሞክሩት
Darwin TTS መደበኛ
የQwen3-1.7B ቋንቋ ሞዴል ከ FFN ክብደት ጋር የተቀላቀለ የQwen3-TTS ልዩነት ለብዙ ቋንቋዎች ክሎኒንግ
አዘጋጅ፦ FINAL-Bench · ፈቃድ፦ Apache 2.0
ይሞክሩት
MOSS-TTSD መደበኛ
የብዙ-ተናጋሪ ውይይት የቀጠለ ሞዴል - እስከ 5 ተናጋሪዎች እና 60 ደቂቃዎች የሚጠበቅ የድምፅ ድምፅ ያላቸው የፖድካስት-ስርዓት ውይይቶችን ይፈጥሩ.
አዘጋጅ፦ OpenMOSS · ፈቃድ፦ Apache 2.0
ይሞክሩት
CosyVoice 2
የአሊባባ የሰው-አማካይ ተፈጥሮአዊነት እና የዝቅተኛ-ዝቅተኛነት የጨዋታ TTS
ቋንቋዎች፦ en, zh, ja, ko, fr, de, it, es
የድምፅ ፋይል
VieNeu-TTS-v2
ቪዬትናምኛ + እንግሊዝኛ ኮድ-ማስተካከል TTS ጋር 7 ቀድሞ የተሰረዙ ድምጾች እና zero-shot የድምፅ ክሎኒንግ. CPU- ብቻ, ምንም GPU ያስፈልጋል.
ቋንቋዎች፦ vi, en
የድምፅ ፋይል
Chatterbox Turbo
የፍጥነት ቻተርቦክስ ከ200 ሚሊሴኮንዶች ኋላቀርነት እና ለቁጭት፣ ለጉንፋን እና ለሌሎችም የቋንቋ ምልክቶች ጋር
ቋንቋዎች፦ en
የድምፅ ፋይል
VoxCPM
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency
ቋንቋዎች፦ en, zh
የድምፅ ፋይል
OuteTTS
LLM-based TTS በ CPU, GPU, ወይም በ lama.cpp እና Transformers.js በኩል በብራውዘር ላይ የሚሰራ
ቋንቋዎች፦ en
የድምፅ ፋይል
CosyVoice3
የወደፊቱ ትውልድ የብዙ ቋንቋ TTS በሁለት-streaming, ስሜት ቁጥጥር, እና zero-shot የድምፅ ክሎኒንግ ጋር.
ቋንቋዎች፦ en, zh, ja, ko, de, es, fr, it, ru
የድምፅ ፋይል
Darwin TTS
የQwen3-1.7B ቋንቋ ሞዴል ከ FFN ክብደት ጋር የተቀላቀለ የQwen3-TTS ልዩነት ለብዙ ቋንቋዎች ክሎኒንግ
ቋንቋዎች፦ en, ko, ja, zh
የድምፅ ፋይል
MOSS-TTSD
የብዙ-ተናጋሪ ውይይት የቀጠለ ሞዴል - እስከ 5 ተናጋሪዎች እና 60 ደቂቃዎች የሚጠበቅ የድምፅ ድምፅ ያላቸው የፖድካስት-ስርዓት ውይይቶችን ይፈጥሩ.
ቋንቋዎች፦ en, zh
የድምፅ ፋይል
Ming-Omni TTS
ከinclusionAI ጋር የ 0.5B ኦምኒ-ሞዳል ንግግር ሞዴል ከከፍተኛ ፍቅር 44.1kHz ምርት እና zero-shot የድምፅ ክሎኒንግ ጋር.
ቋንቋዎች፦ en, zh
የድምፅ ፋይል
MOSS-TTS Nano
ትናንሽ 100M MOSS-TTS ልዩነት - ተመሳሳይ አርክቴክቸር, 80x ትንሽ, ነፃ-ደረጃ latency.
ቋንቋዎች፦ en, zh, de, es, fr, ja, it, ko, ru, ar, pt
የድምፅ ፋይልየዳቬሎፐር-መጀመሪያ API
OpenAI-ተኳሃኝ REST API. አንድ መጨረሻ ነጥብ, 22+ ሞዴሎች. ለ እውነተኛ ጊዜ ፕሮግራሞች ስትሪሚንግ ድጋፍ.
- ፋይል (_F)
- ለወቅታዊ ፕሮግራሞች TTS ማስተላለፍ
- ለታላላቅ ስራዎች የቡት ሂደት
- የዌብሆክ ማስታወቂያዎች
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
ቀላል, ግልጽ ዋጋ
ነጻ ይጀምሩ. እንደምትጨምሩ መጠን ይጨምሩ.
ብዙ ጊዜ የሚጠየቁ ጥያቄዎች
ምን ማሻሻል እንችላለን? አስተያየቶችዎ ችግሮችን ለመፍታት ይረዳሉ.