ነጻ AI ጽሑፉን ወደ ንግግር ለውጥ
31+ ክፍት ምንጭ ሞዴሎች, 231+ ድምጾች 34+ ቋንቋዎች. የግልጽነት ያስፈልጋል
ለድምፅ AI የሚያስፈልግዎ ሁሉ
30+ መሣሪያዎች በነጻ ምንጭ AI ሞዴሎች የተገነቡ
31+ የድምፅ ሞዴሎች
በአንድ መድረክ ውስጥ የ TTS ሞዴሎችን በጣም የተሟላ ስብስብ
Kokoro ነጻ
ኮኮሮ ከክብደቱ ክፍል በላይ የሚቆጠር 82 ሚሊዮን ፓራሜትሮችን የሚይዝ የጽሑፍ-ወደ-ንግግር ሞዴል ነው. በትንሹ መጠንም ቢሆን፣ አስደናቂ የሆነ ተፈጥሯዊና ግልጽ ንግግርን ያወጣል. ኮኮሮ ብዙ ቋንቋዎችን ያጠቃልላል - አማርኛ፣ ጃፓንኛ፣ ቻይንኛ፣ ኮሪያኛ፣ በተለያዩ ግልጽ ድምጾች. በጣም ፈጣን ነው - ከጂፒዩ ላይ ከሚገኝ እውነተኛ ጊዜ ድምፅ 100x ፈጣን ነው.
ምርጥ ለ: ከፍተኛ ጥራት ያለው TTS በጥቂት ጊዜ ውስጥ, የዥረት ፕሮግራሞች
ነጻ
Piper ነጻ
ፒፐር በራሳስፒ የተፈጠረ ቀላል የጽሑፍ-ወደ-ንግግር ማሽን ነው VITS እና ላርኒክስ አርክቴክቸሮችን የሚጠቀም. በሙሉ በሲፒዩ ላይ ይሠራል ፣ ለ Edge መሣሪያዎች ፣ ለቤት አውቶማቲክስ ፣ እና ለኦፍላይን TTS የሚያስፈልጉ ፕሮግራሞች ተስማሚ ያደርገዋል. በ 30+ ቋንቋዎች ውስጥ ከ 100 በላይ ድምጾች ፣ ፒፐር በራስቤሪ ፒ 4 ላይም ቢሆን በፍጥነት ጊዜ ውስጥ ተፈጥሯዊ የሆነ ንግግር ይሰጣል ፡፡
ምርጥ ለ: የቅርብ ጊዜ ቅድመ ዕይታዎች፣ አቅላይነት፣ እና የተካተቱ ፕሮግራሞች
ነጻ
VITS ነጻ
VITS (የማሻሻያ ውጤት ለመጨረሻው-ወደ-መጨረሻው ጽሑፍ-ወደ-ንግግር ለመማር) ከቀድሞው ሁለት-ደረጃ ሞዴሎች የበለጠ ተፈጥሯዊ የሆነ ድምፅ የሚያመነጭ የመጨረሻ-ወደ-መጨረሻ TTS ዘዴ ነው. በነፃነት ውስጥ ትልቅ ማሻሻያ የሚያገኝ በሆነ የቀድሞው-ወደ-መጨረሻው ቴክኖሎጂ የተሻሻለ የመጨረሻ-ወደ-መጨረሻ TTS ዘዴ ነው.
ምርጥ ለ: የቀን መቁጠሪያ አሳይ
ነጻ
MeloTTS ነጻ
MeloTTS በ MyShell.ai የተሰራ የብዙ ቋንቋዎች TTS መዝገብ ቤት ነው እንግሊዝኛ (አሜሪካዊ፣ ብሪታኒያዊ፣ የህንድ፣ የአውስትራሊያ), ስፓኒሽ, ፈረንሳይኛ, ቻይንኛ, ጃፓንኛ, እና ኮሪያኛ. በጣም ፈጣን ነው, ጽሑፍን በቅርብ ጊዜ ፍጥነት በ CPU ብቻ ላይ ይሠራል. MeloTTS ለምርት ጥቅም የተሰራ ነው እና CPU እና GPU ግምትን ይደግፋል.
ምርጥ ለ: ምርት ፕሮግራሞች ፈጣን, ብዙ ቋንቋዎች TTS ያስፈልጋሉ
ነጻ
OuteTTS ነጻ
OuteTTS ትልቅ ቋንቋ ሞዴሎች ጋር ጽሑፍ-ወደ-ንግግር ችሎታዎችን በመጀመሪያው አርክቴክቸር ሲጠብቅ ይጨምራል. ይህ llama.cpp (CPU / GPU), Hugging ፊት ትራንስፎርሜሽን, ExLlamaV2, VLLM, እና ይልቅ ብራውዘር በ Transformers.js በመጠቀም ውጤት ጨምሮ ብዙ backends ይደግፋል. ባህሪያት zero-shot የድምፅ ክሎኒንግ እንደ JSON የተጠበቀ ተናጋሪ ፕሮፊሎች በመጠቀም.
ምርጥ ለ: የ Edge ማሰራጨት, የድር አሳሽ ላይ የተመሠረተ TTS, ዝቅተኛ-መዳረሻ አካባቢዎች
ነጻ
Pocket TTS ነጻ
Pocket TTS በኩዩታይ (የሞሺ ፈጣሪዎች) የተሰራው ከክብደቱ በላይ የሚቆረጥ የ100 ሜጋባት የጽሑፍ-ወደ-ንግግር ሞዴል ነው። በሲፒዩ ላይ በጥሩ ሁኔታ ይሠራል፣ ከአንድ ድምፅ ምሳሌ ጀምሮ የድምፅ ክሎኒንግን ይደግፋል፣ እናም ተፈጥሯዊ የሆነ ንግግርን ያወጣል። የቀን መቁጠሪያው ትንሽ መጠን ለ Edge ማሰራጨት እና ለጥቂት የኃይል ምንጮች አካባቢዎች ተስማሚ ያደርገዋል ፡፡
ምርጥ ለ: ቀላል ማሰራጨት, CPU- ብቻ አካባቢዎች, ፈጣን የድምፅ ክሎኒንግ
ነጻ
Kitten TTS ነጻ
Kitten TTS by KittenML on ONNX built an ultra-lightweight text-to-speech model. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
ምርጥ ለ: ፈጣን ቀላል TTS, ዳርቻ መዘርጋት, ዝቅተኛ-Latency ፕሮግራሞች
ነጻ
Bark መደበኛ
የትራንስፎርመር የተመሠረተ ጽሑፍ-ወደ-ኦዲዮ ሞዴል እውነተኛ ንግግር፣ ሙዚቃ፣ እና የድምፅ ውጤቶችን የሚያመነጭ ነው።
አዘጋጅ፦ Suno · ፈቃድ፦ MIT
ይሞክሩት
CosyVoice 2 መደበኛ
የአሊባባ የሰው-አማካይ ተፈጥሮአዊነት እና የዝቅተኛ-ዝቅተኛነት የጨዋታ TTS
አዘጋጅ፦ Alibaba (Tongyi Lab) · ፈቃድ፦ Apache 2.0
ይሞክሩት
Dia TTS መደበኛ
በብዙ ተናጋሪዎች መካከል ተፈጥሯዊ ውይይቶችን የሚፈጥር የዳታ ግራፊክ ሞዴል
አዘጋጅ፦ Nari Labs · ፈቃድ፦ Apache 2.0
ይሞክሩት
Parler TTS መደበኛ
የሚፈልጉትን ድምፅ በነፃ ቋንቋ ግለጹና ፓርለር የሚስማማውን ንግግር ያወጣል
አዘጋጅ፦ Hugging Face · ፈቃድ፦ Apache 2.0
ይሞክሩት
GLM-TTS መደበኛ
የ TTS ሞዴሎችን በነጻ ምንጭ መካከል ዝቅተኛውን የፊደል ስህተት መጠን ያገኛል
አዘጋጅ፦ Zhipu AI · ፈቃድ፦ GLM-4 License
ይሞክሩት
IndexTTS-2 መደበኛ
0-shot TTS በጥሩ-ግሬን ፍላጎት ቁጥጥር እና ከፍተኛ መግለጫነት.
አዘጋጅ፦ Index Team · ፈቃድ፦ Bilibili Model License
ይሞክሩት
Spark TTS መደበኛ
የድምፅ ክሎኒንግ TTS የተቆጣጠረ ስሜት እና የመናገር ዘይቤ በመጠየቅ.
አዘጋጅ፦ SparkAudio · ፈቃድ፦ CC BY-NC-SA 4.0
ይሞክሩት
Orpheus መደበኛ
የሰው ደረጃ የስነ-ልቦና TTS ሞዴል በ 100K ሰዓታት የንግግር መረጃዎች ላይ የተጠናቀቀ ነው።
አዘጋጅ፦ Canopy Labs · ፈቃድ፦ Llama 3.2 Community
ይሞክሩት
Qwen3 TTS መደበኛ
የአሊባባ የብዙ ቋንቋዎች TTS የድምፅ ክሎኒንግ, ቀድሞ የተቀመጡ ድምጾች, እና የድምፅ ዲዛይን ከጽሑፍ ጋር.
አዘጋጅ፦ Alibaba (Qwen) · ፈቃድ፦ Apache 2.0
ይሞክሩት
Chatterbox Turbo መደበኛ
የፍጥነት ቻተርቦክስ ከ200 ሚሊሴኮንዶች ኋላቀርነት እና ለቁጭት፣ ለጉንፋን እና ለሌሎችም የቋንቋ ምልክቶች ጋር
አዘጋጅ፦ Resemble AI · ፈቃድ፦ MIT
ይሞክሩት
Dia 2 መደበኛ
የቀጥታ-መጀመሪያ ቃለ-መጠይቅ TTS ጋር ብዙ-ተናጋሪ ውይይት እና paralinguistic ጫፎች.
አዘጋጅ፦ Nari Labs · ፈቃድ፦ Apache 2.0
ይሞክሩት
VoxCPM መደበኛ
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency
አዘጋጅ፦ OpenBMB · ፈቃድ፦ Apache 2.0
ይሞክሩት
TADA መደበኛ
0-Hallucination TTS ፅሁፍ-አኩስቲክ ሁለት አቅጣጫ, 5x ከፍ ያለ ተመሳሳይ LLM TTS.
አዘጋጅ፦ Hume AI · ፈቃድ፦ MIT
ይሞክሩት
VibeVoice መደበኛ
ማይክሮሶፍት ሞዴል ለረጅም ቅርጽ ብዙ-ተናጋሪ ይዘት እንደ ፖድካስቶች እና የድምፅ መጽሐፍት.
አዘጋጅ፦ Microsoft · ፈቃድ፦ MIT
ይሞክሩት
CosyVoice3 መደበኛ
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
አዘጋጅ፦ Alibaba (FunAudioLLM) · ፈቃድ፦ Apache 2.0
ይሞክሩት
CosyVoice 2
የአሊባባ የሰው-አማካይ ተፈጥሮአዊነት እና የዝቅተኛ-ዝቅተኛነት የጨዋታ TTS
ቋንቋዎች፦ en, zh, ja, ko, fr, de, it, es
የድምፅ ፋይል
OpenVoice
የድምፅ ክሎኒንግ በቅርጽ፣ በፍላጎትና በድምፅ ላይ በጥልቀት መቆጣጠር
ቋንቋዎች፦ en, zh, ja, ko, fr, de, es, it
የድምፅ ፋይል
Qwen3 TTS
የአሊባባ የብዙ ቋንቋዎች TTS የድምፅ ክሎኒንግ, ቀድሞ የተቀመጡ ድምጾች, እና የድምፅ ዲዛይን ከጽሑፍ ጋር.
ቋንቋዎች፦ en, zh, ja, ko, de, fr, ru, pt, es, it
የድምፅ ፋይል
Chatterbox Turbo
የፍጥነት ቻተርቦክስ ከ200 ሚሊሴኮንዶች ኋላቀርነት እና ለቁጭት፣ ለጉንፋን እና ለሌሎችም የቋንቋ ምልክቶች ጋር
ቋንቋዎች፦ en
የድምፅ ፋይል
VoxCPM
Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency
ቋንቋዎች፦ en, zh
የድምፅ ፋይል
OuteTTS
LLM-based TTS በ CPU, GPU, ወይም በ lama.cpp እና Transformers.js በኩል በብራውዘር ላይ የሚሰራ
ቋንቋዎች፦ en
የድምፅ ፋይል
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
ቋንቋዎች፦ en, zh, ja, ko, de, es, fr, it, ru
የድምፅ ፋይል
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
ቋንቋዎች፦ en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
የድምፅ ፋይል
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
ቋንቋዎች፦ en, zh
የድምፅ ፋይልየዳቬሎፐር-መጀመሪያ API
OpenAI-ተኳሃኝ REST API. አንድ መጨረሻ ነጥብ, 22+ ሞዴሎች. ለ እውነተኛ ጊዜ ፕሮግራሞች ስትሪሚንግ ድጋፍ.
- ፋይል (_F)
- ለወቅታዊ ፕሮግራሞች TTS ማስተላለፍ
- ለታላላቅ ስራዎች የቡት ሂደት
- የዌብሆክ ማስታወቂያዎች
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
ቀላል, ግልጽ ዋጋ
ነጻ ይጀምሩ. እንደምትጨምሩ መጠን ይጨምሩ.
ብዙ ጊዜ የሚጠየቁ ጥያቄዎች
ምን ማሻሻል እንችላለን? አስተያየቶችዎ ችግሮችን ለመፍታት ይረዳሉ.