ጽሑፉን ወደ ንግግር ለውጥ

ጽሑፉን ወደ ተፈጥሯዊ-የሚሰማ ንግግር በነጻ-መነሻ AI ሞዴሎች ይለውጡ. ለመጠቀም ነፃ ነው፣ ምንም መለያ የለም

ነጻ

አሁንም በቋንቋህ ላይ የቲቲኤስ ድምፆች የለንም። የራስህን ጨምርልን! ድምፅዎን ይሸጡ

0/500 ፊደላት · Sign up for 5,000 per generation →

ምዝገባ ፊደል(ሎች)

SSML ዘዴ (የንግግር ማቀነባበሪያ ማሳያ ቋንቋ ለጥሩ ቁጥጥር)

ርዕሱን በSSML መለያዎች ውስጥ ለጥሩ ቁጥጥር ይዞሩት:

<speak><prosody rate="slow">Slow speech</prosody></speak>

ፊደል ሠሌዳው ላይ ያስተካክሉ...

የስነ-ልቦና ምልክቶችን ለማስገባት (የሞዴል ድጋፍ ይለያያል):

የድምፅ መዝገበ ቃላት

የራሱን ተናጋሪ ግለጽ (ቃል = ተናጋሪ):

ፊደል(ሎች) 0

-12 +12

ቅርጸት

ድምፅ

ቋንቋ

የምርጫ ቅርጸት

ፍጥነት 1.0x

0.5x 2.0x

ነጻ ከፒፐር, VITS, MeloTTS ጋር

የእርስዎ የተፈጠረ ድምፅ እዚህ ይታይ. ሞዴል ይምረጡ፣ ጽሑፍ ያስገቡ፣ እና ይፈጥሩ ላይ ጠቅ ያድርጉ

ዝርዝሮች

MeloTTS

Free

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

አዘጋጅ፦	MyShell.ai
ፈቃድ፦	MIT
ፍጥነት	Fast
ጥራት፦
ቋንቋዎች	6 ቋንቋዎች
ቪሬም	0.5GB (GPU optional)
የድምፅ ክሎኒንግ	አልተደገፈም

ባህሪያት:

CPU-optimized Multilingual Multiple accents Production-ready Low latency

ምርጥ ለ:: Production applications needing fast, multilingual TTS

ለበለጠ ውጤቶች ምክሮች

የቋንቋ ምልክቶች
የቁጥሮችን እና የጥቅሶችን አጻጻፍ ለማብራራት
በቃላት መካከል ጥቂት ጊዜ እንዲቆዩ ኮምቦችን ጨምር
ሦስት ነጥቦችን (...) ለረጅም ጊዜ የቆየ ማቆም
የኮኮሮ ወይም የኮሲቮይስ 2ን ለመሞከር ይሞክሩ
Diaን ለብዙ-ተናጋሪ ማውጫ እና ለፖድካስት ይጠቀሙ

የፊደል ቅርጽ

ዐምድ	ፊደል(ሎች)
ነጻ	0 ክሬዲቶች (የማይወሰን)
መደበኛ	ፊደላት
ፕሪሚየም	ፊደላት

ተጨማሪ ፊደላት

AI ጽሑፍ ወደ ንግግር እንዴት እንደሚሰራ

በሦስት ቀላል እርምጃዎች ውስጥ የፕሮፌሽናል ጥራት ያላቸውን ድምፆች ይፈጥሩ። ምንም የቴክኒክ ዕውቀት የለም

ደረጃ 1

ጽሑፉን አስገባ

ወደ ንግግር ለመለወጥ የምትፈልገውን ጽሑፍ ጻፍ፣ አስቀምጥ ወይም አርትዕ። ለተገናኙ ተጠቃሚዎች በአንድ ትውልድ ውስጥ እስከ 5,000 አርእስቶች ድረስ ይደግፋል። ቀላል ጽሑፍን ይጠቀሙ ወይም SSML መለያዎችን ለተሻሻለ ቁጥጥር በንግግር፣ በጭብጥ እና በጥቅል ላይ ጨምሩ።

እርምጃ 2

የድምፅ ሞዴል ምረጡ

ከ 20+ AI ሞዴሎች በሦስት ደረጃዎች ውስጥ ይምረጡ. ይዘትዎን የሚስማማውን ድምፅ ይምረጡ፣ የልኬት ቋንቋዎን ይምረጡ፣ የድምፅ ፍጥነትን ከ 0.5x እስከ 2.0x ይቀይሩ፣ እና የተሻለውን የፍሰት ቅርጸት (MP3, WAV, OGG ወይም FLAC) ይምረጡ።

ደረጃ 3

ያውርዱ

በሁለት ሰከንዶች ውስጥ ድምጹን ማዘጋጀት ላይ ጠቅ ያድርጉ እና ድምጹን በሁለት ሰከንዶች ውስጥ አዘጋጅቷል. በውስጠኛው ተጫዋች ውስጥ ቅድመ ዕይታ፣ በተመረጠው ቅርጸት ውስጥ ያውርዱ፣ ወይም የጋራ ሊሆን የሚችል አገናኝን ቅጂ ያድርጉ። ለባች ሂደት እና ወደ ሥራ ፍሰትዎ ለማካተት API ን ይጠቀሙ።

ጽሑፉን ወደ ንግግር ይለውጡ

በቴክኖሎጂ የተደገፈው የጽሑፍ-ወደ-ንግግር (text-to-speech) ቴክኖሎጂ ሰዎች እንዴት እንደሚፈጥሩ፣ እንደሚጠቀሙና በብዙ ኢንዱስትሪዎች ውስጥ ከድምፅ ይዘት ጋር እንዴት እንደሚገናኙ እየቀየረ ይገኛል።

የድምፅ መጽሐፍት

መጽሐፎችን በሙሉ ወደ ድምፅ መጽሐፍት በስታዲየም ጥራት ያለው መናገር ይለውጡ. ለፊደል አዳራሽ የዲአይአ ድጋፍን በመጠቀም ብዙ-ተናጋሪ ድጋፍ.

የቪዲዮ ድምፅ

ለዩቲዩብ፣ ለቲክቶክ፣ ለኢንስታግራም ሪል እና ለሽርሽርቶች የሙያ ድምጽ ይስጡ። 100+ ድምጾች ወይም የራስዎን ክሎን ያድርጉ።

ፖድካስት

የፖድካስት ክፍሎችን ከስክሪፕቶች ጋር በብዙ AI ድምጾች ይፍጠሩ. Dia ን ለሁለቱም ተናጋሪ ውይይቶች ይጠቀሙ

ጨዋታ

ለኢንዲ ጨዋታዎች፣ ቪዥዋል ኖቬሎች፣ እና ተለዋዋጭ ፊክሽን AI የድምፅ አጫዋች. NPC ውይይት፣ የክስተት ድምጾች፣ 30+ ቋንቋዎች።

የኤሌክትሮኒክ መማር

የኮርስ መሣሪያዎች, አስተምህሮዎች, እና ስልጠና ይዘት ወደ ድምፅ ይለውጡ. ለዓለም አቀፍ መድረኮች የብዙ ቋንቋ ድጋፍ.

አቅላይነት

ድረ ገጾች፣ ሰነዶች፣ እና ፕሮግራሞች ሊደርሱባቸው የሚችሉ እንዲሆኑ ያድርጉ። የስክሪን አንባቢ API አንድነት እና ጽሑፍ-ወደ-ኦዲዮ መለወጥ።

የስልክ ስርዓቶች

ኃይል IVR ስርዓቶች, ስልክ ሜኑዎች, እና የደንበኛ አገልግሎት ጋር ተፈጥሯዊ AI ድምጾች. ዝቅተኛ-Latency ለ ጥሪ ማዕከላት ስርጭት.

ማህበራዊ ሚዲያ

የቲክቶክ ንግግሮች፣ የኢንስታግራም ሪልስ፣ የቱዊተር/ኤክስ አስተያየት፣ የዩቲዩብ አጭር ቪዲዮዎች፣ ነፃ ሞዴሎችን በመጠቀም ፈጣን ማምረት።

ስትሪሚንግ

ቱዊች ቲቲኤስ ማስጠንቀቂያዎች፣ ቻት-ወደ-ድምፅ፣ AI ኮ-አስተናጋጆች፣ እና ዲስኮርድ ቦቶች። ዝቅተኛ latency፣ 100+ ድምጾች፣ StreamElements የሚስማማ።

ማስታወቂያ

Ad voiceovers, ማብራሪያ ቪዲዮዎች, ምርት ዲሞች, እና የሽያጭ ማስተዋወቂያዎች. በተለያዩ ዘመቻዎች የድምፅ ይዘት ምርት ማሳደግ.

ላቲን

ቪዲዮን ወደ 30+ ቋንቋዎች በድምፅ-የተጣጣመ AI ይተረጉሙ እና ይቀይሩ። አውቶማቲክ-ተተረጎም እና ተናጋሪ መፈለግ።

ሜዲቴሽን እና ዌልነር

የቀረቡት ሐሳቦች፣ የልብ ወለዶች፣ የነፍስ አጥቢያዎች፣ እና በደስታ፣ በደስታ AI ድምጾች የተደገፉ ማረጋገጫዎች ናቸው።

ሁሉንም አማራጮች አሳይ

የጽሑፍ-ወደ-ንግግር ሞዴሎች

ለእያንዳንዱ AI ሞዴል በ TTS.ai ላይ የሚገኝ ዝርዝር መግለጫዎች. ጥራት, ፍጥነት, የቋንቋ ድጋፍ, እና ለፕሮጀክቱ ትክክለኛውን ሞዴል ለማግኘት ባህሪያትን ያወዳድሩ.

Kokoro

Free

ኮኮሮ ከክብደቱ ክፍል በላይ የሚቆጠር 82 ሚሊዮን ፓራሜትሮችን የሚይዝ የጽሑፍ-ወደ-ንግግር ሞዴል ነው. በትንሹ መጠንም ቢሆን፣ አስደናቂ የሆነ ተፈጥሯዊና ግልጽ ንግግርን ያወጣል. ኮኮሮ ብዙ ቋንቋዎችን ያጠቃልላል - አማርኛ፣ ጃፓንኛ፣ ቻይንኛ፣ ኮሪያኛ፣ በተለያዩ ግልጽ ድምጾች. በጣም ፈጣን ነው - ከጂፒዩ ላይ ከሚገኝ እውነተኛ ጊዜ ድምፅ 100x ፈጣን ነው.

አዘጋጅ፦:
Hexgrad

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru

ቪሬም:
1.5GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
ነጻ

82M ፐራሜትሮች በጣም ፈጣን ድምጾች ብዙ ቋንቋዎች ስትሪሚንግ

ምርጥ ለ:: ከፍተኛ ጥራት ያለው TTS በጥቂት ጊዜ ውስጥ, የዥረት ፕሮግራሞች

መሞከር Kokoro

Piper

Free

ፒፐር በራሳስፒ የተፈጠረ ቀላል የጽሑፍ-ወደ-ንግግር ማሽን ነው VITS እና ላርኒክስ አርክቴክቸሮችን የሚጠቀም. በሙሉ በሲፒዩ ላይ ይሠራል ፣ ለ Edge መሣሪያዎች ፣ ለቤት አውቶማቲክስ ፣ እና ለኦፍላይን TTS የሚያስፈልጉ ፕሮግራሞች ተስማሚ ያደርገዋል. በ 30+ ቋንቋዎች ውስጥ ከ 100 በላይ ድምጾች ፣ ፒፐር በራስቤሪ ፒ 4 ላይም ቢሆን በፍጥነት ጊዜ ውስጥ ተፈጥሯዊ የሆነ ንግግር ይሰጣል ፡፡

አዘጋጅ፦:
Rhasspy

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ቪሬም:
0 (CPU only)

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
ነጻ

CPU-friendly መስመር ውጭ ድምጾች ቋንቋዎች የSSML ድጋፍ

ምርጥ ለ:: የቅርብ ጊዜ ቅድመ ዕይታዎች፣ አቅላይነት፣ እና የተካተቱ ፕሮግራሞች

መሞከር Piper

VITS

Free

VITS (የማሻሻያ ውጤት ለመጨረሻው-ወደ-መጨረሻው ጽሑፍ-ወደ-ንግግር ለመማር) ከቀድሞው ሁለት-ደረጃ ሞዴሎች የበለጠ ተፈጥሯዊ የሆነ ድምፅ የሚያመነጭ የመጨረሻ-ወደ-መጨረሻ TTS ዘዴ ነው. በነፃነት ውስጥ ትልቅ ማሻሻያ የሚያገኝ በሆነ የቀድሞው-ወደ-መጨረሻው ቴክኖሎጂ የተሻሻለ የመጨረሻ-ወደ-መጨረሻ TTS ዘዴ ነው.

አዘጋጅ፦:
Jaehyeon Kim et al.

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko

ቪሬም:
1GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
ነጻ

መጨረሻ-ወደ-መጨረሻ ማቀነባበሪያ የቋንቋ ችሎታ የፍጥነት ማጣቀሻ ብዙ ተናጋሪዎች

ምርጥ ለ:: የቀን መቁጠሪያ አሳይ

መሞከር VITS

MeloTTS

Free

MeloTTS በ MyShell.ai የተሰራ የብዙ ቋንቋዎች TTS መዝገብ ቤት ነው እንግሊዝኛ (አሜሪካዊ፣ ብሪታኒያዊ፣ የህንድ፣ የአውስትራሊያ), ስፓኒሽ, ፈረንሳይኛ, ቻይንኛ, ጃፓንኛ, እና ኮሪያኛ. በጣም ፈጣን ነው, ጽሑፍን በቅርብ ጊዜ ፍጥነት በ CPU ብቻ ላይ ይሠራል. MeloTTS ለምርት ጥቅም የተሰራ ነው እና CPU እና GPU ግምትን ይደግፋል.

አዘጋጅ፦:
MyShell.ai

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, es, fr, zh, ja, ko

ቪሬም:
0.5GB (GPU optional)

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
ነጻ

CPU-የተሻሻለ ብዙ ቋንቋዎች ብዙ አንቀጾች ምርት-ዘጋጅ ዝቅተኛ

ምርጥ ለ:: ምርት ፕሮግራሞች ፈጣን, ብዙ ቋንቋዎች TTS ያስፈልጋሉ

መሞከር MeloTTS

Bark

Standard

ባርክ በሱኖ የተመሠረተ ፅሁፍ-ወደ-ድምፅ ሞዴል ነው ይህም በጣም እውነተኛ፣ ብዙ ቋንቋዎች ያሉት ንግግርን እንዲሁም ሌሎች ድምፆችን እንደ ሙዚቃ፣ የኋላ ድምፅ፣ እና የድምፅ ውጤቶች ሊፈጥር ይችላል። እንደ መቅለጥ፣ መጮህ እና መጮህ ያሉ ያልሆኑ ግንኙነቶችን ሊፈጥር ይችላል። ባርክ ከ 100 በላይ የንግግር ቀደምት አማራጮችን እና 13+ ቋንቋዎችን ይደግፋል።

አዘጋጅ፦:
Suno

ፈቃድ፦:
MIT

ፍጥነት:
Slow

ጥራት፦:

ቋንቋዎች:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ቪሬም:
5GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

የድምፅ ውጤቶች የሚስቅ/የሚጨነቅ የሙዚቃ ምርጫዎች ተናጋሪ ብዙ ቋንቋዎች

ምርጥ ለ:: ፈጣሪ የድምፅ ይዘት, የድምፅ መጽሐፍት ጋር ስሜት, የድምፅ ውጤቶች

መሞከር Bark

Bark Small

Standard

ባርክ ስማርት የባርክ ሞዴል የተቀላቀለ ስሪት ሲሆን የድምፅ ጥራት ለከፍተኛ ፍጥነት እና ዝቅተኛ የማስታወሻ ፍላጎቶች ይለዋወጣል. በፍላጎቶች፣ በቁጭት እና በብዙ ቋንቋዎች ንግግርን ለማምረት የባርክን ችሎታ ያቆማል

አዘጋጅ፦:
Suno

ፈቃድ፦:
MIT

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ቪሬም:
2GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

ቀላል ከሙሉ በርክ ይልቅ ፈጣን ስሜታዊ ንግግር ብዙ ቋንቋዎች

ምርጥ ለ:: የሙሉው በርክ በጣም ዝቅተኛ በሆነ ጊዜ ፈጣን የፈጠራ ድምፅ

መሞከር Bark Small

CosyVoice 2

Standard

የኮሲቮይስ 2 በአሊባባ ቶንግይ ላብ በከፍተኛ ዝቅተኛ ላቴንሲ የሰው-አነጋገር ጥራት ያገኛል፣ ለወቅታዊ ፕሮግራሞች ተስማሚ ያደርገዋል። ለቀጥታ ስብስብ የመጨረሻ ስካላር ኩዌንቲንግ ዘዴን ይጠቀማል እናም zero-shot የድምፅ ክሎኒንግን ይደግፋል፣ cross-lingual ስብስብ፣ እና fine-grained ስሜት ቁጥጥር። በግለሰባዊ አቀራረቦች ውስጥ ብዙ የቢዝነስ TTS ስርዓቶችን ይበልጥ ያከናውናል ፡፡

አዘጋጅ፦:
Alibaba (Tongyi Lab)

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko, fr, de, it, es

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

ስትሪሚንግ ሺል-ሾት ክሎኒንግ ቋንቋ፦ (_L) ስሜት መቆጣጠር የሰው-አስተሳሰብ

ምርጥ ለ:: የጊዜ-እውነተኛ ፕሮግራሞች, የድምፅ ረዳቶች

መሞከር CosyVoice 2

Dia TTS

Standard

ዲያ በናሪ ላብስ የተሰራ 1.6 ቢ ፓራሜትር ጽሑፍ-ወደ-ንግግር ሞዴል ነው በብዙ-ተናጋሪ ውይይት ለማምረት የተሰራ። በሁለት ተናጋሪዎች መካከል ተገቢውን ዙር-መውሰድ፣ ፕሮሶዲ እና ስሜታዊ መግለጫዎች ጋር ተፈጥሯዊ-የሚሰማ ውይይት ማምረት ይችላል። ዲያ ለፖድካስት-style ይዘት፣ የኦዲዮ መጽሐፍ ውይይቶች እና ተለዋዋጭ የንግግር AI ለመፍጠር ተስማሚ ነው ፡፡

አዘጋጅ፦:
Nari Labs

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

ብዙ-ተናጋሪ የመደቡን ብዛት ቀጥ አድርግ የስነልቦና መግለጫ 1.6B ፐራሜትሮች

ምርጥ ለ:: የፖድካስት ፋይሎች፣ የድምፅ መጽሐፍ ቃለ ምልልስ፣ የንግግር ይዘት

መሞከር Dia TTS

Parler TTS

Standard

ፓርለር TTS የተፈጠረውን ንግግር ለመቆጣጠር የቋንቋን የድምፅ መግለጫዎች የሚጠቀም የጽሑፍ-ወደ-ንግግር ሞዴል ነው። ከቀድሞ የተቀመጡ ድምጾች ይልቅ፣ የሚፈልጉትን ድምፅ (ለምሳሌ፣ "በጥቂት ብሪታኒያዊ አሻራ ያለው ሙቅ የሴት ድምፅ፣ በዝግታና በግልጽ የሚናገረው") ይተዉት። ፓርለርም ይህን መግለጫ የሚስማማ ንግግር ይፈጥራል። ይህ ለፈጠራ ፕሮግራሞች ልዩ የሆነ መለዋወጫን ያቀርባል።

አዘጋጅ፦:
Hugging Face

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

የድምፅ መግለጫ የቋንቋ ቁጥጥር የድምፅ መፍጠር የቀድሞው ድምፅ

ምርጥ ለ:: የድምፅ ባህሪያትን የሚፈልጉበት የፈጠራ ፕሮግራሞች

መሞከር Parler TTS

GLM-TTS

Standard

GLM-TTS በ Zhipu AI የተገነባ የጽሑፍ-ወደ-ንግግር ስርዓት ነው. በላማ አርክቴክቸር ላይ የተገነባ ሲሆን የፍሰት ማመሳሰልን ያካትታል። በነጻ ምንጭ TTS ሞዴሎች መካከል ዝቅተኛውን የፊደል ስህተት መጠን ያገኛል ፣ ማለትም በጣም ትክክለኛን ተናጋሪ ያወጣል ፡፡ GLM-TTS ከ 3-10 ሰከንዶች የድምፅ ምሳሌዎች ጋር አማርኛ እና ቻይንኛን ይደግፋል ፡፡

አዘጋጅ፦:
Zhipu AI

ፈቃድ፦:
GLM-4 License

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

የኃጢአት መጠን የድምፅ ቅጂ ፍሰት የቋንቋ ችሎታ

ምርጥ ለ:: የቋንቋ ልዩነት

መሞከር GLM-TTS

IndexTTS-2

Standard

IndexTTS-2 በዝቅተኛ-አደጋ የድምፅ ማቀነባበሪያ እና በጥሩ-ግሬን ፍላጎት መቆጣጠሪያ የተሻሻለ ጽሑፍ-ወደ-ንግግር ስርዓት ነው. እንደ ደስተኛ, አሳዛኝ, የተሰቃየ ወይም የተፈራ ፍላጎት-ተኮር የጥናት መረጃ ሳይያስፈልግ በግልጽ ፍላጎት ያላቸውን ድምፆች በመፍጠር ንግግርን ማምጣት ይችላል። ሞዴሉ የፈጠረውን ንግግርን ፍላጎት ለመቆጣጠር ፍላጎት ቬክተሮችን ይጠቀማል ፡፡

አዘጋጅ፦:
Index Team

ፈቃድ፦:
Bilibili Model License

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

ፍላጎት ሺል-ሾት ቪክቶሮች አቀማመጥ መቆጣጠሪያ

ምርጥ ለ:: ሐሳብን በነጻነት የመግለጽ አጠቃላይ ይዘት፣ የድምፅ መጽሐፍት፣ ቪርቱያል ረዳቶች

መሞከር IndexTTS-2

Spark TTS

Standard

ስፓርክ TTS በ ስፓርክኦዲዮ የተሠራ የጽሑፍ-ወደ-ንግግር ሞዴል ሲሆን የድምፅ ክሎኒንግን ከሚቆጣጠሩ ስሜቶች እና የመናገር ዘይቤ ጋር ያገናኛል። በ5 ሰከንዶች ብቻ የመዝገበ ቃላት ድምፅን በመጠቀም፣ ድምፅን ክሎኒንግ ማድረግ እና ከዚያ በተለያዩ ስሜቶች፣ ፍጥነቶች እና ስሞች ንግግርን መፍጠር ይችላል። የክሎኒንግ የድምፅ ማንነት ሲጠበቅ። ስፓርክ TTS በፕሮም-ተኮር የቁጥጥር ስርዓትን ይጠቀማል።

አዘጋጅ፦:
SparkAudio

ፈቃድ፦:
CC BY-NC-SA 4.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

የድምፅ ቅጂ ስሜት መቆጣጠር የቅርጽ ምርጫዎች የፕሮምፕ-መሠረት 5 ሰከንዶች

ምርጥ ለ:: ይዘት መፍጠር የድምፅ ክሎኖች እና ስሜታዊ ቁጥጥር

መሞከር Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS GPT-style ቋንቋ ሞዴል ከ SoVITS (የሚጫወቱ ድምፅ Inference በቃል ትርጉም እና ስብስብ) ለኃይል ጥቂት-ሽት የድምፅ ክሎኒንግ ያገናኛል. እንደ 5 ሰከንዶች ብቻ የመዝገብ ቤት ድምፅ, ይህ ትክክለኛነት ድምፅ ክሎኒንግ እና የተናጋሪው የተለየ ባህሪያት ሲጠብቅ አዲስ ንግግር ማምረት ይችላል. ይህ በሁለቱም መናገር እና የሚጫወቱ ድምፅ ስብስብ ላይ ያተኩራል.

አዘጋጅ፦:
RVC-Boss

ፈቃድ፦:
MIT

ፍጥነት:
Slow

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko

ቪሬም:
6GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

5 ሰከንዶች የድምፅ ድምፅ ጥቂት-አስማት መማር ከፍተኛ ቋንቋ

ምርጥ ለ:: የድምፅ ክሎኒንግ, የመዝሙር ሰንሰለት፣ የውስጥ ደራሲ የድምፅ ቅጂ

መሞከር GPT-SoVITS

Orpheus

Standard

ኦርፊየስ የሰው ደረጃ ስሜታዊ መግለጫን የሚያገኝ ትልቅ መጠን ያለው ጽሑፍ-ወደ-ንግግር ሞዴል ነው. በ 100,000 ሰዓታት በላይ በተለያዩ የንግግር መረጃዎች ላይ የተጠናቀቀ፣ በተፈጥሮ ስሜታዊ መግለጫዎች፣ አጽንዖት እና የመናገር ዘይቤዎች ንግግርን በመፍጠር ላይ ያገለግላል. ኦርፊየስ ከሰው መዝገቦች የማይለይ ንግግርን ማምረት ይችላል።

አዘጋጅ፦:
Canopy Labs

ፈቃድ፦:
Llama 3.2 Community

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

የሰው ደረጃ ስሜት ሰዓት አቀማመጥ አቀማመጥ

ምርጥ ለ:: ከፍተኛ ጥራት ያለው ስሜታዊ ንግግር፣ የድምፅ መጽሐፍት፣ የድምፅ አጫዋች

መሞከር Orpheus

Chatterbox

Premium

የሻተርቦክስ መተግበሪያ በResemble AI የተገነባ የመጨረሻው የድምፅ ክሎኒንግ ሞዴል ነው። ከአንድ የድምፅ ምሳሌ ጋር በጥሩ ጥራት ማንኛውንም ድምፅ ሊመልስ ይችላል፣ የድምፅ ድምፅ ብቻ ሳይሆን የንግግር ዘይቤ እና የስነ-ልቦና ቅንጣቶችንም ይይዛል። ሻተርቦክስ ደግሞ የፍጥነት-ግሬን የስነ-ልቦና ቁጥጥርን ያቀርባል፣ የቀረበውን ንግግር የስነ-ልቦና ድምፅ ከድምፅ ማንነት ነፃ በሆነ መንገድ ለመቀየር ያስችልዎታል።

አዘጋጅ፦:
Resemble AI

ፈቃድ፦:
MIT

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
4x

0-shot ክሎኒንግ ፍላጎት ከፍተኛ የቅርጽ ዓይነት አንድ ቅጂ

ምርጥ ለ:: የሙያ የድምፅ ክሎኒንግ ሐሳብን በራስ የመወሰን፣ የውስጥ መፍጠር

መሞከር Chatterbox

Tortoise TTS

Premium

ቶርቶይ TTS በፍጥነት ላይ የድምፅ ጥራት ላይ ትኩረት የሚያደርግ የራስ-መለወጫ የብዙ-ድምፅ ጽሑፍ-ወደ-ንግግር ስርዓት ነው. DALL-E-የተጠበቀውን አርክቴክቸር በመጠቀም በጣም ተፈጥሯዊ ንግግርን በጥሩ ፕሮሶዲ እና በተናጋሪ ተመሳሳይነት ያመነጫል። ከብዙ አማራጮች ይበልጥ ዝቅተኛ ቢሆንም ቶርቶይ በነጻ ምንጭ ኢኮሲስተም ውስጥ የተገኘውን በጣም እውነተኛ የተቀናጀ ንግግር ያመነጫል።

አዘጋጅ፦:
James Betker

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Slow

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
8GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
4x

ከፍተኛ ጥራት ብዙ-ድምፅ DALL-E አርክቴክቸር የድምፅ ቅጂ በራሱ

ምርጥ ለ:: የድምፅ መጽሐፍት፣ የፕሪሚየም ይዘት፣ ጥራት ያላቸው ፕሮግራሞች

መሞከር Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 የሰው ደረጃ TTS ማቀነባበሪያን በከፍተኛ የንግግር ቋንቋ ሞዴሎችን በመጠቀም የቋንቋ ልዩነትን እና የቋንቋ ልዩነትን በማቀናጀት ያሳያል. በአንድ-ተናጋሪ ሞዴሎች መካከል በጣም ተፈጥሯዊ የሆነውን ንግግር ያመነጫል ፣ የሰው መዝገቦችን የሚወዳደር። StyleTTS 2 የሰው ንግግር ልዩነትን ለመያዝ የቋንቋ ልዩነትን በመጠቀም የቋንቋ ልዩነትን ያመነጫል ፡፡

አዘጋጅ፦:
Columbia University

ፈቃድ፦:
MIT

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
4x

የሰው ደረጃ የሥልጠና ርዕስ መተላለፊያ የተለመደው ለውጥ ከፍተኛ

ምርጥ ለ:: ስቱዲዮ-ጥራት አንድ-ተናጋሪ ማቀነባበር, ሙያተኞች መናገር

መሞከር StyleTTS 2

OpenVoice

Premium

OpenVoice በ MyShell.ai በድምፅ ስሜት, ስሜት, አነጋገር, ሪትም, መቆም, እና intonation ላይ granular ቁጥጥር ጋር ቀጥተኛ የድምፅ ክሎኒንግ ያስችላል. ይህ ከጥቂት የድምፅ ክሊፕ አንድ ድምፅ ክሎኒንግ እና በብዙ ቋንቋዎች ንግግር በማምጣት ተናጋሪው ማንነት ሲጠብቅ ይችላል. OpenVoice እንደ ድምፅ ተቀባይም ሆኖ ይሠራል, የጊዜ-እውነተኛ የድምፅ ለውጥ ያስችላል.

አዘጋጅ፦:
MyShell.ai / MIT

ፈቃድ፦:
MIT

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko, fr, de, es, it

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
4x

ቀጥተኛ ክሎኒንግ የድምፅ መለወጫ ፍላጎት የፊደል ቅርጽ ቁጥጥር ብዙ ቋንቋዎች

ምርጥ ለ:: የድምፅ ክሎኒንግ በጥሩ-ግሬን ቅርፅ ቁጥጥር፣ የድምፅ ለውጥ

መሞከር OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS ከአሊባባ የQwen ቡድን የመጣ 1.7 ቢሊዮን ፓራሜትር ያለው የጽሑፍ-ወደ-ንግግር ሞዴል ነው። ሦስት አማራጮችን ይደግፋል፡- ከስሜት መቆጣጠሪያ ጋር የተቀመጡ ድምጾች (9 ተናጋሪዎች)፣ ከ3 ሰከንዶች ድምፅ ብቻ የድምፅ ክሎኒንግ፣ እና በነፃ ቋንቋ የምትፈልጉትን ድምፅ የምትገልጹበት የድምፅ ዲዛይን አማራጭ። 10 ቋንቋዎችን በከፍተኛ ግልጽነት እና በነፃ ቋንቋ ይሸፍናል።

አዘጋጅ፦:
Alibaba (Qwen)

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko, de, fr, ru, pt, es, it

ቪሬም:
7GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

የድምፅ ቅጂ ድምጾች የድምፅ ዲዛይን ከጽሑፍ ፍላጎት ቋንቋዎች

ምርጥ ለ:: የብዙ ቋንቋ ይዘት የድምፅ ክሎኒንግ ወይም የራሱ የድምፅ ዲዛይን

መሞከር Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) የ 1 ቢሊዮን ፓራሜትር ሞዴል ነው የተቀናጀ ንግግር ለመፍጠር የተቀናጀ ነው. የሰው ንግግር ተፈጥሯዊ ንድፎችን ይቀላቅላል ዙር-መውሰድ ጊዜ, backchannel መልሶች, ስሜታዊ ምላሾች, እና ንግግር ፍሰት. CSM የተቀናጀ ንግግር ይልቅ እንደ ተፈጥሯዊ ሰው ንግግር የሚሰማውን ድምፅ ይፈጥራል.

አዘጋጅ፦:
Sesame

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Slow

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
8GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
4x

ቻይንኛ የተለመደው ሰዓት ዙር የቀድሞው ጣቢያ 1B ፐራሜትሮች

ምርጥ ለ:: AI ረዳቶች, ቻትቦቶች, የንግግር AI ፕሮግራሞች

መሞከር Sesame CSM

Chatterbox Turbo

Standard

የቻተርቦክስ ቱርቦ በ Resemble AI ወደ ቻተርቦክስ 350M ፓራሜትር ማሻሻያ ነው, እስከ 6x እውነተኛ ጊዜ ፍጥነት ጋር 200 ሚሊ ሴኮንድ latency ጋር ይሰጣል. እንደ [ስሜት], [ኮክ], እና [አፍንጫ] በቀጥታ በጽሑፍ ውስጥ paralinguistic መለያዎችን ይደግፋል. ለ provenance መከተል ለማንኛውም የተፈጠረ ድምፅ ላይ Perth ውሃ ምልክት ያካትታል.

አዘጋጅ፦:
Resemble AI

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
2GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

200ms ታች የቋንቋ ምልክቶች 6x እውነተኛ ጊዜ የድምፅ ቅጂ የዋሽንግተን

ምርጥ ለ:: የድምፅ አጋሮችን በወቅቱ ያስተላልፉ፣ በነፃ ድምፆች ላይ የተመሠረተ ንግግር

መሞከር Chatterbox Turbo

Zonos

Standard

ዞኖስ v0.1 በዚፍራ የተሰራ 1.6 ቢ ፐራሜትር ሞዴል ሲሆን ለደስታ፣ ለጭንቀት፣ ለሐዘን፣ ለፍርሃት እና ለደስታ ስላላያያዣዎች የተሰራ የፍቅር መቆጣጠሪያን ያካትታል። ትራንስፎርመር እና አዲስ የኤስኤስኤም (የአገሮች-አካባቢ ሞዴል) አማራጭን ያቀርባል። ከ10-30 ሰከንዶች የመዝገብ ድምፅ ጋር በ 200K + ሰዓታት የብዙ ቋንቋ ንግግር ላይ የተሠራ ነው።

አዘጋጅ፦:
Zyphra

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, ja, zh, fr, de

ቪሬም:
6GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

ፍላጎት የድምፅ ቅጂ SSM አርክቴክቸር ብዙ ቋንቋዎች የድምፅ መጠን

ምርጥ ለ:: የድምፅ ዲዛይን ስቱዲዮ

መሞከር Zonos

Dia 2

Standard

Dia2 by Nari Labs is a streaming-first upgrade to Dia, available in 1B and 2B parameter variants. It starts synthesizing audio from the first few tokens, making it ideal for real-time voice agents and speech-to-speech pipelines. Multi-speaker dialogue with [S1]/[S2] tags and paralinguistic cues like (laughs), (coughs)

አዘጋጅ፦:
Nari Labs

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

የድምፅ ውጤት ብዙ-ተናጋሪ ዝቅተኛ የቋንቋ ምልክቶች እስከ 2 ደቂቃዎች ድረስ

ምርጥ ለ:: የድምፅ አጋሮችን በወቅቱ ይስጡ፣ የዳያሎግ ማምረት፣ የዥረት ፕሮግራሞችን

መሞከር Dia 2

VoxCPM

Standard

VoxCPM 1.5 በ OpenBMB የተሰራ አዲስ የቶኬን-ነጻ የቲቲኤስ ሞዴል ነው በቀጥታ ቦታ ላይ የሚሠራ ሳይሆን ልዩ ልዩ ቶኬኖች. ይህ ከፍተኛ-ፍጹም 44.1kHz ድምፅ ያወጣል, ከ 3-10 ሰከንዶች ጀምሮ zero-shot የድምፅ ክሎኒንግ ይደግፋል, እና በፓራግራፎች መካከል ተመሳሳይነት ይይዛል. Cross-language ክሎኒንግ ቻይንኛ ንግግር ላይ እንግሊዝኛ ድምፅ እና vice versa ሊጠቀሙበት ያስችልዎታል.

አዘጋጅ፦:
OpenBMB

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

ድምፅ ቶኬኒዘር-ነጻ ቋንቋ፦ የቀን መቁጠሪያ አሳይ LoRA ጥሩ-መቆጣጠር

ምርጥ ለ:: ከፍተኛ-ፍጹም ድምፅ, ድምፅ መጽሐፍት, ረጅም-ቅርጽ ይዘት የድምፅ ተመሳሳይነት

መሞከር VoxCPM

OuteTTS

Free

OuteTTS ትልቅ ቋንቋ ሞዴሎች ጋር ጽሑፍ-ወደ-ንግግር ችሎታዎችን በመጀመሪያው አርክቴክቸር ሲጠብቅ ይጨምራል. ይህ llama.cpp (CPU / GPU), Hugging ፊት ትራንስፎርሜሽን, ExLlamaV2, VLLM, እና ይልቅ ብራውዘር በ Transformers.js በመጠቀም ውጤት ጨምሮ ብዙ backends ይደግፋል. ባህሪያት zero-shot የድምፅ ክሎኒንግ እንደ JSON የተጠበቀ ተናጋሪ ፕሮፊሎች በመጠቀም.

አዘጋጅ፦:
OuteAI

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
2GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
ነጻ

CPU መተላለፊያ የባሕርይ መቃኘት የድምፅ ቅጂ ብዙ ባንዶች የድምፅ ፕሮፊል

ምርጥ ለ:: የ Edge ማሰራጨት, የድር አሳሽ ላይ የተመሠረተ TTS, ዝቅተኛ-መዳረሻ አካባቢዎች

መሞከር OuteTTS

TADA

Standard

TADA (Text-Acoustic Dual Alignment) በሁም አ.አ. የተገነባው በላማ 3.2 ላይ የተገነባ አዲስ የሁለት አቅጣጫ አርክቴክቸር አማካኝነት የሃሎሲንሽንን የሚያጠፋ የ TTS ሞዴል ነው. በ 1B (አማርኛ) እና በ 3B (ብዙ ቋንቋዎች) አማራጮች ውስጥ የሚገኝ, TADA ከ LLM ላይ የተመሠረተ የ TTS ሞዴሎች 0.09 - 5x ፈጣን የ RTF ያገኛል. እስከ 700 ሰከንዶች ድረስ የድምፅ ርዕሰ ጉዳይን ይደግፋል እናም በስታንዳርድ ባንኮች ላይ የዝቅተኛ የሃሎሲንሽን ድምፅ ያለውን ድምፅ ያመነጫል.

አዘጋጅ፦:
Hume AI

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
5GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

0 ሐሉሲናዎች LLM TTS 5x ፈጣን የስነልቦና መግለጫ የድምፅ ፋይል ሦስት እጥፍ

ምርጥ ለ:: ከፍተኛ ጥራት ያለው የሃሉሲኒያን ነፃ ንግግር፣ ስሜታዊ መግለጫ፣ ፈጣን ውጤት

መሞከር TADA

VibeVoice

Standard

ቪብቮይች በማይክሮሶፍት በሁለት ዓይነት ይመጣል: ለረጅም-ቅርጽ ይዘት (90 ደቂቃዎች, 4 ተናጋሪዎች) 1.5B ሞዴል እና ለ ~ 200ms የመጀመሪያው ድምፅ latency ጋር 0.5B ሞዴል. 1.5B ልዩነት በፖድካስት እና ድምፅ መጽሐፍት ላይ ረጅም passages ላይ ተናጋሪ konzistency ጋር ይሻላል. ማስታወሻ: ማይክሮሶፍት TTS ኮድ ከ መዝገብ ቤት ያስወገዱ እና የተፈጠረው ድምፅ ጆሮአዊ AI disclaimers ያካትታል.

አዘጋጅ፦:
Microsoft

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

ብዙ-ተናጋሪ እስከ 90 ደቂቃዎች የፖድካስት መፍጠር የድምፅ አሰጣጥ 200 ሚሊ ሴኮንድ

ምርጥ ለ:: ፖድካስቶች፣ የድምፅ መጽሐፍት፣ ረዥም-ቅርጽ የብዙ-ተናጋሪ ይዘት

መሞከር VibeVoice

Pocket TTS

Free

Pocket TTS በኩዩታይ (የሞሺ ፈጣሪዎች) የተሰራው ከክብደቱ በላይ የሚቆረጥ የ100 ሜጋባት የጽሑፍ-ወደ-ንግግር ሞዴል ነው። በሲፒዩ ላይ በጥሩ ሁኔታ ይሠራል፣ ከአንድ ድምፅ ምሳሌ ጀምሮ የድምፅ ክሎኒንግን ይደግፋል፣ እናም ተፈጥሯዊ የሆነ ንግግርን ያወጣል። የቀን መቁጠሪያው ትንሽ መጠን ለ Edge ማሰራጨት እና ለጥቂት የኃይል ምንጮች አካባቢዎች ተስማሚ ያደርገዋል ፡፡

አዘጋጅ፦:
Kyutai

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, fr

ቪሬም:
1GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
ነጻ

100M ፐራሜትሮች CPU መተላለፊያ የድምፅ ቅጂ አንድ-ምሳሌ ክሎኒንግ ጫፍ-ዘጋጅ

ምርጥ ለ:: ቀላል ማሰራጨት, CPU- ብቻ አካባቢዎች, ፈጣን የድምፅ ክሎኒንግ

መሞከር Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML on ONNX built an ultra-lightweight text-to-speech model. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

አዘጋጅ፦:
KittenML

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
0GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
ነጻ

CPU- ብቻ ከ80MB በታች የሞዴል መጠን ድምጾች የፍጥነት ቁጥጥር ONNX-መሠረት 24kHz ውጤት

ምርጥ ለ:: ፈጣን ቀላል TTS, ዳርቻ መዘርጋት, ዝቅተኛ-Latency ፕሮግራሞች

መሞከር Kitten TTS

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

አዘጋጅ፦:
Alibaba (FunAudioLLM)

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko, de, es, fr, it, ru

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

ምርጥ ለ:: Multilingual production TTS, real-time applications, voice cloning

መሞከር CosyVoice3

MOSS-TTS

Premium

MOSS-TTS from OpenMOSS supports generation of up to 1 hour of continuous speech across 20 languages. Features token-level duration control, phoneme-level pronunciation control via IPA/Pinyin, and code-switching between languages. The 8B production model delivers state-of-the-art quality with zero-shot voice cloning from reference audio.

አዘጋጅ፦:
OpenMOSS

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

ቪሬም:
16GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
4x

Ultra-long generation 20 languages Voice cloning Duration control Pronunciation control Code-switching

ምርጥ ለ:: Audiobooks, long-form content, multilingual production

መሞከር MOSS-TTS

MegaTTS3

Premium

MegaTTS3 from ByteDance uses a novel sparse alignment mechanism combined with a latent diffusion transformer. Features adjustable trade-off between speech intelligibility and speaker similarity for zero-shot voice cloning.

አዘጋጅ፦:
ByteDance

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Slow

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
8GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
4x

Voice cloning Adjustable similarity Cross-lingual

ምርጥ ለ:: High-fidelity voice cloning

መሞከር MegaTTS3

Kokoro

ነጻ

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

አዘጋጅ፦:
Hexgrad

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች: en, ja, zh, ko, fr, de, it, pt, es, hi, ru

ምርጥ ለ:: High-quality TTS with minimal latency, streaming applications

ነጻ ይሞክሩ

Piper

ነጻ

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

አዘጋጅ፦:
Rhasspy

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ምርጥ ለ:: Quick previews, accessibility, and embedded applications

ነጻ ይሞክሩ

VITS

ነጻ

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

አዘጋጅ፦:
Jaehyeon Kim et al.

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች: en, zh, ja, ko

ምርጥ ለ:: General-purpose text-to-speech with natural prosody

ነጻ ይሞክሩ

ፕሪሚየም

አዘጋጅ፦:
OpenMOSS

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

የድምፅ ክሎኒንግ:
አዎ

ቪሬም:
16GB

ፊደል(ሎች):
4x

Ultra-long generation20 languagesVoice cloningDuration controlPronunciation controlCode-switching

ምርጥ ለ:: Audiobooks, long-form content, multilingual production

መሞከር MOSS-TTS

MegaTTS3

ፕሪሚየም

አዘጋጅ፦:
ByteDance

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Slow

ጥራት፦:

ቋንቋዎች:
en, zh

የድምፅ ክሎኒንግ:
አዎ

ቪሬም:
8GB

ፊደል(ሎች):
4x

Voice cloningAdjustable similarityCross-lingual

ምርጥ ለ:: High-fidelity voice cloning

መሞከር MegaTTS3

የሞዴል ማነጻጸሪያ ሰንጠረዥ

ሞዴል	አዘጋጅ፦	ዐምድ	ፍጥነት	ቋንቋዎች	ቪሬም	ፈቃድ፦	ክሬዲቶች
Kokoro	Hexgrad	Free	Fast	11	1.5GB	Apache 2.0	ነጻ	ጥቅም
Piper	Rhasspy	Free	Fast	31	0 (CPU only)	MIT	ነጻ	ጥቅም
VITS	Jaehyeon Kim et al.	Free	Fast	4	1GB	MIT	ነጻ	ጥቅም
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	ነጻ	ጥቅም
Bark	Suno	Standard	Slow	13	5GB	MIT	2	ጥቅም
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	ጥቅም
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	ጥቅም
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	ጥቅም
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	ጥቅም
GLM-TTS	Zhipu AI	Standard	Medium	2	4GB	GLM-4 License	2	ጥቅም
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	ጥቅም
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	ጥቅም
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	ጥቅም
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	ጥቅም
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	ጥቅም
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	ጥቅም
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	ጥቅም
OpenVoice	MyShell.ai / MIT	Premium	Medium	8	4GB	MIT	4	ጥቅም
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	ጥቅም
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	ጥቅም
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	ጥቅም
Zonos	Zyphra	Standard	Medium	5	6GB	Apache 2.0	2	ጥቅም
Dia 2	Nari Labs	Standard	Fast	1	4GB	Apache 2.0	2	ጥቅም
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	ጥቅም
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	ነጻ	ጥቅም
TADA	Hume AI	Standard	Fast	1	5GB	MIT	2	ጥቅም
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	ጥቅም
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	ነጻ	ጥቅም
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	ነጻ	ጥቅም
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	ጥቅም
MOSS-TTS	OpenMOSS	Premium	Medium	19	16GB	Apache 2.0	4	ጥቅም
MegaTTS3	ByteDance	Premium	Slow	2	8GB	Apache 2.0	4	ጥቅም

በጣም የተሟላ AI ጽሑፍ ወደ ንግግር መድረክ

TTS.aiን ለምን ይምረጡ?

TTS.ai በዓለም ላይ ምርጥ የሆኑትን የግል የጽሑፍ-ወደ-ንግግር ሞዴሎችን በአንድ፣ በቀላሉ ለመጠቀም ቀላል በሆነ መድረክ ላይ ያመጣል ፡፡ በአንድ የድምፅ ማሽን ውስጥ የሚዘጋጁ የግል አገልግሎት ከሌለ፣ TTS.ai ከኮኪ፣ ማይሼል፣ አምፊዮን፣ ኤንቪዲያ፣ ሱኖ፣ ሃጊንግፌስ፣ ቲንግዋ ዩኒቨርሲቲ እና ሌሎችንም ጨምሮ ከሚገኙ ምርምር ላቦራቶሪዎች 20+ ሞዴሎችን ለመድረስ እድል ይሰጣል ፡፡

ሁሉም ሞዴሎች MIT, Apache 2.0 ወይም ተመሳሳይ ፈቃድ ፈቃዶች ስር የክፍል ነው, በፕሮጀክቶችዎ ውስጥ የተፈጠረውን ድምፅ ለመጠቀም ሙሉ የኮሜርሺያል መብቶች እንዳሉዎት ያረጋግጡ. ለነጻ ጊዜ ፕሮግራሞች ወይም ለኦዲዮ መጽሐፍት እና ለፖድካስቶች የፕሪሚየም ስቱዲዮ ጥራት ምርት ፈጣን, ቀላል ስብስብ ያስፈልግዎታል, TTS.ai ለሁሉም የፍተሻ ሁኔታዎች ትክክለኛውን ሞዴል አለው.

ነጻ ሞዴሎች, ምንም መለያ ያስፈልጋል

በሦስት ነፃ TTS ሞዴሎች በፍጥነት ይጀምሩ: Piper (ultra-rapid, lightweight), VITS (high quality neural synthesis), እና MeloTTS (multi-language support). ምንም መመዝገብ የለም, ምንም ክሬዲት ካርድ, በክፍለ ዘመናት ላይ ምንም ገደብ የለም. ነፃ ሞዴሎች እንግሊዝኛ እና ብዙ ሌሎች ቋንቋዎችን ለብዙ ፕሮግራሞች ተስማሚ የሆነ ተፈጥሯዊ-ድምፅ ውጤት ጋር ይደግፋሉ.

ጂፒዩ-አስቸኳይ ሂደት

ሁሉም የቲቲኤስ ሞዴሎች ለፍጥነት፣ ለተመጣጠነ ጊዜዎች በ NVIDIA GPUs ላይ ይሠራሉ። ነፃ ሞዴሎች በ2 ሰከንዶች ውስጥ ድምፅን ያመነጫሉ። እንደ ኮኮሮ፣ ኮሲቮይስ 2 እና ባርክ ያሉ ስታንዳርድ ሞዴሎች በ3-5 ሰከንዶች ውስጥ ይሠራሉ። እንደ ቶርቶይዝ እና ቻተርቦክስ ያሉ ከፍተኛ ጥራት ያላቸው የፕሪሚየም ሞዴሎች በ5-15 ሰከንዶች ውስጥ ይሠራሉ ፣ በጽሑፍ ርዝመት ላይ የተመሠረተ ነው።

ቋንቋዎች

በ30 በላይ ቋንቋዎች አማርኛ፣ ስፓኒሽ፣ ፈረንሳይኛ፣ ጀርመንኛ፣ ጣሊያንኛ፣ ፖርቱጋሊኛ፣ ቻይንኛ፣ ጃፓንኛ፣ ኮሪያኛ፣ ዐረብኛ፣ ሃንዲሽ፣ ሩሲያኛ፣ እና ብዙ ሌሎችን ጨምሮ ንግግርን ያመነጫሉ። ብዙ ሞዴሎች የቋንቋ ልዩነትን ያበረታታሉ፣ ማለትም በቋንቋ ውስጥ ንግግርን ማምረት ይችላሉ። የኮሲቮይሲ 2 እና የጂፒቲ-ሶቪትስ በቋንቋ ልዩነት የድምፅ ክሎኒንግ ላይ ይሻላሉ።

የዲቨሎፐር-ዘጋጅ

TTS.ai በ OpenAI-ተኳሃኝ REST API ጋር በፕሮግራሞችዎ ውስጥ ያካትቱ. ለሁሉም 20+ ሞዴሎች አንድ መጨረሻ. Python, JavaScript, cURL, እና Go SDKs. ለወቅታዊ ፕሮግራሞች የዥረት ድጋፍ. ለከፍተኛ መጠን ያለው ይዘት ማምረት. ለ async ማስታወቂያዎች Webhooks. በፕሮ እና በኢንተርፕራይዝ ዕቅዶች ላይ ይገኛል.

ብዙ ጊዜ የሚጠየቁ ጥያቄዎች

ጽሑፍ ወደ ንግግር (TTS) የተጻፈ ጽሑፍን ወደ ተፈጥሮአዊ የሆነ የተናገረ ድምፅ የሚለውጥ AI ቴክኖሎጂ ነው። እንደ ኮኮሮ፣ ቻተርቦክስ፣ እና ኮሲቮይስ 2 ያሉ ዘመናዊ የኒውራል TTS ሞዴሎች በጥልቀት መማርን ይጠቀማሉ ፣ ይህም በፍጹም ሰው ሆኖ የሚሰማ ንግግርን ፣ በተፈጥሮአዊ ፕሮሶዲ ፣ ስሜት ፣ እና ሪትም ያመነጫል።

ይህ በፍላጎቶችዎ ላይ የተመሠረተ ነው. ለፍጥነት ቅድመ-ዝግጅቶች, Piper ወይም MeloTTS (ነፃ, ፈጣን) ይጠቀሙ. ለከፍተኛ ጥራት, Kokoro ወይም CosyVoice 2 (ስርዓት ደረጃ) ይሞክሩ. ለድምፅ ክሎኒንግ, Chatterbox ወይም GPT-SoVITS (ፕሪሚየም) ይጠቀሙ. ለዳያሎግ/ፖድካስት ይዘት, Dia TTS ይሞክሩ. ሞዴል ሁሉ የተለያዩ ችሎታዎች አሉት - ምርጡን ለመፈለግ ሙከራ.

አዎ! TTS.ai በኮኮሮ፣ በፒፐር፣ በቪቲኤስ እና በሜሎቲቲኤስ ሞዴሎች ነፃ የጽሑፍ-ወደ-ንግግር አገልግሎቶችን ያቀርባል። እስከ 500 ፊደላት እና በሳምንት 3 ትውልዶች ድረስ ምንም መለያ አይጠየቅም። 50 ክሬዲቶችን ለማግኘት እና ሁሉንም ሞዴሎች ለመድረስ ለነፃ መለያ ይመዝገቡ።

የ TTS ሞዴሎችን በጋራ 30+ ቋንቋዎች አማርኛ, ስፓኒሽ, ፈረንሳይኛ, ጀርመን, ጣሊያንኛ, ፖርቱጋልኛ, ቻይንኛ, ጃፓንኛ, ኮሪያኛ, ዐረብኛ, ሩሲያኛ, ሃንዲ, እና ብዙ ሌሎች ጨምሮ ይደግፋሉ. ቋንቋ መኖሩ ሞዴል ይለያያል.

አዎ፣ በTTS.ai የተፈጠረው ድምፅ በኮሜርሺያል ሊጠቀም ይችላል። ሁሉም ሞዴሎቻችን የኦፕን-ሶርስ ውል (MIT, Apache 2.0) ይጠቀማሉ። ለተወሰኑ ሁኔታዎች የእያንዳንዱን ሞዴል ውል ይመልከቱ። ለፕሮጀክቱ የሚጠቀሙበትን የሞዴል ውል ማየትን እንመክራለን።

TTS.ai MP3, WAV, OGG, እና FLAC ውጤት ቅርጸቶች ይደግፋል. MP3 ለዌብ መጫወት የተቀመጠው ነው. WAV ለተጨማሪ ድምፅ ማቀነባበሪያዎች ጠቃሚ ነው. የድምፅ መለወጫችንን በመጠቀም በሁለቱ ቅርጸቶች መካከል መለወጥ ይችላሉ

የድምፅ ክሎኒንግ ከጥቂት የድምፅ ምሳሌ (በተለይም 5-30 ሰከንዶች) የተወሰነውን ድምፅ ለመለወጥ AI ይጠቀማል. የዒላማውን ድምፅ ግልጽ መዝገብ ጫን፣ እና እንደ Chatterbox, GPT-SoVITS, ወይም OpenVoice ያሉ ሞዴሎች በዚህ ድምፅ ውስጥ አዲስ ንግግር ይፈጥራሉ. ጥራቱ በጥሩ፣ ረጅም የመዝገብ ድምፅ ይሻሻላል።

ነጻ ተጠቃሚዎች በአንድ ጥያቄ እስከ 500 አርእስቶች ሊፈጥሩ ይችላሉ። የተመዘገቡ ተጠቃሚዎች በአንድ ጥያቄ እስከ 5,000 አርእስቶች ማግኘት ይችላሉ። ለረጅም ጽሑፎች፣ ድምፅ በጥብቆች ውስጥ ይፈጠራል እና በራሱ በአንድ ላይ ይጣበቃል። API ተጠቃሚዎች በአንድ ጥያቄ እስከ 10,000 አርእስቶች ሊፈጥሩ ይችላሉ።

የSSML (የንግግር ማቀነባበሪያ ቋንቋ) ድጋፍ በሞዴል ይለያያል። ፓይፐር እና ሌሎች ሞዴሎች ለጊዜ ቆይታ፣ ማተኮርና የድምፅ ቁጥጥር የመሰረታዊ የSSML መለያዎችን ይደግፋሉ። ለሞዴሎች ያለ ብሔራዊ የSSML ድጋፍ፣ የቋንቋን ድምፅ ለመለወጥ የቋንቋን ምልክቶች እና የመስመር መጨረሻዎችን መጠቀም ይችላሉ።

አዎ፣ አብዛኛዎቹ ሞዴሎች የፍጥነት ማስተካከያዎችን ከ0.5x እስከ 2.0x ይደግፋሉ፡፡ እንደ ባርክና ፓርለር ያሉ አንዳንድ ሞዴሎችም የፒች እና ስታይል ቁጥጥርን ይደግፋሉ፡፡ የፍጥነት ፓራሜትሮችን በከፍተኛው የማስተካከያ ፓነል ወይም በAPI የፍጥነት ፓራሜትሮችን በመጠቀም ማስተካከል ይችላሉ።

አዎ, የባች ሂደት በAPIችን ውስጥ ይገኛል. በአንድ API ጥሪ ወይም ስክሪፕት ውስጥ ብዙ የጽሑፍ ክፍሎችን ማቅረብ ትችላላችሁ፣ እናም ሁሉም እንደ የተለያየ ድምፅ ፋይል ተሠርቶ ይመለሳል። ይህ ለድምፅ መጽሐፍ ምዕራፎች፣ ለኢ-ማስተማር ሞዱሎች ወይም ለጨዋታ ቃለ ምልልስ ስክሪፕቶች ተስማሚ ነው

ከክሬዲት ካርድዎ ዳሽቦርድ ውስጥ የ API ቁልፍን ይፈጥሩ ፣ ከዚያም የ POST ጥያቄዎችን ወደ REST API መጨረሻዎ ከጽሑፍዎ ፣ ሞዴል እና የድምፅ ፓራሜትሮች ጋር መላክ ይችላሉ ፡፡ በ Python ፣ በጃቫስክሪፕት እና በ cURL ውስጥ የኮድ ምሳሌዎችን እንሰጣለን ፡፡ የ API OpenAI-ተኳሃኝ ነው ፣ ስለሆነም የቀድሞው አንድነት በጥቂት ለውጦች ውስጥ ይሠራል ፡፡

5.0/5 (3)

ጽሑፉን ወደ ንግግር መቀየር

TTS.ai በመጠቀም መቶዎች የሚቆጠሩ ፈጣሪዎች ይቀላቀሉ. አዲስ ሒሳብ ጋር 15,000 ነፃ ፊደላት ማግኘት. ነፃ ሞዴሎች ያለ ምዝገባ ይገኛሉ.

ነጻ ማሳየት

ጽሑፉን ወደ ንግግር ለውጥ

TTS.aiን ወዳጅነት?

ዝርዝሮች

MeloTTS

ለበለጠ ውጤቶች ምክሮች

የፊደል ቅርጽ

AI ጽሑፍ ወደ ንግግር እንዴት እንደሚሰራ

ጽሑፉን አስገባ

የድምፅ ሞዴል ምረጡ

ያውርዱ

ጽሑፉን ወደ ንግግር ይለውጡ

የድምፅ መጽሐፍት

የቪዲዮ ድምፅ

ፖድካስት

ጨዋታ

የኤሌክትሮኒክ መማር

አቅላይነት

የስልክ ስርዓቶች

ማህበራዊ ሚዲያ

ስትሪሚንግ

ማስታወቂያ

ላቲን

ሜዲቴሽን እና ዌልነር

የጽሑፍ-ወደ-ንግግር ሞዴሎች

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

OuteTTS

TADA

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

MOSS-TTS

MegaTTS3

Kokoro

Piper

VITS

MeloTTS

OuteTTS

Pocket TTS

Kitten TTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

GLM-TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

Zonos

Dia 2

VoxCPM

TADA

VibeVoice