የችግር / የችሎታ ጥያቄ አቅርብ

ጽሑፉን ወደ ንግግር ለውጥ

ጽሑፉን ወደ ተፈጥሯዊ-የሚሰማ ንግግር በነጻ-መነሻ AI ሞዴሎች ይለውጡ. ለመጠቀም ነፃ ነው፣ ምንም መለያ የለም

ነጻ

አሁንም በቋንቋህ ላይ የቲቲኤስ ድምፆች የለንም። የራስህን ጨምርልን! ድምፅዎን ይሸጡ

0/500 ፊደላት · ለእያንዳንዱ ትውልድ 5,000 ምዝገባ →

ምዝገባ ፊደል(ሎች)

SSML ዘዴ (የንግግር ማቀነባበሪያ ማሳያ ቋንቋ ለጥሩ ቁጥጥር)

ርዕሱን በSSML መለያዎች ውስጥ ለጥሩ ቁጥጥር ይዞሩት:

<speak><prosody rate="slow">Slow speech</prosody></speak>

ፊደል ሠሌዳው ላይ ያስተካክሉ...

የስነ-ልቦና ምልክቶችን ለማስገባት (የሞዴል ድጋፍ ይለያያል):

የድምፅ መዝገበ ቃላት

የራሱን ተናጋሪ ግለጽ (ቃል = ተናጋሪ):

ፊደል(ሎች) 0

-12 +12

ቅርጸት

ድምፅ

ቋንቋ

የምርጫ ቅርጸት

ፍጥነት 1.0x

0.5x 2.0x

ነጻ ከፒፐር, VITS, MeloTTS ጋር

የእርስዎ የተፈጠረ ድምፅ እዚህ ይታይ. ሞዴል ይምረጡ፣ ጽሑፍ ያስገቡ፣ እና ይፈጥሩ ላይ ጠቅ ያድርጉ

ዝርዝሮች

CosyVoice3

Standard

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

አዘጋጅ፦	Alibaba (FunAudioLLM)
ፈቃድ፦	Apache 2.0
ፍጥነት	Fast
ጥራት፦
ቋንቋዎች	9 ቋንቋዎች
ቪሬም	4GB
የድምፅ ክሎኒንግ	የተደገፈ

ባህሪያት:

Bi-streaming Emotion control Voice cloning Speed/volume control Instruction following

ምርጥ ለ:: Multilingual production TTS, real-time applications, voice cloning

ለበለጠ ውጤቶች ምክሮች

የቋንቋ ምልክቶች
የቁጥሮችን እና የጥቅሶችን አጻጻፍ ለማብራራት
በቃላት መካከል ጥቂት ጊዜ እንዲቆዩ ኮምቦችን ጨምር
ሦስት ነጥቦችን (...) ለረጅም ጊዜ የቆየ ማቆም
የኮኮሮ ወይም የኮሲቮይስ 2ን ለመሞከር ይሞክሩ
Diaን ለብዙ-ተናጋሪ ማውጫ እና ለፖድካስት ይጠቀሙ

የፊደል ቅርጽ

ዐምድ	ፊደል(ሎች)
ነጻ	0 ክሬዲቶች (የማይወሰን)
መደበኛ	ፊደላት
ፕሪሚየም	ፊደላት

ተጨማሪ ፊደላት

AI ጽሑፍ ወደ ንግግር እንዴት እንደሚሰራ

በሦስት ቀላል እርምጃዎች ውስጥ የፕሮፌሽናል ጥራት ያላቸውን ድምፆች ይፈጥሩ። ምንም የቴክኒክ ዕውቀት የለም

ደረጃ 1

ጽሑፉን አስገባ

ወደ ንግግር ለመለወጥ የምትፈልገውን ጽሑፍ ጻፍ፣ አስቀምጥ ወይም አርትዕ። ለተገናኙ ተጠቃሚዎች በአንድ ትውልድ ውስጥ እስከ 5,000 አርእስቶች ድረስ ይደግፋል። ቀላል ጽሑፍን ይጠቀሙ ወይም SSML መለያዎችን ለተሻሻለ ቁጥጥር በንግግር፣ በጭብጥ እና በጥቅል ላይ ጨምሩ።

እርምጃ 2

የድምፅ ሞዴል ምረጡ

ከ 20+ AI ሞዴሎች በሦስት ደረጃዎች ውስጥ ይምረጡ. ይዘትዎን የሚስማማውን ድምፅ ይምረጡ፣ የልኬት ቋንቋዎን ይምረጡ፣ የድምፅ ፍጥነትን ከ 0.5x እስከ 2.0x ይቀይሩ፣ እና የተሻለውን የፍሰት ቅርጸት (MP3, WAV, OGG ወይም FLAC) ይምረጡ።

ደረጃ 3

ያውርዱ

በሁለት ሰከንዶች ውስጥ ድምጹን ማዘጋጀት ላይ ጠቅ ያድርጉ እና ድምጹን በሁለት ሰከንዶች ውስጥ አዘጋጅቷል. በውስጠኛው ተጫዋች ውስጥ ቅድመ ዕይታ፣ በተመረጠው ቅርጸት ውስጥ ያውርዱ፣ ወይም የጋራ ሊሆን የሚችል አገናኝን ቅጂ ያድርጉ። ለባች ሂደት እና ወደ ሥራ ፍሰትዎ ለማካተት API ን ይጠቀሙ።

ጽሑፉን ወደ ንግግር ይለውጡ

በቴክኖሎጂ የተደገፈው የጽሑፍ-ወደ-ንግግር (text-to-speech) ቴክኖሎጂ ሰዎች እንዴት እንደሚፈጥሩ፣ እንደሚጠቀሙና በብዙ ኢንዱስትሪዎች ውስጥ ከድምፅ ይዘት ጋር እንዴት እንደሚገናኙ እየቀየረ ይገኛል።

የድምፅ መጽሐፍት

መጽሐፎችን በሙሉ ወደ ድምፅ መጽሐፍት በስታዲየም ጥራት ያለው መናገር ይለውጡ. ለፊደል አዳራሽ የዲአይአ ድጋፍን በመጠቀም ብዙ-ተናጋሪ ድጋፍ.

የቪዲዮ ድምፅ

ለዩቲዩብ፣ ለቲክቶክ፣ ለኢንስታግራም ሪል እና ለሽርሽርቶች የሙያ ድምጽ ይስጡ። 100+ ድምጾች ወይም የራስዎን ክሎን ያድርጉ።

ፖድካስት

የፖድካስት ክፍሎችን ከስክሪፕቶች ጋር በብዙ AI ድምጾች ይፍጠሩ. Dia ን ለሁለቱም ተናጋሪ ውይይቶች ይጠቀሙ

ጨዋታ

ለኢንዲ ጨዋታዎች፣ ቪዥዋል ኖቬሎች፣ እና ተለዋዋጭ ፊክሽን AI የድምፅ አጫዋች. NPC ውይይት፣ የክስተት ድምጾች፣ 30+ ቋንቋዎች።

የኤሌክትሮኒክ መማር

የኮርስ መሣሪያዎች, አስተምህሮዎች, እና ስልጠና ይዘት ወደ ድምፅ ይለውጡ. ለዓለም አቀፍ መድረኮች የብዙ ቋንቋ ድጋፍ.

አቅላይነት

ድረ ገጾች፣ ሰነዶች፣ እና ፕሮግራሞች ሊደርሱባቸው የሚችሉ እንዲሆኑ ያድርጉ። የስክሪን አንባቢ API አንድነት እና ጽሑፍ-ወደ-ኦዲዮ መለወጥ።

የስልክ ስርዓቶች

ኃይል IVR ስርዓቶች, ስልክ ሜኑዎች, እና የደንበኛ አገልግሎት ጋር ተፈጥሯዊ AI ድምጾች. ዝቅተኛ-Latency ለ ጥሪ ማዕከላት ስርጭት.

ማህበራዊ ሚዲያ

የቲክቶክ ንግግሮች፣ የኢንስታግራም ሪልስ፣ የቱዊተር/ኤክስ አስተያየት፣ የዩቲዩብ አጭር ቪዲዮዎች፣ ነፃ ሞዴሎችን በመጠቀም ፈጣን ማምረት።

ስትሪሚንግ

ቱዊች ቲቲኤስ ማስጠንቀቂያዎች፣ ቻት-ወደ-ድምፅ፣ AI ኮ-አስተናጋጆች፣ እና ዲስኮርድ ቦቶች። ዝቅተኛ latency፣ 100+ ድምጾች፣ StreamElements የሚስማማ።

ማስታወቂያ

Ad voiceovers, ማብራሪያ ቪዲዮዎች, ምርት ዲሞች, እና የሽያጭ ማስተዋወቂያዎች. በተለያዩ ዘመቻዎች የድምፅ ይዘት ምርት ማሳደግ.

ላቲን

ቪዲዮን ወደ 30+ ቋንቋዎች በድምፅ-የተጣጣመ AI ይተረጉሙ እና ይቀይሩ። አውቶማቲክ-ተተረጎም እና ተናጋሪ መፈለግ።

ሜዲቴሽን እና ዌልነር

የቀረቡት ሐሳቦች፣ የልብ ወለዶች፣ የነፍስ አጥቢያዎች፣ እና በደስታ፣ በደስታ AI ድምጾች የተደገፉ ማረጋገጫዎች ናቸው።

ሁሉንም አማራጮች አሳይ

የጽሑፍ-ወደ-ንግግር ሞዴሎች

ለእያንዳንዱ AI ሞዴል በ TTS.ai ላይ የሚገኝ ዝርዝር መግለጫዎች. ጥራት, ፍጥነት, የቋንቋ ድጋፍ, እና ለፕሮጀክቱ ትክክለኛውን ሞዴል ለማግኘት ባህሪያትን ያወዳድሩ.

Kokoro

Free

ኮኮሮ ከክብደቱ ክፍል በላይ የሚቆጠር 82 ሚሊዮን ፓራሜትሮችን የሚይዝ የጽሑፍ-ወደ-ንግግር ሞዴል ነው. በትንሹ መጠንም ቢሆን፣ አስደናቂ የሆነ ተፈጥሯዊና ግልጽ ንግግርን ያወጣል. ኮኮሮ ብዙ ቋንቋዎችን ያጠቃልላል - አማርኛ፣ ጃፓንኛ፣ ቻይንኛ፣ ኮሪያኛ፣ በተለያዩ ግልጽ ድምጾች. በጣም ፈጣን ነው - ከጂፒዩ ላይ ከሚገኝ እውነተኛ ጊዜ ድምፅ 100x ፈጣን ነው.

አዘጋጅ፦:
Hexgrad

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, ja, zh, fr, it, pt, es, hi

ቪሬም:
1.5GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
ነጻ

82M ፐራሜትሮች በጣም ፈጣን ድምጾች ብዙ ቋንቋዎች ስትሪሚንግ

ምርጥ ለ:: ከፍተኛ ጥራት ያለው TTS በጥቂት ጊዜ ውስጥ, የዥረት ፕሮግራሞች

መሞከር Kokoro

Piper

Free

ፒፐር በራሳስፒ የተፈጠረ ቀላል የጽሑፍ-ወደ-ንግግር ማሽን ነው VITS እና ላርኒክስ አርክቴክቸሮችን የሚጠቀም. በሙሉ በሲፒዩ ላይ ይሠራል ፣ ለ Edge መሣሪያዎች ፣ ለቤት አውቶማቲክስ ፣ እና ለኦፍላይን TTS የሚያስፈልጉ ፕሮግራሞች ተስማሚ ያደርገዋል. በ 30+ ቋንቋዎች ውስጥ ከ 100 በላይ ድምጾች ፣ ፒፐር በራስቤሪ ፒ 4 ላይም ቢሆን በፍጥነት ጊዜ ውስጥ ተፈጥሯዊ የሆነ ንግግር ይሰጣል ፡፡

አዘጋጅ፦:
Rhasspy

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ቪሬም:
0 (CPU only)

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
ነጻ

CPU-friendly መስመር ውጭ ድምጾች ቋንቋዎች የSSML ድጋፍ

ምርጥ ለ:: የቅርብ ጊዜ ቅድመ ዕይታዎች፣ አቅላይነት፣ እና የተካተቱ ፕሮግራሞች

መሞከር Piper

VITS

Free

VITS (የማሻሻያ ውጤት ለመጨረሻው-ወደ-መጨረሻው ጽሑፍ-ወደ-ንግግር ለመማር) ከቀድሞው ሁለት-ደረጃ ሞዴሎች የበለጠ ተፈጥሯዊ የሆነ ድምፅ የሚያመነጭ የመጨረሻ-ወደ-መጨረሻ TTS ዘዴ ነው. በነፃነት ውስጥ ትልቅ ማሻሻያ የሚያገኝ በሆነ የቀድሞው-ወደ-መጨረሻው ቴክኖሎጂ የተሻሻለ የመጨረሻ-ወደ-መጨረሻ TTS ዘዴ ነው.

አዘጋጅ፦:
Jaehyeon Kim et al.

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

ቪሬም:
1GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
ነጻ

መጨረሻ-ወደ-መጨረሻ ማቀነባበሪያ የቋንቋ ችሎታ የፍጥነት ማጣቀሻ ብዙ ተናጋሪዎች

ምርጥ ለ:: የቀን መቁጠሪያ አሳይ

መሞከር VITS

MeloTTS

Free

MeloTTS በ MyShell.ai የተሰራ የብዙ ቋንቋዎች TTS መዝገብ ቤት ነው እንግሊዝኛ (አሜሪካዊ፣ ብሪታኒያዊ፣ የህንድ፣ የአውስትራሊያ), ስፓኒሽ, ፈረንሳይኛ, ቻይንኛ, ጃፓንኛ, እና ኮሪያኛ. በጣም ፈጣን ነው, ጽሑፍን በቅርብ ጊዜ ፍጥነት በ CPU ብቻ ላይ ይሠራል. MeloTTS ለምርት ጥቅም የተሰራ ነው እና CPU እና GPU ግምትን ይደግፋል.

አዘጋጅ፦:
MyShell.ai

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, es, fr, zh, ja, ko

ቪሬም:
0.5GB (GPU optional)

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
ነጻ

CPU-የተሻሻለ ብዙ ቋንቋዎች ብዙ አንቀጾች ምርት-ዘጋጅ ዝቅተኛ

ምርጥ ለ:: ምርት ፕሮግራሞች ፈጣን, ብዙ ቋንቋዎች TTS ያስፈልጋሉ

መሞከር MeloTTS

Bark

Standard

ባርክ በሱኖ የተመሠረተ ፅሁፍ-ወደ-ድምፅ ሞዴል ነው ይህም በጣም እውነተኛ፣ ብዙ ቋንቋዎች ያሉት ንግግርን እንዲሁም ሌሎች ድምፆችን እንደ ሙዚቃ፣ የኋላ ድምፅ፣ እና የድምፅ ውጤቶች ሊፈጥር ይችላል። እንደ መቅለጥ፣ መጮህ እና መጮህ ያሉ ያልሆኑ ግንኙነቶችን ሊፈጥር ይችላል። ባርክ ከ 100 በላይ የንግግር ቀደምት አማራጮችን እና 13+ ቋንቋዎችን ይደግፋል።

አዘጋጅ፦:
Suno

ፈቃድ፦:
MIT

ፍጥነት:
Slow

ጥራት፦:

ቋንቋዎች:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ቪሬም:
5GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

የድምፅ ውጤቶች የሚስቅ/የሚጨነቅ የሙዚቃ ምርጫዎች ተናጋሪ ብዙ ቋንቋዎች

ምርጥ ለ:: ፈጣሪ የድምፅ ይዘት, የድምፅ መጽሐፍት ጋር ስሜት, የድምፅ ውጤቶች

መሞከር Bark

Bark Small

Standard

ባርክ ስማርት የባርክ ሞዴል የተቀላቀለ ስሪት ሲሆን የድምፅ ጥራት ለከፍተኛ ፍጥነት እና ዝቅተኛ የማስታወሻ ፍላጎቶች ይለዋወጣል. በፍላጎቶች፣ በቁጭት እና በብዙ ቋንቋዎች ንግግርን ለማምረት የባርክን ችሎታ ያቆማል

አዘጋጅ፦:
Suno

ፈቃድ፦:
MIT

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

ቪሬም:
2GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

ቀላል ከሙሉ በርክ ይልቅ ፈጣን ስሜታዊ ንግግር ብዙ ቋንቋዎች

ምርጥ ለ:: የሙሉው በርክ በጣም ዝቅተኛ በሆነ ጊዜ ፈጣን የፈጠራ ድምፅ

መሞከር Bark Small

CosyVoice 2

Standard

የኮሲቮይስ 2 በአሊባባ ቶንግይ ላብ በከፍተኛ ዝቅተኛ ላቴንሲ የሰው-አነጋገር ጥራት ያገኛል፣ ለወቅታዊ ፕሮግራሞች ተስማሚ ያደርገዋል። ለቀጥታ ስብስብ የመጨረሻ ስካላር ኩዌንቲንግ ዘዴን ይጠቀማል እናም zero-shot የድምፅ ክሎኒንግን ይደግፋል፣ cross-lingual ስብስብ፣ እና fine-grained ስሜት ቁጥጥር። በግለሰባዊ አቀራረቦች ውስጥ ብዙ የቢዝነስ TTS ስርዓቶችን ይበልጥ ያከናውናል ፡፡

አዘጋጅ፦:
Alibaba (Tongyi Lab)

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko, fr, de, it, es

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

ስትሪሚንግ ሺል-ሾት ክሎኒንግ ቋንቋ፦ (_L) ስሜት መቆጣጠር የሰው-አስተሳሰብ

ምርጥ ለ:: የጊዜ-እውነተኛ ፕሮግራሞች, የድምፅ ረዳቶች

መሞከር CosyVoice 2

Dia TTS

Standard

ዲያ በናሪ ላብስ የተሰራ 1.6 ቢ ፓራሜትር ጽሑፍ-ወደ-ንግግር ሞዴል ነው በብዙ-ተናጋሪ ውይይት ለማምረት የተሰራ። በሁለት ተናጋሪዎች መካከል ተገቢውን ዙር-መውሰድ፣ ፕሮሶዲ እና ስሜታዊ መግለጫዎች ጋር ተፈጥሯዊ-የሚሰማ ውይይት ማምረት ይችላል። ዲያ ለፖድካስት-style ይዘት፣ የኦዲዮ መጽሐፍ ውይይቶች እና ተለዋዋጭ የንግግር AI ለመፍጠር ተስማሚ ነው ፡፡

አዘጋጅ፦:
Nari Labs

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

ብዙ-ተናጋሪ የመደቡን ብዛት ቀጥ አድርግ የስነልቦና መግለጫ 1.6B ፐራሜትሮች

ምርጥ ለ:: የፖድካስት ፋይሎች፣ የድምፅ መጽሐፍ ቃለ ምልልስ፣ የንግግር ይዘት

መሞከር Dia TTS

Parler TTS

Standard

ፓርለር TTS የተፈጠረውን ንግግር ለመቆጣጠር የቋንቋን የድምፅ መግለጫዎች የሚጠቀም የጽሑፍ-ወደ-ንግግር ሞዴል ነው። ከቀድሞ የተቀመጡ ድምጾች ይልቅ፣ የሚፈልጉትን ድምፅ (ለምሳሌ፣ "በጥቂት ብሪታኒያዊ አሻራ ያለው ሙቅ የሴት ድምፅ፣ በዝግታና በግልጽ የሚናገረው") ይተዉት። ፓርለርም ይህን መግለጫ የሚስማማ ንግግር ይፈጥራል። ይህ ለፈጠራ ፕሮግራሞች ልዩ የሆነ መለዋወጫን ያቀርባል።

አዘጋጅ፦:
Hugging Face

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

የድምፅ መግለጫ የቋንቋ ቁጥጥር የድምፅ መፍጠር የቀድሞው ድምፅ

ምርጥ ለ:: የድምፅ ባህሪያትን የሚፈልጉበት የፈጠራ ፕሮግራሞች

መሞከር Parler TTS

IndexTTS-2

Standard

IndexTTS-2 በዝቅተኛ-አደጋ የድምፅ ማቀነባበሪያ እና በጥሩ-ግሬን ፍላጎት መቆጣጠሪያ የተሻሻለ ጽሑፍ-ወደ-ንግግር ስርዓት ነው. እንደ ደስተኛ, አሳዛኝ, የተሰቃየ ወይም የተፈራ ፍላጎት-ተኮር የጥናት መረጃ ሳይያስፈልግ በግልጽ ፍላጎት ያላቸውን ድምፆች በመፍጠር ንግግርን ማምጣት ይችላል። ሞዴሉ የፈጠረውን ንግግርን ፍላጎት ለመቆጣጠር ፍላጎት ቬክተሮችን ይጠቀማል ፡፡

አዘጋጅ፦:
Index Team

ፈቃድ፦:
Bilibili Model License

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

ፍላጎት ሺል-ሾት ቪክቶሮች አቀማመጥ መቆጣጠሪያ

ምርጥ ለ:: ሐሳብን በነጻነት የመግለጽ አጠቃላይ ይዘት፣ የድምፅ መጽሐፍት፣ ቪርቱያል ረዳቶች

መሞከር IndexTTS-2

Spark TTS

Standard

ስፓርክ TTS በ ስፓርክኦዲዮ የተሠራ የጽሑፍ-ወደ-ንግግር ሞዴል ሲሆን የድምፅ ክሎኒንግን ከሚቆጣጠሩ ስሜቶች እና የመናገር ዘይቤ ጋር ያገናኛል። በ5 ሰከንዶች ብቻ የመዝገበ ቃላት ድምፅን በመጠቀም፣ ድምፅን ክሎኒንግ ማድረግ እና ከዚያ በተለያዩ ስሜቶች፣ ፍጥነቶች እና ስሞች ንግግርን መፍጠር ይችላል። የክሎኒንግ የድምፅ ማንነት ሲጠበቅ። ስፓርክ TTS በፕሮም-ተኮር የቁጥጥር ስርዓትን ይጠቀማል።

አዘጋጅ፦:
SparkAudio

ፈቃድ፦:
CC BY-NC-SA 4.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

የድምፅ ቅጂ ስሜት መቆጣጠር የቅርጽ ምርጫዎች የፕሮምፕ-መሠረት 5 ሰከንዶች

ምርጥ ለ:: ይዘት መፍጠር የድምፅ ክሎኖች እና ስሜታዊ ቁጥጥር

መሞከር Spark TTS

GPT-SoVITS

Standard

GPT-SoVITS GPT-style ቋንቋ ሞዴል ከ SoVITS (የሚጫወቱ ድምፅ Inference በቃል ትርጉም እና ስብስብ) ለኃይል ጥቂት-ሽት የድምፅ ክሎኒንግ ያገናኛል. እንደ 5 ሰከንዶች ብቻ የመዝገብ ቤት ድምፅ, ይህ ትክክለኛነት ድምፅ ክሎኒንግ እና የተናጋሪው የተለየ ባህሪያት ሲጠብቅ አዲስ ንግግር ማምረት ይችላል. ይህ በሁለቱም መናገር እና የሚጫወቱ ድምፅ ስብስብ ላይ ያተኩራል.

አዘጋጅ፦:
RVC-Boss

ፈቃድ፦:
MIT

ፍጥነት:
Slow

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko

ቪሬም:
6GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

5 ሰከንዶች የድምፅ ድምፅ ጥቂት-አስማት መማር ከፍተኛ ቋንቋ

ምርጥ ለ:: የድምፅ ክሎኒንግ, የመዝሙር ሰንሰለት፣ የውስጥ ደራሲ የድምፅ ቅጂ

መሞከር GPT-SoVITS

Orpheus

Standard

ኦርፊየስ የሰው ደረጃ ስሜታዊ መግለጫን የሚያገኝ ትልቅ መጠን ያለው ጽሑፍ-ወደ-ንግግር ሞዴል ነው. በ 100,000 ሰዓታት በላይ በተለያዩ የንግግር መረጃዎች ላይ የተጠናቀቀ፣ በተፈጥሮ ስሜታዊ መግለጫዎች፣ አጽንዖት እና የመናገር ዘይቤዎች ንግግርን በመፍጠር ላይ ያገለግላል. ኦርፊየስ ከሰው መዝገቦች የማይለይ ንግግርን ማምረት ይችላል።

አዘጋጅ፦:
Canopy Labs

ፈቃድ፦:
Llama 3.2 Community

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

የሰው ደረጃ ስሜት ሰዓት አቀማመጥ አቀማመጥ

ምርጥ ለ:: ከፍተኛ ጥራት ያለው ስሜታዊ ንግግር፣ የድምፅ መጽሐፍት፣ የድምፅ አጫዋች

መሞከር Orpheus

Chatterbox

Premium

የሻተርቦክስ መተግበሪያ በResemble AI የተገነባ የመጨረሻው የድምፅ ክሎኒንግ ሞዴል ነው። ከአንድ የድምፅ ምሳሌ ጋር በጥሩ ጥራት ማንኛውንም ድምፅ ሊመልስ ይችላል፣ የድምፅ ድምፅ ብቻ ሳይሆን የንግግር ዘይቤ እና የስነ-ልቦና ቅንጣቶችንም ይይዛል። ሻተርቦክስ ደግሞ የፍጥነት-ግሬን የስነ-ልቦና ቁጥጥርን ያቀርባል፣ የቀረበውን ንግግር የስነ-ልቦና ድምፅ ከድምፅ ማንነት ነፃ በሆነ መንገድ ለመቀየር ያስችልዎታል።

አዘጋጅ፦:
Resemble AI

ፈቃድ፦:
MIT

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
4x

0-shot ክሎኒንግ ፍላጎት ከፍተኛ የቅርጽ ዓይነት አንድ ቅጂ

ምርጥ ለ:: የሙያ የድምፅ ክሎኒንግ ሐሳብን በራስ የመወሰን፣ የውስጥ መፍጠር

መሞከር Chatterbox

Tortoise TTS

Premium

ቶርቶይ TTS በፍጥነት ላይ የድምፅ ጥራት ላይ ትኩረት የሚያደርግ የራስ-መለወጫ የብዙ-ድምፅ ጽሑፍ-ወደ-ንግግር ስርዓት ነው. DALL-E-የተጠበቀውን አርክቴክቸር በመጠቀም በጣም ተፈጥሯዊ ንግግርን በጥሩ ፕሮሶዲ እና በተናጋሪ ተመሳሳይነት ያመነጫል። ከብዙ አማራጮች ይበልጥ ዝቅተኛ ቢሆንም ቶርቶይ በነጻ ምንጭ ኢኮሲስተም ውስጥ የተገኘውን በጣም እውነተኛ የተቀናጀ ንግግር ያመነጫል።

አዘጋጅ፦:
James Betker

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Slow

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
8GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
4x

ከፍተኛ ጥራት ብዙ-ድምፅ DALL-E አርክቴክቸር የድምፅ ቅጂ በራሱ

ምርጥ ለ:: የድምፅ መጽሐፍት፣ የፕሪሚየም ይዘት፣ ጥራት ያላቸው ፕሮግራሞች

መሞከር Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 የሰው ደረጃ TTS ማቀነባበሪያን በከፍተኛ የንግግር ቋንቋ ሞዴሎችን በመጠቀም የቋንቋ ልዩነትን እና የቋንቋ ልዩነትን በማቀናጀት ያሳያል. በአንድ-ተናጋሪ ሞዴሎች መካከል በጣም ተፈጥሯዊ የሆነውን ንግግር ያመነጫል ፣ የሰው መዝገቦችን የሚወዳደር። StyleTTS 2 የሰው ንግግር ልዩነትን ለመያዝ የቋንቋ ልዩነትን በመጠቀም የቋንቋ ልዩነትን ያመነጫል ፡፡

አዘጋጅ፦:
Columbia University

ፈቃድ፦:
MIT

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
4x

የሰው ደረጃ የሥልጠና ርዕስ መተላለፊያ የተለመደው ለውጥ ከፍተኛ

ምርጥ ለ:: ስቱዲዮ-ጥራት አንድ-ተናጋሪ ማቀነባበር, ሙያተኞች መናገር

መሞከር StyleTTS 2

OpenVoice

Premium

OpenVoice በ MyShell.ai በድምፅ ስሜት, ስሜት, አነጋገር, ሪትም, መቆም, እና intonation ላይ granular ቁጥጥር ጋር ቀጥተኛ የድምፅ ክሎኒንግ ያስችላል. ይህ ከጥቂት የድምፅ ክሊፕ አንድ ድምፅ ክሎኒንግ እና በብዙ ቋንቋዎች ንግግር በማምጣት ተናጋሪው ማንነት ሲጠብቅ ይችላል. OpenVoice እንደ ድምፅ ተቀባይም ሆኖ ይሠራል, የጊዜ-እውነተኛ የድምፅ ለውጥ ያስችላል.

አዘጋጅ፦:
MyShell.ai / MIT

ፈቃድ፦:
MIT

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko, fr, es

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
4x

ቀጥተኛ ክሎኒንግ የድምፅ መለወጫ ፍላጎት የፊደል ቅርጽ ቁጥጥር ብዙ ቋንቋዎች

ምርጥ ለ:: የድምፅ ክሎኒንግ በጥሩ-ግሬን ቅርፅ ቁጥጥር፣ የድምፅ ለውጥ

መሞከር OpenVoice

Qwen3 TTS

Standard

Qwen3-TTS ከአሊባባ የQwen ቡድን የመጣ 1.7 ቢሊዮን ፓራሜትር ያለው የጽሑፍ-ወደ-ንግግር ሞዴል ነው። ሦስት አማራጮችን ይደግፋል፡- ከስሜት መቆጣጠሪያ ጋር የተቀመጡ ድምጾች (9 ተናጋሪዎች)፣ ከ3 ሰከንዶች ድምፅ ብቻ የድምፅ ክሎኒንግ፣ እና በነፃ ቋንቋ የምትፈልጉትን ድምፅ የምትገልጹበት የድምፅ ዲዛይን አማራጭ። 10 ቋንቋዎችን በከፍተኛ ግልጽነት እና በነፃ ቋንቋ ይሸፍናል።

አዘጋጅ፦:
Alibaba (Qwen)

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko, de, fr, ru, pt, es, it

ቪሬም:
7GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

የድምፅ ቅጂ ድምጾች የድምፅ ዲዛይን ከጽሑፍ ፍላጎት

ምርጥ ለ:: የብዙ ቋንቋ ይዘት የድምፅ ክሎኒንግ ወይም የራሱ የድምፅ ዲዛይን

መሞከር Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) የ 1 ቢሊዮን ፓራሜትር ሞዴል ነው የተቀናጀ ንግግር ለመፍጠር የተቀናጀ ነው. የሰው ንግግር ተፈጥሯዊ ንድፎችን ይቀላቅላል ዙር-መውሰድ ጊዜ, backchannel መልሶች, ስሜታዊ ምላሾች, እና ንግግር ፍሰት. CSM የተቀናጀ ንግግር ይልቅ እንደ ተፈጥሯዊ ሰው ንግግር የሚሰማውን ድምፅ ይፈጥራል.

አዘጋጅ፦:
Sesame

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Slow

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
8GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
4x

ቻይንኛ የተለመደው ሰዓት ዙር የቀድሞው ጣቢያ 1B ፐራሜትሮች

ምርጥ ለ:: AI ረዳቶች, ቻትቦቶች, የንግግር AI ፕሮግራሞች

መሞከር Sesame CSM

Chatterbox Turbo

Standard

የቻተርቦክስ ቱርቦ በ Resemble AI ወደ ቻተርቦክስ 350M ፓራሜትር ማሻሻያ ነው, እስከ 6x እውነተኛ ጊዜ ፍጥነት ጋር 200 ሚሊ ሴኮንድ latency ጋር ይሰጣል. እንደ [ስሜት], [ኮክ], እና [አፍንጫ] በቀጥታ በጽሑፍ ውስጥ paralinguistic መለያዎችን ይደግፋል. ለ provenance መከተል ለማንኛውም የተፈጠረ ድምፅ ላይ Perth ውሃ ምልክት ያካትታል.

አዘጋጅ፦:
Resemble AI

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
2GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

200ms ታች የቋንቋ ምልክቶች 6x እውነተኛ ጊዜ የድምፅ ቅጂ የዋሽንግተን

ምርጥ ለ:: የድምፅ አጋሮችን በወቅቱ ያስተላልፉ፣ በነፃ ድምፆች ላይ የተመሠረተ ንግግር

መሞከር Chatterbox Turbo

VoxCPM

Standard

VoxCPM 1.5 በ OpenBMB የተሰራ አዲስ የቶኬን-ነጻ የቲቲኤስ ሞዴል ነው በቀጥታ ቦታ ላይ የሚሠራ ሳይሆን ልዩ ልዩ ቶኬኖች. ይህ ከፍተኛ-ፍጹም 44.1kHz ድምፅ ያወጣል, ከ 3-10 ሰከንዶች ጀምሮ zero-shot የድምፅ ክሎኒንግ ይደግፋል, እና በፓራግራፎች መካከል ተመሳሳይነት ይይዛል. Cross-language ክሎኒንግ ቻይንኛ ንግግር ላይ እንግሊዝኛ ድምፅ እና vice versa ሊጠቀሙበት ያስችልዎታል.

አዘጋጅ፦:
OpenBMB

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

ድምፅ ቶኬኒዘር-ነጻ ቋንቋ፦ የቀን መቁጠሪያ አሳይ LoRA ጥሩ-መቆጣጠር

ምርጥ ለ:: ከፍተኛ-ፍጹም ድምፅ, ድምፅ መጽሐፍት, ረጅም-ቅርጽ ይዘት የድምፅ ተመሳሳይነት

መሞከር VoxCPM

Kani TTS 2

Free

Kani-TTS-2 by NineNineSix በነዳጅ AI LFM2 backbone ላይ የተገነባ የ 400M ፓራሜትር ሞዴል ነው NVIDIA NanoCodec. በ 3GB VRAM ብቻ ይሠራል እና በ A100 (RTF 0.2) ላይ በ ~ 2 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶች ውስጥ ~ 10 ሰከንዶ

አዘጋጅ፦:
NineNineSix

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
3GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
ነጻ

3GB VRAM በጣም ፈጣን ቀላል ኮዴክ ነጻ

ምርጥ ለ:: የፍጥነት እንግሊዝኛ መፍጠር በትንሽ-VRAM ሃርድዌር ላይ, ፈጣን ቅድመ ዕይታዎች

መሞከር Kani TTS 2

OuteTTS

Free

OuteTTS ትልቅ ቋንቋ ሞዴሎች ጋር ጽሑፍ-ወደ-ንግግር ችሎታዎችን በመጀመሪያው አርክቴክቸር ሲጠብቅ ይጨምራል. ይህ llama.cpp (CPU / GPU), Hugging ፊት ትራንስፎርሜሽን, ExLlamaV2, VLLM, እና ይልቅ ብራውዘር በ Transformers.js በመጠቀም ውጤት ጨምሮ ብዙ backends ይደግፋል. ባህሪያት zero-shot የድምፅ ክሎኒንግ እንደ JSON የተጠበቀ ተናጋሪ ፕሮፊሎች በመጠቀም.

አዘጋጅ፦:
OuteAI

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
2GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
ነጻ

CPU መተላለፊያ የባሕርይ መቃኘት የድምፅ ቅጂ ብዙ ባንዶች የድምፅ ፕሮፊል

ምርጥ ለ:: የ Edge ማሰራጨት, የድር አሳሽ ላይ የተመሠረተ TTS, ዝቅተኛ-መዳረሻ አካባቢዎች

መሞከር OuteTTS

VibeVoice

Standard

ቪብቮይች በማይክሮሶፍት በሁለት ዓይነት ይመጣል: ለረጅም-ቅርጽ ይዘት (90 ደቂቃዎች, 4 ተናጋሪዎች) 1.5B ሞዴል እና ለ ~ 200ms የመጀመሪያው ድምፅ latency ጋር 0.5B ሞዴል. 1.5B ልዩነት በፖድካስት እና ድምፅ መጽሐፍት ላይ ረጅም passages ላይ ተናጋሪ konzistency ጋር ይሻላል. ማስታወሻ: ማይክሮሶፍት TTS ኮድ ከ መዝገብ ቤት ያስወገዱ እና የተፈጠረው ድምፅ ጆሮአዊ AI disclaimers ያካትታል.

አዘጋጅ፦:
Microsoft

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
2x

ብዙ-ተናጋሪ እስከ 90 ደቂቃዎች የፖድካስት መፍጠር የድምፅ አሰጣጥ 200 ሚሊ ሴኮንድ

ምርጥ ለ:: ፖድካስቶች፣ የድምፅ መጽሐፍት፣ ረዥም-ቅርጽ የብዙ-ተናጋሪ ይዘት

መሞከር VibeVoice

Pocket TTS

Free

Pocket TTS በኩዩታይ (የሞሺ ፈጣሪዎች) የተሰራው ከክብደቱ በላይ የሚቆረጥ የ100 ሜጋባት የጽሑፍ-ወደ-ንግግር ሞዴል ነው። በሲፒዩ ላይ በጥሩ ሁኔታ ይሠራል፣ ከአንድ ድምፅ ምሳሌ ጀምሮ የድምፅ ክሎኒንግን ይደግፋል፣ እናም ተፈጥሯዊ የሆነ ንግግርን ያወጣል። የቀን መቁጠሪያው ትንሽ መጠን ለ Edge ማሰራጨት እና ለጥቂት የኃይል ምንጮች አካባቢዎች ተስማሚ ያደርገዋል ፡፡

አዘጋጅ፦:
Kyutai

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, fr

ቪሬም:
1GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
ነጻ

100M ፐራሜትሮች CPU መተላለፊያ የድምፅ ቅጂ አንድ-ምሳሌ ክሎኒንግ ጫፍ-ዘጋጅ

ምርጥ ለ:: ቀላል ማሰራጨት, CPU- ብቻ አካባቢዎች, ፈጣን የድምፅ ክሎኒንግ

መሞከር Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML on ONNX built an ultra-lightweight text-to-speech model. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

አዘጋጅ፦:
KittenML

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en

ቪሬም:
0GB

የድምፅ ክሎኒንግ:
አይሆንም

ፊደል(ሎች):
ነጻ

CPU- ብቻ ከ80MB በታች የሞዴል መጠን ድምጾች የፍጥነት ቁጥጥር ONNX-መሠረት 24kHz ውጤት

ምርጥ ለ:: ፈጣን ቀላል TTS, ዳርቻ መዘርጋት, ዝቅተኛ-Latency ፕሮግራሞች

መሞከር Kitten TTS

CosyVoice3

Standard

CosyVoice3 ከ Alibaba's FunAudioLLM ቡድን የቅርብ ጊዜው እድገት ነው. ~ 150ms latency, ለ ስሜት / ፍጥነት / መጠን መመሪያ ላይ የተመሠረተ ቁጥጥር, እና ለ zero-shot ክሎኒንግ የተሻሻለ ተናጋሪ ተመሳሳይነት ጋር bi-streaming ውጤት አለው. 9 ቋንቋዎች ተጨማሪ 18 ቻይንኛ dialects. RL-tuned ልዩነት state-of-the-art prosody ይሰጣል.

አዘጋጅ፦:
Alibaba (FunAudioLLM)

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko, de, es, fr, it, ru

ቪሬም:
4GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

ብልጭታ ፍላጎት የድምፅ ቅጂ የፍጥነት/ድምፅ መጠን መቆጣጠሪያ መመሪያ

ምርጥ ለ:: የብዙ ቋንቋ ምርት TTS, የወቅቱ ፕሮግራሞች, የድምፅ ክሎኒንግ

መሞከር CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS የResemble AI's ChatterboxMultilingual የሳዑዲ አረቢያ TTS ነው. በ NAMAA Space በታዋቂው የሳዑዲ አረቢያ ተናጋሪ ንግግር ላይ የተሠራ ሲሆን፣ የቀድሞውን የቀድሞውን የሳዑዲ አረቢያን እና የሳዑዲ አረቢያን የንግግር ተናጋሪ ንግግር ያመነጫል። የ Chatterbox's zero-shot voice cloning እና emotional control በሪፌሬሽን ኦዲዮ ፕሮምቶች ይወርሳል። የመጀመሪያው የከፈተ-ክብደት ዐረብኛ TTS በTTS.ai ላይ ተዘዋውሯል።

አዘጋጅ፦:
NAMAA Space

ፈቃድ፦:
MIT

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
ar

ቪሬም:
6GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

ሳዑዲኛ የዘመናዊ ዐረብኛ የድምፅ ክሎኒንግ ፍላጎት የቋንቋ መግለጫ

ምርጥ ለ:: ሱዳን ለሚገኙ ዐረብኛ ተናጋሪዎች፣ የኤምኤስኤ መዝገበ ቃላት፣ የሐሊጂ ቋንቋ ተናጋሪዎች፣ ዐረብኛ የድምፅ መጽሐፍት

መሞከር NAMAA Saudi TTS

Darwin TTS

Standard

Darwin-TTS-1.7B-Cross by FINAL-Bench የQwen3-TTS-1.7B የምርምር ልዩነት ነው 84 talker-FFN tensors (8.6%) ከ Qwen3-1.7B-Base ጋር የሚስማማ tensors ጋር α=3% ውስጥ የተቀላቀሉ ናቸው. ቅልቅል ያለ ማስተካከል የተገነባ እና በኮሪያ፣ አማርኛ፣ ጃፓንኛ እና ቻይንኛ መካከል ግልጽ የሆነ የቋንቋ-አልባ የድምፅ ክሎኒንግ ያመጣል. በዝቅተኛ-አስማት የድምፅ ክሎኒንግ ዘዴ (3 ሰከንዶች ሪፌሬንስ ኦዲዮ) ውስጥ ይሠራል.

አዘጋጅ፦:
FINAL-Bench

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, ko, ja, zh

ቪሬም:
7GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

የድምፅ ቅጂ ቋንቋ ፋይል (_F) ቋንቋዎች የQwen3 ኋላፊ

ምርጥ ለ:: በተለያዩ ቋንቋዎች መካከል የድምፅ ክሎኒንግ አማርኛ / ኮሪያኛ / ጃፓንኛ / ቻይንኛ አንድ መዝገብ ቤት ድምፅ

መሞከር Darwin TTS

MOSS-TTSD

Standard

MOSS-TTSD v1.0 ከ OpenMOSS 7B ውይይት ጽሑፍ-ወደ-ንግግር ሞዴል ነው ከጥቂት ድምፅ ፕሮምፕ ውይይቶችን ይቀጥላል. እስከ 5 በአንድ ጊዜ ተናጋሪዎች በ [S1] / [S2] መለያዎች, zero-shot የድምፅ ክሎኒንግ ከ 3-10s መዝገብ ድምፅ, እና እስከ 60 ደቂቃዎች በ 20 ቋንቋዎች ውስጥ የኮሄንጀን multi-turn ውይይት ይደግፋል. ከ MOSS-TTS የተለየ - TTSD ለ podcast / audiobook / dubbing ሥራ ፍሰቶች የተሰማራ ነው.

አዘጋጅ፦:
OpenMOSS

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
12GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
2x

የብዙ-ተናጋሪ ማያያዣ እስከ 5 ተናጋሪዎች 60min ተከታታይ ድምፅ የድምፅ ቅጂ የፖድካስት ምርጫዎች

ምርጥ ለ:: ፖድካስቶች፣ የድምፅ መጽሐፍት፣ የተዘጋጁ ቃለ ምልልስ፣ በብዙ ድምጾች የተወያዩ ይዘቶች

መሞከር MOSS-TTSD

Ming-Omni TTS

Free

ሜንግ-Omni-tts-0.5B በ inclusionAI አንድ ከባድ Omni-modal ንግግር ሞዴል ነው በ BailingMM ጠንካራ backbone ላይ የተገነባ አንድ Patch-በ-Patch ፍሰት-ማጣጣም ድምፅ decoder ጋር. 44.1kHz ምርት (CD ጥራት ቅርብ) ይሰጣል, ከ 3 + ሴኮንድ ማመልከት zero-shot የድምፅ ክሎኒንግ ይደግፋል, እና በ JSON መመሪያዎች በኩል የተገነባው ስሜት / ተናጋሪ / BGM ቁጥጥር ያካትታል. ምርጥ መረጋጋት - 0.83% WER በቻይናኛ ባንኮች ላይ.

አዘጋጅ፦:
inclusionAI

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, zh

ቪሬም:
3GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
ነጻ

44.1kHz ውጤት የድምፅ ቅጂ ፍላጎት የቋንቋ መቆጣጠሪያ የBGM ፍጥነት ቅርበት 0.5B

ምርጥ ለ:: የሁለት ቋንቋዎች መናገር፣ ስሜት የሚቆጣጠረው የድምፅ አጫዋች፣ የቻይና የድምፅ መጽሐፍ ይዘት

መሞከር Ming-Omni TTS

MOSS-TTS Nano

Free

MOSS-TTS-Nano-100M is OpenMOSS's compact 100M-parameter variant of the MOSS-TTS family, sharing the delay-transformer architecture. Trades the 8B model's peak quality for ~80x smaller weights and dramatically lower per-request VRAM, making it suitable for free-tier and high-throughput deployments. Same 20-language reach.

አዘጋጅ፦:
OpenMOSS

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, zh, de, es, fr, ja, it, ko, ru, ar, pt

ቪሬም:
2GB

የድምፅ ክሎኒንግ:
አዎ

ፊደል(ሎች):
ነጻ

Compact 100M Fast inference Multilingual Voice cloning Same MOSS family

ምርጥ ለ:: Free-tier TTS, high-volume production, low-latency interactive use

መሞከር MOSS-TTS Nano

Kokoro

ነጻ

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

አዘጋጅ፦:
Hexgrad

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች: en, ja, zh, fr, it, pt, es, hi

ምርጥ ለ:: High-quality TTS with minimal latency, streaming applications

ነጻ ይሞክሩ

Piper

ነጻ

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

አዘጋጅ፦:
Rhasspy

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

ምርጥ ለ:: Quick previews, accessibility, and embedded applications

ነጻ ይሞክሩ

VITS

ነጻ

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

አዘጋጅ፦:
Jaehyeon Kim et al.

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች: en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

ምርጥ ለ:: General-purpose text-to-speech with natural prosody

ነጻ ይሞክሩ

MeloTTS

ነጻ

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

አዘጋጅ፦:
MyShell.ai

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች: en, es, fr, zh, ja, ko

ምርጥ ለ:: Production applications needing fast, multilingual TTS

ነጻ ይሞክሩ

Kani TTS 2

ነጻ

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

አዘጋጅ፦:
NineNineSix

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች: en

ምርጥ ለ:: Fast English generation on low-VRAM hardware, quick previews

ነጻ ይሞክሩ

OuteTTS

ነጻ

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

አዘጋጅ፦:
OuteAI

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች: en

ምርጥ ለ:: Edge deployment, browser-based TTS, low-resource environments

ነጻ ይሞክሩ

Pocket TTS

ነጻ

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

አዘጋጅ፦:
Kyutai

ፈቃድ፦:
MIT

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች: en, fr

ምርጥ ለ:: Lightweight deployment, CPU-only environments, quick voice cloning

ነጻ ይሞክሩ

Kitten TTS

ነጻ

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

አዘጋጅ፦:
KittenML

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች: en

ምርጥ ለ:: Fast lightweight TTS, edge deployment, low-latency applications

ነጻ ይሞክሩ

Ming-Omni TTS

ነጻ

Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.

አዘጋጅ፦:
inclusionAI

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች: en, zh

መደበኛ

አዘጋጅ፦:
Alibaba (FunAudioLLM)

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Fast

ጥራት፦:

ቋንቋዎች:
en, zh, ja, ko, de, es, fr, it, ru

የድምፅ ክሎኒንግ:
አዎ

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

ምርጥ ለ:: Multilingual production TTS, real-time applications, voice cloning

መሞከር CosyVoice3

NAMAA Saudi TTS

መደበኛ

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

አዘጋጅ፦:
NAMAA Space

ፈቃድ፦:
MIT

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
ar

የድምፅ ክሎኒንግ:
አዎ

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

ምርጥ ለ:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

መሞከር NAMAA Saudi TTS

Darwin TTS

መደበኛ

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

አዘጋጅ፦:
FINAL-Bench

ፈቃድ፦:
Apache 2.0

ፍጥነት:
Medium

ጥራት፦:

ቋንቋዎች:
en, ko, ja, zh

የድምፅ ክሎኒንግ:
አዎ

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

ምርጥ ለ:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

ሞዴል	አዘጋጅ፦	ዐምድ	ፍጥነት	ቋንቋዎች	ቪሬም	ፈቃድ፦	ክሬዲቶች
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	ነጻ	ጥቅም
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	ነጻ	ጥቅም
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	ነጻ	ጥቅም
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	ነጻ	ጥቅም
Bark	Suno	Standard	Slow	13	5GB	MIT	2	ጥቅም
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	ጥቅም
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	ጥቅም
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	ጥቅም
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	ጥቅም
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	ጥቅም
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	ጥቅም
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	ጥቅም
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	ጥቅም
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	ጥቅም
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	ጥቅም
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	ጥቅም
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	ጥቅም
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	ጥቅም
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	ጥቅም
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	ጥቅም
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	ጥቅም
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	ነጻ	ጥቅም
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	ነጻ	ጥቅም
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	ጥቅም
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	ነጻ	ጥቅም
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	ነጻ	ጥቅም
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	ጥቅም
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	ጥቅም
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	ጥቅም
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	ጥቅም
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	ነጻ	ጥቅም
MOSS-TTS Nano	OpenMOSS	Free	Fast	11	2GB	Apache 2.0	ነጻ	ጥቅም

በጣም የተሟላ AI ጽሑፍ ወደ ንግግር መድረክ

TTS.aiን ለምን ይምረጡ?

TTS.ai በዓለም ላይ ምርጥ የሆኑትን የግል የጽሑፍ-ወደ-ንግግር ሞዴሎችን በአንድ፣ በቀላሉ ለመጠቀም ቀላል በሆነ መድረክ ላይ ያመጣል ፡፡ በአንድ የድምፅ ማሽን ውስጥ የሚዘጋጁ የግል አገልግሎት ከሌለ፣ TTS.ai ከኮኪ፣ ማይሼል፣ አምፊዮን፣ ኤንቪዲያ፣ ሱኖ፣ ሃጊንግፌስ፣ ቲንግዋ ዩኒቨርሲቲ እና ሌሎችንም ጨምሮ ከሚገኙ ምርምር ላቦራቶሪዎች 20+ ሞዴሎችን ለመድረስ እድል ይሰጣል ፡፡

ሁሉም ሞዴሎች MIT, Apache 2.0 ወይም ተመሳሳይ ፈቃድ ፈቃዶች ስር የክፍል ነው, በፕሮጀክቶችዎ ውስጥ የተፈጠረውን ድምፅ ለመጠቀም ሙሉ የኮሜርሺያል መብቶች እንዳሉዎት ያረጋግጡ. ለነጻ ጊዜ ፕሮግራሞች ወይም ለኦዲዮ መጽሐፍት እና ለፖድካስቶች የፕሪሚየም ስቱዲዮ ጥራት ምርት ፈጣን, ቀላል ስብስብ ያስፈልግዎታል, TTS.ai ለሁሉም የፍተሻ ሁኔታዎች ትክክለኛውን ሞዴል አለው.

ነጻ ሞዴሎች, ምንም መለያ ያስፈልጋል

በሦስት ነፃ TTS ሞዴሎች በፍጥነት ይጀምሩ: Piper (ultra-rapid, lightweight), VITS (high quality neural synthesis), እና MeloTTS (multi-language support). ምንም መመዝገብ የለም, ምንም ክሬዲት ካርድ, በክፍለ ዘመናት ላይ ምንም ገደብ የለም. ነፃ ሞዴሎች እንግሊዝኛ እና ብዙ ሌሎች ቋንቋዎችን ለብዙ ፕሮግራሞች ተስማሚ የሆነ ተፈጥሯዊ-ድምፅ ውጤት ጋር ይደግፋሉ.

ጂፒዩ-አስቸኳይ ሂደት

ሁሉም የቲቲኤስ ሞዴሎች ለፍጥነት፣ ለተመጣጠነ ጊዜዎች በ NVIDIA GPUs ላይ ይሠራሉ። ነፃ ሞዴሎች በ2 ሰከንዶች ውስጥ ድምፅን ያመነጫሉ። እንደ ኮኮሮ፣ ኮሲቮይስ 2 እና ባርክ ያሉ ስታንዳርድ ሞዴሎች በ3-5 ሰከንዶች ውስጥ ይሠራሉ። እንደ ቶርቶይዝ እና ቻተርቦክስ ያሉ ከፍተኛ ጥራት ያላቸው የፕሪሚየም ሞዴሎች በ5-15 ሰከንዶች ውስጥ ይሠራሉ ፣ በጽሑፍ ርዝመት ላይ የተመሠረተ ነው።

ቋንቋዎች

በ30 በላይ ቋንቋዎች አማርኛ፣ ስፓኒሽ፣ ፈረንሳይኛ፣ ጀርመንኛ፣ ጣሊያንኛ፣ ፖርቱጋሊኛ፣ ቻይንኛ፣ ጃፓንኛ፣ ኮሪያኛ፣ ዐረብኛ፣ ሃንዲሽ፣ ሩሲያኛ፣ እና ብዙ ሌሎችን ጨምሮ ንግግርን ያመነጫሉ። ብዙ ሞዴሎች የቋንቋ ልዩነትን ያበረታታሉ፣ ማለትም በቋንቋ ውስጥ ንግግርን ማምረት ይችላሉ። የኮሲቮይሲ 2 እና የጂፒቲ-ሶቪትስ በቋንቋ ልዩነት የድምፅ ክሎኒንግ ላይ ይሻላሉ።

የዲቨሎፐር-ዘጋጅ

TTS.ai ን በ OpenAI-የተጣጣመ REST API ጋር ወደ ፕሮግራሞችዎ ያካትቱ. ለሁሉም 20 + ሞዴሎች አንድ መጨረሻ. Python, JavaScript, cURL እና Go SDKs. ለታላቁ ጊዜ ፕሮግራሞች የቀጥታ ድጋፍ. ለከፍተኛ መጠን ያለው ይዘት ማምረት. ለ async ማስታወቂያዎች Webhooks. API መዳረሻ በሁሉም ፕሮግራም ውስጥ ነፃ ነው.

ብዙ ጊዜ የሚጠየቁ ጥያቄዎች

ጽሑፍ ወደ ንግግር (TTS) የተጻፈ ጽሑፍን ወደ ተፈጥሮአዊ የሆነ የተናገረ ድምፅ የሚለውጥ AI ቴክኖሎጂ ነው። እንደ ኮኮሮ፣ ቻተርቦክስ፣ እና ኮሲቮይስ 2 ያሉ ዘመናዊ የኒውራል TTS ሞዴሎች በጥልቀት መማርን ይጠቀማሉ ፣ ይህም በፍጹም ሰው ሆኖ የሚሰማ ንግግርን ፣ በተፈጥሮአዊ ፕሮሶዲ ፣ ስሜት ፣ እና ሪትም ያመነጫል።

ይህ በፍላጎቶችዎ ላይ የተመሠረተ ነው. ለፍጥነት ቅድመ-ዝግጅቶች, Piper ወይም MeloTTS (ነፃ, ፈጣን) ይጠቀሙ. ለከፍተኛ ጥራት, Kokoro ወይም CosyVoice 2 (ስርዓት ደረጃ) ይሞክሩ. ለድምፅ ክሎኒንግ, Chatterbox ወይም GPT-SoVITS (ፕሪሚየም) ይጠቀሙ. ለዳያሎግ/ፖድካስት ይዘት, Dia TTS ይሞክሩ. ሞዴል ሁሉ የተለያዩ ችሎታዎች አሉት - ምርጡን ለመፈለግ ሙከራ.

አዎ! TTS.ai በኮኮሮ፣ በፒፐር፣ በቪቲኤስ እና በሜሎቲቲኤስ ሞዴሎች ነፃ የጽሑፍ-ወደ-ንግግር አገልግሎቶችን ያቀርባል። እስከ 500 ፊደላት እና በሳምንት 3 ትውልዶች ድረስ ምንም መለያ አይጠየቅም። 50 ክሬዲቶችን ለማግኘት እና ሁሉንም ሞዴሎች ለመድረስ ለነፃ መለያ ይመዝገቡ።

የ TTS ሞዴሎችን በጋራ 30+ ቋንቋዎች አማርኛ, ስፓኒሽ, ፈረንሳይኛ, ጀርመን, ጣሊያንኛ, ፖርቱጋልኛ, ቻይንኛ, ጃፓንኛ, ኮሪያኛ, ዐረብኛ, ሩሲያኛ, ሃንዲ, እና ብዙ ሌሎች ጨምሮ ይደግፋሉ. ቋንቋ መኖሩ ሞዴል ይለያያል.

አዎ፣ በTTS.ai የተፈጠረው ድምፅ በኮሜርሺያል ሊጠቀም ይችላል። ሁሉም ሞዴሎቻችን የኦፕን-ሶርስ ውል (MIT, Apache 2.0) ይጠቀማሉ። ለተወሰኑ ሁኔታዎች የእያንዳንዱን ሞዴል ውል ይመልከቱ። ለፕሮጀክቱ የሚጠቀሙበትን የሞዴል ውል ማየትን እንመክራለን።

TTS.ai MP3, WAV, OGG, እና FLAC ውጤት ቅርጸቶች ይደግፋል. MP3 ለዌብ መጫወት የተቀመጠው ነው. WAV ለተጨማሪ ድምፅ ማቀነባበሪያዎች ጠቃሚ ነው. የድምፅ መለወጫችንን በመጠቀም በሁለቱ ቅርጸቶች መካከል መለወጥ ይችላሉ

የድምፅ ክሎኒንግ ከጥቂት የድምፅ ምሳሌ (በተለይም 5-30 ሰከንዶች) የተወሰነውን ድምፅ ለመለወጥ AI ይጠቀማል. የዒላማውን ድምፅ ግልጽ መዝገብ ጫን፣ እና እንደ Chatterbox, GPT-SoVITS, ወይም OpenVoice ያሉ ሞዴሎች በዚህ ድምፅ ውስጥ አዲስ ንግግር ይፈጥራሉ. ጥራቱ በጥሩ፣ ረጅም የመዝገብ ድምፅ ይሻሻላል።

ነጻ ተጠቃሚዎች በአንድ ጥያቄ እስከ 500 አርእስቶች ሊፈጥሩ ይችላሉ። የተመዘገቡ ተጠቃሚዎች በአንድ ጥያቄ እስከ 5,000 አርእስቶች ማግኘት ይችላሉ። ለረጅም ጽሑፎች፣ ድምፅ በጥብቆች ውስጥ ይፈጠራል እና በራሱ በአንድ ላይ ይጣበቃል። API ተጠቃሚዎች በአንድ ጥያቄ እስከ 10,000 አርእስቶች ሊፈጥሩ ይችላሉ።

የSSML (የንግግር ማቀነባበሪያ ቋንቋ) ድጋፍ በሞዴል ይለያያል። ፓይፐር እና ሌሎች ሞዴሎች ለጊዜ ቆይታ፣ ማተኮርና የድምፅ ቁጥጥር የመሰረታዊ የSSML መለያዎችን ይደግፋሉ። ለሞዴሎች ያለ ብሔራዊ የSSML ድጋፍ፣ የቋንቋን ድምፅ ለመለወጥ የቋንቋን ምልክቶች እና የመስመር መጨረሻዎችን መጠቀም ይችላሉ።

አዎ፣ አብዛኛዎቹ ሞዴሎች የፍጥነት ማስተካከያዎችን ከ0.5x እስከ 2.0x ይደግፋሉ፡፡ እንደ ባርክና ፓርለር ያሉ አንዳንድ ሞዴሎችም የፒች እና ስታይል ቁጥጥርን ይደግፋሉ፡፡ የፍጥነት ፓራሜትሮችን በከፍተኛው የማስተካከያ ፓነል ወይም በAPI የፍጥነት ፓራሜትሮችን በመጠቀም ማስተካከል ይችላሉ።

አዎ, የባች ሂደት በAPIችን ውስጥ ይገኛል. በአንድ API ጥሪ ወይም ስክሪፕት ውስጥ ብዙ የጽሑፍ ክፍሎችን ማቅረብ ትችላላችሁ፣ እናም ሁሉም እንደ የተለያየ ድምፅ ፋይል ተሠርቶ ይመለሳል። ይህ ለድምፅ መጽሐፍ ምዕራፎች፣ ለኢ-ማስተማር ሞዱሎች ወይም ለጨዋታ ቃለ ምልልስ ስክሪፕቶች ተስማሚ ነው

ከክሬዲት ካርድዎ ዳሽቦርድ ውስጥ የ API ቁልፍን ይፈጥሩ ፣ ከዚያም የ POST ጥያቄዎችን ወደ REST API መጨረሻዎ ከጽሑፍዎ ፣ ሞዴል እና የድምፅ ፓራሜትሮች ጋር መላክ ይችላሉ ፡፡ በ Python ፣ በጃቫስክሪፕት እና በ cURL ውስጥ የኮድ ምሳሌዎችን እንሰጣለን ፡፡ የ API OpenAI-ተኳሃኝ ነው ፣ ስለሆነም የቀድሞው አንድነት በጥቂት ለውጦች ውስጥ ይሠራል ፡፡

5.0/5 (4)

ጽሑፉን ወደ ንግግር መቀየር

TTS.ai በመጠቀም መቶዎች የሚቆጠሩ ፈጣሪዎች ይቀላቀሉ. አዲስ ሒሳብ ጋር 15,000 ነፃ ፊደላት ማግኘት. ነፃ ሞዴሎች ያለ ምዝገባ ይገኛሉ.

ነጻ ማሳየት

ጽሑፉን ወደ ንግግር ለውጥ

TTS.aiን ወዳጅነት?

ዝርዝሮች

CosyVoice3

ለበለጠ ውጤቶች ምክሮች

የፊደል ቅርጽ

AI ጽሑፍ ወደ ንግግር እንዴት እንደሚሰራ

ጽሑፉን አስገባ

የድምፅ ሞዴል ምረጡ

ያውርዱ

ጽሑፉን ወደ ንግግር ይለውጡ

የድምፅ መጽሐፍት

የቪዲዮ ድምፅ

ፖድካስት

ጨዋታ

የኤሌክትሮኒክ መማር

አቅላይነት

የስልክ ስርዓቶች

ማህበራዊ ሚዲያ

ስትሪሚንግ

ማስታወቂያ

ላቲን

ሜዲቴሽን እና ዌልነር

የጽሑፍ-ወደ-ንግግር ሞዴሎች

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

MOSS-TTS Nano

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

MOSS-TTS Nano

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3