නිදහස් AI පෙළ සිට කථාවName
33+ විවෘත මූලාශ්රය ආකෘති, 273+ හඬවල්, 33+ භාෂා. ගිණුමක් අවශ්ය නැත.
හඬ AI සඳහා ඔබට අවශ්ය සියලු
30+ විවෘත මූලාශ්රය AI ආකෘති මගින් බලගැන්වෙන මෙවලම්
33+ AI හඬ ආකෘති
එක් වේදිකාවක් තුළ විවෘත මූලාශ්රය TTS ආකෘති වඩාත් පුළුල් එකතුව
Kokoro නිදහස්
Kokoro යනු එහි බර පන්තියට වඩා හොඳින් පීඩනය කරන 82 මිලියන පරාමිතික පෙළ-කථා ආකෘතියකි. එහි කුඩා ප් රමාණයට පටහැනිව, එය විශිෂ්ට ස්වාභාවික හා ප් රකාශාත්මක කථාව නිපදවයි. Kokoro ඉංග් රීසි, ජපන්, චීන, සහ කොරියානු ඇතුළු විවිධ භාෂා සඳහා සහාය දක්වයි. එය අතිශයින් වේගවත්ව ක් රියාත්මක වේ - GPU මත සැබෑ කාලයට වඩා 100x වේගයෙන් ශ් රව් ය ජනනය කරයි.
සඳහා හොඳම: අවම ප්රමාදයක් සහිත උසස් තත්ත්වයේ TTS, ප්රවාහ යෙදුම්
නිදහස් උත්සාහ කරන්න
Piper නිදහස්
Piper යනු VITS සහ larynx ගෘහ නිර්මාණ ශිල්ප භාවිතා කරන Rhasspy විසින් සංවර්ධනය කරන ලද සැහැල්ලු පෙළ-කථා එන්ජිමකි. එය සම්පූර්ණයෙන්ම CPU මත ධාවනය වන අතර, එය අගල් උපාංග, ගෘහ ස්වයංක් රීයකරණ සහ ඔෆ්ලයින් TTS අවශ් ය වන යෙදුම් සඳහා පරිපූර්ණ කරයි. 30+ භාෂා හරහා 100 හඬවල් කට වඩා වැඩි, Piper රාස්ප්බෙරි පයි මත පවා තත්පරයට ස්වභාවික හඬක් ඇති කථාව ලබා දෙයි4.
සඳහා හොඳම: ඉක්මන් පූර්වදසුන, පිවිසුම් හැකියාව, සහ තිළැලි යෙදුම්Name
නිදහස් උත්සාහ කරන්න
VITS නිදහස්
VITS (අවසන්-අවසන් පෙළ-කථාව සඳහා විරුද්ධාභාස ඉගෙනීම සමග විචලනය උපකල්පනය) වත්මන් අදියර දෙකක් ආකෘති වඩා ස්වභාවික ශබ්ද ශ්රව්ය ජනනය කරන සමාන්තර අවසන්-අවසන් TTS ක්රමයකි. එය ස්වභාවිකත්වය සැලකිය යුතු දියුණුවක් ලබා ගැනීම සඳහා, සාමාන්යකරණය ප්රවාහයන් හා විරුද්ධාභාස පුහුණු ක්රියාවලිය සමග වැඩි දියුණු කරන ලද විචලනය උපකල්පනය අනුගමනය කරයි.
සඳහා හොඳම: ස්වභාවික කටහඬ සහිත පොදු අරමුණු පෙළ- සිට- කථාවName
නිදහස් උත්සාහ කරන්න
MeloTTS නිදහස්
MyShell.ai විසින් MeloTTS ඉංග්රීසි සහාය බහුභාෂා TTS පුස්තකාලයක් (ඇමරිකානු, බ්රිතාන්ය, ඉන්දියානු, ඕස්ට් රේලියානු), ස්පාඤ්ඤ, ප්රංශ, චීන, ජපන්, සහ කොරියානු. එය ඉතා වේගවත්, CPU පමණක් මත සමීප තත්කාලීන වේගයෙන් පෙළ සැකසීම. MeloTTS නිෂ්පාදනය භාවිතා කිරීම සඳහා නිර්මාණය කර ඇති අතර CPU සහ GPU නිගමනය දෙකම සහාය.
සඳහා හොඳම: වේගවත්, බහුභාෂා TTS අවශ්ය නිෂ්පාදන යෙදුම්
නිදහස් උත්සාහ කරන්න
Kani TTS 2 නිදහස්
NineNineSix විසින් Kani-TTS-2 යනු NVIDIA NanoCodec සමඟ දියර AI LFM2 පිටුපස ඉදිකරන ලද අතිශය සැහැල්ලු 400M පරාමිතික ආකෘතියකි. එය 3GB VRAM හි ධාවනය වන අතර A100 (RTF 0.2) මත ~2 තත්පර වලදී ~ 10 තත්පර කතාබහක් නිපදවයි. වත්මන් මහජන නිකුතුව ඉංග් රීසි පමණක් `kani-tts-2-en` චෙක්පොයින්ට් එකක් සහ හඬ ක්ලෝන කිරීම සඳහා අවශ් ය කථික-අභ් යන්තරකරණය වූ හොක් නිරාවරණය නොකරයි - ක්ලෝන කිරීම සඳහා Chatterbox / IndexTTS2 / F5-TTS භාවිතා කරන්න, හෝ ඉංග් රීසි නොවන Kokoro / MeloTTS.
සඳහා හොඳම: අඩු VRAM දෘඩාංග මත වේගවත් ඉංග්රීසි ජනපදය, ඉක්මන් පූර්ව දර්ශන
නිදහස් උත්සාහ කරන්න
OuteTTS නිදහස්
OuteTTS මූලික ගෘහ නිර්මාණ ශිල්පය ආරක්ෂා කරමින් පෙළ-කථාව හැකියාවන් සමග විශාල භාෂා ආකෘති දීර්ඝ කරයි. එය llama.cpp (CPU / GPU) ඇතුළු බහු backends සහාය, හග් ෆේස් ට් රාන්ස්ෆෝමර්ස්, ExLlamaV2, VLLM, සහ Transformers.js හරහා බ්රවුසරයේ නිගමනය පවා.
සඳහා හොඳම: Edge යෙදවීම, බ්රවුසර-පාදක TTS, අඩු සම්පත් පරිසර
නිදහස් උත්සාහ කරන්න
Pocket TTS නිදහස්
Kyutai විසින් පොකට් TTS (Moshi නිර්මාණකරුවන්) එහි බර ඉක්මවා යන සංයුක්ත 100M පරාමිතික පෙළ-කථා ආකෘතියකි. එය CPU මත කාර්යක්ෂමව ක් රියාත්මක වන අතර, තනි ශ්රව්ය සාම්පලයකින් ශුන්ය-ෂොට් හඬ ක්ලෝන කිරීම සහ ස්වාභාවික හඬක් ඇති කථාව නිපදවයි. කුඩා ආකෘති ප් රමාණයෙන් එය අගුළු දැමීම සහ අඩු සම්පත් පරිසර සඳහා පරිපූර්ණ වේ.
සඳහා හොඳම: සැහැල්ලු යෙදවීම, CPU-එකම පරිසර, ඉක්මන් හඬ ක්ලෝන
නිදහස් උත්සාහ කරන්න
Kitten TTS නිදහස්
KittenML විසින් Kitten TTS යනු ONNX මත ඉදිකරන ලද අතිශය සැහැල්ලු පෙළ-කථන ආකෘතියකි. 15M සිට 80M පරාමිතීන් දක්වා (තැටිය මත 25-80 MB) වෙනස්කම් සමඟ, එය GPU අවශ් ය නොවන පරිදි CPU මත උසස් තත්ත්වයේ හඬ සංස්ලේෂණය ලබා දෙයි. අංක, මුදල් සහ ඒකක සඳහා 8 ස්ථාපිත හඬ, වෙනස් කළ හැකි කතා වේගය සහ ස්ථාපිත පෙළ පෙර සැකසීම. අගුළු යෙදවීම සහ අඩු ප් රමාණයේ යෙදුම් සඳහා පරිපූර්ණ.
සඳහා හොඳම: වේගවත් සැහැල්ලු TTS, අගල් යෙදවීම, අඩු-ලෙන්ටිටි යෙදුම්
නිදහස් උත්සාහ කරන්න
Ming-Omni TTS නිදහස්
inclusionAI විසින් Ming-omni-tts-0.5B පැච්-by-පැච් ප්රවාහය ගැලපෙන ශ්රව්ය විකේතනය සමග BailingMM ඝන පිටුපස මත ඉදි කරන ලද සංයුක්ත omni-modal කථා ආකෘතිය වේ. 44.1kHz ප්රතිදානය (CD ගුණාත්මක අසල), 3+ තත්පර උපුටා ගැනීමකින් ශුන්ය-ෂොට් හඬ ක්ලෝන සහාය, සහ JSON උපදෙස් හරහා තනන ලද හැඟීම් / උපභාෂාව / BGM පාලනය ඇතුළත් වේ. විශිෂ්ට ස්ථාවරත්වය - චීන සම්මතයන් මත 0.83% WER.
සඳහා හොඳම: ඉහළ විශ්වාසනීය දෙමළ කථා, හැඟීම් පාලනය හඬ ක්රියා, චීන ශ්රව්ය පොත් අන්තර්ගතය
නිදහස් උත්සාහ කරන්න
MOSS-TTS Nano නිදහස්
MOSS-TTS-Nano-100M යනු MOSS-TTS පවුලේ OpenMOSS හි සංයුක්ත 100M-පරාමිතික විකල්පය වන අතර ප්රමාද-ප් රතිවර්ත ගෘහ නිර්මාණ ශිල්පය හුවමාරු කරයි. 80x කුඩා බර සහ ඉල්ලුම් කරන VRAM සඳහා 8B ආකෘතියේ උපරිම ගුණාත්මකභාවය වෙළඳාම් කරයි. එය නිදහස් ස්ථර සහ ඉහළ කාර්යක්ෂමතාවයකින් යුත් යෙදවුම් සඳහා සුදුසු වේ.
සඳහා හොඳම: නිදහස්-තලය TTS, ඉහළ පරිමාව නිෂ්පාදනය, අඩු-ලෙන්ටිටි අන්තර්ක්රියාකාරී භාවිතය
නිදහස් උත්සාහ කරන්න
Bark සම්මත
පරිවර්තනය මත පදනම් වූ ලේඛන-ශ්රවණ ආකෘතිය, යථාර්ථවාදී කථාව, සංගීතය සහ ශබ්ද බලපෑම් ජනනය කරයි.
සංවර්ධක: Suno · බලපත්රය: MIT
උත්සහ කරන්න.
Bark Small සම්මත
සරල රේඛීය ශ්රිතයක් සරල රේඛීය ශ්රිතයක් හා අඩු ශ්රිතයක් ලෙසද හැඳින්වේ.
සංවර්ධක: Suno · බලපත්රය: MIT
උත්සහ කරන්න.
CosyVoice 2 සම්මත
අලිබාබාගේ පරිමාණගත ශ්රව්ය-දෘශ්ය TTS මානව-පාරිශුද්ධ ස්වභාවය සහ ශුන්ය ආසන්න පරතරය සමග.
සංවර්ධක: Alibaba (Tongyi Lab) · බලපත්රය: Apache 2.0
උත්සහ කරන්න.
Dia TTS සම්මත
සන්නිවේදන ක්රමවේදයන්ගේ සංකීර්ණතාවය නිසා විවිධ සංස්කෘතීන් අතර සංවාදයන් ඇති වේ.
සංවර්ධක: Nari Labs · බලපත්රය: Apache 2.0
උත්සහ කරන්න.
Parler TTS සම්මත
ස්වභාවික භාෂාවෙන් ඔබට අවශ්ය හඬ විස්තර සහ Parler ගැලපෙන කථාව ජනනය කරයි.
සංවර්ධක: Hugging Face · බලපත්රය: Apache 2.0
උත්සහ කරන්න.
IndexTTS-2 සම්මත
ඝන-අංශු හැඟීම් පාලනය සහ ඉහළ ප්රකාශනශීලීත්වය සමග ශුන්ය-ෂොට් TTS.
සංවර්ධක: Index Team · බලපත්රය: Bilibili Model License
උත්සහ කරන්න.
Spark TTS සම්මත
හඬ ක්ලෝන TTS පාලනය කළ හැකි හැඟීම් සහ ඉල්ලීම් හරහා කතා ශෛලිය.
සංවර්ධක: SparkAudio · බලපත්රය: CC BY-NC-SA 4.0
උත්සහ කරන්න.
GPT-SoVITS සම්මත
හුදෙක් ශ්රව්ය තත්පර5ක ඕනෑම හඬක් අනුපිටපත් කරන හඬ කිහිපයක්-ෂොට් ක්ලෝන TTS.
සංවර්ධක: RVC-Boss · බලපත්රය: MIT
උත්සහ කරන්න.
Orpheus සම්මත
100000 කට අධික සංඛ්යාවක මනෝවිද්යාත්මක දත්ත මත පදනම්ව සකස් කරන ලද මානව මට්ටමේ හැඟීම් සන්නිවේදන ආකෘතියකි.
සංවර්ධක: Canopy Labs · බලපත්රය: Llama 3.2 Community
උත්සහ කරන්න.
Qwen3 TTS සම්මත
අලිබාබාගේ පෙර සැකසූ හඬ සහ පෙළ සිට හඬ සැලසුම් සමග බහුභාෂා TTS.
සංවර්ධක: Alibaba (Qwen) · බලපත්රය: Apache 2.0
උත්සහ කරන්න.
VieNeu-TTS-v2 සම්මත
වියට්නාම + ඉංග්රීසි කේතය-ස්විච් TTS සමග7පෙර-සැකසූ හඬ සහ ශුන්ය-ෂොට් හඬ ක්ලෝන. CPU-එක්, කිසිදු GPU අවශ්ය.
සංවර්ධක: Phạm Nguyễn Ngọc Bảo · බලපත්රය: Apache 2.0
උත්සහ කරන්න.
Chatterbox Turbo සම්මත
සිනහව සඳහා උප-200ms කල් ඉකුත්වීම සහ paralinguistic ටැග් සමග වේගවත් Chatterbox, කැස්ස, සහ තවත්.
සංවර්ධක: Resemble AI · බලපත්රය: MIT
උත්සහ කරන්න.
VoxCPM සම්මත
Tokenizer-නිදහස් TTS 44.1kHz ශ්රව්ය සන්දර්භය-දැනුවත් පරිච්ඡේදය සමග අනුකූලතාවයක් නිෂ්පාදනය.
සංවර්ධක: OpenBMB · බලපත්රය: Apache 2.0
උත්සහ කරන්න.
VibeVoice සම්මත
මයික්රොසොෆ්ට් ආකෘතිය පොඩ්කාස්ට් සහ ශ්රව්ය පොත් වැනි දිගු ආකෘති බහු-කථික අන්තර්ගතය සඳහා.
සංවර්ධක: Microsoft · බලපත්රය: MIT
උත්සහ කරන්න.
CosyVoice3 සම්මත
ද්විත්ව-ස්වභාවික, හැඟීම් පාලනය, සහ ශුන්ය-ෂොට් හඬ ක්ලෝන සමග ඊළඟ පරම්පරාව බහුභාෂා TTS.
සංවර්ධක: Alibaba (FunAudioLLM) · බලපත්රය: Apache 2.0
උත්සහ කරන්න.
NAMAA Saudi TTS සම්මත
පළමු විවෘත සවුදි අරාබි TTS. Chatterbox-ගුණාත්මක හඬ ක්ලෝන සමග ස්වදේශීය සවුදි භාෂාව.
සංවර්ධක: NAMAA Space · බලපත්රය: MIT
උත්සහ කරන්න.
Darwin TTS සම්මත
Qwen3-1.7B භාෂා ආකෘතිය මඟින් FFN බර සහිතව ක්රමාංකනය කරන ලද Qwen3-TTS වර්ගය වඩාත් තීව්ර බහුභාෂා ක්ලෝන කිරීම සඳහා මිශ්ර කර ඇත.
සංවර්ධක: FINAL-Bench · බලපත්රය: Apache 2.0
උත්සහ කරන්න.
MOSS-TTSD සම්මත
බහු-කථික සංවාදය දිගටම ආකෘතිය - දක්වා5කථිකයන් හා 60 මිනිත්තු සමගාමී ශ්රව්ය සමග පොඩ්කාස්ට්-ශෛලිය සංවාදයක් ජනනය.
සංවර්ධක: OpenMOSS · බලපත්රය: Apache 2.0
උත්සහ කරන්න.
CosyVoice 2
අලිබාබාගේ පරිමාණගත ශ්රව්ය-දෘශ්ය TTS මානව-පාරිශුද්ධ ස්වභාවය සහ ශුන්ය ආසන්න පරතරය සමග.
භාෂා: en, zh, ja, ko, fr, de, it, es
හඬ ක්ලෝන කරන්න
IndexTTS-2
ඝන-අංශු හැඟීම් පාලනය සහ ඉහළ ප්රකාශනශීලීත්වය සමග ශුන්ය-ෂොට් TTS.
භාෂා: en, zh
හඬ ක්ලෝන කරන්න
GPT-SoVITS
හුදෙක් ශ්රව්ය තත්පර5ක ඕනෑම හඬක් අනුපිටපත් කරන හඬ කිහිපයක්-ෂොට් ක්ලෝන TTS.
භාෂා: en, zh, ja, ko
හඬ ක්ලෝන කරන්න
Chatterbox
මනෝවිද්යාවේදී, මනෝවිශ්ලේෂණය යනු මනෝවිද්යාවේ මනෝවිද්යාව පිළිබඳ අධ්යයනයයි.
භාෂා: en
හඬ ක්ලෝන කරන්න
Tortoise TTS
ව්යවහාරික භාෂා විද්යාව යනු භාෂාවන්හි ව්යවහාරික ගුණාංග පිළිබඳ අධ්යයනයයි.
භාෂා: en
හඬ ක්ලෝන කරන්න
OpenVoice
ශෛලිය, හැඟීම්, සහ උච්චාරණය මත කැටිති පාලනය සමග ක්ෂණික හඬ ක්ලෝන.
භාෂා: en, zh, ja, ko, fr, es
හඬ ක්ලෝන කරන්න
VieNeu-TTS-v2
වියට්නාම + ඉංග්රීසි කේතය-ස්විච් TTS සමග7පෙර-සැකසූ හඬ සහ ශුන්ය-ෂොට් හඬ ක්ලෝන. CPU-එක්, කිසිදු GPU අවශ්ය.
භාෂා: vi, en
හඬ ක්ලෝන කරන්න
Chatterbox Turbo
සිනහව සඳහා උප-200ms කල් ඉකුත්වීම සහ paralinguistic ටැග් සමග වේගවත් Chatterbox, කැස්ස, සහ තවත්.
භාෂා: en
හඬ ක්ලෝන කරන්න
VoxCPM
Tokenizer-නිදහස් TTS 44.1kHz ශ්රව්ය සන්දර්භය-දැනුවත් පරිච්ඡේදය සමග අනුකූලතාවයක් නිෂ්පාදනය.
භාෂා: en, zh
හඬ ක්ලෝන කරන්න
OuteTTS
LLM-පාදක TTS CPU, GPU, හෝ lama.cpp සහ Transformers.js හරහා බ්රව්සරයේ ධාවනය වේ.
භාෂා: en
හඬ ක්ලෝන කරන්න
Pocket TTS
100M පරාමිති ආකෘතිය Kyutai විසින් තනි සාම්පලයකින් හඬ ක්ලෝන කිරීම.
භාෂා: en, fr
හඬ ක්ලෝන කරන්න
CosyVoice3
ද්විත්ව-ස්වභාවික, හැඟීම් පාලනය, සහ ශුන්ය-ෂොට් හඬ ක්ලෝන සමග ඊළඟ පරම්පරාව බහුභාෂා TTS.
භාෂා: en, zh, ja, ko, de, es, fr, it, ru
හඬ ක්ලෝන කරන්න
NAMAA Saudi TTS
පළමු විවෘත සවුදි අරාබි TTS. Chatterbox-ගුණාත්මක හඬ ක්ලෝන සමග ස්වදේශීය සවුදි භාෂාව.
භාෂා: ar
හඬ ක්ලෝන කරන්න
Darwin TTS
Qwen3-1.7B භාෂා ආකෘතිය මඟින් FFN බර සහිතව ක්රමාංකනය කරන ලද Qwen3-TTS වර්ගය වඩාත් තීව්ර බහුභාෂා ක්ලෝන කිරීම සඳහා මිශ්ර කර ඇත.
භාෂා: en, ko, ja, zh
හඬ ක්ලෝන කරන්න
MOSS-TTSD
බහු-කථික සංවාදය දිගටම ආකෘතිය - දක්වා5කථිකයන් හා 60 මිනිත්තු සමගාමී ශ්රව්ය සමග පොඩ්කාස්ට්-ශෛලිය සංවාදයක් ජනනය.
භාෂා: en, zh
හඬ ක්ලෝන කරන්න
Ming-Omni TTS
0.5B සම්මත-මෝඩල් කථා ආකෘතිය ඉහළ විශ්වාසනීයත්වය 44.1kHz ප්රතිදානය සහ ශුන්ය-ෂොට් හඬ ක්ලෝන කිරීම සමග inclusionAI සිට සංයුක්ත.
භාෂා: en, zh
හඬ ක්ලෝන කරන්න
MOSS-TTS Nano
100M MOSS-TTS විකල්පය - සමාන ගෘහ නිර්මාණ ශිල්පය, 80x කුඩා, නිදහස්-පන්තියේ ප්රමාදයක්.
භාෂා: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
හඬ ක්ලෝන කරන්නසංවර්ධක- පළමු API
OpenAI අනුකූල REST API. එක් අවසන් ස්ථානයක්, 22+ ආකෘති. සැබෑ-කාලීන යෙදුම් සඳහා ප් රවාහනය සහාය.
- OpenAI අනුකූල සංයුතිය
- සත්ය කාලීන යෙදුම් සඳහා TTS ප්රවාහනය
- විශාල වැඩ සඳහා බැච් සැකසීම
- Webhook දැනුම්දීම්
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
සරල, විනිවිද මිල ගණන්
නිදහස් ආරම්භ කරන්න. ඔබ වර්ධනය ලෙස පරිමාණය.
නිදහස්
15,000 අක්ෂර + 5,000/දින
- Kokoro ඇතුළු 7නිදහස් ආකෘති
- පරම්පරාවකට අකුරු 5,000
- API ප්රවේශය ඇතුළත්
ආරම්භකයා
500 ණය / මාස
- සියලු 22+ ආකෘති
- පරම්පරාවකට අකුරු 100,000
- හඬ ක්ලෝන කිරීම
ප්රො
2,000 ණය / මාස
- ආරම්භකයේ ඇති සියල්ල
- API පිවිසුම
- ප්රමුඛතාව සැකසීම
නිතර අසන ප්රශ්න
අපි වැඩි දියුණු කළ හැකි දේ? ඔබේ ප්රතිචාරය අපට ගැටළු විසඳීමට උපකාරී වේ.
අද AI හඬ භාවිතා ආරම්භ
නිර්මාණකරුවන් එක්වන්න, සංවර්ධකයින්, සහ ව්යාපාර භාවිතා TTS.ai