Очиқ AI Матндан сўзга
33+ очиқ манба моделлари, 273+ овозлар, 33+ Тиллар. Ҳисоб талаб қилинмайди.
Сўзли AI учун керак бўлган барча нарса
30+ очиқ манбали AI моделлари билан таъминланган асбоблар
33+ AI овоз моделлари
Бир платформада очиқ манбали TTS моделларининг энг кенг қамровли тўплами
Kokoro Оқ
Kokoro 82 миллион параметрли матн-нутқ модели бўлиб, у ўз вазн тоифасидан анча юқори даражада ишлайди. Унинг кичик ўлчамига қарамай, у диққатга сазовор табиий ва ифодали сўзлашувни ишлаб чиқаради. Kokoro инглиз, япон, хитой ва корейс тилларини ўз ичига олган кўп тилларни қўллаб-қувватлайди ва турли ифодали овозларни қўллаб-қувватлайди. У жуда тез ишлайди — GPUда реал вақтда овозни 100 марта тезроқ ишлаб чиқаради.
Энг яхшиси: Минимал кечикиш билан юқори сифатли TTS, стрийм дастурлари
Бепул синаш
Piper Оқ
Piper Rhasspy томонидан яратилган енгил матн-нутқ двигатели бўлиб, VITS ва laryngx архитектураларини қўллайди. У тўлиқ CPU устида ишлайди, бу уни edge қурилмалар, уй автоматизацияси ва офлайн TTS талаб қиладиган дастурлар учун идеал қилади. 30 дан ортиқ тилдаги 100 дан ортиқ овозлар билан Piper табиий товушли сўзлашувни реал вақт тезлигида, ҳатто Raspberry Pi 4да ҳам тақдим этади.
Энг яхшиси: Тез кўриш, қўл етадиган ва ёпиқ дастурлар
Бепул синаш
VITS Оқ
VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) - бу ҳозирги икки босқичли моделлардан кўра табиий товушли аудиони ишлаб чиқарадиган параллел, охиридан охиригача TTS усули. У нормаллаштирувчи оқимлар ва рақобатли ўқитиш жараёни билан кучайтирилган вариацион индукцияни қабул қилади, бу табиийликни сезиларли даражада яхшилайди.
Энг яхшиси: Табиий прозодия билан умумий мақсадли матндан сўзга
Бепул синаш
MeloTTS Оқ
MyShell.ai томонидан яратилган MeloTTS инглиз (америкалик, инглиз, ҳинд, австралиялик), испан, француз, хитой, япон ва корейс тилларини қўллаб-қувватловчи кўп тилли TTS китобхонасидир. У жуда тез, матнларни фақатгина процессор ёрдамида реал вақт тезлигида ишлайди. MeloTTS ишлаб чиқариш учун мўлжалланган ва CPU ва GPU индукциясини қўллаб-қувватлайди.
Энг яхшиси: Тез, кўп тилли TTS талаб қиладиган ишлаб чиқариш дастурлари
Бепул синаш
Kani TTS 2 Оқ
Kani-TTS-2 by NineNineSix NVIDIA NanoCodec билан Liquid AI LFM2 backbone устида қурилган 400M параметрли жуда енгил моделдир. У фақат 3GB VRAMда ишлайди ва A100 (RTF 0.2)да ~2 сония ичида ~10 сония гапиришни ҳосил қилади. Ҳозирги жамоатчилик версияси фақат инглиз тилидаги `kani-tts-2-en` чеклаш нуқтасини етказиб беради ва овозни клонлаш учун керакли овозни монтаж қилиш тугмасини кўрсатмайди — клонлаш учун Chatterbox / IndexTTS2 / F5-TTS ёки инглиз тилидан бошқа тиллардаги учун Kokoro / MeloTTS ни ишлатинг.
Энг яхшиси: Оғир VRAM жиҳозларда тез инглизча яратиш, тезкор кўринишлар
Бепул синаш
OuteTTS Оқ
OuteTTS матн-нутқ имкониятлари билан катта тил моделларини кенгайтиради, бироқ асл архитектурани сақлаб қолади. У llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM ва ҳатто Transformers.js орқали браузер индукциясини қўллаб-қувватлайди. JSON сифатида сақланадиган сўзловчи профиллари орқали овозни 0-шотли клонлаш хусусиятлари.
Энг яхшиси: Edge тарқатиш, браузерга асосланган TTS, ресурслар кам бўлган муҳитлар
Бепул синаш
Pocket TTS Оқ
Kyutai (Moshi яратувчилари) томонидан яратилган Pocket TTS – бу ўзининг оғирлигидан анча юқори бўлган 100М параметрли матн-нутқ моделидир. У CPUда самарали ишлайди, битта аудио намунадан овозни 0-шотли клонлашни қўллаб-қувватлайди ва табиий товушли сўзлашувни ишлаб чиқаради. Кичик модел ўлчамлари уни қиррали тарқатиш ва ресурслар кам бўлган муҳитлар учун идеал қилади.
Энг яхшиси: Оғир юклаш, фақат CPU муҳитлари, тез овозни клонлаш
Бепул синаш
Kitten TTS Оқ
Kitten TTS by KittenML ONNX устида қурилган жуда енгил матн-нутқ моделидир. 15М дан 80М гача бўлган параметрлар билан (25-80 MB дискда), у GPU талаб қилинмасдан CPUда юқори сифатли овоз синтезини тақдим этади. 8 та ёпиқ овоз, мослаштириладиган сўз тезлиги ва рақамлар, пул бирликлари ва бирликлари учун ёпиқ матн олдиндан ишлаш хусусиятларига эга. Эгри тарқатиш ва паст латентлик дастурлари учун идеал.
Энг яхшиси: Тез енгил TTS, қиррали жойлашиш, паст латентлик дастурлари
Бепул синаш
Ming-Omni TTS Оқ
InclusionAI томонидан ишлаб чиқилган Ming-omni-tts-0.5B BailingMM ёпиқ оқсиллари асосида Patch-by-Patch оқим-мослашувчи аудио декодери билан қурилган компакт омни-модал сўзлашув моделидир. 44.1kHz чиқиндини (CD сифатига яқин) таъминлайди, 3+ сониялик манбадан zero-shot овозни клонлашни қўллаб-қувватлайди ва JSON буйруқлари орқали эмоционал / диалект / BGM бошқарувни ўз ичига олади. Мукаммал барқарорлик — Хитой бенчмаркларида 0.83% WER.
Энг яхшиси: Икки тилли юқори аниқликдаги ҳикоя, ҳис-туйғу бошқарувидаги овоз ижрочиси, Хитойча аудиокитоб мазмуни
Бепул синаш
MOSS-TTS Nano Оқ
MOSS-TTS-Nano-100M MOSS-TTS оиласининг OpenMOSS'нинг компакт 100M-параметрли варианти бўлиб, кечиктирилган-трансформатор архитектурасини тақсимлайди. 8B моделининг энг юқори сифати ~80x кичикроқ вазн ва талаба учун VRAM'ни сезиларли даражада камайтириб, уни эркин-қават ва юқори ўтказувчанлик тарқатиш учун мослаштиради. Худди шу 20 тилга етиб бориш.
Энг яхшиси: Free-tier TTS, юқори ҳажмли ишлаб чиқариш, паст кутиш вақтили интерактив фойдаланиш
Бепул синаш
Bark Стандарт
Трансформаторга асосланган матндан аудиога реалистик сўзлашув, мусиқа ва товуш эффектларини яратувчи модел.
Ижодкор: Suno · Лицензия: MIT
Синаб кўриш
Bark Small Стандарт
Баркнинг енгил версияси тезроқ хулоса чиқариш ва камроқ хотира сарфлаш билан.
Ижодкор: Suno · Лицензия: MIT
Синаб кўриш
CosyVoice 2 Стандарт
Alibaba'нинг инсон-паритет табиийлиги ва деярли сифр кечикиш билан ўлчамли стрийминг TTS.
Ижодкор: Alibaba (Tongyi Lab) · Лицензия: Apache 2.0
Синаб кўриш
Dia TTS Стандарт
Овозли суҳбатлар орасида табиий суҳбатларни яратадиган кўп овозли диалог яратиш модели.
Ижодкор: Nari Labs · Лицензия: Apache 2.0
Синаб кўриш
Parler TTS Стандарт
Истаган овозингизни табиий тилда ифодаланг ва Parler мос келадиган сўзларни яратиб беради.
Ижодкор: Hugging Face · Лицензия: Apache 2.0
Синаб кўриш
IndexTTS-2 Стандарт
Zero-shot TTS, яхши ҳис-туйғуларни бошқариш ва юқори ифодалилик билан.
Ижодкор: Index Team · Лицензия: Bilibili Model License
Синаб кўриш
Spark TTS Стандарт
ТТС овозини клонлаш, бошқариладиган ҳиссиёт ва саволлар орқали гапириш услуби.
Ижодкор: SparkAudio · Лицензия: CC BY-NC-SA 4.0
Синаб кўриш
GPT-SoVITS Стандарт
Фақат 5 сониялик аудиодан ҳар қандай овозни такрорлайдиган оз сонли овозни клонлаш TTS.
Ижодкор: RVC-Boss · Лицензия: MIT
Синаб кўриш
Orpheus Стандарт
100K соатлик сўз маълумотлари асосида тайёрланган инсон даражасидаги ҳиссий TTS модели.
Ижодкор: Canopy Labs · Лицензия: Llama 3.2 Community
Синаб кўриш
Qwen3 TTS Стандарт
Alibaba'нинг кўп тилли TTS'и, олдиндан белгиланган овозлар ва матндан овоз дизайни билан.
Ижодкор: Alibaba (Qwen) · Лицензия: Apache 2.0
Синаб кўриш
VieNeu-TTS-v2 Стандарт
Вьетнам + инглиз код-ўтказиш TTS 7 олдиндан белгиланган овозлар ва zero-shot овоз клонлаш билан. Фақат CPU, GPU талаб қилинмайди.
Ижодкор: Phạm Nguyễn Ngọc Bảo · Лицензия: Apache 2.0
Синаб кўриш
Chatterbox Turbo Стандарт
Sub-200ms latency ва кулиш, йўталиш ва бошқалар учун paralinguistic теги билан тезроқ Chatterbox.
Ижодкор: Resemble AI · Лицензия: MIT
Синаб кўриш
VoxCPM Стандарт
Tokenizer-free TTS 44.1kHz аудиони контекст-аware абзац бирлиги билан ишлаб чиқаради.
Ижодкор: OpenBMB · Лицензия: Apache 2.0
Синаб кўриш
VibeVoice Стандарт
Подкастлар ва аудиокитоблар каби узоқ шаклли кўп эшиттирувчили мазмун учун Microsoft модели.
Ижодкор: Microsoft · Лицензия: MIT
Синаб кўриш
CosyVoice3 Стандарт
Кейинги авлод кўп тилли TTS, иккиламчи узатиш, ҳис-туйғуларни бошқариш ва овозни клонлаш билан.
Ижодкор: Alibaba (FunAudioLLM) · Лицензия: Apache 2.0
Синаб кўриш
NAMAA Saudi TTS Стандарт
Биринчи очиқ Сауд Арабия TTS. Chatterbox-хавфсиз овозни клонлаш билан маҳаллий Сауд диалекти.
Ижодкор: NAMAA Space · Лицензия: MIT
Синаб кўриш
Darwin TTS Стандарт
Qwen3-1.7B тил моделидан кўп тилли клонлаш учун FFN вазнлари билан аралаштирилган cross-modal Qwen3-TTS варианти.
Ижодкор: FINAL-Bench · Лицензия: Apache 2.0
Синаб кўриш
MOSS-TTSD Стандарт
Кўп эшиттирувчили диалог давом эттириш модели — 5 эшиттирувчи ва 60 дақиқалик бир хил аудио билан подкаст-стилидаги суҳбатларни яратиш.
Ижодкор: OpenMOSS · Лицензия: Apache 2.0
Синаб кўриш
CosyVoice 2
Alibaba'нинг инсон-паритет табиийлиги ва деярли сифр кечикиш билан ўлчамли стрийминг TTS.
Тиллар: en, zh, ja, ko, fr, de, it, es
Овозни клонлаш
IndexTTS-2
Zero-shot TTS, яхши ҳис-туйғуларни бошқариш ва юқори ифодалилик билан.
Тиллар: en, zh
Овозни клонлаш
Spark TTS
ТТС овозини клонлаш, бошқариладиган ҳиссиёт ва саволлар орқали гапириш услуби.
Тиллар: en, zh
Овозни клонлаш
GPT-SoVITS
Фақат 5 сониялик аудиодан ҳар қандай овозни такрорлайдиган оз сонли овозни клонлаш TTS.
Тиллар: en, zh, ja, ko
Овозни клонлаш
Chatterbox
Resemble AI'дан ҳис-туйғуларни бошқариш билан энг сўнгги нуқтали овозни клонлаш.
Тиллар: en
Овозни клонлаш
Tortoise TTS
Авторегрессив архитектураси билан сифатга эътибор қаратилган кўп овозли матн-нутқ.
Тиллар: en
Овозни клонлаш
OpenVoice
Стиль, ҳиссиёт ва акцент устидан аниқ назорат билан тезкор овозни клонлаш.
Тиллар: en, zh, ja, ko, fr, es
Овозни клонлаш
VieNeu-TTS-v2
Вьетнам + инглиз код-ўтказиш TTS 7 олдиндан белгиланган овозлар ва zero-shot овоз клонлаш билан. Фақат CPU, GPU талаб қилинмайди.
Тиллар: vi, en
Овозни клонлаш
Chatterbox Turbo
Sub-200ms latency ва кулиш, йўталиш ва бошқалар учун paralinguistic теги билан тезроқ Chatterbox.
Тиллар: en
Овозни клонлаш
VoxCPM
Tokenizer-free TTS 44.1kHz аудиони контекст-аware абзац бирлиги билан ишлаб чиқаради.
Тиллар: en, zh
Овозни клонлаш
OuteTTS
CPU, GPU ёки браузер орқали llama.cpp ва Transformers.js орқали ишлайдиган LLM-базали TTS.
Тиллар: en
Овозни клонлаш
Pocket TTS
Kyutai томонидан енгил 100M параметрли модел, бир намунадан овозни клонлаш билан.
Тиллар: en, fr
Овозни клонлаш
CosyVoice3
Кейинги авлод кўп тилли TTS, иккиламчи узатиш, ҳис-туйғуларни бошқариш ва овозни клонлаш билан.
Тиллар: en, zh, ja, ko, de, es, fr, it, ru
Овозни клонлаш
NAMAA Saudi TTS
Биринчи очиқ Сауд Арабия TTS. Chatterbox-хавфсиз овозни клонлаш билан маҳаллий Сауд диалекти.
Тиллар: ar
Овозни клонлаш
Darwin TTS
Qwen3-1.7B тил моделидан кўп тилли клонлаш учун FFN вазнлари билан аралаштирилган cross-modal Qwen3-TTS варианти.
Тиллар: en, ko, ja, zh
Овозни клонлаш
MOSS-TTSD
Кўп эшиттирувчили диалог давом эттириш модели — 5 эшиттирувчи ва 60 дақиқалик бир хил аудио билан подкаст-стилидаги суҳбатларни яратиш.
Тиллар: en, zh
Овозни клонлаш
Ming-Omni TTS
InclusionAI дан 0.5B омни-модал сўзлашув модели, юқори ишончли 44.1kHz чиқинди ва овозни 0-шот билан клонлаш.
Тиллар: en, zh
Овозни клонлаш
MOSS-TTS Nano
Тинни 100M MOSS-TTS варианти — худди шу архитектура, 80x кичик, бепул-қаватли кечикиш.
Тиллар: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Овозни клонлашИжодкорлар учун API
OpenAI-муносиб REST API. Бир охирги нуқта, 22+ модел. Реал вақт дастурлари учун стрийминг қўллаб-қувватлаш.
- OpenAI-га мослаштирилган формат
- Тўлиқ вақтли дастурлар учун TTS стриминги
- Кўп ишларни бир вақтда ишлаш
- Webhook огоҳлантиришлари
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Оддий, шаффоф нархлар
Бепул бошланг. Ўсиб боришингиз билан кенгайтиринг.
Озод
15,000 белги + 5,000/кун
- Kokoro билан бирга 7 та бепул моделлар
- Ҳар бир авлод учун 5000 белги
- APIга кириш ҳам киритилган
Бошловчи
500 кредит/ой
- Ҳамма 22+ моделлар
- Ҳар бир авлод учун 100,000 белги
- Товушни клонлаш
Про
2,000 кредит/ой
- Бошловчидаги ҳамма нарса
- APIга кириш
- Авваллик билан ишлаш
Кўп бериладиган саволлар
Биз нимани яхшилашимиз мумкин? Сизнинг фикрингиз бизга муаммоларни ҳал қилишга ёрдам беради.
Бугун AI овозини қўллашни бошлаш
TTS.ai ни қўллаб яратувчилар, ишлаб чиқувчилар ва бизнесларга қўшилинг