Слободна ВИ Текст за говор
33+ Модели со отворен извор, 273+ Гласови, 33+ Нема потреба од сметка.
Се што ти треба за гласовна интелигенција
30+ алатки со отворени модели на АИ
33+ AI Гласовни модели
Најсеопфатната колекција на TTS модели со отворен извор во една платформа
Kokoro Слободен
Кокоро е модел од 82 милиони параметар за текст во говор, кој удира многу повеќе од класата на тежината. И покрај ситната големина, произведува извонредно природн и изразителен говор. Кокоро поддржува повеќе јазици, меѓу кои англиски, јапонски, кинески и корејски, со најразлични изразителни гласови.
Најдобро за: Висок квалитет на TTS со минимална латенција, пренесување апликации
Обиди се слободно
Piper Слободен
Piper е лесен текст-на-спеец мотор разработен од Rhaspy кој користи VITS и ларинкс архитектури. Тој работи целосно на CPU, што го прави идеален за работни уреди, домашна автоматизација и апликации кои бараат офлајн ТТС. Со преку 100 гласови на 30+ јазици, Piper носи природно-звучен говор со брзина во реално време дури и на Raspberry Pi 4.
Најдобро за: Брзи прегледи, пристапност и вградени апликации
Обиди се слободно
VITS Слободен
VITS (Вериционално заклучување со спротивно учење за крајно до крај на текстот на говор) е паралелен метод на TTS од крај до крај, кој генерира повеќе природно звукови звукови од сегашните двоетапни модели.
Најдобро за: Општонаменски текст- во- говор со природна прозодија
Обиди се слободно
MeloTTS Слободен
МелоТТС од MyShell.ai е многојазична TTS библиотека која го поддржува англискиот (американски, британски, индиски, австралиски), шпански, француски, кинески, јапонски и корејски јазик. Многу е брз, обработува текст со брзина во реално време само на процесор. МелоТТС е дизајниран за користење на производството и ги поддржува процесорот и ГПУ заклучоците.
Најдобро за: Производствените апликации на кои им требаат брзи, јазици ТТС
Обиди се слободно
Kani TTS 2 Слободен
Кани-ТТС-2 од NineNineSix е ултра лесен модел за 400M изграден на течен AI LFM2 грб со NVIDIA NanoCodec. Тој работи само за 3GB VRAM и произведува ~10 секунди говор за ~2 секунди на A100 (RTF 0.2). Моменталниот јавен модел за ослободување броди само на англиски „ kali- tts-2-en“ контролен пункт и не ја разоткрива касетата за внесување на говорникот потребна за клонирање на гласот — користи Chatterbox / IndexTTS2 / F5-TTS за клонирање, или Kokoro / MelotTS за не- англиски.
Најдобро за: Брза генерација на англиски на ниско- VRAM хардвер, брзи прегледи
Обиди се слободно
OuteTTS Слободен
OutetTS ги проширува големите јазични модели со можности за текст- во- говор додека ја зачувува оригиналната архитектура. Таа поддржува повеќе заднини, вклучувајќи lama.cpp (CPU/ GPU), Hugging Face Transformers, ExLlamaV2, VLLM, па дури и прелистувачски заклучоци преку Transformers.js.
Најдобро за: Распоредување на работни делови, TTS базиран на прелистувач, околина со ниски извори
Обиди се слободно
Pocket TTS Слободен
Покет ТТС од страна на Кјутаи (креатори на Моши) е компактен модел на 100M параметар текст- на-спеех кој удира многу над својата тежина. Тој работи ефикасно на процесор, поддржува клонирање на глас со нулти удар од еден аудио примерок и произведува природно- звучен говор. Малиот модел го прави идеален за распоредување на ивиците и околините со ниски извори.
Најдобро за: Лесно распоредување, околина само за процесор, брзо клонирање на гласот
Обиди се слободно
Kitten TTS Слободен
Kitten TTS by KittenML е ултра лесен модел за текст- во- говор изграден на ONNX. Со варијанти од 15M до 80M параметри (25-80 MB на диск), тој обезбедува висококвалитетна синтеза на гласот на процесор без да бара ГПУ. Содржи 8 вградени гласови, подеслива брзина на говор и вградена текстуална предобработка за броеви, валути и единици. Идеална за распоредување на работни рабови и ниско задоцнување апликации.
Најдобро за: Брза лесна TTS, распоредување на работ, апликации со ниска задоволност
Обиди се слободно
Ming-Omni TTS Слободен
Ming-omni-tts-0.5B со вклучувањеAI е компактен всемодален модел на говор изграден врз густиот рбет на BailingMM со дијалект кој одговара на протокот. Испоставува 44.1kHz излез (близу квалитетот на CD), поддржува клонирање на гласот од 3+ вториот референт, и вклучува вградена емоција / дијалект / BGM контрола преку упатства на JSON. Одлична стабилност — 0,83% WER за кинески стандарди.
Најдобро за: Висока верност на двојазичната нарација, емоционално контролирана гласовна глума, кинеска аудиокнига содржина
Обиди се слободно
MOSS-TTS Nano Слободен
MOSS-TTS-Nano-100M е компактната варијанта на OpenMOSS од 100M-парметар на семејството MOSS-TTS, споделувајќи ја архитектурата за доцнење-трансформатор.
Најдобро за: Слободна ТТС, производство со висок обем, интерактивна употреба со ниска задоволност
Обиди се слободно
Bark Стандардно
Текст-на-аудио модел на трансформатор кој генерира реалистичен говор, музика и звучни ефекти.
Развивач: Suno · Лиценца: MIT
Обиди се.
Bark Small Стандардно
Посветла верзија на Барк со побрз заклучок и пониска употреба на меморија.
Развивач: Suno · Лиценца: MIT
Обиди се.
CosyVoice 2 Стандардно
Алибабабината скалална ТТС со природна човечка паритетност и речиси нула латенција.
Развивач: Alibaba (Tongyi Lab) · Лиценца: Apache 2.0
Обиди се.
Dia TTS Стандардно
Модел на генерирање на повеќеговоричи, кој создава природни разговори помеѓу звучниците.
Развивач: Nari Labs · Лиценца: Apache 2.0
Обиди се.
Parler TTS Стандардно
Опиши го гласот што го сакаш на природниот јазик и Parler генерира совпаѓачки говор.
Развивач: Hugging Face · Лиценца: Apache 2.0
Обиди се.
IndexTTS-2 Стандардно
Нула-погоден ТТС со фино-зрела контрола на емоциите и висока експресивност.
Развивач: Index Team · Лиценца: Bilibili Model License
Обиди се.
Spark TTS Стандардно
Гласовното клонирање на ТТС со контролирани емоции и стил на зборување преку испити.
Развивач: SparkAudio · Лиценца: CC BY-NC-SA 4.0
Обиди се.
GPT-SoVITS Стандардно
Неколку гласови клонирање ТТС кои го репликираат секој глас од само 5 секунди аудио.
Развивач: RVC-Boss · Лиценца: MIT
Обиди се.
Orpheus Стандардно
Емоционалниот модел на ТТС на човеково ниво обучуван за 100 000 часа говорни податоци.
Развивач: Canopy Labs · Лиценца: Llama 3.2 Community
Обиди се.
Qwen3 TTS Стандардно
Повеќејазичната ТТС на Алибаба со предефинирани гласови и дизајн на глас од текстот.
Развивач: Alibaba (Qwen) · Лиценца: Apache 2.0
Обиди се.
VieNeu-TTS-v2 Стандардно
Виетнамски + Англиски превртувач на кодови TTS со 7 претпоставени гласови и клонирање со нулти глас. Само процесор, не е потребен GPU.
Развивач: Phạm Nguyễn Ngọc Bảo · Лиценца: Apache 2.0
Обиди се.
Chatterbox Turbo Стандардно
Побрзо чаттербокс со под-200 метри латенција и паралингуистички ознаки за смеење, кашлање и повеќе.
Развивач: Resemble AI · Лиценца: MIT
Обиди се.
VoxCPM Стандардно
ТТС без токенизирање произведува 44.1kHz аудио со конзистентност на контекстот.
Развивач: OpenBMB · Лиценца: Apache 2.0
Обиди се.
VibeVoice Стандардно
Мајкрософт модел за долгоформирана содржина на мултимедиктори како подкасти и аудио книги.
Развивач: Microsoft · Лиценца: MIT
Обиди се.
CosyVoice3 Стандардно
Следната генерација јазичен ТТС со двостримирање, контрола на емоциите и клонирање на гласот со нулти удар.
Развивач: Alibaba (FunAudioLLM) · Лиценца: Apache 2.0
Обиди се.
NAMAA Saudi TTS Стандардно
Првиот отворен саудиско-арапски ТТС, домороден саудиски дијалект со клонирање на гласот на чаттербокс.
Развивач: NAMAA Space · Лиценца: MIT
Обиди се.
Darwin TTS Стандардно
Кросмодалната варијанта Qwen3-TTS со FFN тежини измешана од Qwen3-1,7B јазичен модел за појазично клонирање.
Развивач: FINAL-Bench · Лиценца: Apache 2.0
Обиди се.
MOSS-TTSD Стандардно
Модел за продолжување на повеќезвучниот дијалог — генерира разговори во стилот на подкаст со до 5 звучници и 60 минути кохерентно аудио.
Развивач: OpenMOSS · Лиценца: Apache 2.0
Обиди се.
CosyVoice 2
Алибабабината скалална ТТС со природна човечка паритетност и речиси нула латенција.
Јазици: en, zh, ja, ko, fr, de, it, es
Клонирај глас
IndexTTS-2
Нула-погоден ТТС со фино-зрела контрола на емоциите и висока експресивност.
Јазици: en, zh
Клонирај глас
Spark TTS
Гласовното клонирање на ТТС со контролирани емоции и стил на зборување преку испити.
Јазици: en, zh
Клонирај глас
GPT-SoVITS
Неколку гласови клонирање ТТС кои го репликираат секој глас од само 5 секунди аудио.
Јазици: en, zh, ja, ko
Клонирај глас
Chatterbox
Современо клонирање на гласот со контрола на емоциите од Ресембл АИ.
Јазици: en
Клонирај глас
Tortoise TTS
Мулти-гласен текст-на-спиеч се фокусираше на квалитетот со автоматски регресивна архитектура.
Јазици: en
Клонирај глас
OpenVoice
Моментално клонирање на гласот со гранулирана контрола над стилот, емоциите и акцентот.
Јазици: en, zh, ja, ko, fr, es
Клонирај глас
VieNeu-TTS-v2
Виетнамски + Англиски превртувач на кодови TTS со 7 претпоставени гласови и клонирање со нулти глас. Само процесор, не е потребен GPU.
Јазици: vi, en
Клонирај глас
Chatterbox Turbo
Побрзо чаттербокс со под-200 метри латенција и паралингуистички ознаки за смеење, кашлање и повеќе.
Јазици: en
Клонирај глас
VoxCPM
ТТС без токенизирање произведува 44.1kHz аудио со конзистентност на контекстот.
Јазици: en, zh
Клонирај глас
OuteTTS
TTS базиран на LLM кој работи на процесор, GPU или прелистувач преку lama.cpp и Transformers.js.
Јазици: en
Клонирај глас
Pocket TTS
Лесен модел на параметар 100М од Кјутаи со клонирање на гласот од еден примерок.
Јазици: en, fr
Клонирај глас
CosyVoice3
Следната генерација јазичен ТТС со двостримирање, контрола на емоциите и клонирање на гласот со нулти удар.
Јазици: en, zh, ja, ko, de, es, fr, it, ru
Клонирај глас
NAMAA Saudi TTS
Првиот отворен саудиско-арапски ТТС, домороден саудиски дијалект со клонирање на гласот на чаттербокс.
Јазици: ar
Клонирај глас
Darwin TTS
Кросмодалната варијанта Qwen3-TTS со FFN тежини измешана од Qwen3-1,7B јазичен модел за појазично клонирање.
Јазици: en, ko, ja, zh
Клонирај глас
MOSS-TTSD
Модел за продолжување на повеќезвучниот дијалог — генерира разговори во стилот на подкаст со до 5 звучници и 60 минути кохерентно аудио.
Јазици: en, zh
Клонирај глас
Ming-Omni TTS
Компактен модел на вкупен говор од 0.5Б од вклучувањеAI со висока верност 44.1kHz излез и клонирање на гласот со нулти удар.
Јазици: en, zh
Клонирај глас
MOSS-TTS Nano
варијанта 100M MOSS-TTS — истата архитектура, 80х помала, слободна латенција.
Јазици: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Клонирај гласРазвивач- прв API
Компатибилна со OpenAI REST API. Една крајна точка, 22+ модели. Забрзувам поддршка за апликациите во реално време.
- Формат соодветен со OpenAI
- Стремирам TTS за апликации во реално време
- Пакетна обработка за големи задачи
- Веб- куќни известувања
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Едноставен, транспарентен цени
Почни слободно, скалирај додека растеш.
Слободен
15.000 знаци + 5000 на ден
- 7 слободни модели, вклучувајќи го и Кокоро
- 5.000 знакови во генерација
- API пристапот е вклучен
Стартер
500 кредити/месечно
- Сите 22+ модели
- 100.000 chars по генерација
- Гласовно клонирање
Проф.
2000 кредити месечно
- Се во стартер
- API пристап
- Приоритетна обработка
Често поставувани прашања
Твоите повратни информации ни помагаат да ги решиме проблемите.
Почни да користиш ВИ глас денес
Приклучи се кон креаторите, развивачите и бизнисите со TTS.ai