Слободна ВИ Текст за говор

33+ Модели со отворен извор, 273+ Гласови, 33+ Нема потреба од сметка.

18K+
креатори
71K+
генерации
33+
AI модели
273+
гласови
Кажи им на пријателите!

Се што ти треба за гласовна интелигенција

30+ алатки со отворени модели на АИ

33+ AI Гласовни модели

Најсеопфатната колекција на TTS модели со отворен извор во една платформа

KokoroKokoro Слободен

Кокоро е модел од 82 милиони параметар за текст во говор, кој удира многу повеќе од класата на тежината. И покрај ситната големина, произведува извонредно природн и изразителен говор. Кокоро поддржува повеќе јазици, меѓу кои англиски, јапонски, кинески и корејски, со најразлични изразителни гласови.

Најдобро за: Висок квалитет на TTS со минимална латенција, пренесување апликации

Обиди се слободно

PiperPiper Слободен

Piper е лесен текст-на-спеец мотор разработен од Rhaspy кој користи VITS и ларинкс архитектури. Тој работи целосно на CPU, што го прави идеален за работни уреди, домашна автоматизација и апликации кои бараат офлајн ТТС. Со преку 100 гласови на 30+ јазици, Piper носи природно-звучен говор со брзина во реално време дури и на Raspberry Pi 4.

Најдобро за: Брзи прегледи, пристапност и вградени апликации

Обиди се слободно

VITSVITS Слободен

VITS (Вериционално заклучување со спротивно учење за крајно до крај на текстот на говор) е паралелен метод на TTS од крај до крај, кој генерира повеќе природно звукови звукови од сегашните двоетапни модели.

Најдобро за: Општонаменски текст- во- говор со природна прозодија

Обиди се слободно

MeloTTSMeloTTS Слободен

МелоТТС од MyShell.ai е многојазична TTS библиотека која го поддржува англискиот (американски, британски, индиски, австралиски), шпански, француски, кинески, јапонски и корејски јазик. Многу е брз, обработува текст со брзина во реално време само на процесор. МелоТТС е дизајниран за користење на производството и ги поддржува процесорот и ГПУ заклучоците.

Најдобро за: Производствените апликации на кои им требаат брзи, јазици ТТС

Обиди се слободно

Kani TTS 2Kani TTS 2 Слободен

Кани-ТТС-2 од NineNineSix е ултра лесен модел за 400M изграден на течен AI LFM2 грб со NVIDIA NanoCodec. Тој работи само за 3GB VRAM и произведува ~10 секунди говор за ~2 секунди на A100 (RTF 0.2). Моменталниот јавен модел за ослободување броди само на англиски „ kali- tts-2-en“ контролен пункт и не ја разоткрива касетата за внесување на говорникот потребна за клонирање на гласот — користи Chatterbox / IndexTTS2 / F5-TTS за клонирање, или Kokoro / MelotTS за не- англиски.

Најдобро за: Брза генерација на англиски на ниско- VRAM хардвер, брзи прегледи

Обиди се слободно

OuteTTSOuteTTS Слободен

OutetTS ги проширува големите јазични модели со можности за текст- во- говор додека ја зачувува оригиналната архитектура. Таа поддржува повеќе заднини, вклучувајќи lama.cpp (CPU/ GPU), Hugging Face Transformers, ExLlamaV2, VLLM, па дури и прелистувачски заклучоци преку Transformers.js.

Најдобро за: Распоредување на работни делови, TTS базиран на прелистувач, околина со ниски извори

Обиди се слободно

Pocket TTSPocket TTS Слободен

Покет ТТС од страна на Кјутаи (креатори на Моши) е компактен модел на 100M параметар текст- на-спеех кој удира многу над својата тежина. Тој работи ефикасно на процесор, поддржува клонирање на глас со нулти удар од еден аудио примерок и произведува природно- звучен говор. Малиот модел го прави идеален за распоредување на ивиците и околините со ниски извори.

Најдобро за: Лесно распоредување, околина само за процесор, брзо клонирање на гласот

Обиди се слободно

Kitten TTSKitten TTS Слободен

Kitten TTS by KittenML е ултра лесен модел за текст- во- говор изграден на ONNX. Со варијанти од 15M до 80M параметри (25-80 MB на диск), тој обезбедува висококвалитетна синтеза на гласот на процесор без да бара ГПУ. Содржи 8 вградени гласови, подеслива брзина на говор и вградена текстуална предобработка за броеви, валути и единици. Идеална за распоредување на работни рабови и ниско задоцнување апликации.

Најдобро за: Брза лесна TTS, распоредување на работ, апликации со ниска задоволност

Обиди се слободно

Ming-Omni TTSMing-Omni TTS Слободен

Ming-omni-tts-0.5B со вклучувањеAI е компактен всемодален модел на говор изграден врз густиот рбет на BailingMM со дијалект кој одговара на протокот. Испоставува 44.1kHz излез (близу квалитетот на CD), поддржува клонирање на гласот од 3+ вториот референт, и вклучува вградена емоција / дијалект / BGM контрола преку упатства на JSON. Одлична стабилност — 0,83% WER за кинески стандарди.

Најдобро за: Висока верност на двојазичната нарација, емоционално контролирана гласовна глума, кинеска аудиокнига содржина

Обиди се слободно

MOSS-TTS NanoMOSS-TTS Nano Слободен

MOSS-TTS-Nano-100M е компактната варијанта на OpenMOSS од 100M-парметар на семејството MOSS-TTS, споделувајќи ја архитектурата за доцнење-трансформатор.

Најдобро за: Слободна ТТС, производство со висок обем, интерактивна употреба со ниска задоволност

Обиди се слободно

BarkBark Стандардно

Текст-на-аудио модел на трансформатор кој генерира реалистичен говор, музика и звучни ефекти.

Развивач: Suno · Лиценца: MIT

Обиди се.

Bark SmallBark Small Стандардно

Посветла верзија на Барк со побрз заклучок и пониска употреба на меморија.

Развивач: Suno · Лиценца: MIT

Обиди се.

CosyVoice 2CosyVoice 2 Стандардно

Алибабабината скалална ТТС со природна човечка паритетност и речиси нула латенција.

Развивач: Alibaba (Tongyi Lab) · Лиценца: Apache 2.0

Обиди се.

Dia TTSDia TTS Стандардно

Модел на генерирање на повеќеговоричи, кој создава природни разговори помеѓу звучниците.

Развивач: Nari Labs · Лиценца: Apache 2.0

Обиди се.

Parler TTSParler TTS Стандардно

Опиши го гласот што го сакаш на природниот јазик и Parler генерира совпаѓачки говор.

Развивач: Hugging Face · Лиценца: Apache 2.0

Обиди се.

IndexTTS-2IndexTTS-2 Стандардно

Нула-погоден ТТС со фино-зрела контрола на емоциите и висока експресивност.

Развивач: Index Team · Лиценца: Bilibili Model License

Обиди се.

Spark TTSSpark TTS Стандардно

Гласовното клонирање на ТТС со контролирани емоции и стил на зборување преку испити.

Развивач: SparkAudio · Лиценца: CC BY-NC-SA 4.0

Обиди се.

GPT-SoVITSGPT-SoVITS Стандардно

Неколку гласови клонирање ТТС кои го репликираат секој глас од само 5 секунди аудио.

Развивач: RVC-Boss · Лиценца: MIT

Обиди се.

OrpheusOrpheus Стандардно

Емоционалниот модел на ТТС на човеково ниво обучуван за 100 000 часа говорни податоци.

Развивач: Canopy Labs · Лиценца: Llama 3.2 Community

Обиди се.

Qwen3 TTSQwen3 TTS Стандардно

Повеќејазичната ТТС на Алибаба со предефинирани гласови и дизајн на глас од текстот.

Развивач: Alibaba (Qwen) · Лиценца: Apache 2.0

Обиди се.

VieNeu-TTS-v2VieNeu-TTS-v2 Стандардно

Виетнамски + Англиски превртувач на кодови TTS со 7 претпоставени гласови и клонирање со нулти глас. Само процесор, не е потребен GPU.

Развивач: Phạm Nguyễn Ngọc Bảo · Лиценца: Apache 2.0

Обиди се.

Chatterbox TurboChatterbox Turbo Стандардно

Побрзо чаттербокс со под-200 метри латенција и паралингуистички ознаки за смеење, кашлање и повеќе.

Развивач: Resemble AI · Лиценца: MIT

Обиди се.

VoxCPMVoxCPM Стандардно

ТТС без токенизирање произведува 44.1kHz аудио со конзистентност на контекстот.

Развивач: OpenBMB · Лиценца: Apache 2.0

Обиди се.

VibeVoiceVibeVoice Стандардно

Мајкрософт модел за долгоформирана содржина на мултимедиктори како подкасти и аудио книги.

Развивач: Microsoft · Лиценца: MIT

Обиди се.

CosyVoice3CosyVoice3 Стандардно

Следната генерација јазичен ТТС со двостримирање, контрола на емоциите и клонирање на гласот со нулти удар.

Развивач: Alibaba (FunAudioLLM) · Лиценца: Apache 2.0

Обиди се.

NAMAA Saudi TTSNAMAA Saudi TTS Стандардно

Првиот отворен саудиско-арапски ТТС, домороден саудиски дијалект со клонирање на гласот на чаттербокс.

Развивач: NAMAA Space · Лиценца: MIT

Обиди се.

Darwin TTSDarwin TTS Стандардно

Кросмодалната варијанта Qwen3-TTS со FFN тежини измешана од Qwen3-1,7B јазичен модел за појазично клонирање.

Развивач: FINAL-Bench · Лиценца: Apache 2.0

Обиди се.

MOSS-TTSDMOSS-TTSD Стандардно

Модел за продолжување на повеќезвучниот дијалог — генерира разговори во стилот на подкаст со до 5 звучници и 60 минути кохерентно аудио.

Развивач: OpenMOSS · Лиценца: Apache 2.0

Обиди се.

ChatterboxChatterbox Премиум

Современо клонирање на гласот со контрола на емоциите од Ресембл АИ.

Квалитет:

Обиди се.

Tortoise TTSTortoise TTS Премиум

Мулти-гласен текст-на-спиеч се фокусираше на квалитетот со автоматски регресивна архитектура.

Квалитет:

Обиди се.

StyleTTS 2StyleTTS 2 Премиум

Човечко ниво на текст во говор преку дифузија во стилот и противречна обука.

Квалитет:

Обиди се.

OpenVoiceOpenVoice Премиум

Моментално клонирање на гласот со гранулирана контрола над стилот, емоциите и акцентот.

Квалитет:

Обиди се.

Sesame CSMSesame CSM Премиум

Разговорниот модел на говор создава природни дијалоги со соодветен тајминг и емоции.

Квалитет:

Обиди се.

CosyVoice 2CosyVoice 2

Алибабабината скалална ТТС со природна човечка паритетност и речиси нула латенција.

Јазици: en, zh, ja, ko, fr, de, it, es

Клонирај глас

IndexTTS-2IndexTTS-2

Нула-погоден ТТС со фино-зрела контрола на емоциите и висока експресивност.

Јазици: en, zh

Клонирај глас

Spark TTSSpark TTS

Гласовното клонирање на ТТС со контролирани емоции и стил на зборување преку испити.

Јазици: en, zh

Клонирај глас

GPT-SoVITSGPT-SoVITS

Неколку гласови клонирање ТТС кои го репликираат секој глас од само 5 секунди аудио.

Јазици: en, zh, ja, ko

Клонирај глас

ChatterboxChatterbox

Современо клонирање на гласот со контрола на емоциите од Ресембл АИ.

Јазици: en

Клонирај глас

Tortoise TTSTortoise TTS

Мулти-гласен текст-на-спиеч се фокусираше на квалитетот со автоматски регресивна архитектура.

Јазици: en

Клонирај глас

OpenVoiceOpenVoice

Моментално клонирање на гласот со гранулирана контрола над стилот, емоциите и акцентот.

Јазици: en, zh, ja, ko, fr, es

Клонирај глас

VieNeu-TTS-v2VieNeu-TTS-v2

Виетнамски + Англиски превртувач на кодови TTS со 7 претпоставени гласови и клонирање со нулти глас. Само процесор, не е потребен GPU.

Јазици: vi, en

Клонирај глас

Chatterbox TurboChatterbox Turbo

Побрзо чаттербокс со под-200 метри латенција и паралингуистички ознаки за смеење, кашлање и повеќе.

Јазици: en

Клонирај глас

VoxCPMVoxCPM

ТТС без токенизирање произведува 44.1kHz аудио со конзистентност на контекстот.

Јазици: en, zh

Клонирај глас

OuteTTSOuteTTS

TTS базиран на LLM кој работи на процесор, GPU или прелистувач преку lama.cpp и Transformers.js.

Јазици: en

Клонирај глас

Pocket TTSPocket TTS

Лесен модел на параметар 100М од Кјутаи со клонирање на гласот од еден примерок.

Јазици: en, fr

Клонирај глас

CosyVoice3CosyVoice3

Следната генерација јазичен ТТС со двостримирање, контрола на емоциите и клонирање на гласот со нулти удар.

Јазици: en, zh, ja, ko, de, es, fr, it, ru

Клонирај глас

NAMAA Saudi TTSNAMAA Saudi TTS

Првиот отворен саудиско-арапски ТТС, домороден саудиски дијалект со клонирање на гласот на чаттербокс.

Јазици: ar

Клонирај глас

Darwin TTSDarwin TTS

Кросмодалната варијанта Qwen3-TTS со FFN тежини измешана од Qwen3-1,7B јазичен модел за појазично клонирање.

Јазици: en, ko, ja, zh

Клонирај глас

MOSS-TTSDMOSS-TTSD

Модел за продолжување на повеќезвучниот дијалог — генерира разговори во стилот на подкаст со до 5 звучници и 60 минути кохерентно аудио.

Јазици: en, zh

Клонирај глас

Ming-Omni TTSMing-Omni TTS

Компактен модел на вкупен говор од 0.5Б од вклучувањеAI со висока верност 44.1kHz излез и клонирање на гласот со нулти удар.

Јазици: en, zh

Клонирај глас

MOSS-TTS NanoMOSS-TTS Nano

варијанта 100M MOSS-TTS — истата архитектура, 80х помала, слободна латенција.

Јазици: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Клонирај глас

Развивач- прв API

Компатибилна со OpenAI REST API. Една крајна точка, 22+ модели. Забрзувам поддршка за апликациите во реално време.

  • Формат соодветен со OpenAI
  • Стремирам TTS за апликации во реално време
  • Пакетна обработка за големи задачи
  • Веб- куќни известувања
Види API Док
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Едноставен, транспарентен цени

Почни слободно, скалирај додека растеш.

Слободен

$0

15.000 знаци + 5000 на ден

  • 7 слободни модели, вклучувајќи го и Кокоро
  • 5.000 знакови во генерација
  • API пристапот е вклучен
Слободно потпиши се

Стартер

$9/мо

500 кредити/месечно

  • Сите 22+ модели
  • 100.000 chars по генерација
  • Гласовно клонирање
Започни
Најпопуларно

Проф.

$29/мо

2000 кредити месечно

  • Се во стартер
  • API пристап
  • Приоритетна обработка
Добиј проф.

Бизнис

$99/мо

10.000 кредити во месец

  • Се' во проф.
  • Масовна API
  • Приоритетна редица
Земи си работа

Ги гледа сите планови вклучувајќи ги и знаците →

Често поставувани прашања

TTS.ai е најсеопфатната АИ гласовна платформа, која нуди 22+ текстуални модели, клонирање на гласот, говор-на-текст и аудио алатки. Сите модели се отворен извор без приклучување на продавачот.

Да! TTS.ai нуди бесплатен текст за говор со Кокоро, Пајпер, ВИТС и МелоТТС модели. Не е потребна сметка. Запиши се за да добиеш 15.000 слободни знаци и пристап до сите модели. Платените планови почнуваат со 9 долари месечно.

За брзина, користете го Kokoro или Piper. За квалитет, обидете се CosyVoice 2 или StyleTTS 2. За клонирање на гласот, користете Chatterbox или GPT- SoVITS. За дијалог, користете Dia TTS. Обидете се со повеќе модели на истиот текст за споредба.

Да. Компатибилно со OpenAI REST API за TTS, STT, клонирање на гласот и аудио алатки. Вклучено на секој план вклучувајќи го бесплатно, со ограничувања на стапките по ниво (Слободно: 10 req/min, Lite: 20, Стартер: 30, Pro: 60, Бизнис: 300). Преглед на документацијата на tts.ai/api/.

Квалитетот на гласот варира според моделот. Премиум модели како CosyVoice 2, StyleTTS 2 и Chatterbox произведуваат речиси човечки квалитетен говор со природна интонација и емоции.

TTS.ai поддржуваат 30+ јазици низ својата макетна библиотека. Англиски има најширока поддршка за моделот, но модели како CosyVoice 2 покриваат кинески, јапонски и корејски; GPT-SoviTS управува со кинески, јапонски, корејски и англиски; и MelotTS поддржува англиски, шпански, француски, кинески, јапонски и корејски.

Да. Сите процеси се случуваат на нашите посветени сервери на GPU. Не го чуваме вашиот текст или генерираме аудио по испраќањето. Внесените образци за глас се користат само за тековната сесија и не се задржани. Никогаш не ги споделуваме вашите податоци со третите страни ниту ги користиме за обука на модели.

Да. Сите аудиоснимки генерирани на TTS.ai е ваше да користите комерцијално, вклучително и за ЈуТјуб видеа, подкасти, аудиокниги, апликации, реклами и производи. Нашите модели се отворен извор под попустливи лиценца (МИТ, Апачи 2.0). Не се потребни ниту хонорари ниту припишување.

TTS.ai генерира аудио во WAV форматот стандардно за максимален квалитет. Може да конвертирате во MP3, FLAC, OGG или M4A користејќи ја нашата слободна аудио конвертерска алатка. API го поддржува наведувањето на вашиот претпочитан излезен формат директно во барањето.

Внесете краток аудио примерок (најмалку 5 секунди) од гласот што сакате да го клонирате, а потоа внесете било кој текст за да генерирате говор во тој глас. Модели како Chatterbox, GPT- SoVITS и CosyVoice 2 поддржуваат клонирање на гласот. Клонираниот глас го снима тонот, акцент и стил на говор.

Бесплатни модели (Kokoro, Piper, VITS, MelotTS) не бараат знаци за сметка и трошоци. Стандардни модели (2.000 знакови/1K инпут) вклучуваат Bark, CosyVoice 2, F5- TTS и Dia. Premium модели (4.000 знакови/1K инпут) вклучуваат OpenVoice, Chatterbox, StyleTTS 2 и Tortoise. Платените модели обично нудат повисок квалитет, повеќе гласови и дополнителни карактеристики како клонирање на гласот.

Да. API поддржува пакетна обработка за претворање на големи томови на текст во говор. Поднесување на повеќе барања и добивање на резултати асинхронно користејќи ги UUIDs. Бизнис планот ($99/mo) и повисок вклучува пристап во редицата за побрза процесија на серија. Идеален за производството на аудиокниги, содржината на курсот и големите гласовни проекти.
4.1/5 (42)

Твоите повратни информации ни помагаат да ги решиме проблемите.

Почни да користиш ВИ глас денес

Приклучи се кон креаторите, развивачите и бизнисите со TTS.ai