Безплатен интеллектуален интелект Текст към реч

31+ модели с отворен източник, 231+ гласове, 34+ езици. Няма нужда от акаунт.

8K+
Създатели
30K+
поколения
31+
Модели на интелигентната интелигентност
231+
гласове
0/500 символи · Sign up for 5,000 per generation → Безплатен
Обичай ТТСай, кажи на приятелите си!

Всичко, от което се нуждаеш от гласов интеллект

30+ инструменти, захранвани от отворени модели на AI

31+ AI Гласови модели

Най-обширната колекция от отворени модели TTS в една платформа

KokoroKokoro Безплатен

Кокоро е 82 милиона параметър текст-то-шпик модел, който удари много над теглото си клас. Въпреки малкия си размер, той произвежда забележително естествена и изразителна реч. Кокоро поддържа множество езици, включително английски, японски, китайски и корейски с различни изразителни гласове. Тя работи невероятно бързо — генериране на аудио почти 100x по-бързо от реално време на GPU.

Най-добро за: Висококачествени ТТС с минимална латенция, струйни приложения

Опитай безплатно

PiperPiper Безплатен

Piper е лесен текст-то-спеех двигател, разработен от Rhaspy, който използва VITS и ларинкс архитектури. Той работи изцяло на CPU, което го прави идеален за ръбови устройства, домашна автоматизация и приложения, изискващи офлайн ТТС. С над 100 гласове през 30+ езици, Piper осигурява естествено-звучна реч при скорости в реално време дори и на Raspberry Pi 4.

Най-добро за: Бързи прегледи, достъпност и вградени приложения

Опитай безплатно

VITSVITS Безплатен

VITS (Вariacional Inference with adversarial learning for end-to-end Text-to-Speak) е паралелен край-то-край метод TTS, който генерира по-естествен звук от текущите двуетапни модели. Той приема вариационен извод, увеличен с нормализиращи потоци и процес на свръхречно обучение, достигайки значително подобряване на естествеността.

Най-добро за: Общо предназначение за текстопис с естествена прозодия

Опитай безплатно

MeloTTSMeloTTS Безплатен

MeloTTS by MyShell.ai е многоязична TTS библиотека за подкрепа на английски (американски, британски, индийски, австралийски), испански, френски, китайски, японски и корейски. Тя е изключително бързо, обработване на текст с почти реално време само на процесора. MeloTTS е предназначен за използване на производство и поддържа както процесор и GPU инференция.

Най-добро за: Производствени приложения, нуждаещи се от бързо, многоезично ТТС

Опитай безплатно

OuteTTSOuteTTS Безплатен

OutetTS разширява големи езикови модели с текстови възможности при запазване на оригиналната архитектура. Тя поддържа множество захранвания, включително lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, и дори браузърски преценка чрез Transformers.js. Features null-shot клониране на глас чрез профили на говорника, запазени като JSON.

Най-добро за: Разпространение на ивици, TTS на базата на браузъра, околности с нисък източник

Опитай безплатно

Pocket TTSPocket TTS Безплатен

Pocket TTS от Kyutai (креатори на Moshi) е компактен 100M параметър текст-то-спеех модел, който удря много над теглото си. Той работи ефективно на CPU, поддържа клониране на глас с нулеви удари от един аудио образец и произвежда естествено звукоизвестна реч. Малкият размер на модела го прави идеален за разгръщане на ръба и нисък източник на среди.

Най-добро за: Лесно разгръщане, само процесори, бързо клониране на гласа

Опитай безплатно

Kitten TTSKitten TTS Безплатен

Kitten TTS от KittenML е ултра лек текст-то-спеех модел, построен на ONNX. С варианти от 15M до 80M параметри (25-80 MB на диск), той предоставя висококачествен синтез на гласа на CPU без да изисква GPU. Характеристики 8 вградени гласове, регулируема скорост на говора, и вграден текст предобработка за числа, валути и единици. Идеален за разгръщане на ръбове и нискозабавни приложения.

Най-добро за: Бързо леко ТТС, разгръщане на ръба, прилагане с ниско закъснение

Опитай безплатно

BarkBark Стандартен

Трансформаторен текст-то-аудио модел, който генерира реалистичен реч, музика и звукови ефекти.

Разработчик: Suno · Лиценз: MIT

Опитай.

Bark SmallBark Small Стандартен

По-светла версия на Bark с по-бързо изчисляване и по-ниска употреба на паметта.

Разработчик: Suno · Лиценз: MIT

Опитай.

CosyVoice 2CosyVoice 2 Стандартен

Алибаба е скалален ТТС с естествена човешка паритетност и почти нула латентност.

Разработчик: Alibaba (Tongyi Lab) · Лиценз: Apache 2.0

Опитай.

Dia TTSDia TTS Стандартен

Модел за генериране на многоговорители, който създава естествени разговори между говорителите.

Разработчик: Nari Labs · Лиценз: Apache 2.0

Опитай.

Parler TTSParler TTS Стандартен

Опиши гласа, който искаш на естествен език и Parler генерира съвпадаща реч.

Разработчик: Hugging Face · Лиценз: Apache 2.0

Опитай.

GLM-TTSGLM-TTS Стандартен

Постига най-ниската степен на грешки на характер сред моделите на отворения източник TTS.

Разработчик: Zhipu AI · Лиценз: GLM-4 License

Опитай.

IndexTTS-2IndexTTS-2 Стандартен

Zero-shot TTS с фино-зрели емоции контрол и висока експресивност.

Разработчик: Index Team · Лиценз: Bilibili Model License

Опитай.

Spark TTSSpark TTS Стандартен

Гласово клониране TTS с контролируема емоция и стил на говорене чрез подсказки.

Разработчик: SparkAudio · Лиценз: CC BY-NC-SA 4.0

Опитай.

GPT-SoVITSGPT-SoVITS Стандартен

Малко гласово клониране TTS, което репликира всеки глас от само 5 секунди звук.

Разработчик: RVC-Boss · Лиценз: MIT

Опитай.

OrpheusOrpheus Стандартен

Човешко ниво емоционален TTS модел обучен на 100K часа данни за говора.

Разработчик: Canopy Labs · Лиценз: Llama 3.2 Community

Опитай.

Qwen3 TTSQwen3 TTS Стандартен

Многоязичният ТТС на Алибаба с гласово клониране, подредени гласове и гласов дизайн от текста.

Разработчик: Alibaba (Qwen) · Лиценз: Apache 2.0

Опитай.

Chatterbox TurboChatterbox Turbo Стандартен

По-бързо Chatterbox с под-200 мс латенция и паралингуистически тагове за смях, кашлица и др.

Разработчик: Resemble AI · Лиценз: MIT

Опитай.

Dia 2Dia 2 Стандартен

Ускоряване на първото разговорно ТТС с многоговорителен диалог и паралингвистичен сигнал.

Разработчик: Nari Labs · Лиценз: Apache 2.0

Опитай.

VoxCPMVoxCPM Стандартен

TTS без токенизатор, произвеждащ звук 44.1kHz с контекстно съзнателна консистенция.

Разработчик: OpenBMB · Лиценз: Apache 2.0

Опитай.

TADATADA Стандартен

Зеро-халюцинация TTS с текст-акустично двойно подравняване, 5x по-бързо от сравнимо LLM TTS.

Разработчик: Hume AI · Лиценз: MIT

Опитай.

VibeVoiceVibeVoice Стандартен

Microsoft модел за дългоформирано мултизвук съдържание като подкасти и аудиокниги.

Разработчик: Microsoft · Лиценз: MIT

Опитай.

CosyVoice3CosyVoice3 Стандартен

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Разработчик: Alibaba (FunAudioLLM) · Лиценз: Apache 2.0

Опитай.

ChatterboxChatterbox Премиум

Съвременно клониране на глас с контрол на емоциите от Resemble AI.

Качество:

Опитай.

Tortoise TTSTortoise TTS Премиум

Мулти-гласовен текст-то-спеец фокусиран върху качеството с автоматична регресивна архитектура.

Качество:

Опитай.

StyleTTS 2StyleTTS 2 Премиум

Човешко ниво текст-то-спеец чрез разпространение на стила и противоположно обучение.

Качество:

Опитай.

OpenVoiceOpenVoice Премиум

Мигновено клониране на гласа с гранулиран контрол върху стила, емоциите и акцента.

Качество:

Опитай.

Sesame CSMSesame CSM Премиум

Модел на разговора, генериращ естествен диалог с подходящ момент и емоции.

Качество:

Опитай.

MOSS-TTSMOSS-TTS Премиум

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Качество:

Опитай.

MegaTTS3MegaTTS3 Премиум

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Качество:

Опитай.

CosyVoice 2CosyVoice 2

Алибаба е скалален ТТС с естествена човешка паритетност и почти нула латентност.

Езици: en, zh, ja, ko, fr, de, it, es

Клониран глас

GLM-TTSGLM-TTS

Постига най-ниската степен на грешки на характер сред моделите на отворения източник TTS.

Езици: en, zh

Клониран глас

IndexTTS-2IndexTTS-2

Zero-shot TTS с фино-зрели емоции контрол и висока експресивност.

Езици: en, zh

Клониран глас

Spark TTSSpark TTS

Гласово клониране TTS с контролируема емоция и стил на говорене чрез подсказки.

Езици: en, zh

Клониран глас

GPT-SoVITSGPT-SoVITS

Малко гласово клониране TTS, което репликира всеки глас от само 5 секунди звук.

Езици: en, zh, ja, ko

Клониран глас

ChatterboxChatterbox

Съвременно клониране на глас с контрол на емоциите от Resemble AI.

Езици: en

Клониран глас

Tortoise TTSTortoise TTS

Мулти-гласовен текст-то-спеец фокусиран върху качеството с автоматична регресивна архитектура.

Езици: en

Клониран глас

OpenVoiceOpenVoice

Мигновено клониране на гласа с гранулиран контрол върху стила, емоциите и акцента.

Езици: en, zh, ja, ko, fr, de, es, it

Клониран глас

Qwen3 TTSQwen3 TTS

Многоязичният ТТС на Алибаба с гласово клониране, подредени гласове и гласов дизайн от текста.

Езици: en, zh, ja, ko, de, fr, ru, pt, es, it

Клониран глас

Chatterbox TurboChatterbox Turbo

По-бързо Chatterbox с под-200 мс латенция и паралингуистически тагове за смях, кашлица и др.

Езици: en

Клониран глас

VoxCPMVoxCPM

TTS без токенизатор, произвеждащ звук 44.1kHz с контекстно съзнателна консистенция.

Езици: en, zh

Клониран глас

OuteTTSOuteTTS

LLM-базирани TTS, които работят на CPU, GPU, или браузър чрез lama.cpp и Transformers.js.

Езици: en

Клониран глас

Pocket TTSPocket TTS

Лесен модел на параметър 100M от Kyutai с гласово клониране от една проба.

Езици: en, fr

Клониран глас

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Езици: en, zh, ja, ko, de, es, fr, it, ru

Клониран глас

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Езици: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Клониран глас

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Езици: en, zh

Клониран глас

Разработчик- първи API

Компатибилен с OpenAI REST API. Един крайна точка, 22+ модели. Ускоряване на подкрепата за приложения в реално време.

  • Формат, съвместим с OpenAI
  • Ускоряване на TTS за приложения в реално време
  • Пакетна обработка за големи работни места
  • Уведомления за Webhook
Преглед на API Docs
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Просто, прозрачно ценообразуване

Започнете свободен, скалирайте, докато растете.

Безплатен

$0

15 кредита

  • Kokoro, Piper, VITS, MeloTTS
  • 500 ограничаване на знака
  • 3 ген/час (без сметка)
Запишете се безплатно

Стартиране

$9/мо

500 кредита/месечни кредити

  • Всички 22+ модели
  • 100 000 chars на поколение
  • Гласово клониране
Започвай
Най-популярното

Професионален

$29/мо

2000 кредита в месец

  • Всичко в Стартър
  • API достъп
  • Приоритетна обработка
Вземете професионалиста.

Бизнес

$99/мо

10 000 кредита в месец

  • Всичко в профсъюза.
  • Масов API
  • Приоритетна редица
Вземете бизнес

Преглед на всички планове, включително кредитни пакети →

Често задавани въпроси

TTS.ai е най-обширната AI гласова платформа, предлагаща 22+ текстови модели, клониране на глас, реч-то-текст и аудио инструменти. Всички модели са отворен източник без заключване на продавача.

Да! TTS.ai предлага безплатен текст-то-спеч с Кокоро, Пайпър, ВИТС и МелоТТС модели. Не е необходима сметка. Регистрирайте се, за да получите 15 безплатни кредити и достъп до всички модели. Плащани планове започват с 9 долара/месец.

За скорост, използвайте Kokoro или Piper. За качество опитайте CosyVoice 2 или StyleTTS 2. За клониране на гласа, използвайте Chatterbox или GPT-SoviTS. За диалог, използвайте Dia TTS. Опитайте няколко модели на същия текст, за да сравните.

Да. Компатибилен с OpenAI REST API за TTS, STT, гласово клониране и аудио инструменти. Налични на Pro (29/mo) и Enterprise ($99/mo) планове. Вижте документация в tts.ai/api /.

Качеството на гласа варира по модела. Премиум модели като CosyVoice 2, StyleTTS 2, и Chatterbox произвеждат почти човешко качество реч с естествена интонация и емоция. Безплатни модели като Kokoro предлагат отлично качество за повечето случаи на употреба.

TTS.ai поддържа 30+ езици в цялата си модел библиотека. Английски има най-широк модел подкрепа, но модели като CosyVoice 2 обхваща китайски, японски и корейски; GPT-SoviTS работи китайски, японски, корейски и английски; и MeloTTS поддържа английски, испански, френски, китайски, японски и корейски.

Да. Всички процеси се случват на нашите специализирани GPU сървъри. Ние не съхраняваме вашите текстови входни или генерирани аудио след доставка. Качени гласови проби за клониране се използват само за текущата сесия и не са запазени. Ние никога не споделяме вашите данни с трети страни или ги използваме за обучение на модели.

Да. Всички аудиозаписи, генерирани на TTS.ai, са ваши да използвате търговски, включително за YouTube видеозаписи, подкасти, аудиокниги, приложения, реклами и продукти. Нашите модели са отворен източник под допустими лицензи (МИТ, Apache 2.0). Не се изискват авторски права или акредитация.

TTS.ai генерира аудио в WAV формат по подразбиране за максимално качество. Можете да конвертирате в MP3, FLAC, OGG, или M4A чрез нашия безплатен Audio Converter инструмент. API поддържа определянето на предпочитания ви изходен формат директно в искането.

Качете кратка аудио проба (до 5 секунди) на гласа, който искате да клонирате, след това напишете всеки текст, за да генерирате речта в този глас. Модели като Chatterbox, GPT-SoviTS и CosyVoice 2 поддържа клониране на гласа.

Безплатни модели (Kokoro, Piper, VITS, MeloTTS) не изискват кредити за сметка и разходи нула. Стандартни модели (2 кредити/1K символи) включват Bark, CosyVoice 2, F5-TTS и Dia. Premium модели (4 кредити/1K символи) включват OpenVoice, Chatterbox, StyleTTS 2 и Tortoise. Платените модели обикновено предлагат по-високо качество, повече гласове и допълнителни функции като клониране на гласа.

Да. API поддържа пакетна обработка за преобразуване на голям обем на текста в реч. Подаване на няколко искания и извличане на резултати асинхронно използване на работа UUIDs. Предприятията планове ($99/mo) включват приоритетна опашка достъп за по-бърза обработка на партиди. Идеален за производството на аудиокниги, съдържание на курса и големите гласови проекти.
4.1/5 (21)

Какво можем да подобрим? Твоята обратна връзка ни помага да решим проблемите.

Започни да използваш AI глас днес

Присъединете се към създателите, разработчиците и предприятията, използващи TTS.ai