Тексттен сүйлөмгө

Текстти ачык булактуу AI моделдери менен табигый үндөгү сүйлөмгө айландыруу. Акысыз, эсеп-фактура талап кылынбайт.

Сиздин тилиңиз үчүн TTS үндөрү азырынча жок. Бизге өзүңүздүн үндөрүңүздү кошуп берүүңүздү сурайбыз! Сиздин үнүңүздү сатуу
0/500 символдор
Жазылуу 5000 символго чейин

Текстти SSML тегдерине өткөрүп берүү:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Эмоционалдык белгилөөлөрдү кошуу (модельдин колдоосу ар кандай):

Өзгөчө сүйлөмдөрдү аныктоо (сөз = сүйлөм):

-12 +12
0.5x 2.0x
Piper, VITS, MeloTTS менен акысыз
Сиздин түзүлгөн аудио файлыңыз бул жерде пайда болот. Модель тандап, текстти киргизип, Жаңылоо баскычын басыңыз.
Аудио ийгиликтүү түзүлгөн
0:00 0:00
Аудиону жүктөп алуу Ссылканын мөөнөтү 24 сааттан кийин аяктайт
TTS.ai сизге жактыбы? Досторуңузга айтыңыз!

Маалыматтар

Kitten TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Жазуучу: KittenML
Лицензия: Apache 2.0
Жылдамдык Fast
_Сапат:
тилдер 1 Кыргыз тили
VRAM 0GB
Сөздү клондоо Колдонулбайт
Артыкчылыктар:
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
Эң жакшысы:: Fast lightweight TTS, edge deployment, low-latency applications

Жакшы натыйжалар үчүн кеңештер

  • Туура пунктуацияны колдонуу табигый тыныгуулар жана интонация үчүн
  • Чиптердин жана кыскартмалардын орфографиясын оңдоо
  • Сөз арасына кыска pauzlar түзүү үчүн коммалар кошуу
  • Узак, драматикалык тыныгуу үчүн көптүк белгисин (...) колдонуу
  • Эң табигый натыйжа үчүн Kokoro же CosyVoice 2 колдонуп көрүңүз
  • Dia-ны көп сүйлөткүчтүү диалогдор жана подкасттар үчүн колдонуу

Символдорду колдонуу

Тигр 1K символдун баасы
Акысыз 0 кредит (чектелбеген)
Стандарттык 2 кредит / 1K символ
Премиум 4 кредит / 1K символ

AI тексттен сүйлөөгө кантип иштей тургандыгы

Профессионалдык сапаттагы үн жазууларды үч жөнөкөй кадам менен түзүү. Техникалык билимдер талап кылынбайт.

1-кадам

Тексти киргизиңиз

Текст, который вы хотите конвертировать в речь, введите, вставьте или загрузите. Поддерживается до 5000 символов в генерации для зарегистрированных пользователей. Используйте простой текст или добавьте SSML-теги для расширенного управления произношением, паузами и акцентом.

2-кадам

Модель жана үн тандоо

20дан ашык AI моделдерин үч баскычтан тандаңыз. Сиздин мазмунуңузга ылайыктуу үндү тандаңыз, тилди тандаңыз, ойнотуу ылдамдыгын 0.5x-2.0x аралыгына ылайыкташтырыңыз жана каалаган форматты тандаңыз (MP3, WAV, OGG же FLAC).

3-кадам

Жүктөө

Генерировать баскычын чыкылдатып, сиздин аудиоңуз бир нече секунданын ичинде даярдалып бүтөт. Аларды орнотулган ойноткуч менен алдын ала көрүңүз, тандалган форматта жүктөңүз же бөлүшүүгө ылайыктуу шилтемени көчүрүп алыңыз. Программалык интерфейсти пакеттик иштетүү жана иш-аракеттериңизге интеграциялоо үчүн пайдаланыңыз.

Тексттен сүйлөөгө которуу

ИИ менен иштелип чыккан текстти сүйлөмгө айландыруу технологиясы көптөгөн тармактарда адамдардын аудио контентти түзүү, колдонуу жана аны менен өз ара аракеттенүү ыкмаларын өзгөртүүдө.

Бардык текст-сөз моделдери

TTS.ai сайтында ар бир AI модели үчүн деталдуу мүнөздөмөлөр бар. Салыштыруу сапаты, ылдамдыгы, тил колдоосу жана өзгөчөлүктөрү сиздин долбооруңуз үчүн идеалдуу моделди табуу үчүн.

KokoroKokoro

Free

Kokoro - бул 82 миллион параметрлүү текст-сөз моделинин өзүнүн салмак классынан ашып түшкөн модели. Анын кичинекей өлчөмүне карабастан, ал абдан табигый жана эмоциялык сүйлөмдү жаратат. Kokoro бир нече тилдердин, анын ичинде англис, япон, кытай жана корей тилдерин колдойт, ар кандай эмоциялык үн менен. Ал өтө тез иштейт - аудиону GPU аркылуу реалдык убакытта генерациялоого караганда 100 эсе тез.

Жазуучу::
Hexgrad
Лицензия::
Apache 2.0
Жылдамдык:
Fast
_Сапат::
тилдер:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
VRAM:
1.5GB
Сөздү клондоо:
Жок
1K символдун баасы:
Акысыз
82M параметрлери Өтө тез Экспрессивдүү үн Көп тилдүү Стриминг колдоосу
Эң жакшысы:: Минималдуу кечиктирүү менен жогорку сапаттагы TTS, потоктук колдонмолор

PiperPiper

Free

Piper - Rhasspy тарабынан иштелип чыккан тексттен сүйлөмгө өтүү үчүн жеңил движок, VITS жана larynx архитектураларын колдонот. Ал толугу менен процессор менен иштейт, андыктан ал edge-устройствалар, үй автоматизациясы жана оффлайн TTS талап кылган тиркемелерге идеалдуу. 100дөн ашык үн менен 30дан ашык тилде, Piper Raspberry Pi 4де да табигый үн менен сөздү реалдык убакытта жеткирет.

Жазуучу::
Rhasspy
Лицензия::
MIT
Жылдамдык:
Fast
_Сапат::
тилдер:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
VRAM:
0 (CPU only)
Сөздү клондоо:
Жок
1K символдун баасы:
Акысыз
Процессорго ыңгайлуу Автономдуу 100+ үн 30дан ашык тил SSML колдоосу
Эң жакшысы:: Жылдам алдын-ала көрүү, жеткиликтүүлүктү жакшыртуу жана орнотулган колдонмолор

VITSVITS

Free

VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) - бул параллельдүү, эки баскычтуу моделдерге караганда табигый үн чыгаруучу, бүткүл текстти сүйлөмгө айландыруу методу. Ал вариациялык инференцияны, нормалдаштыруу агымдарын жана атаандаштыкты үйрөтүү процессин колдонот, бул табигый үн чыгаруу сапатын кыйла жогорулатат.

Жазуучу::
Jaehyeon Kim et al.
Лицензия::
MIT
Жылдамдык:
Fast
_Сапат::
тилдер:
en, zh, ja, ko
VRAM:
1GB
Сөздү клондоо:
Жок
1K символдун баасы:
Акысыз
Бирин-бири толуктаган синтез Табигый прозо Жылдам жыйынтыктоо Бир нече үн чыгаргычтар
Эң жакшысы:: Жалпы максаттагы текстти сүйлөмгө айландыруучу программа

MeloTTSMeloTTS

Free

MeloTTS by MyShell.ai - бул англис (америкалык, британдык, индиялык, австралиялык), испан, француз, кытай, япон жана корей тилдерин колдогон көп тилдеги текстти которуу библиотекасы. Бул программа өтө тез, текстти процессор менен бир эле учурда иштетип жатат. MeloTTS иштетүү үчүн иштелип чыккан жана процессор менен графикалык процессорду тең колдойт.

Жазуучу::
MyShell.ai
Лицензия::
MIT
Жылдамдык:
Fast
_Сапат::
тилдер:
en, es, fr, zh, ja, ko
VRAM:
0.5GB (GPU optional)
Сөздү клондоо:
Жок
1K символдун баасы:
Акысыз
Процессор үчүн оптималдаштырылган Көп тилдүү Бир нече акцент Продукцияга даяр Кичинекей кечигүү
Эң жакшысы:: Жылдам, көп тилдеги TTS талап кылган продукциялык колдонмолор

BarkBark

Standard

Suno тарабынан иштелип чыккан Bark - бул тексттен аудиого трансформаторго негизделген модель, ал жогорку реалисттик, көп тилдеги сүйлөмдү жана башка аудиону, мисалы музыканы, фондук ызы-чууну жана үн эффекттерин жаратат. Ал күлкү, ыйлоо жана ыйлоо сыяктуу сөзсүз эмес байланыштарды жаратат. Bark 100дөн ашык үн чыгаруучуну жана 13тен ашык тилдерди колдойт.

Жазуучу::
Suno
Лицензия::
MIT
Жылдамдык:
Slow
_Сапат::
тилдер:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
5GB
Сөздү клондоо:
Жок
1K символдун баасы:
2x
Үн эффекттери Көкүрөктө/Жүрөгүмдө Музыканы жаратуу 100+ сүйлөткүч Көп тилдүү
Эң жакшысы:: Творческий аудиоконтент, аудиокниги с эмоциями, звуковые эффекты

Bark SmallBark Small

Standard

Bark Small - бул Bark моделинин дистиллделген версиясы, ал кээ бир аудио сапатын тездетилген индукция ылдамдыгына жана аз эс талап кылганга алмаштырат. Ал Bark'тин сүйлөмдү эмоциялар, күлкү жана бир нече тилдер менен генерациялоо мүмкүнчүлүгүн сактап калат.

Жазуучу::
Suno
Лицензия::
MIT
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
VRAM:
2GB
Сөздү клондоо:
Жок
1K символдун баасы:
2x
Жашыл Толук коргошундан тез Эмоциялык сүйлөм Көп тилдүү
Эң жакшысы:: Тез креативдик аудио, эгерде толук Барк өтө жай болсо

CosyVoice 2CosyVoice 2

Standard

CosyVoice 2 Alibaba's Tongyi Lab тарабынан иштелип чыккан, ал адамга окшош үн сапатын өтө төмөн кечиктирүү менен камсыз кылат, бул аны реалдуу убакытта иштей турган тиркемелерге идеалдуу кылат. Ал потоктук синтез үчүн чексиз скалярдык кванттык ыкманы колдонот жана 0-шоттук үн клондоону, тилдер аралык синтезди жана майда-чүйдөсүнө чейинки эмоцияларды башкарууну колдойт. Ал субъективдүү баалоо боюнча көпчүлүк коммерциялык ТТС системаларын алдыга жылдырат.

Жазуучу::
Alibaba (Tongyi Lab)
Лицензия::
Apache 2.0
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh, ja, ko, fr, de, it, es
VRAM:
4GB
Сөздү клондоо:
Ооба
1K символдун баасы:
2x
Стриминг Zero-shot клондоо Көп тилдүү Эмоцияларды башкаруу Адам-паритети
Эң жакшысы:: Реалдуу убакытта иштей турган колдонмолор, TTS, үн жардамчылары

Dia TTSDia TTS

Standard

Dia, Nari Labs тарабынан иштелип чыккан, 1.6B параметрлүү текст-сөз моделинин бир бөлүгү, ал көп сүйлөгөндөрдүн диалогун түзүү үчүн атайын иштелип чыккан. Ал эки сүйлөгөндөрдүн ортосундагы табигый үндөгү сүйлөшүүлөрдү, туура кадамдарды, прозодияны жана эмоцияларды жаратат. Dia подкаст-стилдеги мазмунду, аудиокитеп диалогдорун жана интерактивдүү сүйлөшүү үчүн акылдуу интеллектти түзүүгө идеалдуу.

Жазуучу::
Nari Labs
Лицензия::
Apache 2.0
Жылдамдык:
Medium
_Сапат::
тилдер:
en
VRAM:
4GB
Сөздү клондоо:
Жок
1K символдун баасы:
2x
Бир нече үн чыгаргыч Диалогуларды түзүү Табигый айлануу Эмоция Параметрлер
Эң жакшысы:: Подкасттар, аудиокитеп диалогдору, баарлашуу мазмуну

Parler TTSParler TTS

Standard

Parler TTS - тексттен сүйлөмгө которуу модели, ал жаратылыш тилдеринин үн баяндамасын колдонуп, сүйлөмдү түзөт. Баштапкы тандалган үн баяндамасын тандап алуудан көрө, сиз каалаган үн баяндамасын тандап аласыз (мисалы, "жаман британ акценти менен жылуу аялдын үнү, жай жана ачык сүйлөйт"), жана Parler ошол баяндамага ылайыктуу үн баяндамасын түзөт. Бул аны чыгармачыл колдонмолор үчүн өзгөчө ыңгайлуу кылат.

Жазуучу::
Hugging Face
Лицензия::
Apache 2.0
Жылдамдык:
Medium
_Сапат::
тилдер:
en
VRAM:
4GB
Сөздү клондоо:
Жок
1K символдун баасы:
2x
Дауыс баяндамасы Табигый тил контроллери Ыңгайлуу үн түзүү Баштапкы орнотулган үн зарыл эмес
Эң жакшысы:: Өзгөчө үн мүнөздөмөлөрү керек болгон креативдик колдонмолор

GLM-TTSGLM-TTS

Standard

GLM-TTS by Zhipu AI - бул текстти сүйлөмгө айландыруу системасы, Llama архитектурасы менен иштелип чыккан. Ал ачык булактуу TTS моделдеринин ичинен эң төмөнкү символдук катачылыкты камсыз кылат, бул эң так сүйлөмдү чыгарат. GLM-TTS англис жана кытай тилдерин колдойт, 3-10 секунддук аудио үлгүлөрдөн үн клондоону колдойт.

Жазуучу::
Zhipu AI
Лицензия::
GLM-4 License
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh
VRAM:
4GB
Сөздү клондоо:
Ооба
1K символдун баасы:
2x
Эң төмөнкү ката ылдамдыгы Сөздү клондоо Агымдын дал келүүсү Табигый прозо
Эң жакшысы:: Максималдуу тактыкты талап кылган колдонмолор

IndexTTS-2IndexTTS-2

Standard

IndexTTS-2 - бул тексттен сүйлөмгө которуу системасы, ал үн синтезинин 0-шоттук ыкмасы менен эмоцияларды жакшы контролдоо менен өзгөчөлөнөт. Ал эмоцияларга байланыштуу атайын билимдерсиз эле, өзгөчө эмоциялуу интонациялар менен сүйлөмдү түзө алат, мисалы, кубанычтуу, кайгылуу, ачуу же коркуу. Модель эмоция векторлорун колдонуп, генерацияланган сүйлөмдүн эмоциялуу интонациясын так контролдойт.

Жазуучу::
Index Team
Лицензия::
Bilibili Model License
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh
VRAM:
4GB
Сөздү клондоо:
Ооба
1K символдун баасы:
2x
Эмоциялар Zero-shot Эмоция векторлору Экспрессивдүү сүйлөм Төмөнкү деңгээлдеги контроллер
Эң жакшысы:: Эмоцияларды чагылдыруу, аудиокитептер, виртуалдык жардамчылар

Spark TTSSpark TTS

Standard

Spark TTS by SparkAudio - бул текстти сүйлөмгө айландыруу модели, ал үн клондоосун башкаруучу эмоция жана сүйлөм стили менен айкалыштырат. Жалпысынан 5 секундалык референттик аудиону колдонуп, ал үндү клондоого жана андан кийин клондолгон үн идентификациясын сактап, ар кандай эмоциялар, ылдамдык жана стилдер менен сүйлөмдү генерациялоого мүмкүндүк берет. Spark TTS суроо-талап негизделген башкаруу системасын колдонот.

Жазуучу::
SparkAudio
Лицензия::
CC BY-NC-SA 4.0
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh
VRAM:
4GB
Сөздү клондоо:
Ооба
1K символдун баасы:
2x
Сөздү клондоо Эмоцияларды башкаруу Стиль контроллери Сөзсүз 5 секунддук клондоо
Эң жакшысы:: Клондолгон үн жана эмоцияларды башкаруу менен мазмунду түзүү

GPT-SoVITSGPT-SoVITS

Standard

GPT-SoVITS GPT-стилиндеги тилди моделдөө менен SoVITS (Singing Voice Inference via Translation and Synthesis) ыкмасын бирдикте колдонуп, бир нече секундада мыкты үн клондоону ишке ашырат. 5 секундалык аудиону колдонуу менен, ал үндү так клондоого жана жаңы үн чыгарууга мүмкүндүк берет, бирок сүйлөгөн адамдын өзгөчөлүктөрүн сактап калат. Ал сөздү жана ырдаган үн синтезинин эки түрүндө да ийгиликке жетишет.

Жазуучу::
RVC-Boss
Лицензия::
MIT
Жылдамдык:
Slow
_Сапат::
тилдер:
en, zh, ja, ko
VRAM:
6GB
Сөздү клондоо:
Ооба
1K символдун баасы:
2x
5 секунддук клондоо Ырдоо Бир нече жолу окуу Жогору сапат Көп тилдеги
Эң жакшысы:: Сөздү клондоо, ыр синтези, мазмунду түзүүчү сөздү репликациялоо

OrpheusOrpheus

Standard

Orpheus - бул текстти сүйлөмгө айландыруу боюнча кеңири масштабдуу модель, ал адамдын деңгээлинде эмоционалдык билдирүүнү ишке ашырат. 100 000 сааттан ашуун ар кандай сүйлөм маалыматтары боюнча даярдалган, ал табигый эмоционалдык билдирүүлөрдү, басымды жана сүйлөм стилдерин жаратууда өзгөчөлөнөт. Orpheus адамдын жазууларынан дээрлик айырмалангыс сүйлөмдү жаратат.

Жазуучу::
Canopy Labs
Лицензия::
Llama 3.2 Community
Жылдамдык:
Medium
_Сапат::
тилдер:
en
VRAM:
4GB
Сөздү клондоо:
Жок
1K символдун баасы:
2x
Адам деңгээлиндеги эмоция 100K сааттык машыгуу Табигый басым Экспрессивдүү сүйлөм
Эң жакшысы:: Жакшы сапаттагы эмоционалдык сүйлөмдөр, аудиокитептер, үн актерлору

ChatterboxChatterbox

Premium

Chatterbox by Resemble AI - бул эң мыкты үн клондоо модели. Ал бир эле аудио үлгүсүнөн ар кандай үндү мыкты тактык менен репликациялай алат, анын ичинде интонацияны гана эмес, сүйлөмдүн стилин жана эмоционалдык нюанстарды да камтыйт. Chatterbox ошондой эле эмоционалдык контроллорду камтыйт, бул сизге генерацияланган сөздүн эмоционалдык тонун үн идентификациясынан көз карандысыз өзгөртүүгө мүмкүндүк берет.

Жазуучу::
Resemble AI
Лицензия::
MIT
Жылдамдык:
Medium
_Сапат::
тилдер:
en
VRAM:
4GB
Сөздү клондоо:
Ооба
1K символдун баасы:
4x
Клондоо Эмоциялар Ыңгайлуу Стильдерди өткөрүп берүү Бирдиктүү үлгүнү клондоо
Эң жакшысы:: Профессионалдык үн клондоо, эмоцияларды башкаруу, мазмунду түзүү

Tortoise TTSTortoise TTS

Premium

Tortoise TTS - бул аудио сапатын ылдамдыгынан жогору койгон авторегрессивдүү текст-сөз системасы. Бул система DALL-Eге окшош архитектураны колдонуп, өтө табигый сүйлөмдү жакшы прозодия жана сүйлөгөндөрдүн окшоштугу менен жаратат. Көпчүлүк альтернативалардан ылдамыраак болгону менен, Tortoise ачык булактуу экосистемада жеткиликтүү эң реалисттик синтетикалык сүйлөмдү жаратат.

Жазуучу::
James Betker
Лицензия::
Apache 2.0
Жылдамдык:
Slow
_Сапат::
тилдер:
en
VRAM:
8GB
Сөздү клондоо:
Ооба
1K символдун баасы:
4x
Эң жогорку сапат Бир нече үн DALL-E архитектурасы Сөздү клондоо Авторегрессивдүү
Эң жакшысы:: Аудиокитептер, премиум мазмун, сапаттуу тиркемелер

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 стилдин диффузиясын жана чоң сүйлөм моделдеринин жардамы менен каршылаштардын сүйлөмдөрү менен машыгууларды бириктирип, адамдын деңгээлиндеги TTS синтезин ишке ашырат. Ал бир сүйлөмдүн моделдеринин ичинен эң табигый угулган сүйлөмдү жаратат, адам сүйлөмүнүн толук диапазону менен ойнойт. StyleTTS 2 диффузияга негизделген стилдин моделдөөсүн колдонот.

Жазуучу::
Columbia University
Лицензия::
MIT
Жылдамдык:
Medium
_Сапат::
тилдер:
en
VRAM:
4GB
Сөздү клондоо:
Жок
1K символдун баасы:
4x
Адам деңгээли Диффузия стили Конкуренттик машыгуу Табигый өзгөрүү Жогору сапат
Эң жакшысы:: Студиялык сапаттагы бир үн чыгаруучу синтез, профессионалдык баяндоо

OpenVoiceOpenVoice

Premium

OpenVoice by MyShell.ai - бул үн стилин, эмоцияларды, акцентти, ритмиканы, паузаларды жана интонацияны көзөмөлдөө менен үндү тез арада клондоого мүмкүндүк берет. Ал кыска аудиоклипти клондоого жана бир нече тилде сүйлөөгө мүмкүндүк берет, бирок сүйлөгөн адамдын жекечелик сапатын сактайт. OpenVoice ошондой эле үн конвертери катары иштейт, бул үндү реалдуу убакытта трансформациялоого мүмкүндүк берет.

Жазуучу::
MyShell.ai / MIT
Лицензия::
MIT
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh, ja, ko, fr, de, es, it
VRAM:
4GB
Сөздү клондоо:
Ооба
1K символдун баасы:
4x
Клондоону тездетүү Сөздү которуу Эмоциялар Акцентти башкаруу Көп тилдүү
Эң жакшысы:: Сөздү клондоо, үн конверсиясы

Qwen3 TTSQwen3 TTS

Standard

Qwen3-TTS - Alibaba компаниясынын Qwen командасы тарабынан иштелип чыккан 1,7 миллиард параметрлүү тексттен сүйлөмгө которуу модели. Ал үч режимди колдойт: эмоционалдык контролдоо менен алдын ала орнотулган үн (9 үн чыгаруучу), 3 секундалык аудиодон үн клондоо, жана сиз каалаган үн табигый тилде баяндалган өзгөчө үн дизайны режими. Ал 10 тилде жогорку экспрессивдүүлүк жана табигый прозодия менен иштелип чыккан.

Жазуучу::
Alibaba (Qwen)
Лицензия::
Apache 2.0
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh, ja, ko, de, fr, ru, pt, es, it
VRAM:
7GB
Сөздү клондоо:
Ооба
1K символдун баасы:
2x
Сөздү клондоо 9 алдын-ала орнотулган үн Тексттен үн дизайны Эмоцияларды башкаруу Тилдер
Эң жакшысы:: Көп тилдеги мазмун үн клондоосу же жеке үн дизайны менен

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) - бул 1 миллиард параметрден турган, сүйлөшүүнү генерациялоо үчүн атайын иштелип чыккан модель. Ал адам сүйлөшүүсүнүн табигый үлгүлөрүн моделдейт, анын ичинде алмашуу убактысын, backchannel жоопторун, эмоционалдык реакцияларды жана сүйлөшүүнүн агымын. CSM синтетикалык сүйлөмдүн ордуна табигый адам сүйлөшүүсүнө окшош аудиону генерациялайт.

Жазуучу::
Sesame
Лицензия::
Apache 2.0
Жылдамдык:
Slow
_Сапат::
тилдер:
en
VRAM:
8GB
Сөздү клондоо:
Жок
1K символдун баасы:
4x
Конверсациялык Табигый убакыт Тапшырманы алуу Арткы канал Параметрлер
Эң жакшысы:: AI ассистенттери, чат-боттор, AI-конференциялык тиркемелери

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Жазуучу::
KittenML
Лицензия::
Apache 2.0
Жылдамдык:
Fast
_Сапат::
тилдер:
en
VRAM:
0GB
Сөздү клондоо:
Жок
1K символдун баасы:
Акысыз
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
Эң жакшысы:: Fast lightweight TTS, edge deployment, low-latency applications

KokoroKokoro

Акысыз

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Жазуучу::
Hexgrad
Лицензия::
Apache 2.0
Жылдамдык:
Fast
_Сапат::
тилдер: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
Эң жакшысы:: High-quality TTS with minimal latency, streaming applications

PiperPiper

Акысыз

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Жазуучу::
Rhasspy
Лицензия::
MIT
Жылдамдык:
Fast
_Сапат::
тилдер: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
Эң жакшысы:: Quick previews, accessibility, and embedded applications

VITSVITS

Акысыз

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Жазуучу::
Jaehyeon Kim et al.
Лицензия::
MIT
Жылдамдык:
Fast
_Сапат::
тилдер: en, zh, ja, ko
Эң жакшысы:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

Акысыз

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Жазуучу::
MyShell.ai
Лицензия::
MIT
Жылдамдык:
Fast
_Сапат::
тилдер: en, es, fr, zh, ja, ko
Эң жакшысы:: Production applications needing fast, multilingual TTS

Kitten TTSKitten TTS

Акысыз

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Жазуучу::
KittenML
Лицензия::
Apache 2.0
Жылдамдык:
Fast
_Сапат::
тилдер: en
Эң жакшысы:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

Стандарттык

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

Жазуучу::
Suno
Лицензия::
MIT
Жылдамдык:
Slow
_Сапат::
тилдер:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Сөздү клондоо:
Жок
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
Эң жакшысы:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

Стандарттык

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

Жазуучу::
Suno
Лицензия::
MIT
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Сөздү клондоо:
Жок
LightweightFaster than full BarkEmotional speechMultilingual
Эң жакшысы:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

Стандарттык

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

Жазуучу::
Alibaba (Tongyi Lab)
Лицензия::
Apache 2.0
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh, ja, ko, fr, de, it, es
Сөздү клондоо:
Ооба
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
Эң жакшысы:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

Стандарттык

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

Жазуучу::
Nari Labs
Лицензия::
Apache 2.0
Жылдамдык:
Medium
_Сапат::
тилдер:
en
Сөздү клондоо:
Жок
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
Эң жакшысы:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

Стандарттык

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

Жазуучу::
Hugging Face
Лицензия::
Apache 2.0
Жылдамдык:
Medium
_Сапат::
тилдер:
en
Сөздү клондоо:
Жок
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
Эң жакшысы:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

Стандарттык

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

Жазуучу::
Zhipu AI
Лицензия::
GLM-4 License
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh
Сөздү клондоо:
Ооба
Lowest error rateVoice cloningFlow matchingNatural prosody
Эң жакшысы:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

Стандарттык

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

Жазуучу::
Index Team
Лицензия::
Bilibili Model License
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh
Сөздү клондоо:
Ооба
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
Эң жакшысы:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

Стандарттык

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

Жазуучу::
SparkAudio
Лицензия::
CC BY-NC-SA 4.0
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh
Сөздү клондоо:
Ооба
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
Эң жакшысы:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

Стандарттык

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

Жазуучу::
RVC-Boss
Лицензия::
MIT
Жылдамдык:
Slow
_Сапат::
тилдер:
en, zh, ja, ko
Сөздү клондоо:
Ооба
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
Эң жакшысы:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

Стандарттык

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

Жазуучу::
Canopy Labs
Лицензия::
Llama 3.2 Community
Жылдамдык:
Medium
_Сапат::
тилдер:
en
Сөздү клондоо:
Жок
Human-level emotion100K hours trainingNatural emphasisExpressive speech
Эң жакшысы:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

Стандарттык

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

Жазуучу::
Alibaba (Qwen)
Лицензия::
Apache 2.0
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh, ja, ko, de, fr, ru, pt, es, it
Сөздү клондоо:
Ооба
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
Эң жакшысы:: Multilingual content with voice cloning or custom voice design

ChatterboxChatterbox

Премиум

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

Жазуучу::
Resemble AI
Лицензия::
MIT
Жылдамдык:
Medium
_Сапат::
тилдер:
en
Сөздү клондоо:
Ооба
VRAM:
4GB
1K символдун баасы:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
Эң жакшысы:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

Премиум

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

Жазуучу::
James Betker
Лицензия::
Apache 2.0
Жылдамдык:
Slow
_Сапат::
тилдер:
en
Сөздү клондоо:
Ооба
VRAM:
8GB
1K символдун баасы:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
Эң жакшысы:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

Премиум

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

Жазуучу::
Columbia University
Лицензия::
MIT
Жылдамдык:
Medium
_Сапат::
тилдер:
en
Сөздү клондоо:
Жок
VRAM:
4GB
1K символдун баасы:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
Эң жакшысы:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

Премиум

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

Жазуучу::
MyShell.ai / MIT
Лицензия::
MIT
Жылдамдык:
Medium
_Сапат::
тилдер:
en, zh, ja, ko, fr, de, es, it
Сөздү клондоо:
Ооба
VRAM:
4GB
1K символдун баасы:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
Эң жакшысы:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

Премиум

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

Жазуучу::
Sesame
Лицензия::
Apache 2.0
Жылдамдык:
Slow
_Сапат::
тилдер:
en
Сөздү клондоо:
Жок
VRAM:
8GB
1K символдун баасы:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
Эң жакшысы:: AI assistants, chatbots, conversational AI applications

Модель салыштыруу таблицасы

Модель Жазуучу: Тигр _Сапат: Жылдамдык тилдер Сөздү клондоо VRAM Лицензия: Кредиттер
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 Акысыз Колдонуу
Piper Rhasspy Free Fast 31 0 (CPU only) MIT Акысыз Колдонуу
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT Акысыз Колдонуу
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT Акысыз Колдонуу
Bark Suno Standard Slow 13 5GB MIT 2 Колдонуу
Bark Small Suno Standard Medium 13 2GB MIT 2 Колдонуу
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 Колдонуу
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 Колдонуу
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 Колдонуу
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 Колдонуу
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 Колдонуу
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 Колдонуу
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 Колдонуу
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 Колдонуу
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 Колдонуу
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 Колдонуу
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 Колдонуу
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 Колдонуу
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 Колдонуу
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 Колдонуу
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 Акысыз Колдонуу

Эң кеңири AI текст-сөз платформасы

Эмне үчүн TTS.ai текстти сүйлөмгө айландыруу үчүн тандалат?

TTS.ai дүйнөдөгү эң мыкты ачык булактуу текст-то-слов моделдерин бир, колдонууга оңой платформага бириктирет. Бир гана үн двигателине бөгөт коюлган патенттик кызматтардан айырмаланып, TTS.ai сизге Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University жана башкалардын ичинен алдыңкы изилдөө лабораторияларынын 20дан ашык моделдерине кирүү мүмкүнчүлүгүн берет.

Ар бир модель MIT, Apache 2.0 же окшош лицензиялар менен ачык булак, бул сиздин долбоорлорунда генерацияланган аудиону колдонууга толук коммерциялык укуктарыңыз бар экенин камсыз кылат. Сизге тез, жеңил синтез керек болсо, же аудиокитептерди жана подкасттарды студиялык сапатта чыгаруу керек болсо, TTS.ai ар бир колдонуу үчүн туура модель бар.

Акысыз моделдер, каттоо эсеби талап кылынбайт

Үч акысыз TTS модели менен тез эле иштей баштаңыз: Piper (эң тез, жеңил), VITS (мыкты сапаттагы нейрондук синтез) жана MeloTTS (көп тилдеги колдоо). Каттоосуз, кредиттик картасыз, генерацияларга чектөөсүз. Акысыз моделдер англис тилин жана башка көптөгөн тилдери менен табигый үн чыгарууну колдойт, көпчүлүк тиркемелерге ылайыктуу.

Графикалык процессор менен тездетилген иштетүү

Бардык TTS моделдери тез жана бирдей генерациялоо үчүн NVIDIA GPUs менен иштешет. Акысыз моделдер 2 секунддан аз убакытта аудиону генерациялайт. Kokoro, CosyVoice 2 жана Bark сыяктуу стандарттык моделдер орточо 3-5 секундда. Tortoise жана Chatterbox сыяктуу жогорку сапаттагы премиум моделдер тексттин узундугуна жараша 5-15 секундда иштешет.

30дан ашык тил колдоо табат

30дан ашык тилде сүйлөмдү генерациялоо, анын ичинде англис, испан, француз, немис, италия, португал, кытай, япон, корей, араб, хинди, орус жана башка көптөгөн тилдер. Бир нече моделдер тилдер аралык синтезди колдойт, бул сиздин оригиналдуу үн эч качан үйрөтүлгөн тилдерде сүйлөмдү генерациялай аласыз дегенди билдирет. CosyVoice 2 жана GPT-SoVITS тилдер аралык үн клондоосунда мыкты.

Разработчики

TTS.aiди OpenAI-ка ылайыктуу REST API менен колдонмолоруңузга интеграциялаңыз. Бир эле конуу пункту бардык 20дан ашык моделдер үчүн. Python, JavaScript, cURL жана Go SDKs. Реалдуу убакытта колдонмолорду жеткирүү. Батареялык иштетүү чоң көлөмдөгү контентти түзүү үчүн. Веб-хук асинхрондук кабарлоо үчүн. Pro жана Enterprise пландарында жеткиликтүү.

Көп берилүүчү суроолор

Текст-в-слов (TTS) - бул жазма текстти табигый үн менен сүйлөгөн аудиого айландырган AI технологиясы. Кокоро, Chatterbox жана CosyVoice 2 сыяктуу заманбап нейрондук TTS моделдери терең үйрөнүүнү колдонуп, табигый прозодия, эмоция жана ритм менен адамга окшош үн менен сүйлөй алат.

Бул сиздин муктаждыктарыңызга жараша болот. Жылдам алдын ала көрүү үчүн Piper же MeloTTS (эркин, тез). Жакшы сапат үчүн Kokoro же CosyVoice 2 (стандарттык деңгээл). Дауыс клондоо үчүн Chatterbox же GPT-SoVITS (premium). Диалогу/подкаст мазмуну үчүн Dia TTS. Ар бир моделдин ар кандай күчү бар — эң мыктысын табуу үчүн эксперимент кылыңыз.

Ооба! TTS.ai Kokoro, Piper, VITS жана MeloTTS моделдери менен акысыз текстти сүйлөмгө айландырууну сунуштайт. 500 символго чейин жана саатына 3 генерацияга чейин каттоо эсеби талап кылынбайт. 15 кредит алуу үчүн жана бардык моделдерге кирүү үчүн акысыз каттоо эсебин түзүңүз.

Биздин TTS моделдери биргелешип колдоо 30+ тилдер, анын ичинде англис, испан, француз, немис, италиялык, португал, кытай, япон, корей, араб, орус, хинди, жана көп. Тил жеткиликтүүлүгү моделине жараша өзгөрөт.

Ооба, TTS.ai аркылуу түзүлгөн аудиону коммерциялык максатта колдонууга болот. Биздин бардык моделдерибиз ачык булактуу лицензияларды (MIT, Apache 2.0) колдонушат. Индивидуалдык моделдердин лицензияларын конкреттүү шарттары үчүн текшериңиз. Биз сиздин долбооруңуз үчүн колдонулган конкреттүү моделдин лицензиясын карап чыгууну сунуштайбыз.

TTS.ai MP3, WAV, OGG жана FLAC форматтарын колдойт. MP3 - веб-оңдоо үчүн стандарт. WAV - аудиону кийинчерээк иштетүү үчүн сунушталат. Сиз аудиону конвертерибиз менен форматтарды алмаштыра аласыз.

Сөздү клондоо кыска аудио үлгүсүнөн (адатта 5-30 секунд) белгилүү бир сөздү репликациялоо үчүн жасалма интеллектти колдонот. Сөздүн таза жаздырмасын жүктөп алыңыз, андан кийин Chatterbox, GPT-SoVITS же OpenVoice сыяктуу моделдер жаңы сөздү ошол үн менен жаратат. Сөздүн сапаты таза, узак референттик үн менен жакшырат.

Акысыз колдонуучу бир суроо үчүн 500 символго чейин түзө алат. Регистрированные пользователи получают до 5000 символов за одно запросе. Для более длинных текстов аудио генерируется кусками и автоматически соединяется. API пользователи могут обработать до 10 000 символов за одно запросе.

SSML (Speech Synthesis Markup Language) колдоосу моделден моделге өзгөрөт. Piper жана башка айрым моделдер pauzes, emphasis, and pronunciation control үчүн негиздик SSML тегдерин колдойт. SSML колдоосу жок моделдер үчүн сиз прозодияга таасир этүү үчүн табигый пунктуацияны жана сапты алмаштырууну колдоно аласыз.

Да, большинство моделей поддерживает регулировку скорости от 0,5x до 2,0x. Некоторые модели, такие как Bark и Parler, также позволяют контролировать высоту и стиль. Вы можете установить параметры скорости в панели дополнительных настроек или через параметр скорости API.

Да, пакеттик иштетүү биздин API аркылуу жеткиликтүү. Бир нече текст сегменттерин бир API чакыруу же скрипт менен жөнөтсөңүз болот, алардын ар бири өзүнчө аудио файлдар катары иштелип чыгат жана кайтарылат. Бул аудиокитептин бөлүмдөрү, электрондук окутуу модулдары же оюн диалогунун скрипттери үчүн идеалдуу.

Учетной записью генерируйте API-ключ, а затем отправляйте POST-запросы на нашу REST API-конечную точку с вашим текстом, моделью и голосовыми параметрами. Мы предоставляем примеры кода в Python, JavaScript и cURL. API совместим с OpenAI, поэтому существующие интеграции работают с минимальными изменениями.
5.0/5 (2)

Биз эмнени жакшыртсак болот? Сиздин пикириңиз бизге көйгөйлөрдү чечүүгө жардам берет.

Текстти сүйлөмгө которууну азыр баштаңыз

TTS.ai колдонуп миңдеген жаратуучуларга кошулуу. Жаңы эсеп менен 15000 акысыз символдорду алуу. Акысыз моделдер каттоосуз жеткиликтүү.