Қате / мүмкіндік туралы хабарлау

AI мәтіннен сөйлеугеName

Ашық көзді ДН моделімен мәтіндерді табиғи дыбыстарға айналдыру. Қолдануға тегін, тіркелгі қажет емес.

Тегін тіркелу

0/500 таңбалар · Бір буынға 5000 жазылу →

Жазылу 5000 таңба шегі

SSML режімі (Тыныштық режимдегі дыбыс синтезіComment)

Мәтінді SSML тегтермен тасымалдау үшін нұсқау:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Көңіл күй белгісі / стилі тегтері

Көрсетуге әсер ететін көңіл- күй белгілерін қосу (моделдің қолдауы бойынша):

Таным сөздігіName

Өзінің дыбысын анықтау (сөз = дыбысы):

Тік 0

-12 +12

AI үлгісі

Дыбыс

Тіл

Шығыс пішімі

Жылдамдығы 1.0x

0.5x 2.0x

Piper, VITS, MeloTTS-пен тегінName

Бұл жерде құрылған аудио файлыңыз көрсетіледі. Үлгіні таңдап, мәтінін келтіріп, Құру дегенді басыңыз.

Үлгінің егжей- тегжейі

GPT-SoVITS

Standard

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

Жасаушы:	RVC-Boss
Лицензия:	MIT
Жылдамдығы	Slow
Сапа:
тілдер	4 тілдер
VRAM	6GB
Дыбысты көшіру	Қолдауы бар

Қасиеттері:

5-second cloning Singing voice Few-shot learning High fidelity Cross-lingual

Келесіге ең қолайлы:: Voice cloning, singing synthesis, content creator voice replication

Жақсы нәтижелер үшін кеңестер

Түйінді сөздер мен интонациялар дұрыс жазылсын
Сандар мен қысқартуларды емлелеп, анық дыбысталуы үшін
Фразалар арасында қысқа үзіліс жасау үшін үтірлерді қосу
Ұзақ үзілістер үшін үшбұрыш (...) қолданыңыз
Ең табиғи нәтиже алу үшін Kokoro не CosyVoice 2 қолданыңыз
Көп дыбыс шығарғыштар диалогы мен подкаст мазмұны үшін Dia қолданылсын

Таңбалардың қолданылуы

Түр	1K таңбаның бағасы
Бос	0 кредит (шегерілмеген)
Әдетті	2 кредит / 1K таңба
Премиум	4 кредит / 1K таңба

Қосымша таңбаларды алу

AI мәтіннен сөйлеуге қалай жұмыс істейді

Профессионалды сапалы дыбыс жазуды үш қарапайым қадаммен жасау. Техникалық білім қажет емес.

1- қадам

Мәтінді келтіріңіз

Мәтінді дыбыс қылып шығару үшін енгізіп, орналастырыңыз не жүктеп беріңіз. Жүйеге кірген пайдаланушылардың бір генерациясы 5000 таңбаға дейін қолдайды. Жай мәтінмен немесе SSML тегтерін қосып дыбыс шығару, аялдамалар мен нұсқауларды жетілдіріңіз.

2- қадам

Модель мен дауысты таңдау

20-дан астам ДЖ үлгісін үш деңгейден таңдаңыз. Мазмұныңызға сәйкес келетін дыбысты таңдаңыз, тіліңізді таңдаңыз, ойнату жылдамдығын 0. 5x- 2. 0x аралығында орнатыңыз, және қалаған шығыс пішіміңізді (MP3, WAV, OGG немесе FLAC) таңдаңыз.

3- қадам

Құру және жүктеп алу

Құру дегенді түртіп, аудиоңыз секундтар ішінде дайын болады. Ендірме плейермен алдын- ала қарап шығыңыз, таңдаған пішімінде жүктеп алыңыз, немесе бөлісу сілтемесін көшіріп алыңыз. API пакетті өңдеу үшін және жұмыс ағымыңызға біріктіру үшін қолданыңыз.

Мәтінді сөйлеуге аудару

ДНҚ-ға негізделген мәтіннен сөйлеуге көшу көптеген салаларда адамдардың аудио мазмұнды жасау, тұтыну және өзара әрекеттесу тәсілдерін өзгертіп жатыр.

Аудиокітаптар

Тікелей кітаптарды студиялық сапалы дыбыспен дыбысталған аудиокітаптарға айналдыру. Диалогтық диалог үшін бірнеше дыбыс шығарғыштарды қолдау.

Видео дыбыс жазулары

YouTube, TikTok, Instagram Reels және Shorts үшін кәсіби дауыс беру құру. 100+ дауыс немесе өзіңіздің клоныңыз.

Подкасттар

Бірнеше ДЖ дыбыстары бар скрипттерден подкаст эпизодтарын құру. Dia- ны екі дыбыспен сөйлесу үшін қолданыңыз. Name

ОйындарName

Инди-ойындар, визуалды романдар және интерактивті шығармалар үшін AI дауыс беру. NPC диалогы, 30-дан астам тілде дыбыстар.

Электрондық оқу

Курс материалдарын, лекцияларды және оқыту мазмұнын аудиоға айналдыру. Бүкіл әлемдік платформалар үшін көп тілді қолдау. Name

Арнайы мүмкіндіктер

Веб-сайттарды, құжаттарды және қолданбаларды қолжетімді ету. Экран оқығыш API-мен біріктіру және мақалаларды аудиоға айналдыру.

IVR және телефон жүйелеріName

IVR жүйелерін, телефон мәзірлерін және клиенттерді қолдау қызметін табиғи AI дауысымен қамтамасыз ету. Колл-орталықтар үшін аз кешіктіруі бар трансляция.

Әлеуметтік медиаName

TikTok әңгімелері, Instagram Reels, Twitter / X комментарийлері, YouTube Shorts. Тегін модельдермен жылдам генерация.

Аудару

Twitch TTS ескертулері, чат-то-voice, AI co-hosts, және Discord боттары. Төменгі кешіктіру, 100+ дауыс, StreamElements үйлесімдігі.

Маркетинг

Аудио жарнамалар, түсіндіру видеолары, өнімнің демолары және сату презентациялары. Аудио мазмұнды кампаниялар арасында масштабтау.

Дубляж және локализация

Аудио транскрипциясы және дыбыс шығарушыны анықтау.

Медитация және денсаулық

Оның ішінде: емтихандар, тестілеу, емтиханнан тыс жұмыстар, емтиханнан тыс жұмыстар, емтиханнан тыс жұмыстар.

Барлық қолданбалар мен құралдарды көрсету

Барлық мәтіннен сөйлеуге түрлендіргіш үлгілері

TTS.ai сайтында әрбір AI моделінің егжей-тегжейлі сипаттамалары бар. Сіздің жобаңызға лайықты модельді табу үшін сапаны, жылдамдықты, тіл қолдауын және мүмкіндіктерді салыстырыңыз.

Kokoro

Free

Kokoro - 82 миллион параметрлі мәтіннен сөйлеуге көшіру моделі, ол өз салмағының класынан әлдеқайда жоғары. Шағын өлшеміне қарамастан, ол өте табиғи және өрнекті сөйлеуді шығарады. Kokoro ағылшын, жапон, қытай және корей сияқты бірнеше тілдерді қолдайды, әртүрлі өрнекті дауыстарды шығарады. Ол өте жылдам жұмыс істейді - графикалық процессордағы шын уақыттағыдан 100 есе жылдам.

Жасаушы::
Hexgrad

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер:
en, ja, zh, fr, it, pt, es, hi

VRAM:
1.5GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
Бос

82М параметрлері Өте жылдам Экспрессивті дауыстар Көп тілді Аударуды қолдау

Келесіге ең қолайлы:: Жоғары сапалы, минималды кешіктірумен TTS, ағындық қолданбаларName

Тексеру Kokoro

Piper

Free

Piper - Rhasspy жасаған, VITS және larynx архитектураларын қолданатын жеңіл мәтін- дыбыс аудару тетігі. Ол тек процессорда жұмыс істейді, сондықтан Edge құрылғылары, үй автоматтандыруы және офлайн TTS қажет қолданбалар үшін өте қолайлы. 30- дан астам тілдегі 100- ден астам дауысымен Piper Raspberry Pi 4- те де шынайы дыбыстарды шын уақыт режимінде жеткізеді.

Жасаушы::
Rhasspy

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер:
en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

VRAM:
0 (CPU only)

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
Бос

Процессорға ыңғайлы Желіден тыс жұмыс істей алады 100+ дауыс 30+ тіл SSML қолдауы

Келесіге ең қолайлы:: Жедел нобайлау, қолжетімділік және ендірілген қолданбаларName

Тексеру Piper

VITS

Free

VITS (Variation Inference with adversarial learning for end- to- end Text- to- Speech) - бұл қазіргі екі сатылы үлгілерге қарағанда табиғи дауысты шығаратын параллельді, аясынан аяғына дейінгі TTS әдісі. Ол табиғилықты едәуір жақсарту үшін, нормаластыру ағымдары мен қарсыласу оқыту процесімен толықтырылған вариациялық инференцияны қолданады.

Жасаушы::
Jaehyeon Kim et al.

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер:
en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

VRAM:
1GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
Бос

Толық синтез Табиғи интонация Жылдам тұжырым Бірнеше динамик

Келесіге ең қолайлы:: Табиғи интонациямен жалпы мақсаттағы мәтін- дыбыс үндестігіName

Тексеру VITS

MeloTTS

Free

MyShell. ai- ның MeloTTS - ағылшын (американдық, британдық, үнді, австралиялық), испан, француз, қытай, жапон және корей тілдерін қолдайтын көп тілді TTS жиыны. Бұл өте жылдам, тек процессормен мәтіндерді шын уақытпен өңдей алады. MeloTTS өндірістік мақсатта қолданылады және процессор мен графикалық процессордың да мәліметтерін пайдаланады.

Жасаушы::
MyShell.ai

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер:
en, es, fr, zh, ja, ko

VRAM:
0.5GB (GPU optional)

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
Бос

Процессорды жақсарту Көп тілді Бірнеше акценті Өндіріске дайын Төмен кідіріс

Келесіге ең қолайлы:: Жедел, көп тілді TTS қажет ететін өндірістік қолданбаларName

Тексеру MeloTTS

Bark

Standard

Suno- ның Bark бағдарламасы - бұл трансформер негізіндегі мәтіннен дыбысқа көшіру моделі, ол өте шынайы, көп тілді сөйлеуді және басқа да дыбыстарды (мысалы, музыка, фон шуы, дыбыс эффекттері) шығара алады. Бұл күлу, үңілу, жылау сияқты сөзсіз сөйлеуді де шығара алады. Bark 100- ден астам дыбыс шығарғыштарды және 13- тан астам тілдерді қолдайды.

Жасаушы::
Suno

Лицензия::
MIT

Жылдамдығы:
Slow

Сапа::

тілдер:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
5GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
2x

Дыбыс эффекттері Көңіл көтеру/Көңіл көтеру Музыканы құру 100+ динамигі Көп тілді

Келесіге ең қолайлы:: Түсінікті аудио мазмұны, эмоциялық аудиокітаптар, дыбыс эффекттеріName

Тексеру Bark

Bark Small

Standard

Bark Small - Bark үлгісінің қысқартылған нұсқасы, ол дыбыс сапасын төмендетіп, одан да жылдам шығару жылдамдығын және жады қажеттілігін төмендетеді. Бұл Bark- тың эмоциялар, күлкі және бірнеше тілдермен сөйлеу қабілетін сақтайды.

Жасаушы::
Suno

Лицензия::
MIT

Жылдамдығы:
Medium

Сапа::

тілдер:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr

VRAM:
2GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
2x

Жеңіл Барлық қабықтан тезірек Эмоциялық сөйлеу Көп тілді

Келесіге ең қолайлы:: Барк тым баяу болса, жылдам шығармашылық аудио

Тексеру Bark Small

CosyVoice 2

Standard

Alibaba' s Tongyi Lab- тың CosyVoice 2- і адаммен салыстыруға болатын дыбыс сапасына қол жеткізеді, бірақ өте төмен артта қалуымен, бұл оны нақты уақыт қолданбаларына өте ыңғайлы етеді. Ол ағын синтезі үшін шекті скалярлық кванттау тәсілін қолданады және нульдік клондау, тіларалық синтез, және эмоциялық бақылауды қолдайды. Ол субъективті бағалауда көптеген коммерциялық дыбыс- сөз жүйелерін басып озады.

Жасаушы::
Alibaba (Tongyi Lab)

Лицензия::
Apache 2.0

Жылдамдығы:
Medium

Сапа::

тілдер:
en, zh, ja, ko, fr, de, it, es

VRAM:
4GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
2x

Аудару Zero-shot клондау Тіларалық Эмоцияларды басқару Адам- паритеті

Келесіге ең қолайлы:: Реал уақыт қолданбалары, TTS, дауыс көмегі

Тексеру CosyVoice 2

Dia TTS

Standard

Nari Labs- тің Dia бағдарламасы - көп сөйлеушілердің диалогын жасауға арналған 1. 6B параметрлі мәтін- дыбыс аудару үлгісі. Ол екі сөйлеуші арасындағы табиғи дауыспен, дұрыс ауысу, прозодия, эмоцияларды білдіру арқылы әңгіме құруға мүмкіндік береді. Dia подкаст стиліндегі мазмұнды, аудиокітап диалогтарын және интерактивті сөйлеу ДК- ны құруға өте қолайлы.

Жасаушы::
Nari Labs

Лицензия::
Apache 2.0

Жылдамдығы:
Medium

Сапа::

тілдер:
en

VRAM:
4GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
2x

Бірнеше динамигі Диалогтарды құру Табиғи айналу Күй- күй белгілері 1. 6B параметрлері

Келесіге ең қолайлы:: Подкасттар, аудиокітап диалогтары, әңгіме мазмұныName

Тексеру Dia TTS

Parler TTS

Standard

Parler TTS - бұл табиғи тілдің дыбыс сипаттамаларын қолданып, сөзді құрайтын мәтін- дыбыс интерпретациялау моделі. Алдын- ала орнатылған дыбыстарды таңдаудың орнына, Сіз өзіңіздің тілегіңізді сипаттай аласыз (мысалы, "қызыл түсті, британ акцентімен, баяу және анық сөйлеп тұрған қыздың дауысы") және Parler осы сипаттамаға сәйкесті сөзді құрады. Бұл оны шығармашылық қолданбаларда ерекше ыңғайлы етеді.

Жасаушы::
Hugging Face

Лицензия::
Apache 2.0

Жылдамдығы:
Medium

Сапа::

тілдер:
en

VRAM:
4GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
2x

Дыбыс сипаттамасы Табиғи тілді басқару Еңбекшіл дауысты құру Алдын- ала орнатылған дауыстар керек емес

Келесіге ең қолайлы:: Өзіңіздің дыбыс қасиеттеріңізді қажет ететін шығармашылық қолданбаларName

Тексеру Parler TTS

IndexTTS-2

Standard

IndexTTS- 2 - бұл мәтінді сөйлеуге айналдыру жүйесі, ол эмоционалды қасиеттерді бақылаумен, 0- ші ретті синтездеумен ерекшеленеді. Бұл жүйе эмоционалды қасиеттерді үйрету деректері қажетсіз, көңілді, қайғылы, ашуланған, қорқынышты сияқты эмоционалды дыбыстарды шығара алады. Бұл модель эмоционалды қасиеттерді реттеу үшін эмоциялық векторларды қолданады.

Жасаушы::
Index Team

Лицензия::
Bilibili Model License

Жылдамдығы:
Medium

Сапа::

тілдер:
en, zh

VRAM:
4GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
2x

Эмоциялар басқаруы Нулдік оқ Эмоциялар векторы Экспрессивті сөйлеу Жеңіл өңделген басқару

Келесіге ең қолайлы:: Эмоциялық мазмұн, аудиокітаптар, виртуалды көмекшілерName

Тексеру IndexTTS-2

Spark TTS

Standard

SparkAudio- ның Spark TTS - бұл дыбыстарды клондау мен сөйлеу стилін басқаруды біріктіретін мәтін- сөйлеу моделі. Тек 5 секундтық сілтемелік аудионы пайдаланып, дыбыстарды клондап, әртүрлі эмоционалдылық, жылдамдық, стильдермен сөйлеуді жасауға болады, бірақ клондалған дыбыстардың ұқсастығы сақталады. Spark TTS сұрау негізіндегі басқару жүйесін қолданады.

Жасаушы::
SparkAudio

Лицензия::
CC BY-NC-SA 4.0

Жылдамдығы:
Medium

Сапа::

тілдер:
en, zh

VRAM:
4GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
2x

Дыбысын көшіру Эмоцияларды басқару Стильді басқару Сұрау негізінде 5 секундтық клондау

Келесіге ең қолайлы:: Клондалған дауыстармен және эмоциялық басқарумен мазмұнды құруName

Тексеру Spark TTS

GPT-SoVITS

Standard

GPT- SoVITS GPT- стиліндегі тіл моделін SoVITS (Singing Voice Inference via Translation and Synthesis) - мен біріктіріп, бірнеше реттік дауысты клондау үшін қолданылады. 5 секундтық сілтемелік аудиомен, дыбысты дәл клондап, дыбыс шығарушының ерекше қасиеттерін сақтай отырып, жаңа дыбыс шығара алады. Бұл дыбыс шығару мен ән айтуды синтездеуде өте тиімді.

Жасаушы::
RVC-Boss

Лицензия::
MIT

Жылдамдығы:
Slow

Сапа::

тілдер:
en, zh, ja, ko

VRAM:
6GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
2x

5 секундтық клондау Ән айту Бірнеше рет оқыту Жоғары дәлдік Тіларалық

Келесіге ең қолайлы:: Дыбыс клондауы, ән синтезі, мазмұн жасаушы дыбысын репликациялау

Тексеру GPT-SoVITS

Orpheus

Standard

Orpheus - бұл адам деңгейіндегі эмоцияларды жеткізетін кең көлемді мәтін- сөйлеу моделі. 100, 000 сағаттан астам түрлі сөйлеу деректері бойынша даярланған, ол табиғи эмоцияларды, баса айтуды және сөйлеу стилін қамтитын сөйлеуді шығаруға қабілетті. Orpheus - адам жазбаларынан мүлдем өзгеше сөйлеуді шығара алады.

Жасаушы::
Canopy Labs

Лицензия::
Llama 3.2 Community

Жылдамдығы:
Medium

Сапа::

тілдер:
en

VRAM:
4GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
2x

Адамдық деңгейдегі эмоция 100K сағат оқыту Табиғи бояулау Экспрессивті сөйлеу

Келесіге ең қолайлы:: Жоғары сапалы эмоциялық сөйлеу, аудиокітаптар, дауыс беру

Тексеру Orpheus

Chatterbox

Premium

Resemble AI жасаған Chatterbox - бұл ең соңғы дыбыстарды клондау үлгісі. Ол бір аудио үлгіден кез келген дыбысты өте дәл репликациялай алады, тек дыбысын ғана емес, сөйлеу стилін және эмоциялық нюанстарын да анықтайды. Chatterbox сондай- ақ эмоцияларды басқаруды да қамтиды, бұл сізге генерацияланған сөйлеудің эмоциялық тонын дыбыстан бөлек реттеуге мүмкіндік береді.

Жасаушы::
Resemble AI

Лицензия::
MIT

Жылдамдығы:
Medium

Сапа::

тілдер:
en

VRAM:
4GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
4x

Клондау Эмоциялар басқаруы Жоғары дәлдік Стильдерді тасымалдау Бір үлгіні клондау

Келесіге ең қолайлы:: Профессионалды дауысты клондау, эмоциялық басқару, мазмұнды құруName

Тексеру Chatterbox

Tortoise TTS

Premium

Tortoise TTS - жылдамдықтан гөрі дыбыс сапасын басты орынға қоятын, авторегрессивті, көп дауысты мәтіннен сөйлеуге көшірмелеу жүйесі. Ол DALL- E- ден үлгі алып, өте табиғи дыбыстарды, өте жақсы прозодия мен сөйлеушінің ұқсастығын шығарады. Көптеген альтернативтерге қарағанда баяу болса да, Tortoise ашық кодты экожүйедегі ең шынайы синтетикалық сөйлеуді шығарады.

Жасаушы::
James Betker

Лицензия::
Apache 2.0

Жылдамдығы:
Slow

Сапа::

тілдер:
en

VRAM:
8GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
4x

Ең жоғары сапа Көп дауысты DALL- E архитектурасы Дыбысын көшіру Авторегрессия

Келесіге ең қолайлы:: Аудиокітап, жоғары сапалы мазмұн, сапалы қолданбалар

Тексеру Tortoise TTS

StyleTTS 2

Premium

StyleTTS 2 стилді диффузия мен үлкен сөйлеу тілінің үлгілерін қолданып, қарсыласу арқылы үйрету арқылы адам деңгейіндегі тілдік синтездеуді орындайды. Ол бір сөйлеушінің моделі арасында ең табиғи естілетін сөйлеуді шығарады, бұл адам дыбыс жазуына ұқсас. StyleTTS 2 стилді диффузия негізінде модельдеу арқылы адамның сөйлеуінің барлық ауқымын қамтиды.

Жасаушы::
Columbia University

Лицензия::
MIT

Жылдамдығы:
Medium

Сапа::

тілдер:
en

VRAM:
4GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
4x

Адам деңгейі Диффузиялық стиль Конкуренциялық жаттығулар Табиғи ауытқуы Жоғары дәлдік

Келесіге ең қолайлы:: Студиялық деңгейдегі бір дыбыс шығарғыш синтезі, кәсіби баяндау

Тексеру StyleTTS 2

OpenVoice

Premium

OpenVoice by MyShell. ai дыбыс стилін, эмоциясын, акцентін, ритмін, тоқтап қалуын және интонациясын егжей- тегжейлі бақылаумен дауысты дереу клондауға мүмкіндік береді. Ол қысқа аудио клиптерден дауысты клондап, сөйлеушінің жеке басын сақтай отырып, бірнеше тілде сөйлеуді жасай алады. OpenVoice сонымен қатар дауысты аударғыш ретінде де жұмыс істейді, дауысты шын уақытында аударуға мүмкіндік береді.

Жасаушы::
MyShell.ai / MIT

Лицензия::
MIT

Жылдамдығы:
Medium

Сапа::

тілдер:
en, zh, ja, ko, fr, es

VRAM:
4GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
4x

Тікелей клондау Дыбыс аудармасы Эмоциялар басқаруы Акцентті басқару Көп тілді

Келесіге ең қолайлы:: Дыбысты клондау, дыбыстарды аудару, іріңді стилін басқару

Тексеру OpenVoice

Qwen3 TTS

Standard

Qwen3- TTS - Alibaba- ның Qwen командасының 1, 7 миллиард параметрлі мәтіннен сөйлеуге көшіру үлгісі. Ол үш режімді қолдайды: эмоциялық басқарумен алдын- ала орнатылған дауыстар (9 дыбыс шығарғыш), 3 секундтық аудиодан дауысты клондау, және тілдің табиғи сипатын сипаттайтын ерекше дыбыс дизайн режімі. Ол 10 тілді жоғары өрнектілікпен және табиғи прозодиямен қамтиды.

Жасаушы::
Alibaba (Qwen)

Лицензия::
Apache 2.0

Жылдамдығы:
Medium

Сапа::

тілдер:
en, zh, ja, ko, de, fr, ru, pt, es, it

VRAM:
7GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
2x

Дыбысын көшіру 9 алдын- ала орнатылған дауыс Мәтіннен дыбыс дизайны Эмоциялар басқаруы Тіл

Келесіге ең қолайлы:: Көп тілді мазмұн, дыбыстарды клондау немесе жеке дыбыс дизайныName

Тексеру Qwen3 TTS

Sesame CSM

Premium

Sesame CSM (Conversational Speech Model) - бұл 1 миллиард параметрден тұратын сөйлеу үлгісі. Ол адам сөйлеуінің табиғи үлгілерін, соның ішінде ауысу уақытын, кері арнаның жауаптарын, эмоциялық реакцияларды және сөйлеу ағынын модельдейді. CSM синтетикалық сөйлеуден гөрі табиғи адам сөйлеуіне ұқсас дыбыстарды шығарады.

Жасаушы::
Sesame

Лицензия::
Apache 2.0

Жылдамдығы:
Slow

Сапа::

тілдер:
en

VRAM:
8GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
4x

Сөйлесу Табиғи уақыт Қайталау Артқы арна 1B параметрлері

Келесіге ең қолайлы:: ДК көмегі, чат-боттар, сөйлесу үшін ДК қолданбаларыName

Тексеру Sesame CSM

Chatterbox Turbo

Standard

Chatterbox Turbo by Resemble AI - бұл Chatterbox-тың 350М параметрлік жаңартуы, 200 мс-тан төменгі кешіктіруімен 6x-қа дейінгі шынайы жылдамдықпен жұмыс істейді. Ол мәтіннен тікелей [лаugh], [cough], және [chuckle] сияқты паралингвистикалық тегтерді қолдайды. Барлық құрылған аудиода Perth су белгісі бар, бұл оның шығу тегі туралы мәлімет береді.

Жасаушы::
Resemble AI

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер:
en

VRAM:
2GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
2x

200 мс- тан төменгі кешіктіру Паралингвистикалық тегтер 6x шын уақыт Дыбысын көшіру Сулы белгі

Келесіге ең қолайлы:: Тікелей сөйлеу агенттері, табиғи дыбыстармен өрнекті сөйлеу

Тексеру Chatterbox Turbo

VoxCPM

Standard

OpenBMB- тің VoxCPM 1. 5 - бұл дискреттік жетондардың орнына жалған кеңістікте жұмыс істейтін, токенизерсіз жаңа TTS үлгісі. Ол жоғары сапалы 44. 1 кГц дыбыс шығарады, 3- 10 секунд ішінде дыбыстарды клондауды қолдайды, әрі абзацтар арасында біркелкілікті сақтайды. Тіларалық клондау ағылшын дыбысын қытайша сөйлеуге қолданып, керісінше.

Жасаушы::
OpenBMB

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер:
en, zh

VRAM:
4GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
2x

44. 1 кГц аудио Токенизаторсыз Тіларалық клондау Контекстіне қарай LoRA дәлдігін жақсарту

Келесіге ең қолайлы:: Жоғары сапалы дыбыс, аудиокітаптар, қысқа мазмұн, дыбыс бірізділігі

Тексеру VoxCPM

Kani TTS 2

Free

NineNineSix- тің Kani- TTS- 2 - NVIDIA NanoCodec- тің Liquid AI LFM2 негізінде жасалған өте жеңіл 400М параметрлі модель. Ол тек 3 ГБ VRAM- да жұмыс істейді және A100 (RTF 0. 2) құрылғысында ~2 секундта ~10 секунд сөйлем шығарады. Қазіргі ашық нұсқасы тек ағылшын тіліндегі `kani- tts- 2- en` тексеру нүктесін ұсынады және дыбыс клондау үшін қажет дыбыс ендіру тоқпағы жоқ - клондау үшін Chatterbox / IndexTTS2 / F5- TTS, ал ағылшын тілінде емес болса Kokoro / MeloTTS қолданыңыз.

Жасаушы::
NineNineSix

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер:
en

VRAM:
3GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
Бос

3Гб VRAM Өте жылдам Жеңіл Нанокодек Бос

Келесіге ең қолайлы:: VRAM аз құрылғыларда ағылшын тілін тез құру, жылдам алдын- ала қарау

Тексеру Kani TTS 2

OuteTTS

Free

OuteTTS мәтінді сөйлеуге айналдыру мүмкіндіктерімен ірі тіл модельдерін кеңейтеді, бірақ бастапқы архитектурасын сақтайды. Ол llama. cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM және тіпті Transformers. js арқылы браузердің тұжырымдарын қолдайды. JSON түрінде сақталған дыбыс шығарушы профилі арқылы дауысты клондау мүмкіндігі бар.

Жасаушы::
OuteAI

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер:
en

VRAM:
2GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
Бос

Процессордың есептеуі Шолғыштың нәтижесі Дыбысын көшіру Бірнеше тетігі Динамик профилдері

Келесіге ең қолайлы:: Edge-ті іске қосу, браузерге негізделген TTS, ресурстары аз орталар

Тексеру OuteTTS

VibeVoice

Standard

Microsoft VibeVoice екі түрі бар: 1. 5B моделі ұзақ мазмұн үшін (90 минутқа дейін, 4 динамик) және Realtime 0. 5B моделі ~200 мс алғашқы дыбыс кешігіп шығуымен. 1. 5B түрі подкасттар мен аудиокітаптарда дыбыс берушінің ұзақ фрагменттердегі біркелкілігін қамтамасыз етеді. Ескерту: Microsoft TTS кодын репозиториінен алып тастады, ал құрылған дыбыстар дыбыс шығаратын AI- дан бас тартуларды қамтиды.

Жасаушы::
Microsoft

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер:
en, zh

VRAM:
4GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
2x

Бірнеше динамигі 90 минутқа дейін Подкасттарды құру Дыбыс тізімін біріктіру 200мс ағым

Келесіге ең қолайлы:: Подкасттар, аудиокітаптар, ұзақ форматтағы бірнеше дыбыс шығарғыштар

Тексеру VibeVoice

Pocket TTS

Free

Pocket TTS Kyutai (Moshi- ның жасаушылары) жасаған, салмағы 100М параметрлік, компактті мәтіннен сөйлеуге көшіру үлгісі. Процессордың қуатын тиімді пайдаланады, бір аудио үлгісінен дыбыстарды клондауды қолдайды, табиғи дыбыстарды шығарады. Үлгінің кішігірім өлшемі оны ресурстары аз орталарда қолдануға өте қолайлы етеді.

Жасаушы::
Kyutai

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер:
en, fr

VRAM:
1GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
Бос

100М параметрлері Процессордың есептеуі Дыбысын көшіру Бір үлгіні клондау Шегіне дейін

Келесіге ең қолайлы:: Жеңіл орналастыру, тек процессорды пайдаланатын орталар, тез дауысты клондауName

Тексеру Pocket TTS

Kitten TTS

Free

Kitten TTS by KittenML - бұл ONNX негізінде жасалған өте жеңіл мәтін- дыбыс синтезі моделі. 15М- ден 80М- ге дейінгі параметрлерімен (дискіде 25- 80 МБ), ол графикалық процессорды қажет етпей, жоғары сапалы дыбыс синтезін CPU- дан орындайды. 8 ішкі дыбысы, дыбыс жылдамдығын баптау, сан, валюта және бірліктер үшін ішкі мәтін өңдеуі бар. Ең жақын орналасу және төменгі артта қалу қолданбаларына өте ыңғайлы.

Жасаушы::
KittenML

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер:
en

VRAM:
0GB

Дыбысты көшіру:
Жоқ

1K таңбаның бағасы:
Бос

Процессордың ғана нәтижесі Үлгінің өлшемі 80Мб- тан кем 8 ішкі дауысName Жылдамдық бақылауы ONNX негізіндегі 24 кГц шығысы

Келесіге ең қолайлы:: Жедел, жеңіл, шеттік орналастыру, төменгі артта қалу қолданбаларыName

Тексеру Kitten TTS

CosyVoice3

Standard

CosyVoice3 - Alibaba' s FunAudioLLM командасының соңғы жетілдіруі. Бұл ~150 мс кешіктіруімен екі- ағынды есептеу, эмоция/ жылдамдық/ үнділікке арналған инструкцияға негізделген басқару, және дыбыс шығарушының ұқсастығын 0- ші клондау үшін жақсартуды қамтиды. 9 тіл және 18 қытай диалектісін қолдайды. RL- реттелген нұсқасы ең соңғы прозодияны ұсынады.

Жасаушы::
Alibaba (FunAudioLLM)

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер:
en, zh, ja, ko, de, es, fr, it, ru

VRAM:
4GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
2x

Екі ағым Эмоциялар басқаруы Дыбысын көшіру Жылдамдық/Дыбыс контроллері Инструкциядан кейін

Келесіге ең қолайлы:: Көп тілді TTS, нақты уақыт қолданбалары, дауысты клондау

Тексеру CosyVoice3

NAMAA Saudi TTS

Standard

NAMAA Saudi TTS - бұл Resemble AI- дің ChatterboxMultilingual- інің сауд арабшаға жақсартылған түрі. NAMAA Space- тің Сауд диалектісінде оқытылған, ол көп тілді үлгілерде кездеспейтін табиғи, қазіргі стандартты араб және сауд тіліндегі дыбыстарды шығарады. Chatterbox- тың дыбыстарды клондау және эмоцияларды басқаруды TTS.ai- да қолданылады. Алғашқы ашық араб тіліндегі TTS TTS.ai- да қолданылды.

Жасаушы::
NAMAA Space

Лицензия::
MIT

Жылдамдығы:
Medium

Сапа::

тілдер:
ar

VRAM:
6GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
2x

Сауд Арабия диалектіName Жаңа дәстүрлі арабша Дыбысты клондау Эмоциялар басқаруы Жергілікті дыбысы

Келесіге ең қолайлы:: Сауд Арабиясы аудиториясы үшін араб мазмұны, MSA баяндау, Khaleeji-диалекттік дауыс агенттері, араб аудиокітаптары

Тексеру NAMAA Saudi TTS

Darwin TTS

Standard

Darwin- TTS- 1. 7B- Cross by FINAL- Bench - Qwen3- TTS- 1. 7B- нің зерттеу нұсқасы, онда 84 talker- FFN тензорлары (8. 6%) Qwen3- 1. 7B- Base- ден сәйкес келетін тензорлармен α=3% - ға араластырылған. Бұл араластыру қайта оқытусыз жасалып, корей, ағылшын, жапон және қытай тілдеріндегі дауысты клондау нәтижесінде айқын дауысты клондау береді. Дыбыс клондау режімі (3 секундтық аудио сілтеме) бойынша жұмыс істейді.

Жасаушы::
FINAL-Bench

Лицензия::
Apache 2.0

Жылдамдығы:
Medium

Сапа::

тілдер:
en, ko, ja, zh

VRAM:
7GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
2x

Дыбысын көшіру Тіларалық FFN- араласқан 4 негізгі тіл Qwen3 негізіндегі

Келесіге ең қолайлы:: Бір ғана сілтемелік дауыспен ағылшын, корей, жапон, қытай тілдеріндегі дауыстылар арасында тіларалық клондауName

Тексеру Darwin TTS

MOSS-TTSD

Standard

MOSS- TTSD v1. 0 OpenMOSS- тан шыққан 7B диалогты мәтіннен сөйлеуге көшіру моделі, қысқа аудио хабарламадан әңгіме жалғасады. [S1]/ [S2] тегтері арқылы 5 бір уақытта сөйлеушіні қолдайды, 3- 10 секундтық сілтемелік аудиодан 0- ші ұрыста дауысты клондау, 20 тілде 60 минуттық біртұтас көпқабатты диалогты қолдайды. MOSS- TTS- тан айырмашылығы — TTSD подкаст/ аудиокітап/ дубляж жұмыс үрдістеріне арналған.

Жасаушы::
OpenMOSS

Лицензия::
Apache 2.0

Жылдамдығы:
Medium

Сапа::

тілдер:
en, zh

VRAM:
12GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
2x

Көп дыбыс шығарғыштар диалогы 5 динамикке дейін 60мин біртұтас аудио Дыбысын көшіру Подкасттарды жақсарту

Келесіге ең қолайлы:: Подкасттар, аудиокітаптар, дубляждағы диалогтар, бірнеше дауыспен сөйлесу мазмұныName

Тексеру MOSS-TTSD

Ming-Omni TTS

Free

InclusionAI- ның Ming- omni- tts- 0. 5B дегені BailingMM тығыз арнасына негізделген, Patch- by- Patch ауа- қатынасы сәйкесті аудио декодері бар компактті омни- модалды сөйлеу моделі. 44. 1 кГц шығыс (CD сапасына жақын), 3+ секундтық сілтемеден нульдік- клондау дыбысын қолдайды, JSON инструкциялары арқылы эмоционалды / диалект / BGM басқаруын қамтиды. Қытайлық ережелер бойынша мықты тұрақтылығы — 0. 83% WER.

Жасаушы::
inclusionAI

Лицензия::
Apache 2.0

Жылдамдығы:
Medium

Сапа::

тілдер:
en, zh

VRAM:
3GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
Бос

44. 1 кГц шығысы Дыбысын көшіру Эмоциялар басқаруы Диалект басқаруы BGM генераторы Ықшамдалған 0. 5B

Келесіге ең қолайлы:: High-fidelity екі тілде баяндау, эмоция-контрольді дауыс әрекеті, қытайлық аудиокітап мазмұны

Тексеру Ming-Omni TTS

MOSS-TTS Nano

Free

MOSS-TTS-Nano-100M is OpenMOSS's compact 100M-parameter variant of the MOSS-TTS family, sharing the delay-transformer architecture. Trades the 8B model's peak quality for ~80x smaller weights and dramatically lower per-request VRAM, making it suitable for free-tier and high-throughput deployments. Same 20-language reach.

Жасаушы::
OpenMOSS

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер:
en, zh, de, es, fr, ja, it, ko, ru, ar, pt

VRAM:
2GB

Дыбысты көшіру:
Иә

1K таңбаның бағасы:
Бос

Compact 100M Fast inference Multilingual Voice cloning Same MOSS family

Келесіге ең қолайлы:: Free-tier TTS, high-volume production, low-latency interactive use

Тексеру MOSS-TTS Nano

Kokoro

Бос

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Жасаушы::
Hexgrad

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер: en, ja, zh, fr, it, pt, es, hi

Келесіге ең қолайлы:: High-quality TTS with minimal latency, streaming applications

Тегін сынау

Piper

Бос

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Жасаушы::
Rhasspy

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер: en, de, fr, es, it, pt, nl, pl, ru, zh, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi

Келесіге ең қолайлы:: Quick previews, accessibility, and embedded applications

Тегін сынау

VITS

Бос

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Жасаушы::
Jaehyeon Kim et al.

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер: en, de, es, fr, pt, nl, fi, hu, bg, ja, pl

Келесіге ең қолайлы:: General-purpose text-to-speech with natural prosody

Тегін сынау

MeloTTS

Бос

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Жасаушы::
MyShell.ai

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер: en, es, fr, zh, ja, ko

Келесіге ең қолайлы:: Production applications needing fast, multilingual TTS

Тегін сынау

Kani TTS 2

Бос

Kani-TTS-2 by NineNineSix is an ultra-lightweight 400M parameter model built on a Liquid AI LFM2 backbone with NVIDIA NanoCodec. It runs in just 3GB VRAM and produces ~10 seconds of speech in ~2 seconds on an A100 (RTF 0.2). The current public release ships an English-only `kani-tts-2-en` checkpoint and does not expose the speaker-embedding hook needed for voice cloning — use Chatterbox / IndexTTS2 / F5-TTS for cloning, or Kokoro / MeloTTS for non-English.

Жасаушы::
NineNineSix

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер: en

Келесіге ең қолайлы:: Fast English generation on low-VRAM hardware, quick previews

Тегін сынау

OuteTTS

Бос

OuteTTS extends large language models with text-to-speech capabilities while preserving the original architecture. It supports multiple backends including llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, and even browser inference via Transformers.js. Features zero-shot voice cloning through speaker profiles saved as JSON.

Жасаушы::
OuteAI

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер: en

Келесіге ең қолайлы:: Edge deployment, browser-based TTS, low-resource environments

Тегін сынау

Pocket TTS

Бос

Pocket TTS by Kyutai (creators of Moshi) is a compact 100M parameter text-to-speech model that punches well above its weight. It runs efficiently on CPU, supports zero-shot voice cloning from a single audio sample, and produces natural-sounding speech. The small model size makes it ideal for edge deployment and low-resource environments.

Жасаушы::
Kyutai

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер: en, fr

Келесіге ең қолайлы:: Lightweight deployment, CPU-only environments, quick voice cloning

Тегін сынау

Kitten TTS

Бос

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Жасаушы::
KittenML

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер: en

Келесіге ең қолайлы:: Fast lightweight TTS, edge deployment, low-latency applications

Тегін сынау

Ming-Omni TTS

Бос

Ming-omni-tts-0.5B by inclusionAI is a compact omni-modal speech model built on the BailingMM dense backbone with a Patch-by-Patch flow-matching audio decoder. Delivers 44.1kHz output (near CD quality), supports zero-shot voice cloning from a 3+ second reference, and includes built-in emotion / dialect / BGM control via JSON instructions. Excellent stability — 0.83% WER on Chinese benchmarks.

Жасаушы::
inclusionAI

Лицензия::
Apache 2.0

Жылдамдығы:
Medium

Сапа::

тілдер: en, zh

Әдетті

Жасаушы::
RVC-Boss

Лицензия::
MIT

Жылдамдығы:
Slow

Сапа::

тілдер:
en, zh, ja, ko

Дыбысты көшіру:
Иә

5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual

Келесіге ең қолайлы:: Voice cloning, singing synthesis, content creator voice replication

Тексеру GPT-SoVITS

Orpheus

Әдетті

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

Жасаушы::
Canopy Labs

Лицензия::
Llama 3.2 Community

Жылдамдығы:
Medium

Сапа::

тілдер:
en

Дыбысты көшіру:
Жоқ

Human-level emotion100K hours trainingNatural emphasisExpressive speech

Келесіге ең қолайлы:: High-quality emotional speech, audiobooks, voice acting

Тексеру Orpheus

Qwen3 TTS

Әдетті

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

Жасаушы::
Alibaba (Qwen)

Лицензия::
Apache 2.0

Жылдамдығы:
Medium

Сапа::

тілдер:
en, zh, ja, ko, de, fr, ru, pt, es, it

Дыбысты көшіру:
Иә

Voice cloning9 preset voicesVoice design from textEmotion control10 languages

Келесіге ең қолайлы:: Multilingual content with voice cloning or custom voice design

Тексеру Qwen3 TTS

Chatterbox Turbo

Әдетті

Chatterbox Turbo by Resemble AI is a 350M parameter upgrade to Chatterbox, delivering up to 6x real-time speed with sub-200ms latency. It supports paralinguistic tags like [laugh], [cough], and [chuckle] directly in text. Includes Perth watermarking on all generated audio for provenance tracking.

Жасаушы::
Resemble AI

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер:
en

Дыбысты көшіру:
Иә

Sub-200ms latencyParalinguistic tags6x real-timeVoice cloningWatermarking

Келесіге ең қолайлы:: Real-time voice agents, expressive speech with natural sounds

Тексеру Chatterbox Turbo

VoxCPM

Әдетті

VoxCPM 1.5 by OpenBMB is a novel tokenizer-free TTS model that operates in continuous space rather than discrete tokens. It produces high-fidelity 44.1kHz audio, supports zero-shot voice cloning from 3-10 seconds, and maintains consistency across paragraphs. Cross-language cloning lets you apply an English voice to Chinese speech and vice versa.

Жасаушы::
OpenBMB

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер:
en, zh

Дыбысты көшіру:
Иә

44.1kHz audioTokenizer-freeCross-lingual cloningContext-awareLoRA fine-tuning

Келесіге ең қолайлы:: High-fidelity audio, audiobooks, long-form content with voice consistency

Тексеру VoxCPM

VibeVoice

Әдетті

VibeVoice from Microsoft generates long-form speech up to 90 minutes with support for 4 simultaneous speakers, making it ideal for podcasts and dialogues. The Realtime 0.5B variant achieves ~300ms latency for interactive use. Supports speaker tags for multi-turn dialogue generation.

Жасаушы::
Microsoft

Лицензия::
MIT

Жылдамдығы:
Fast

Сапа::

тілдер:
en, zh

Дыбысты көшіру:
Жоқ

Multi-speakerLong-form (90 min)Podcast generationDialogueLow latency

Келесіге ең қолайлы:: Podcasts, dialogues, long-form narration, multi-speaker content

Тексеру VibeVoice

CosyVoice3

Әдетті

CosyVoice3 is the latest evolution from Alibaba's FunAudioLLM team. It features bi-streaming inference with ~150ms latency, instruction-based control for emotion/speed/volume, and improved speaker similarity for zero-shot cloning. Supports 9 languages plus 18 Chinese dialects. RL-tuned variant delivers state-of-the-art prosody.

Жасаушы::
Alibaba (FunAudioLLM)

Лицензия::
Apache 2.0

Жылдамдығы:
Fast

Сапа::

тілдер:
en, zh, ja, ko, de, es, fr, it, ru

Дыбысты көшіру:
Иә

Bi-streamingEmotion controlVoice cloningSpeed/volume controlInstruction following

Келесіге ең қолайлы:: Multilingual production TTS, real-time applications, voice cloning

Тексеру CosyVoice3

NAMAA Saudi TTS

Әдетті

NAMAA Saudi TTS is a Saudi Arabic fine-tune of Resemble AI's ChatterboxMultilingual. Trained by NAMAA Space on authentic Saudi-dialect speech, it produces natural Modern Standard Arabic and Saudi colloquial pronunciation that generic multilingual models cannot match. Inherits Chatterbox's zero-shot voice cloning and emotion control via reference audio prompts. The first open-weights Arabic TTS deployed on TTS.ai.

Жасаушы::
NAMAA Space

Лицензия::
MIT

Жылдамдығы:
Medium

Сапа::

тілдер:
ar

Дыбысты көшіру:
Иә

Saudi Arabic dialectModern Standard ArabicZero-shot voice cloningEmotion controlNative pronunciation

Келесіге ең қолайлы:: Arabic content for Saudi audiences, MSA narration, Khaleeji-dialect voice agents, Arabic audiobooks

Тексеру NAMAA Saudi TTS

Darwin TTS

Әдетті

Darwin-TTS-1.7B-Cross by FINAL-Bench is a research variant of Qwen3-TTS-1.7B where 84 talker-FFN tensors (8.6%) are blended at α=3% with the matching tensors from Qwen3-1.7B-Base. The blend is built without retraining and produces noticeably crisper cross-lingual voice cloning across Korean, English, Japanese, and Chinese. Operates in zero-shot voice-clone mode (3 seconds reference audio).

Жасаушы::
FINAL-Bench

Лицензия::
Apache 2.0

Жылдамдығы:
Medium

Сапа::

тілдер:
en, ko, ja, zh

Дыбысты көшіру:
Иә

Voice cloningCross-lingualFFN-blended4 core languagesQwen3 backbone

Келесіге ең қолайлы:: Cross-lingual voice cloning between English / Korean / Japanese / Chinese with a single reference voice

Үлгі	Жасаушы:	Түр	Жылдамдығы	тілдер	VRAM	Лицензия:	% 1 кредит
Kokoro	Hexgrad	Free	Fast	8	1.5GB	Apache 2.0	Бос	Қолдану
Piper	Rhasspy	Free	Fast	29	0 (CPU only)	MIT	Бос	Қолдану
VITS	Jaehyeon Kim et al.	Free	Fast	11	1GB	MIT	Бос	Қолдану
MeloTTS	MyShell.ai	Free	Fast	6	0.5GB (GPU optional)	MIT	Бос	Қолдану
Bark	Suno	Standard	Slow	13	5GB	MIT	2	Қолдану
Bark Small	Suno	Standard	Medium	13	2GB	MIT	2	Қолдану
CosyVoice 2	Alibaba (Tongyi Lab)	Standard	Medium	8	4GB	Apache 2.0	2	Қолдану
Dia TTS	Nari Labs	Standard	Medium	1	4GB	Apache 2.0	2	Қолдану
Parler TTS	Hugging Face	Standard	Medium	1	4GB	Apache 2.0	2	Қолдану
IndexTTS-2	Index Team	Standard	Medium	2	4GB	Bilibili Model License	2	Қолдану
Spark TTS	SparkAudio	Standard	Medium	2	4GB	CC BY-NC-SA 4.0	2	Қолдану
GPT-SoVITS	RVC-Boss	Standard	Slow	4	6GB	MIT	2	Қолдану
Orpheus	Canopy Labs	Standard	Medium	1	4GB	Llama 3.2 Community	2	Қолдану
Chatterbox	Resemble AI	Premium	Medium	1	4GB	MIT	4	Қолдану
Tortoise TTS	James Betker	Premium	Slow	1	8GB	Apache 2.0	4	Қолдану
StyleTTS 2	Columbia University	Premium	Medium	1	4GB	MIT	4	Қолдану
OpenVoice	MyShell.ai / MIT	Premium	Medium	6	4GB	MIT	4	Қолдану
Qwen3 TTS	Alibaba (Qwen)	Standard	Medium	10	7GB	Apache 2.0	2	Қолдану
Sesame CSM	Sesame	Premium	Slow	1	8GB	Apache 2.0	4	Қолдану
Chatterbox Turbo	Resemble AI	Standard	Fast	1	2GB	MIT	2	Қолдану
VoxCPM	OpenBMB	Standard	Fast	2	4GB	Apache 2.0	2	Қолдану
Kani TTS 2	NineNineSix	Free	Fast	1	3GB	Apache 2.0	Бос	Қолдану
OuteTTS	OuteAI	Free	Fast	1	2GB	Apache 2.0	Бос	Қолдану
VibeVoice	Microsoft	Standard	Fast	2	4GB	MIT	2	Қолдану
Pocket TTS	Kyutai	Free	Fast	2	1GB	MIT	Бос	Қолдану
Kitten TTS	KittenML	Free	Fast	1	0GB	Apache 2.0	Бос	Қолдану
CosyVoice3	Alibaba (FunAudioLLM)	Standard	Fast	9	4GB	Apache 2.0	2	Қолдану
NAMAA Saudi TTS	NAMAA Space	Standard	Medium	1	6GB	MIT	2	Қолдану
Darwin TTS	FINAL-Bench	Standard	Medium	4	7GB	Apache 2.0	2	Қолдану
MOSS-TTSD	OpenMOSS	Standard	Medium	2	12GB	Apache 2.0	2	Қолдану
Ming-Omni TTS	inclusionAI	Free	Medium	2	3GB	Apache 2.0	Бос	Қолдану
MOSS-TTS Nano	OpenMOSS	Free	Fast	11	2GB	Apache 2.0	Бос	Қолдану

Ең толық AI мәтін-сөз платформасыName

TTS.ai-ды неге мәтіннен сөйлеуге таңдау керек?

TTS.ai әлемдегі ең үздік ашық көзді мәтін-сөз моделдерін бірыңғай, қолдануға оңай платформаға біріктіреді. Бір ғана дыбыс тетігіне бөгеп қоятын патенттік қызметтерден айырмашылығы, TTS.ai сізге Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University және басқа да жетекші зерттеу лабораторияларының 20+ моделіне қол жеткізуге мүмкіндік береді.

Әрбір модель MIT, Apache 2. 0 немесе оған ұқсас лицензиялар бойынша ашық кодқа ие, бұл сіздің жобаларыңызда шығарылған аудионы пайдалануға толық коммерциялық құқығыңызды қамтамасыз етеді. Сізге жылдам, жеңіл синтез қажет болса да, немесе аудиокітаптар мен подкасттар үшін студиялық сапалы шығару керек болса да, TTS.ai әрбір жағдайға лайықты модельді ұсынады.

Тіркелгі қажет емес

Үш тегін TTS үлгісімен бірден жұмыс істей бастаңыз: Piper (үлкен жылдамдық, жеңіл), VITS (жоғары сапалы нейрондық синтез) және MeloTTS (көп тілді қолдау). Тіркелу, кредиттік карта, ұрпақтар саны шектеулері жоқ. Тегін үлгілер ағылшын және басқа да тілдерді қолдайды, сонымен қатар қолданбалардың көпшілігіне сай келетін табиғи дыбыс шығарады.

Графикалық процессормен жеделдету

Барлық TTS модельдері тез және біркелкі генерациялау үшін арнайы NVIDIA графикалық процессорларымен жұмыс істейді. Тегін модельдер әдетте 2 секундтан аз уақыт ішінде аудионы генерациялайды. Kokoro, CosyVoice 2, және Bark сияқты стандартты модельдер орташа есеппен 3-5 секундта. Tortoise және Chatterbox сияқты ең жоғары сапалы Premium модельдер мәтін ұзындығына байланысты 5-15 секундта өңдейді.

30+ тілді қолдайды

30- тан астам тілде сөйлеуді құру, оның ішінде ағылшын, испан, француз, неміс, итальян, португал, қытай, жапон, корей, араб, хинди, орыс және басқа да тілдері. Кейбір үлгілер тіларалық синтездеуді қолдайды, яғни бастапқы дауысты үйренбеген тілде сөйлеуді құра аласыз. CosyVoice 2 және GPT- Soviets тіларалық дауысты клондауда ерекшеленеді.

Жасаушыларға арналған API

TTS.ai-ді OpenAI-ге сәйкес REST API-мен қолданбаңызға біріктіріңіз. Барлық 20+ модель үшін бір түйін. Python, JavaScript, cURL және Go SDK- лары. Реал уақыттағы қолданбаларды ағынмен тарату. Үлкен көлемдегі мазмұнды құру үшін пакеттік өңдеу. Асинхронды хабарлау үшін Webhooks. API-ға қол жеткізу әрбір жоспарға кіреді, тіпті тегін де.

Жиі қойылатын сұрақтар

Мәтінді сөйлеуге айналдыру (TTS) - бұл жазылған мәтіндерді табиғи естілетін сөйлеуге айналдыратын ДНҚ технологиясы. Kokoro, Chatterbox және CosyVoice 2 сияқты заманауи нейрондық TTS модельдері терең оқытуды қолданып, табиғи прозодия, эмоция және ритммен ерекше адамша естілетін сөйлеуді шығарады.

Бұл сіздің қажеттіліктеріңізге байланысты. Жедел нобайлау үшін Piper немесе MeloTTS (ақысыз, жылдам). Жоғары сапалы нобайлау үшін Kokoro немесе CosyVoice 2 (стандарт деңгей). Дыбыс клондау үшін Chatterbox немесе GPT- SoVITS (ең арзан). Диалог/ подкаст мазмұны үшін Dia TTS. Әрбір үлгінің артықшылығы бар - ең жақсысын табу үшін тәжірибе жасаңыз.

Иә! TTS.ai Kokoro, Piper, VITS, және MeloTTS үлгілерімен мәтіннен сөйлеуге тегін қызмет көрсетеді. 500 таңбаға дейін және сағатына 3 генерацияға дейін тіркелгі қажет емес. 15, 000 таңбаға дейін және барлық үлгілерге қол жеткізу үшін тегін тіркелгіге жазылыңыз.

Тіл-сөз моделіміз 30-нан астам тілдерді қолдайды, оның ішінде ағылшын, испан, француз, неміс, итальян, португал, қытай, жапон, корей, араб, орыс, хинди және басқа да тілдері. Тілдердің қолжетімділігі модельге байланысты.

Иә, TTS.ai арқылы жасалған дыбыс коммерциялық мақсатта қолданылуы мүмкін. Барлық модельдеріміз ашық код лицензияларын (MIT, Apache 2. 0) қолданады. Әрбір модельдің лицензиясын қарап шығыңыз. Сіздің жобаңыз үшін қолданатын модельдің лицензиясын қарап шығуды ұсынамыз.

TTS.ai MP3, WAV, OGG, және FLAC шығыс пішімдерін қолдайды. MP3 - вебте ойнату үшін әдетті. Аудио өңдеу үшін WAV- ды қолдануды ұсынамыз. Аудио конвертер құралы арқылы пішімдерді ауыстыра аласыз.

Дыбысты клондау қысқа дыбыс үлгісінен (әдетте 5- 30 секунд) белгілі бір дыбысты жасау үшін ДК- ны қолданады. Мақсатты дыбыстың анық жазбасын жүктеп беріңіз, содан кейін Chatterbox, GPT- SoVITS немесе OpenVoice сияқты модельдер осы дыбыспен жаңа дыбыс шығарады. Сапа таза, ұзақ сілтеме дыбысымен жақсарады.

Тегін пайдаланушы бір сұраныс үшін 500 таңбаға дейін құра алады. Тіркелген пайдаланушы бір сұраныс үшін 5000 таңбаға дейін құра алады. Ұзын мәтіндер үшін дыбыс бөлшектер түрінде құрылып, автоматты түрде біріктіріледі. API пайдаланушылары бір сұраныс үшін 10000 таңбаға дейін өңдей алады.

SSML (Speech Synthesis Markup Language) қолдауы үлгіге байланысты. Piper және басқа модельдер тоқтату, баса айту және дыбыс шығаруды басқару үшін негізгі SSML тегтерін қолдайды. SSML қолдауы жоқ модельдер үшін, табиғи тыныс белгілері мен жол аяқтауды қолданып, прозодияға әсер ете аласыз.

Иә, модельдердің көпшілігі жылдамдығын 0. 5x - 2. 0x аралығында өзгертуге мүмкіндік береді. Bark және Parler сияқты кейбір модельдер жылдамдық пен стильді басқаруға мүмкіндік береді. Жылдамдық параметрлерін қосымша параметрлер панелінде немесе API жылдамдық параметрі арқылы орнатуға болады.

Иә, пакетті өңдеу API арқылы қол жетімді. Бір API шақыру не скрипт арқылы бірнеше мәтін сегменттерін жібере аласыз, олардың әрқайсысы бөлек аудио файлдар ретінде өңделіп қайтарылады. Бұл аудиокітап тараулары, электронды оқу модульдері немесе ойын диалог скриптері үшін өте қолайлы.

Тіркелгіңіздің басқару панелінен API кілтін құрыңыз, содан кейін POST сұраныстарын REST API аяқтау нүктесіне мәтін, модель және дауыс параметрлерімен жіберіңіз. Біз Python, JavaScript және cURL тілдеріндегі код мысалдарын ұсынамыз. API OpenAI-мен үйлесімді, сондықтан бар интеграциялар минималды өзгерістермен жұмыс істейді.

5.0/5 (4)

Мәтінді сөйлеуге айналдыруды бастау

TTS.ai-ды қолданып мыңдаған құрастырушыларға қосылыңыз. Жаңа тіркелгімен 15000 тегін таңба алыңыз. Тегін модельдер тіркеусіз қол жетімді.

Тегін тіркелу Бағасын қарау

AI мәтіннен сөйлеугеName

TTS.ai ұнады ма? Достарыңызға хабарлаңыз!

Үлгінің егжей- тегжейі

GPT-SoVITS

Жақсы нәтижелер үшін кеңестер

Таңбалардың қолданылуы

AI мәтіннен сөйлеуге қалай жұмыс істейді

Мәтінді келтіріңіз

Модель мен дауысты таңдау

Құру және жүктеп алу

Мәтінді сөйлеуге аудару

Аудиокітаптар

Видео дыбыс жазулары

Подкасттар

ОйындарName

Электрондық оқу

Арнайы мүмкіндіктер

IVR және телефон жүйелеріName

Әлеуметтік медиаName

Аудару

Маркетинг

Дубляж және локализация

Медитация және денсаулық

Барлық мәтіннен сөйлеуге түрлендіргіш үлгілері

Kokoro

Piper

VITS

MeloTTS

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Chatterbox

Tortoise TTS

StyleTTS 2

OpenVoice

Qwen3 TTS

Sesame CSM

Chatterbox Turbo

VoxCPM

Kani TTS 2

OuteTTS

VibeVoice

Pocket TTS

Kitten TTS

CosyVoice3

NAMAA Saudi TTS

Darwin TTS

MOSS-TTSD

Ming-Omni TTS

MOSS-TTS Nano

Kokoro

Piper

VITS

MeloTTS

Kani TTS 2

OuteTTS

Pocket TTS

Kitten TTS

Ming-Omni TTS

MOSS-TTS Nano

Bark

Bark Small

CosyVoice 2

Dia TTS

Parler TTS

IndexTTS-2

Spark TTS

GPT-SoVITS

Orpheus

Qwen3 TTS

Chatterbox Turbo

VoxCPM

VibeVoice

CosyVoice3