Матн ба гуфторComment

Матнро ба гуфтугӯи табиӣ бо истифодаи моделҳои AI-и кушода табдил диҳед. Истифодаи ройгон, ҳисоби корбарӣ лозим нест.

Мо ҳанӯз овозҳои TTS-ро ба забони шумо надорем. Ба мо дар илова кардани овозҳои худ кӯмак кунед! Садои шуморо фурӯшед
0/500 Аломатҳо
Бақайдгирӣ барои 5000 аломат маҳдудият

Матнро дар SSML тегҳо барои идоракунии дақиқ гузоред:

<speak><prosody rate="slow">Slow speech</prosody></speak>

Иловаи нишонаҳои эҳсосот барои таъсир расонидан ба интиқол (дастгирии намунаҳо фарқ мекунад):

Муайян кардани талаффузи оддӣ (калима = талаффуз):

-12 +12
0.5x 2.0x
Озод бо Piper, VITS, MeloTTS
Дар ин ҷо садои эҷодшудаи шумо пайдо мешавад. Намунаро интихоб кунед, матнро ворид кунед ва пахш кунед Эҷод кунед.
Аудио бо муваффақият эҷод шуд
0:00 0:00
Боргирии аудио Мӯҳлати пайванд баъди 24 соат ба итмом мерасад
Шумо TTS.ai-ро дӯст медоред? Ба дӯстонатон бигӯед!

Тафсилоти намуна

Kitten TTS

Kitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Тайёркунанда: KittenML
Иҷозатнома: Apache 2.0
Суръат Fast
Сифати:
забонҳо 1 забони
RAM- и видеоӣ 0GB
Тасвири овоз Пуштибони намешавад
Хусусиятҳо:
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
Беҳтарин барои:: Fast lightweight TTS, edge deployment, low-latency applications

Маслиҳатҳо барои натиҷаҳои беҳтар

  • Истифодаи нишонаҳои хат барои таъхирҳои табиӣ ва интонатсия
  • Имлои рақамҳо ва кӯтоҳкунӣ барои талаффузи равшантар
  • Иловаи вергулҳо барои эҷоди таваққуфҳои кӯтоҳ байни ибораҳо
  • Истифодаи нуқтаи чоркунҷа (...) барои таваққуфҳои дарозтар
  • Kokoro ё CosyVoice 2-ро барои натиҷаҳои табиӣ истифода баред
  • Истифодаи Dia барои муколамаи бисёргӯяк ва мундариҷаи подкаст

Истифодаи Аломатҳо

& Тағйиротҳо Нархи ҳар як 1K аломат
Озод 0 кредит (бемаҳдуд)
& Стандартӣ 2 кредит / 1K аломат
Премиум 4 кредит / 1K аломатҳо

Чӣ тавр AI матн ба сухан кор мекунад

Эҷоди овоздиҳии сифати касбӣ дар се қадами оддӣ. Маълумотҳои техникӣ лозим нест.

Қадами 1

Матни худро ворид кунед

Матнро, ки мехоҳед ба гуфтугӯи табдил диҳед, ворид кунед, часпонед ё бор кунед. То 5000 аломат барои ҳар як насл барои корвандони воридшуда пуштибонӣ мекунад. Матни оддиро истифода баред ё барои идоракунии пешрафтаи талаффуз, таваққуфҳо ва таъкидҳо SSML тегҳоро илова кунед.

Қадами 2

Интихоби модел ва овоз

Аз 20+ намунаи AI дар се сатҳ интихоб кунед. Садоеро, ки ба мундариҷаи шумо мувофиқ аст, интихоб кунед, забони ҳадафро интихоб кунед, суръати бозикуниро аз 0. 5x то 2. 0x танзим кунед ва формати бароришро интихоб кунед (MP3, WAV, OGG ё FLAC).

Қадами 3

Боркунӣ

Нажмите Создать и ваш аудиофайл будет готов в секунду. Пересмотрите с встроенным плеером, загрузите в выбранном формате или скопируйте ссылку для совместного использования. Используйте API для обработки партии и интеграции в рабочий процесс.

Матн ба гуфтугӯ

Инчунин, дар ин давра ба эҷоди асарҳои бадеӣ, бадеӣ-бадеӣ, эҷодиёти бадеӣ ва ғайра машғул мешавад.

Ҳамаи матн ба гуфтугӯи намунаҳо

Муайянкуниҳои муфассал барои ҳар як намунаи AI дар TTS.ai дастрас аст. Сифати, суръати, пуштибонии забон ва хусусиятҳоро муқоиса кунед, то намунаи комилро барои лоиҳаи худ пайдо кунед.

KokoroKokoro

Free

Kokoro як модели матн- ба- сухан бо 82 миллион параметр мебошад, ки аз синфи вазнинии худ хеле баланд аст. Бо вуҷуди андозаи хурди худ, он сухани табиӣ ва ифодакунандаро ба таври назаррас истеҳсол мекунад. Kokoro забонҳои гуногунро, аз ҷумла англисӣ, японӣ, хитоӣ ва корейсро бо овозҳои гуногуни ифодакунанда дастгирӣ мекунад. Он хеле тез кор мекунад - эҷоди аудио қариб 100 маротиба тезтар аз вақти воқеӣ дар GPU.

Тайёркунанда::
Hexgrad
Иҷозатнома::
Apache 2.0
Суръат:
Fast
Сифати::
забонҳо:
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
RAM- и видеоӣ:
1.5GB
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
Озод
Параметрҳои 82M Зудтарин Овозҳои ифодакунанда Бисёрзабони Пуштибонии ҷараён
Беҳтарин барои:: Сифати баланди TTS бо мӯҳлати интизорӣ, барномаҳои интиқоли аудио

PiperPiper

Free

Piper - ин муҳаррики сабук барои матн ба сухан аст, ки бо Rhasspy таҳия шудааст ва аз VITS ва larynx истифода мебарад. Он пурра дар CPU кор мекунад, ки ин барои дастгоҳҳои периферӣ, автоматикунонии хона ва барномаҳое, ки TTS- ро талаб мекунанд, идеалӣ аст. Бо зиёда аз 100 овоз дар 30+ забонҳо, Piper гуфтугӯи табииро бо суръати воқеӣ ҳатто дар Raspberry Pi 4 пешниҳод мекунад.

Тайёркунанда::
Rhasspy
Иҷозатнома::
MIT
Суръат:
Fast
Сифати::
забонҳо:
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
RAM- и видеоӣ:
0 (CPU only)
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
Озод
CPU-и дӯстона Мумкин аст, ки худмухтор бошад 100+ овоз 30+ забонҳо Пуштибонии SSML
Беҳтарин барои:: Пешнамоишҳои тез, дастрасӣ ва барномаҳои дарунсохт

VITSVITS

Free

VITS (Вараянси иқтибос бо омӯзиши рақобатӣ барои охирин- ба- охирин Матн- ба- Забон) - усули параллелӣ аз охирин то охирин TTS, ки садои табииро нисбат ба намунаҳои ду марҳилаи ҷорӣ эҷод мекунад. Он иқтибоси гуногунро бо нормализатсияи равандҳои васеъ ва омӯзиши рақобатӣ қабул мекунад, ки ба беҳтаршавии табиӣ оварда мерасонад.

Тайёркунанда::
Jaehyeon Kim et al.
Иҷозатнома::
MIT
Суръат:
Fast
Сифати::
забонҳо:
en, zh, ja, ko
RAM- и видеоӣ:
1GB
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
Озод
Синтезатори охирин Прозодияи табиӣ Тасдиқи тез Бисёр баландгӯякҳо
Беҳтарин барои:: Матни умумӣ ба гуфтугӯи бо прозодияи табиӣ

MeloTTSMeloTTS

Free

MeloTTS аз тарафи MyShell. ai китобхонаи бисёрзабони TTS мебошад, ки забони англисиро (Америка, Британия, Ҳиндустон, Австралия), испаниро, франсузиро, хитоиро, япониро ва корейиро дастгирӣ мекунад. Он хеле тез аст, матнро бо суръати наздики вақти воқеӣ танҳо дар CPU коркард мекунад. MeloTTS барои истифодаи истеҳсолот тарҳрезӣ шудааст ва ҳам CPU ва ҳам GPU- ро дастгирӣ мекунад.

Тайёркунанда::
MyShell.ai
Иҷозатнома::
MIT
Суръат:
Fast
Сифати::
забонҳо:
en, es, fr, zh, ja, ko
RAM- и видеоӣ:
0.5GB (GPU optional)
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
Озод
CPU- оптимизатсияшуда Бисёрзабон Многозначные акценты Барои истеҳсолот омода Низкий задержка
Беҳтарин барои:: Барномаҳои истеҳсолӣ, ки ба TTS-и тез ва бисёрзабон ниёз доранд

BarkBark

Standard

Барк аз сӯи Suno як модели матн ба аудиои асосӣ мебошад, ки метавонад суханронии бисёрзабони хеле воқеиро эҷод кунад, инчунин дигар садоҳо ба монанди мусиқӣ, садои фонӣ ва таъсирҳои садо. Он метавонад алоқаҳои ғайризабониро ба монанди хандидан, гиря кардан ва гиря кардан ба вуҷуд орад. Барк зиёда аз 100 пешфарзи овоздиҳандаро ва 13+ забонро дастгирӣ мекунад.

Тайёркунанда::
Suno
Иҷозатнома::
MIT
Суръат:
Slow
Сифати::
забонҳо:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
RAM- и видеоӣ:
5GB
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
2x
Таъсирҳои садо Қиссаи ғарибӣ Эҷоди мусиқӣ 100+ баландгӯякҳо Бисёрзабон
Беҳтарин барои:: Мазмуни аудиоии эҷодӣ, китобҳои аудиоӣ бо эҳсосот, таъсироти садо

Bark SmallBark Small

Standard

Барк хурд - ин версияи дистиллшудаи моделҳои Барк мебошад, ки баъзе сифатҳои аудиоиро барои суръати тезтар ва талаботи хотираи камтар иваз мекунад. Он қобилияти Баркро барои эҷоди сухан бо эҳсосот, табассум ва забонҳои гуногун нигоҳ медорад.

Тайёркунанда::
Suno
Иҷозатнома::
MIT
Суръат:
Medium
Сифати::
забонҳо:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
RAM- и видеоӣ:
2GB
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
2x
Барқарор кардан Тезтар аз пурра Забони эмотсионалӣ Бисёрзабон
Беҳтарин барои:: Суръати баланди аудиои эҷодӣ ҳангоми пурра барк кардан хеле суст аст

CosyVoice 2CosyVoice 2

Standard

CosyVoice 2 аз тарафи лабораторияи Tongyi- и Alibaba ба сифати сухани инсонӣ бо интизории хеле паст мерасад, ки онро барои барномаҳои вақти воқеӣ идеалӣ месозад. Он усули квантизатсияи скалярии ниҳоиро барои синтези равон истифода мебарад ва нусхабардории овози zero- shot, синтези байни забонҳо ва назорати эҳсосоти майда- ғафсро дастгирӣ мекунад. Он аз бисёр системаҳои TTS- и тиҷоратӣ дар арзёбиҳои субъективӣ беҳтар аст.

Тайёркунанда::
Alibaba (Tongyi Lab)
Иҷозатнома::
Apache 2.0
Суръат:
Medium
Сифати::
забонҳо:
en, zh, ja, ko, fr, de, it, es
RAM- и видеоӣ:
4GB
Тасвири овоз:
& Тасвир
Нархи ҳар як 1K аломат:
2x
& Давом Нуқтаи ибтидоии нусхабардорӣ Забони байни забонҳо Идоракунии эҳсосот Паритет
Беҳтарин барои:: Барномаҳои вақти воқеӣ, TTS-и равон, ёрирасонҳои овозӣ

Dia TTSDia TTS

Standard

Dia аз Nari Labs як матни 1. 6B параметри ба гуфтугӯи модел махсусан барои эҷоди бисёр- сухангӯи диалог тарҳрезӣ шудааст. Он метавонад табиӣ- садои сӯҳбатҳо байни ду сухангӯ бо мувофиқи- гирифтани, prosody, ва эҳсосотӣ ифода. Dia барои эҷоди podcast- style мундариҷа, аудиокитоб диалогҳо, ва интерактивӣ гуфтугӯи AI комил аст.

Тайёркунанда::
Nari Labs
Иҷозатнома::
Apache 2.0
Суръат:
Medium
Сифати::
забонҳо:
en
RAM- и видеоӣ:
4GB
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
2x
Бисёр- баландгӯяк Сохтани диалог Тағйироти табиӣ Ифодаи эмотсионалӣ Параметрҳо
Беҳтарин барои:: Подкастҳо, диалогҳои китоби аудиоӣ, мундариҷаи сӯҳбат

Parler TTSParler TTS

Standard

Parler TTS - ин матн ба гуфтугӯи моделест, ки тавсифоти овози забони табииро барои идоракунии гуфтугӯи эҷодшуда истифода мебарад. Ба ҷои интихоби овозҳои пешфарз, шумо овози хоҳишшударо тавсиф мекунед (масалан, "садои гарми зан бо акценти каме англисӣ, суханронии суст ва равшан") ва Parler гуфтугӯи мувофиқи ин тавсифотро эҷод мекунад. Ин барои барномаҳои эҷодӣ хеле мутобиқ аст.

Тайёркунанда::
Hugging Face
Иҷозатнома::
Apache 2.0
Суръат:
Medium
Сифати::
забонҳо:
en
RAM- и видеоӣ:
4GB
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
2x
Тасвири овоз Идоракунии забони табиӣ Эҷоди овози мутобиқшаванда Нет предустановленных голосов
Беҳтарин барои:: Барномаҳои эҷодӣ, ки ба шумо хусусиятҳои овозии оддӣ лозиманд

GLM-TTSGLM-TTS

Standard

GLM- TTS аз Zhipu AI системаи матн- ба- сухан аст, ки дар асоси архитектураи Llama бо мувофиқати равон сохта шудааст. Он ба хатогии камтарини аломатҳо дар байни моделҳои TTS- и кушодаи сарчашмаҳо мерасад, яъне он ба таври дақиқтарин талаффуз мекунад. GLM- TTS забони англисиро ва забони хитоиро бо клонкунии овоз аз 3- 10 сония намунаҳои аудиоӣ дастгирӣ мекунад.

Тайёркунанда::
Zhipu AI
Иҷозатнома::
GLM-4 License
Суръат:
Medium
Сифати::
забонҳо:
en, zh
RAM- и видеоӣ:
4GB
Тасвири овоз:
& Тасвир
Нархи ҳар як 1K аломат:
2x
Миқдори хатогиҳо Тасвири овоз Мувофиқи ҷараён Прозодияи табиӣ
Беҳтарин барои:: Заявки, требующие максимальной точности произношенияName

IndexTTS-2IndexTTS-2

Standard

IndexTTS- 2 системаи пешрафтаи матн ба сухан аст, ки дар синтези овози 0- фишанг бо назорати эҳсосоти майда- ғафсӣ бартарӣ дорад. Он метавонад суханро бо садоҳои эҳсосоти махсус, ба монанди хушбахт, ғамгин, хашмгин ё тарсончагон бе талаботи маълумоти махсуси эҳсосотӣ эҷод кунад. Намуна вектори эҳсосотро барои идоракунии ифодаи эҳсосоти сухани эҷодшуда истифода мебарад.

Тайёркунанда::
Index Team
Иҷозатнома::
Bilibili Model License
Суръат:
Medium
Сифати::
забонҳо:
en, zh
RAM- и видеоӣ:
4GB
Тасвири овоз:
& Тасвир
Нархи ҳар як 1K аломат:
2x
Идоракунии эҳсосот Сурх Векторҳои эҳсосот Экспрессионӣ Идоракунии ғафсӣ
Беҳтарин барои:: Мазмунҳои эҳсосӣ, китобҳои аудиоӣ, ёрдамчиёни виртуалӣ

Spark TTSSpark TTS

Standard

Spark TTS аз ҷониби SparkAudio модели матн- ба- сухан аст, ки клонкунии овозро бо эҳсосоти идорашаванда ва услуби суханронӣ якҷоя мекунад. Бо истифодаи танҳо 5 сония аудиои истинод, он метавонад овозро клон кунад ва баъд суханронӣ бо эҳсосоти гуногун, суръат ва услубро бо нигоҳ доштани шахсияти овози клоншударо эҷод кунад. Spark TTS системаи идоракунии асосӣ ба саволро истифода мебарад.

Тайёркунанда::
SparkAudio
Иҷозатнома::
CC BY-NC-SA 4.0
Суръат:
Medium
Сифати::
забонҳо:
en, zh
RAM- и видеоӣ:
4GB
Тасвири овоз:
& Тасвир
Нархи ҳар як 1K аломат:
2x
Тасвири овоз Идоракунии эҳсосот Идоракунии услуб Дар асоси савол 5 сония
Беҳтарин барои:: Эҷоди мундариҷа бо овозҳои такроршуда ва назорати эҳсосотӣ

GPT-SoVITSGPT-SoVITS

Standard

GPT- SoVITS якҷоя кардани GPT- услуби забон моделсозии бо SoVITS (Singing Voice Инференсия тавассути Тарҷума ва Синтез) барои қудрати чанд- shots овози клонинги. Бо камтар аз 5 сонияҳои аудиои истинод, он метавонад дақиқ клонинг овоз ва эҷоди сухани нав бо нигоҳ доштани хусусиятҳои беназир сухангӯ. Он дар ҳам сухан ва ҳам синтез овози суруд.

Тайёркунанда::
RVC-Boss
Иҷозатнома::
MIT
Суръат:
Slow
Сифати::
забонҳо:
en, zh, ja, ko
RAM- и видеоӣ:
6GB
Тасвири овоз:
& Тасвир
Нархи ҳар як 1K аломат:
2x
5 сония Садои суруд Омӯхтани чанд зарба Ҳақиқати баланд Забони байни забонҳо
Беҳтарин барои:: Тасвири овоз, синтези суруд, нусхабардории овози эҷодгари мундариҷа

OrpheusOrpheus

Standard

Orpheus - ин моделҳои калони матн- ба- сухан аст, ки ба ифодаи эҳсосоти инсонӣ мерасад. Дар зиёда аз 100, 000 соати маълумотҳои гуногуни сухан, он дар эҷоди сухан бо эҳсосоти табиӣ, таъкид ва услубҳои суханронӣ муваффақ аст. Orpheus метавонад суханро, ки аз сабтҳои инсонӣ фарқ намекунад, эҷод кунад.

Тайёркунанда::
Canopy Labs
Иҷозатнома::
Llama 3.2 Community
Суръат:
Medium
Сифати::
забонҳо:
en
RAM- и видеоӣ:
4GB
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
2x
Ҳаяҷони дараҷаи инсонӣ 100K соатҳои машқ Зерравшании табиӣ Забони ифодакунанда
Беҳтарин барои:: Сӯҳбати эмотсионалии сифатан баланд, китобҳои аудиоӣ, овози актёрӣ

ChatterboxChatterbox

Premium

Chatterbox аз тарафи Resemble AI як модел барои нусхабардории овози фаврӣ мебошад. Он метавонад ҳар як овозро аз як намунаи аудиоӣ бо дақиқии назаррас такрор кунад, на танҳо оҳанг, балки услуби суханронӣ ва нуқтаҳои эҳсосиро низ бигирад. Chatterbox инчунин дорои идоракунии эҳсосоти майда аст, ки ба шумо имкон медиҳад, ки садои эҳсосоти сухани эҷодшударо мустақилона аз шахсиятҳои овозӣ танзим кунед.

Тайёркунанда::
Resemble AI
Иҷозатнома::
MIT
Суръат:
Medium
Сифати::
забонҳо:
en
RAM- и видеоӣ:
4GB
Тасвири овоз:
& Тасвир
Нархи ҳар як 1K аломат:
4x
Нуқтаи ибтидоии нусхабардорӣ Идоракунии эҳсосот Ҳақиқати баланд Интиқоли услуб Тасвири якҷоя
Беҳтарин барои:: Тасвири овози касбӣ бо назорати эҳсосотӣ, эҷоди мундариҷа

Tortoise TTSTortoise TTS

Premium

Tortoise TTS системаи худ- регрессивии бисёр- овозии матн- ба- сухан аст, ки сифати аудиоро аз суръат боло мегузорад. Он аз сохтори DALL- E барои эҷоди сухани хеле табиӣ бо прозодияи олӣ ва монандӣ ба сухангӯ истифода мебарад. Гарчанде ки аз бисёре аз дигар алтернативаҳо сусттар аст, Tortoise баъзе аз суханҳои синтетикии воқеии дар экосистемаи кушода дастрасро истеҳсол мекунад.

Тайёркунанда::
James Betker
Иҷозатнома::
Apache 2.0
Суръат:
Slow
Сифати::
забонҳо:
en
RAM- и видеоӣ:
8GB
Тасвири овоз:
& Тасвир
Нархи ҳар як 1K аломат:
4x
Сифати баландтарин Бисёр овоз Архитектураи DALL- E Тасвири овоз Авторегресия
Беҳтарин барои:: Китобҳои аудиоӣ, мундариҷаи баландсифат, барномаҳои сифатан баланд

StyleTTS 2StyleTTS 2

Premium

StyleTTS 2 синтези TTS- и дараҷаи инсониро бо истифодаи якҷоя кардани услуби диффузия бо машқи рақобатӣ бо истифодаи моделҳои калони забонҳои сухан ба даст меорад. Он сухани табиии баландтаринро дар байни моделҳои як- сухангӯ, рақобаткунанда бо сабтҳои инсонӣ, эҷод мекунад. StyleTTS 2 услуби моделсозии асосӣ барои гирифтани тамоми диапазони тағирёбии сухани инсон истифода мебарад.

Тайёркунанда::
Columbia University
Иҷозатнома::
MIT
Суръат:
Medium
Сифати::
забонҳо:
en
RAM- и видеоӣ:
4GB
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
4x
Дараҷаи инсон Услуби диффузия Машқҳои рақобатӣ Тағйирёбии табиӣ Ҳақиқати баланд
Беҳтарин барои:: Синтезатори як овозхони сифати студия, нақлкунии касбӣ

OpenVoiceOpenVoice

Premium

OpenVoice аз тарафи MyShell. ai имкон медиҳад, ки овози фаврӣ бо назорати гранулӣ дар бораи услуби овоз, эҳсосот, акцент, ритми, таваққуфҳо ва интонатсия. Он метавонад овозро аз як клипҳои аудиоии кӯтоҳ клон кунад ва суханро дар бисёр забонҳо бо нигоҳ доштани шахсияти сухангӯ эҷод кунад. OpenVoice ҳамчунин ҳамчун конвертери овоз кор мекунад, ки ба табдилдиҳии овоз дар вақти воқеӣ имкон медиҳад.

Тайёркунанда::
MyShell.ai / MIT
Иҷозатнома::
MIT
Суръат:
Medium
Сифати::
забонҳо:
en, zh, ja, ko, fr, de, es, it
RAM- и видеоӣ:
4GB
Тасвири овоз:
& Тасвир
Нархи ҳар як 1K аломат:
4x
Тасвири фаврӣ Тағйири овоз Идоракунии эҳсосот Идоракунии Акцент Бисёрзабони
Беҳтарин барои:: Тасвири овоз бо тарзи идоракунии ғафсии ғафс, табдилдиҳии овоз

Qwen3 TTSQwen3 TTS

Standard

Qwen3- TTS - ин 1. 7 миллиард параметри матн- ба- гуфтор модел аз дастаи Qwen- и Alibaba мебошад. Он се ҳолати пуштибонӣ мекунад: овозҳои пешфарз бо назорати эҳсосот (9 баландгӯяк), дубора сохтани овоз аз танҳо 3 сонияҳои аудио, ва ҳолати тарроҳии овози беназир, ки шумо овози хоҳишшударо дар забони табиӣ тавсиф мекунед. Он 10 забони бо ифодаи баланд ва прозоди табииро дар бар мегирад.

Тайёркунанда::
Alibaba (Qwen)
Иҷозатнома::
Apache 2.0
Суръат:
Medium
Сифати::
забонҳо:
en, zh, ja, ko, de, fr, ru, pt, es, it
RAM- и видеоӣ:
7GB
Тасвири овоз:
& Тасвир
Нархи ҳар як 1K аломат:
2x
Тасвири овоз 9 овози пешфарз Дизайни овоз аз матн Идоракунии эҳсосот Забонҳо
Беҳтарин барои:: Мӯҳтавои бисёрзабони бо клонкунии овоз ё тарҳбандии овози оддӣ

Sesame CSMSesame CSM

Premium

Sesame CSM (Conversational Speech Model) - ин як модели 1 миллиард параметр мебошад, ки махсусан барои эҷоди гуфтугӯи гуфтугӯи инсонӣ тарҳрезӣ шудааст. Он намунаҳои табиии гуфтугӯи инсониро дар бар мегирад, аз ҷумла вақти гардиш, ҷавобҳои канали бозгашт, вокуниши эҳсосотӣ ва раванди гуфтугӯи инсонӣ. CSM садоеро эҷод мекунад, ки ба ҷои сухани синтетикӣ, ба монанди гуфтугӯи табиии инсонӣ садо медиҳад.

Тайёркунанда::
Sesame
Иҷозатнома::
Apache 2.0
Суръат:
Slow
Сифати::
забонҳо:
en
RAM- и видеоӣ:
8GB
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
4x
Муколама Вақти табиӣ Тағйирот Каналҳои бозгашт Параметрҳои 1B
Беҳтарин барои:: Ёрдамчиёни AI, чатботҳо, барномаҳои AI-и гуфтугӯӣ

Kitten TTSKitten TTS

Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Тайёркунанда::
KittenML
Иҷозатнома::
Apache 2.0
Суръат:
Fast
Сифати::
забонҳо:
en
RAM- и видеоӣ:
0GB
Тасвири овоз:
Нет
Нархи ҳар як 1K аломат:
Озод
CPU-only inference Under 80MB model size 8 built-in voices Speed control ONNX-based 24kHz output
Беҳтарин барои:: Fast lightweight TTS, edge deployment, low-latency applications

KokoroKokoro

Озод

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Тайёркунанда::
Hexgrad
Иҷозатнома::
Apache 2.0
Суръат:
Fast
Сифати::
забонҳо: en, ja, zh, ko, fr, de, it, pt, es, hi, ru
Беҳтарин барои:: High-quality TTS with minimal latency, streaming applications

PiperPiper

Озод

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Тайёркунанда::
Rhasspy
Иҷозатнома::
MIT
Суръат:
Fast
Сифати::
забонҳо: en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
Беҳтарин барои:: Quick previews, accessibility, and embedded applications

VITSVITS

Озод

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Тайёркунанда::
Jaehyeon Kim et al.
Иҷозатнома::
MIT
Суръат:
Fast
Сифати::
забонҳо: en, zh, ja, ko
Беҳтарин барои:: General-purpose text-to-speech with natural prosody

MeloTTSMeloTTS

Озод

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Тайёркунанда::
MyShell.ai
Иҷозатнома::
MIT
Суръат:
Fast
Сифати::
забонҳо: en, es, fr, zh, ja, ko
Беҳтарин барои:: Production applications needing fast, multilingual TTS

Kitten TTSKitten TTS

Озод

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Тайёркунанда::
KittenML
Иҷозатнома::
Apache 2.0
Суръат:
Fast
Сифати::
забонҳо: en
Беҳтарин барои:: Fast lightweight TTS, edge deployment, low-latency applications

BarkBark

& Стандартӣ

Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.

Тайёркунанда::
Suno
Иҷозатнома::
MIT
Суръат:
Slow
Сифати::
забонҳо:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Тасвири овоз:
Нет
Sound effectsLaughing/sighingMusic generation100+ speakersMultilingual
Беҳтарин барои:: Creative audio content, audiobooks with emotion, sound effects

Bark SmallBark Small

& Стандартӣ

Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.

Тайёркунанда::
Suno
Иҷозатнома::
MIT
Суръат:
Medium
Сифати::
забонҳо:
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
Тасвири овоз:
Нет
LightweightFaster than full BarkEmotional speechMultilingual
Беҳтарин барои:: Quick creative audio when full Bark is too slow

CosyVoice 2CosyVoice 2

& Стандартӣ

CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.

Тайёркунанда::
Alibaba (Tongyi Lab)
Иҷозатнома::
Apache 2.0
Суръат:
Medium
Сифати::
забонҳо:
en, zh, ja, ko, fr, de, it, es
Тасвири овоз:
& Тасвир
StreamingZero-shot cloningCross-lingualEmotion controlHuman-parity
Беҳтарин барои:: Real-time applications, streaming TTS, voice assistants

Dia TTSDia TTS

& Стандартӣ

Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.

Тайёркунанда::
Nari Labs
Иҷозатнома::
Apache 2.0
Суръат:
Medium
Сифати::
забонҳо:
en
Тасвири овоз:
Нет
Multi-speakerDialog generationNatural turn-takingEmotional expression1.6B parameters
Беҳтарин барои:: Podcasts, audiobook dialogues, conversational content

Parler TTSParler TTS

& Стандартӣ

Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.

Тайёркунанда::
Hugging Face
Иҷозатнома::
Apache 2.0
Суръат:
Medium
Сифати::
забонҳо:
en
Тасвири овоз:
Нет
Voice descriptionNatural language controlFlexible voice creationNo preset voices needed
Беҳтарин барои:: Creative applications where you need custom voice characteristics

GLM-TTSGLM-TTS

& Стандартӣ

GLM-TTS by Zhipu AI is a text-to-speech system built on the Llama architecture with flow matching. It achieves the lowest character error rate among open-source TTS models, meaning it produces the most accurate pronunciation. GLM-TTS supports English and Chinese with voice cloning from 3-10 second audio samples.

Тайёркунанда::
Zhipu AI
Иҷозатнома::
GLM-4 License
Суръат:
Medium
Сифати::
забонҳо:
en, zh
Тасвири овоз:
& Тасвир
Lowest error rateVoice cloningFlow matchingNatural prosody
Беҳтарин барои:: Applications requiring maximum pronunciation accuracy

IndexTTS-2IndexTTS-2

& Стандартӣ

IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.

Тайёркунанда::
Index Team
Иҷозатнома::
Bilibili Model License
Суръат:
Medium
Сифати::
забонҳо:
en, zh
Тасвири овоз:
& Тасвир
Emotion controlZero-shotEmotion vectorsExpressive speechFine-grained control
Беҳтарин барои:: Emotionally expressive content, audiobooks, virtual assistants

Spark TTSSpark TTS

& Стандартӣ

Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.

Тайёркунанда::
SparkAudio
Иҷозатнома::
CC BY-NC-SA 4.0
Суръат:
Medium
Сифати::
забонҳо:
en, zh
Тасвири овоз:
& Тасвир
Voice cloningEmotion controlStyle controlPrompt-based5-second cloning
Беҳтарин барои:: Content creation with cloned voices and emotional control

GPT-SoVITSGPT-SoVITS

& Стандартӣ

GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.

Тайёркунанда::
RVC-Boss
Иҷозатнома::
MIT
Суръат:
Slow
Сифати::
забонҳо:
en, zh, ja, ko
Тасвири овоз:
& Тасвир
5-second cloningSinging voiceFew-shot learningHigh fidelityCross-lingual
Беҳтарин барои:: Voice cloning, singing synthesis, content creator voice replication

OrpheusOrpheus

& Стандартӣ

Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.

Тайёркунанда::
Canopy Labs
Иҷозатнома::
Llama 3.2 Community
Суръат:
Medium
Сифати::
забонҳо:
en
Тасвири овоз:
Нет
Human-level emotion100K hours trainingNatural emphasisExpressive speech
Беҳтарин барои:: High-quality emotional speech, audiobooks, voice acting

Qwen3 TTSQwen3 TTS

& Стандартӣ

Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.

Тайёркунанда::
Alibaba (Qwen)
Иҷозатнома::
Apache 2.0
Суръат:
Medium
Сифати::
забонҳо:
en, zh, ja, ko, de, fr, ru, pt, es, it
Тасвири овоз:
& Тасвир
Voice cloning9 preset voicesVoice design from textEmotion control10 languages
Беҳтарин барои:: Multilingual content with voice cloning or custom voice design

ChatterboxChatterbox

Премиум

Chatterbox by Resemble AI is a cutting-edge zero-shot voice cloning model. It can replicate any voice from a single audio sample with remarkable accuracy, capturing not just the timbre but also the speaking style and emotional nuances. Chatterbox also features fine-grained emotion control, allowing you to adjust the emotional tone of the generated speech independently from the voice identity.

Тайёркунанда::
Resemble AI
Иҷозатнома::
MIT
Суръат:
Medium
Сифати::
забонҳо:
en
Тасвири овоз:
& Тасвир
RAM- и видеоӣ:
4GB
Нархи ҳар як 1K аломат:
4x
Zero-shot cloningEmotion controlHigh fidelityStyle transferSingle sample cloning
Беҳтарин барои:: Professional voice cloning with emotional control, content creation

Tortoise TTSTortoise TTS

Премиум

Tortoise TTS is an autoregressive multi-voice text-to-speech system that prioritizes audio quality over speed. It uses DALL-E-inspired architecture to generate highly natural speech with excellent prosody and speaker similarity. While slower than many alternatives, Tortoise produces some of the most realistic synthetic speech available in the open-source ecosystem.

Тайёркунанда::
James Betker
Иҷозатнома::
Apache 2.0
Суръат:
Slow
Сифати::
забонҳо:
en
Тасвири овоз:
& Тасвир
RAM- и видеоӣ:
8GB
Нархи ҳар як 1K аломат:
4x
Highest qualityMulti-voiceDALL-E architectureVoice cloningAutoregressive
Беҳтарин барои:: Audiobooks, premium content, quality-first applications

StyleTTS 2StyleTTS 2

Премиум

StyleTTS 2 achieves human-level TTS synthesis by combining style diffusion with adversarial training using large speech language models. It generates the most natural sounding speech among single-speaker models, rivaling human recordings. StyleTTS 2 uses diffusion-based style modeling to capture the full range of human speech variation.

Тайёркунанда::
Columbia University
Иҷозатнома::
MIT
Суръат:
Medium
Сифати::
забонҳо:
en
Тасвири овоз:
Нет
RAM- и видеоӣ:
4GB
Нархи ҳар як 1K аломат:
4x
Human-levelStyle diffusionAdversarial trainingNatural variationHigh fidelity
Беҳтарин барои:: Studio-quality single-speaker synthesis, professional narration

OpenVoiceOpenVoice

Премиум

OpenVoice by MyShell.ai enables instant voice cloning with granular control over voice style, emotion, accent, rhythm, pauses, and intonation. It can clone a voice from a short audio clip and generate speech in multiple languages while maintaining the speaker identity. OpenVoice also functions as a voice converter, allowing real-time voice transformation.

Тайёркунанда::
MyShell.ai / MIT
Иҷозатнома::
MIT
Суръат:
Medium
Сифати::
забонҳо:
en, zh, ja, ko, fr, de, es, it
Тасвири овоз:
& Тасвир
RAM- и видеоӣ:
4GB
Нархи ҳар як 1K аломат:
4x
Instant cloningVoice conversionEmotion controlAccent controlMultilingual
Беҳтарин барои:: Voice cloning with fine-grained style control, voice conversion

Sesame CSMSesame CSM

Премиум

Sesame CSM (Conversational Speech Model) is a 1 billion parameter model designed specifically for generating conversational speech. It models the natural patterns of human conversation including turn-taking timing, backchannel responses, emotional reactions, and conversational flow. CSM generates audio that sounds like a natural human conversation rather than synthetic speech.

Тайёркунанда::
Sesame
Иҷозатнома::
Apache 2.0
Суръат:
Slow
Сифати::
забонҳо:
en
Тасвири овоз:
Нет
RAM- и видеоӣ:
8GB
Нархи ҳар як 1K аломат:
4x
ConversationalNatural timingTurn-takingBackchannel1B parameters
Беҳтарин барои:: AI assistants, chatbots, conversational AI applications

Ҷадвали муқоисаи намуна

Намунаҳо Тайёркунанда: & Тағйиротҳо Сифати: Суръат забонҳо Тасвири овоз RAM- и видеоӣ Иҷозатнома: кредитҳо
Kokoro Hexgrad Free Fast 11 1.5GB Apache 2.0 Озод Истифода
Piper Rhasspy Free Fast 31 0 (CPU only) MIT Озод Истифода
VITS Jaehyeon Kim et al. Free Fast 4 1GB MIT Озод Истифода
MeloTTS MyShell.ai Free Fast 6 0.5GB (GPU optional) MIT Озод Истифода
Bark Suno Standard Slow 13 5GB MIT 2 Истифода
Bark Small Suno Standard Medium 13 2GB MIT 2 Истифода
CosyVoice 2 Alibaba (Tongyi Lab) Standard Medium 8 4GB Apache 2.0 2 Истифода
Dia TTS Nari Labs Standard Medium 1 4GB Apache 2.0 2 Истифода
Parler TTS Hugging Face Standard Medium 1 4GB Apache 2.0 2 Истифода
GLM-TTS Zhipu AI Standard Medium 2 4GB GLM-4 License 2 Истифода
IndexTTS-2 Index Team Standard Medium 2 4GB Bilibili Model License 2 Истифода
Spark TTS SparkAudio Standard Medium 2 4GB CC BY-NC-SA 4.0 2 Истифода
GPT-SoVITS RVC-Boss Standard Slow 4 6GB MIT 2 Истифода
Orpheus Canopy Labs Standard Medium 1 4GB Llama 3.2 Community 2 Истифода
Chatterbox Resemble AI Premium Medium 1 4GB MIT 4 Истифода
Tortoise TTS James Betker Premium Slow 1 8GB Apache 2.0 4 Истифода
StyleTTS 2 Columbia University Premium Medium 1 4GB MIT 4 Истифода
OpenVoice MyShell.ai / MIT Premium Medium 8 4GB MIT 4 Истифода
Qwen3 TTS Alibaba (Qwen) Standard Medium 10 7GB Apache 2.0 2 Истифода
Sesame CSM Sesame Premium Slow 1 8GB Apache 2.0 4 Истифода
Kitten TTS KittenML Free Fast 1 0GB Apache 2.0 Озод Истифода

Платформаи матн ба сухани AI-и пурраи пурра

Чаро TTS.ai-ро барои Матн ба Забон интихоб кунед?

TTS.ai беҳтарин моделҳои матн- ба- сухани кушод дар ҷаҳонро дар як платформаи осон истифодашаванда ҷамъ меорад. На мисли хизматрасониҳои дорои ҳуқуқи муаллифӣ, ки шуморо дар як двигатели овозӣ маҳкам мекунанд, TTS.ai ба шумо дастрасӣ ба 20+ моделҳои аз лабораторияҳои пешбари таҳқиқотӣ, аз ҷумла Coqui, MyShell, Amphion, NVIDIA, Suno, HuggingFace, Tsinghua University ва ғайра медиҳад.

Ҳар як намунаи кушодаи сарчашма дар асоси MIT, Apache 2. 0 ё иҷозатномаҳои иҷозатдиҳандаи монанд, ки ба шумо ҳуқуқҳои тиҷоратии пурраи истифодаи садои эҷодшударо дар лоиҳаҳои худ таъмин мекунад. Новобаста аз он ки шумо ба синтези тез, сабук барои замимаҳои вақти воқеӣ ё ба сифати студия барои китобҳои аудиоӣ ва подкастҳо ниёз доред, TTS.ai моделҳои дурустро барои ҳар як ҳолат истифода мебарад.

Модельҳои ройгон, қайдоти баҳисобгирӣ лозим нест

Ба зудӣ бо се намунаи озоди TTS оғоз кунед: Piper (албатта тез, сабук), VITS (синтезатори нейронии сифати баланд) ва MeloTTS (пешбурди бисёрзабони). Бе қайд, бе корти кредитӣ, бе маҳдудият дар наслҳо. Намунаҳои озод забони англисӣ ва бисёр забонҳои дигарро бо баромади табиии садо барои бисёр барномаҳо мувофиқ дастгирӣ мекунанд.

Коркарди GPU- шитобнок

Ҳамаи моделҳои TTS дар GPU-ҳои NVIDIA-и махсус барои эҷоди зуд ва устувор кор мекунанд. Моделҳои ройгон одатан аудиоро дар муддати камтар аз 2 сония эҷод мекунанд. Моделҳои стандартӣ, ба монанди Kokoro, CosyVoice 2 ва Bark, дар муддати 3-5 сония. Моделҳои Premium бо сифати баландтарин, ба монанди Tortoise ва Chatterbox, вобаста ба дарозии матн, дар муддати 5-15 сония кор мекунанд.

30+ Забонҳо пуштибонӣ мешаванд

Сохтани сухан дар зиёда аз 30 забон, аз ҷумла англисӣ, испанӣ, франсузӣ, олмонӣ, итолиёӣ, португалӣ, хитоӣ, японӣ, корейӣ, арабӣ, ҳиндӣ, русӣ ва ғайра. Якчанд моделҳо синтези байни забонҳоро дастгирӣ мекунанд, яъне шумо метавонед суханро дар забоне, ки овози аслӣ ҳеҷ гоҳ омӯзонида нашудааст, эҷод кунед. CosyVoice 2 ва GPT- Sovits дар дуборасозии овози байни забонҳо бартарӣ доранд.

Барномасозон

TTS.ai- ро бо API- и REST- и OpenAI- и мо ба барномаҳои худ пайваст кунед. Як нуқтаи ниҳоӣ барои ҳамаи 20+ моделҳо. Python, JavaScript, cURL ва Go SDKs. Пуштибонии равон барои барномаҳои вақти воқеӣ. Коркарди баста барои эҷоди мундариҷаи калон. Webhooks барои огоҳномаҳои асинхронӣ. Дар нақшаҳои Pro ва Enterprise дастрас аст.

Саволҳои пурсидашаванда

Матн ба гуфтугӯ (TTS) технологияи AI мебошад, ки матни навишташударо ба садои табиӣ табдил медиҳад. Намунаҳои муосири нейронии TTS ба монанди Kokoro, Chatterbox ва CosyVoice 2 омӯзиши чуқурро барои истеҳсоли сухане, ки ба таври назаррас инсонӣ садо медиҳад, бо просодия, эҳсосот ва ритми табиӣ истифода мебаранд.

Ин аз эҳтиёҷоти шумо вобаста аст. Барои пешнамоишҳои тез, Piper ё MeloTTS (ройгон, тез) -ро истифода баред. Барои сифати баланд, Kokoro ё CosyVoice 2-ро (дараҷаи стандартӣ) истифода баред. Барои дубора сохтани овоз, Chatterbox ё GPT-SoVITS (пули иловагӣ) -ро истифода баред. Барои диалог/маводи подкаст, Dia TTS-ро истифода баред. Ҳар як модел дорои қувваҳои гуногун аст — барои ёфтани беҳтарин мувофиқат озмоиш кунед.

Бале! TTS.ai матни озодро ба гуфтугӯи Kokoro, Piper, VITS ва MeloTTS пешниҳод мекунад. Ҳисоби корбарӣ барои то 500 аломат ва 3 генерация дар як соат лозим нест. Барои гирифтани 15 кредит ва дастрасӣ ба ҳамаи моделҳо барои ҳисоби корбарӣ сабти ном кунед.

Модели TTS-и мо 30+ забонро дастгирӣ мекунад, аз ҷумла англисӣ, испанӣ, фаронсавӣ, олмонӣ, итолиёӣ, португалӣ, хитоӣ, японӣ, корейӣ, арабӣ, русӣ, ҳиндӣ ва бисёр забонҳои дигар. Дастрасии забонҳо аз рӯи модел фарқ мекунад.

Бале, садои бо воситаи TTS.ai эҷодшуда метавонад барои мақсадҳои тиҷоратӣ истифода шавад. Ҳамаи моделҳои мо иҷозатномаҳои манбаи кушод (MIT, Apache 2.0)-ро истифода мебаранд. Барои шартҳои мушаххас иҷозатномаҳои моделҳои инфиродиро тафтиш кунед. Мо тавсия медиҳем, ки иҷозатномаи моделҳои махсусро, ки шумо барои лоиҳаи худ истифода мебаред, тафтиш кунед.

TTS.ai форматҳои MP3, WAV, OGG ва FLAC- ро дастгирӣ мекунад. MP3 формати пешфарз барои бозикунии веб мебошад. WAV барои коркарди аудиои иловагӣ тавсия карда мешавад. Шумо метавонед байни форматҳо бо истифодаи асбоби Мубодилакунандаи аудиоӣ табдил диҳед.

Тасвири овози барои эҷоди овози муайян аз намунаи аудиоии кӯтоҳ (одатан 5-30 сония) истифода мебарад. Сабти равшани овози ҳадафро бор кунед ва моделҳои монанди Chatterbox, GPT-SoVITS ё OpenVoice сухани нав дар ин овозро эҷод мекунанд. Сифати овоз бо тозагӣ ва дарозии истинод беҳтар мешавад.

Истифодабарандагони ройгон метавонанд то 500 аломатро дар як дархост эҷод кунанд. Истифодабарандагони сабти номшуда то 5000 аломатро дар як дархост мегиранд. Барои матнҳои дарозтар, садо дар қисмҳо эҷод карда мешавад ва ба таври худкор ба ҳам пайваст карда мешавад. Истифодабарандагони API метавонанд то 10000 аломатро дар як дархост коркард кунанд.

Пуштибонии SSML (Speech Synthesis Markup Language) вобаста ба модел фарқ мекунад. Piper ва баъзе дигар моделҳо барои таъхирҳо, таъкид ва идоракунии талаффуз теги SSML- ро пуштибонӣ мекунанд. Барои моделҳои бе пуштибонии SSML- и аслӣ, шумо метавонед аломатҳои хат ва хатҳои хатро барои таъсир ба прозодия истифода баред.

Бале, бисёри моделҳо танзими суръати аз 0. 5x то 2. 0x- ро дастгирӣ мекунанд. Баъзе моделҳо, ба монанди Bark ва Parler, инчунин танзими баландӣ ва услубро дастгирӣ мекунанд. Шумо метавонед параметрҳои суръати панели танзимоти пешрафтаро ё параметри суръати API- ро танзим кунед.

Да, обработка пакетов доступна через наш API. Вы можете отправить несколько текстовых сегментов в одном API- вызове или скрипте, и каждый из них будет обработан и возвращен как отдельный аудиофайл. Это идеально для глав аудиокниг, модулей электронного обучения или диалоговых скриптов игр.

Калиди API-ро аз панели ҳисоби худ эҷод кунед, сипас дархостҳои POST-ро ба нуқтаи охирини REST API-и мо бо матн, намуна ва параметрҳои овозии худ фиристед. Мо мисолҳои кодро дар Python, JavaScript ва cURL пешниҳод мекунем. API бо OpenAI мувофиқ аст, бинобар ин ҳамгироиҳои мавҷуда бо тағйироти минималӣ кор мекунанд.
5.0/5 (2)

Чӣ чизро метавонем беҳтар кунем? Бозгашти шумо ба мо дар ислоҳи мушкилиҳо кӯмак мекунад.

Оғози табдилдиҳии матн ба сухан

Ба ҳазорон эҷодкорон бо истифода аз TTS.ai пайваст шавед. 15000 аломати ройгонро бо ҳисоби нав гиред. Намунаҳои ройгон бе қайд дастрасанд.