Свабодны AI Пераклад тэксту на мовуName

27+ мадэлі з адкрытым зыходным кодам, 219+ галасы, 33+ Мовы. Не патрэбны рахунак.

10K+
стваральнікі
40K+
генерацый
27+
Мадэлі AI
219+
галасы
0/500 сімвалы · Sign up for 5,000 per generation → Свабодны
Love TTS.ai? Tell your friends!

Усё, што вам трэба для штучнага голасу

Больш за 30 інструментаў, якія працуюць на мадэлях штучнага інтэлекту з адкрытым зыходным кодам

27+ Мадэлі галасоў AIName

Самая поўная калекцыя мадэляў TTS з адкрытым зыходным кодам на адной платформе

KokoroKokoro Вольна

Kokoro - гэта 82- мільённая мадэль пераўтварэння тэксту ў мову, якая пераўзыходзіць свае магчымасці. Нягледзячы на невялікі памер, яна дазваляе атрымліваць натуральную і выразную мову. Kokoro падтрымлівае некалькі моў, у тым ліку англійскую, японскую, кітайскую і карэйскую, з рознымі выразнымі голасамі. Яна працуе неверагодна хутка - генеруе гук амаль у 100 разоў хутчэй, чым у рэальным часе на GPU.

Лепшы для: Высокаякасны TTS з мінімальнай задержкай, стрымінгавыя праграмы

Спроба бясплатна

PiperPiper Вольна

Piper - гэта лёгкі рухавік пераўтварэння тэксту ў мову, распрацаваны Rhasspy, які выкарыстоўвае архітэктуры VITS і larynx. Ён працуе цалкам на працэсары, што робіць яго ідэальным для перыферычных прылад, хатняй аўтаматызацыі і прыкладанняў, якія патрабуюць аўтаномнага пераўтварэння тэксту ў мову. З больш чым 100 галасамі на больш чым 30 мовах, Piper дае натуральна гучную мову з хуткасцю рэальнага часу нават на Raspberry Pi 4.

Лепшы для: Хуткі прагляд, даступнасьць і ўбудаваныя праграмы

Спроба бясплатна

VITSVITS Вольна

VITS (Variation Inference with adversarial learning for end- to- end Text- to- Speech) - гэта паралельны метад перакладу тэксту на мову, які генеруе больш натуральны гук, чым цяперашнія двухступеністыя мадэлі. Ён выкарыстоўвае варыяцыйную інферэнцыю, падмацаваную нармалізуючымі патокамі і канкурэнтным працэсам навучання, што дазваляе дасягнуць значнага паляпшэння натуральнасці.

Лепшы для: Агульная функцыя пераўтварэньня тэксту ў мову з натуральнай празодыяй

Спроба бясплатна

MeloTTSMeloTTS Вольна

MeloTTS ад MyShell. ai - гэта шматмоўная бібліятэка TTS, якая падтрымлівае англійскую (амерыканскую, брытанскую, індыйскую, аўстралійскую), іспанскую, французскую, кітайскую, японскую і карэйскую мовы. Яна вельмі хуткая, апрацоўвае тэкст амаль у рэальным часе толькі на працэсары. MeloTTS распрацавана для выкарыстання ў прамысловасці і падтрымлівае як працэсар, так і графічны працэсар.

Лепшы для: Праектныя праграмы, якія патрабуюць хуткага, шматмоўнага TTS

Спроба бясплатна

OuteTTSOuteTTS Вольна

OuteTTS пашырае магчымасці тэкставага перакладу на мову, захоўваючы арыгінальную архітэктуру. Ён падтрымлівае некалькі backends, уключаючы llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, і нават выснова браўзэра праз Transformers.js. Уключае ў сябе клонаваньне голасу праз профілі гукарэжысэра, запісаныя ў JSON.

Лепшы для: Разьмяшчаньне Edge, TTS на аснове браўзэра, нізкарэсурсныя асяроддзі

Спроба бясплатна

Pocket TTSPocket TTS Вольна

Pocket TTS ад Kyutai (творцы Moshi) - гэта кампактная мадэль пераўтварэння тэксту ў мову з 100М параметраў, якая пераўзыходзіць сябе па магутнасці. Яна працуе эфектыўна на працэсары, падтрымлівае кланаваньне голасу з аднаго аўдыёсэмплю і выпрацоўвае натуральна гучаючую мову. Маленькі памер мадэлі робіць яе ідэальнай для разьмяшчэньня на краі і ў асяроддзях з нізкімі рэсурсамі.

Лепшы для: Легкае разьмяшчэньне, асяроддзе толькі з CPU, хуткае клянаваньне голасу

Спроба бясплатна

Kitten TTSKitten TTS Вольна

Kitten TTS ад KittenML - гэта вельмі лёгкая мадэль пераўтварэння тэксту ў мову, пабудаваная на ONNX. З варыянтамі ад 15М да 80М параметраў (25- 80 МБ на дыску), яна забяспечвае высокакваліфікаваны сінтэз голасу на ЦПУ без патрэбы ў ГП. Ёсць 8 убудаваных голасаў, рэгулюемая хуткасць гаворкі і ўбудаваная папярэдняя апрацоўка тэксту для лікаў, валют і адзінак. Ідэальна падыходзіць для разгортвання на перыферыі і праграм з нізкімі затрымакамі.

Лепшы для: Хуткі, лёгкі TTS, эфектыўныя праграмы з нізкімі затрымакамі

Спроба бясплатна

BarkBark Стандартны

Праграмнае забеспячэнне для пераўтварэння тэксту ў аўдыё, якое генеруе рэалістычную мову, музыку і гукавыя эфекты.

Распрацоўшчык: Suno · Ліцэнзія: MIT

Паспрабуйце

Bark SmallBark Small Стандартны

Гэтая версія была больш хуткай і мела больш магутны працэсар і памяць.

Распрацоўшчык: Suno · Ліцэнзія: MIT

Паспрабуйце

CosyVoice 2CosyVoice 2 Стандартны

Нацыянальны гімн Рэспублікі Беларусь — гімн Рэспублікі Беларусь і дзяржаўны гімн Рэспублікі Беларусь.

Распрацоўшчык: Alibaba (Tongyi Lab) · Ліцэнзія: Apache 2.0

Паспрабуйце

Dia TTSDia TTS Стандартны

Інфармацыйна-камунікацыйныя тэхналогіі (ІКТ) — комплекс тэхналогій, якія дазваляюць арганізаваць камунікацыю паміж людзьмі.

Распрацоўшчык: Nari Labs · Ліцэнзія: Apache 2.0

Паспрабуйце

Parler TTSParler TTS Стандартны

Апішыце патрэбны вам голас на натуральнай мове, і Parler створыць адпаведны голас.

Распрацоўшчык: Hugging Face · Ліцэнзія: Apache 2.0

Паспрабуйце

GLM-TTSGLM-TTS Стандартны

З'яўляецца адным з найбуйнейшых у свеце вытворцаў аўтамабіляў з адкрытым зыходным кодам.

Распрацоўшчык: Zhipu AI · Ліцэнзія: GLM-4 License

Паспрабуйце

IndexTTS-2IndexTTS-2 Стандартны

Сістэма лічбавага тэлебачання мае высокую эфектыўнасць і высокую дакладнасць.

Распрацоўшчык: Index Team · Ліцэнзія: Bilibili Model License

Паспрабуйце

Spark TTSSpark TTS Стандартны

Гісторыя тэорыі лічбаў і матэматыкі ў кантэксце лічбавых тэхналогій.

Распрацоўшчык: SparkAudio · Ліцэнзія: CC BY-NC-SA 4.0

Паспрабуйце

GPT-SoVITSGPT-SoVITS Стандартны

Усяго было выпушчана каля 5000 экзэмпляраў кнігі, што складае каля 50 % усяго накладу часопіса.

Распрацоўшчык: RVC-Boss · Ліцэнзія: MIT

Паспрабуйце

OrpheusOrpheus Стандартны

У 100-гадовым юбілеі гімназіі было выдадзена 100-тысячнае выданне кнігі.

Распрацоўшчык: Canopy Labs · Ліцэнзія: Llama 3.2 Community

Паспрабуйце

Qwen3 TTSQwen3 TTS Стандартны

Мультымоўны TTS Alibaba з клонаваннем голасу, прадвызначанымі голасамі і дызайнам голасу з тэксту.

Распрацоўшчык: Alibaba (Qwen) · Ліцэнзія: Apache 2.0

Паспрабуйце

Chatterbox TurboChatterbox Turbo Стандартны

У 2000-я гг. з'явіліся новыя тэхналогіі, якія дазваляюць вырабляць 2D-мадэлі, 3D-мадэлі і г.д.

Распрацоўшчык: Resemble AI · Ліцэнзія: MIT

Паспрабуйце

VoxCPMVoxCPM Стандартны

44,1 % насельніцтва займаюцца сельскай гаспадаркай, у тым ліку 41,1 % — жывёлагадоўляй.

Распрацоўшчык: OpenBMB · Ліцэнзія: Apache 2.0

Паспрабуйце

VibeVoiceVibeVoice Стандартны

Мадэлі Microsoft для доўгатэрміновага кантэнту, такіх як подкасты і аўдыёкнігі.

Распрацоўшчык: Microsoft · Ліцэнзія: MIT

Паспрабуйце

CosyVoice3CosyVoice3 Стандартны

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Распрацоўшчык: Alibaba (FunAudioLLM) · Ліцэнзія: Apache 2.0

Паспрабуйце

ChatterboxChatterbox Выдатна

Сістэма лічбавага тэлевізійнага вяшчання ўключае ў сябе лічбавае тэлебачанне і лічбавую радыёвяшчанне.

Якасць:

Паспрабуйце

Tortoise TTSTortoise TTS Выдатна

Большасць тэкстаў напісана ў стылі класіцызму з элементамі рэнесансу.

Якасць:

Паспрабуйце

StyleTTS 2StyleTTS 2 Выдатна

Працаваў у галіне тэарэтычнай геаграфіі і геаграфічнай геаграфіі.

Якасць:

Паспрабуйце

OpenVoiceOpenVoice Выдатна

Неадкладнае кланаванне голасу з дэталёвым кантролем над стылем, эмоцыямі і акцэнтам.

Якасць:

Паспрабуйце

Sesame CSMSesame CSM Выдатна

Нацыянальная мова — мова, на якой гавораць насельніцтва краіны і яе нацыянальныя меншасці.

Якасць:

Паспрабуйце

CosyVoice 2CosyVoice 2

Нацыянальны гімн Рэспублікі Беларусь — гімн Рэспублікі Беларусь і дзяржаўны гімн Рэспублікі Беларусь.

Мовы: en, zh, ja, ko, fr, de, it, es

Клонаваць голас

GLM-TTSGLM-TTS

З'яўляецца адным з найбуйнейшых у свеце вытворцаў аўтамабіляў з адкрытым зыходным кодам.

Мовы: en, zh

Клонаваць голас

IndexTTS-2IndexTTS-2

Сістэма лічбавага тэлебачання мае высокую эфектыўнасць і высокую дакладнасць.

Мовы: en, zh

Клонаваць голас

Spark TTSSpark TTS

Гісторыя тэорыі лічбаў і матэматыкі ў кантэксце лічбавых тэхналогій.

Мовы: en, zh

Клонаваць голас

GPT-SoVITSGPT-SoVITS

Усяго было выпушчана каля 5000 экзэмпляраў кнігі, што складае каля 50 % усяго накладу часопіса.

Мовы: en, zh, ja, ko

Клонаваць голас

ChatterboxChatterbox

Сістэма лічбавага тэлевізійнага вяшчання ўключае ў сябе лічбавае тэлебачанне і лічбавую радыёвяшчанне.

Мовы: en

Клонаваць голас

Tortoise TTSTortoise TTS

Большасць тэкстаў напісана ў стылі класіцызму з элементамі рэнесансу.

Мовы: en

Клонаваць голас

OpenVoiceOpenVoice

Неадкладнае кланаванне голасу з дэталёвым кантролем над стылем, эмоцыямі і акцэнтам.

Мовы: en, zh, ja, ko, fr, de, es, it

Клонаваць голас

Qwen3 TTSQwen3 TTS

Мультымоўны TTS Alibaba з клонаваннем голасу, прадвызначанымі голасамі і дызайнам голасу з тэксту.

Мовы: en, zh, ja, ko, de, fr, ru, pt, es, it

Клонаваць голас

Chatterbox TurboChatterbox Turbo

У 2000-я гг. з'явіліся новыя тэхналогіі, якія дазваляюць вырабляць 2D-мадэлі, 3D-мадэлі і г.д.

Мовы: en

Клонаваць голас

VoxCPMVoxCPM

44,1 % насельніцтва займаюцца сельскай гаспадаркай, у тым ліку 41,1 % — жывёлагадоўляй.

Мовы: en, zh

Клонаваць голас

OuteTTSOuteTTS

LLM-заснаваны TTS, які працуе на CPU, GPU, або браўзэры праз llama.cpp і Transformers.js.

Мовы: en

Клонаваць голас

Pocket TTSPocket TTS

У 100-м годзе да н.э. быў заснаваны горад Кіпр, які стаў цэнтрам адной з гістарычных правінцый.

Мовы: en, fr

Клонаваць голас

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Мовы: en, zh, ja, ko, de, es, fr, it, ru

Клонаваць голас

API для распрацоўшчыкаў

OpenAI-сумяшчальны REST API. Адзін канец, 22+ мадэлі. Падтрымка стрымінгу для прыкладанняў рэальнага часу.

  • Фармат, сумяшчальны з OpenAI
  • Трансляцыя TTS для праграмаў рэальнага часу
  • Пакетная апрацоўка вялікіх заданняў
  • Абвяшчэнні Webhook
Прагляд дакументацыі API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Простая, празрыстая цана

Пачынайце бясплатна. Змяняйце памер па меры росту.

Свабодны

$0

Крэдыты

  • Kokoro, Piper, VITS, MeloTTS
  • Абмежаванне на 500 знакаў
  • 3 гадзіны (без рахунку)
Падпісацца бясплатна

Старт

$9/месяц( аў)

500 кредитов/ месяц

  • Усе 22+ мадэлі
  • 100, 000 знакаў на пакаленне
  • Клонаванне голасу
Пачаць
Самыя папулярныя

Прафесійны

$29/месяц( аў)

2, 000 крэдыт/ месяц

  • Усё ў запуску
  • Даступ да API
  • Прыярытэтная апрацоўка
Атрымаць Pro

Бізнес

$99/месяц( аў)

10, 000 крэдыт/ месяц

  • Усё ў Pro
  • Масавае API
  • Чарга прыярытэтаў
Атрымаць бізнес

Прагляд усіх планаў, уключаючы крэдытныя пакеты →

Частыя пытанні

TTS.ai - гэта самая поўная галасавая платформа штучнага інтэлекту, якая прапануе больш за 22 мадэляў пераўтварэння тэксту ў мову, кланаваньне голасу, пераўтварэньне тэксту ў мову і аўдыёінструмэнты. Усе мадэлі маюць адкрыты зыходны код і не залежаць ад вытворцы.

Так! TTS.ai прапануе бясплатны пераклад тэксту ў мову з мадэлямі Kokoro, Piper, VITS і MeloTTS. Не патрабуецца рахунак. Зарэгіструйцеся, каб атрымаць 15 000 бясплатных сімвалаў і доступ да ўсіх мадэляў. Плацежныя планы пачынаюцца ад $9/месяц.

Для хуткасці, выкарыстоўвайце Kokoro або Piper. Для якасці, паспрабуйце CosyVoice 2 або StyleTTS 2. Для клонавання голасу, выкарыстоўвайце Chatterbox або GPT- SoVITS. Для дыялогу, выкарыстоўвайце Dia TTS. Паспрабуйце некалькі мадэляў для аднаго і таго ж тэксту, каб параўнаць.

Так. OpenAI-сумяшчальны REST API для TTS, STT, клонавання голасу і аўдыё інструментаў. Даступны на Pro ($29/месяц) і Enterprise ($99/месяц) планах. Праглядзець дакументацыю на tts.ai/api/.

Якасць голасу адрозніваецца ў залежнасці ад мадэлі. Прафесійныя мадэлі, такія як CosyVoice 2, StyleTTS 2 і Chatterbox, выпрацоўваюць голас, які нагадвае голас чалавека з натуральнай інтанацыяй і эмоцыямі. Бясплатныя мадэлі, такія як Kokoro, забяспечваюць выдатную якасць для большасці выпадкаў выкарыстання.

TTS.ai падтрымлівае больш за 30 моў у сваёй бібліятэцы мадэляў. Англійская мае найбольш шырокую падтрымку мадэляў, але такія мадэлі, як CosyVoice 2, падтрымліваюць кітайскую, японскую і карэйскую; GPT-SoVITS падтрымлівае кітайскую, японскую, карэйскую і англійскую; і MeloTTS падтрымлівае англійскую, іспанскую, французскую, кітайскую, японскую і карэйскую.

Так. Уся апрацоўка адбываецца на нашых выдзеленых серверах GPU. Мы не захоўваем ваш тэкставы ўвод або створаны гук пасля дастаўкі. Загружаныя прыклады голасу для клонавання выкарыстоўваюцца толькі для бягучай сесіі і не захоўваюцца. Мы ніколі не падзяляем вашыя дадзеныя з трэцімі асобамі і не выкарыстоўваем іх для трэніроўкі мадэляў.

Так. Усё аўдыё, створанае на TTS.ai, можа быць выкарыстана ў камерцыйных мэтах, у тым ліку для відэа YouTube, падкастаў, аўдыёкніг, праграм, рэкламы і прадуктаў. Нашы мадэлі маюць адкрыты зыходны код з дазволенымі ліцэнзіямі (MIT, Apache 2.0). Не патрабуецца аплаціць аўтарскія правы.

Па змаўчанні TTS.ai генеруе аўдыё ў фармаце WAV для максімальнай якасці. Вы можаце пераўтварыць яго ў MP3, FLAC, OGG або M4A з дапамогай нашага бясплатнага інструмента для пераўтварэння аўдыё. API падтрымлівае вызначэнне вашага выхаднога фармату прама ў запыце.

Загрузіце кароткі аўдыёзапіс (не больш за 5 секунд) галасу, які вы хочаце клануць, а затым увядзіце любы тэкст, каб стварыць размову ў гэтым голасе. Такія мадэлі, як Chatterbox, GPT- SoVITS і CosyVoice 2 падтрымліваюць кланаваньне голасу. Клонаваны голас захоплівае тон, акцэнт і стыль гаворкі.

Бясплатныя мадэлі (Kokoro, Piper, VITS, MeloTTS) не патрабуюць уліковага запісу і каштуюць нуля крэдытных пунктаў. Стандартныя мадэлі (2 крэдытных пункта / 1К знакаў) уключаюць Bark, CosyVoice 2, F5-TTS і Dia. Прэміум-мадэлі (4 крэдытных пункта / 1К знакаў) уключаюць OpenVoice, Chatterbox, StyleTTS 2 і Tortoise. Плацежныя мадэлі звычайна прапануюць больш якасныя, больш галасоў і дадатковыя магчымасці, такія як клонаванне голасу.

Так. API падтрымлівае пакетную апрацоўку для пераўтварэння вялікіх аб'ёмаў тэксту ў мову. Адпраўляйце некалькі запытаў і атрымлівайце вынікі асінхронна, выкарыстоўваючы UUID заданняў. Планы для прадпрыемстваў ($99/месяц) уключаюць прыярытэтны доступ да чаргі для хутчэйшай пакетнай апрацоўкі. Ідэальна падыходзіць для вытворчасці аўдыякніг, зместу курсаў і буйных праектаў дыялогу.
4.1/5 (28)

Што мы можам палепшыць? Ваша ацэнка дапаможа нам выправіць праблемы.

Пачаць карыстацца AI Voice сёньня

Далучайцеся да стваральнікаў, распрацоўшчыкаў і кампаній, якія карыстаюцца TTS.ai