Free AI Teksti në Fjalë

33+ modele me burim të hapur, 273+ Zërat, 33+ Nuk kërkohet llogari.

17K+
krijues
70K+
gjenerata
33+
Modelet e AI
273+
zëra
0/500 gërma · Shko për 5,000 për brez. → I lirë
Të pëlqen TTS.ai?

Gjithçka që ju duhet për AI të zërit

Më shumë se 30 instrumentë të mbështetur nga modele të inteligjencës artificiale me burim të hapur

33+ Modelet e zërit AI

Koleksioni më i plotë i modeleve të TTS me burim të hapur në një platformë

KokoroKokoro I lirë

Kokoro është një model tekst-në-folje me 82 milion parametra që punon shumë më mirë se klasa e tij e peshes. Pavarësisht nga madhësia e vogël, prodhon një folje të jashtëzakonshme natyrale dhe shprehëse. Kokoro suporton gjuhë të shumta duke përfshirë anglishten, japonishten, kinezishten dhe koreanishten me një varietet zërash shprehës. Ekzekutohet jashtëzakonisht shpejt — duke gjeneruar tinguj pothuajse 100 herë më shpejt se në kohë reale në një GPU.

Më i miri për: TTS me cilësi të lartë me kohëzgjatje minimale, aplikime streaming

Provoje pa pagesë

PiperPiper I lirë

Piper është një motor i lehtë tekst-në-folje i zhvilluar nga Rhasspy që përdor arkitekturat VITS dhe larynx. Ekzekutohet krejtësisht në CPU, duke e bërë atë ideal për pajisjet e periferisë, automatikën shtëpiake dhe aplikacionet që kërkojnë TTS jashtë linje. Me mbi 100 zëra në më shumë se 30 gjuhë, Piper jep një zë natyror në shpejtësi të kohës reale edhe në një Raspberry Pi 4.

Më i miri për: Pamje të shpejta, açesibilitet dhe aplikativë të ndërlidhur

Provoje pa pagesë

VITSVITS I lirë

VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) është një metodë paralele TTS që gjeneron tinguj më natyrorë se sa modelet aktuale me dy faza. Ajo adopton variacionin e inferimit të rritur me rrjedhat normalizuese dhe një proces trainimi kundërshtar, duke arritur një përmirësim të ndjeshëm në natyrshmëri.

Më i miri për: Tekst-në-Fjalë me qëllim të përgjithshëm me prozodi natyrore

Provoje pa pagesë

MeloTTSMeloTTS I lirë

MeloTTS nga MyShell.ai është një bibliotekë shumëgjuhëshe TTS që suporton anglishten (amerikane, britanike, indiane, australiane), spanjishten, frëngjishten, kineze, japoneze dhe koreane. Është shumë e shpejtë, duke përpunuar tekstin me shpejtësi pothuajse në kohë reale vetëm në CPU. MeloTTS është projektuar për përdorim në prodhim dhe suporton si CPU ashtu edhe GPU.

Më i miri për: Aplikacionet e prodhimit kanë nevojë për TTS të shpejtë dhe shumëgjuhësh

Provoje pa pagesë

Kani TTS 2Kani TTS 2 I lirë

Kani-TTS-2 nga NineNineSix është një model ultra i lehtë me parametra 400M i ndërtuar mbi një LFM2 të Liquid AI me NVIDIA NanoCodec. Ekzekutohet në vetëm 3GB VRAM dhe prodhon ~10 sekonda të foljes në ~2 sekonda në një A100 (RTF 0.2). Versioni aktual publik dërgon një `kani-tts-2-en` vetëm në anglisht dhe nuk ekspozon kapin e ndërtimit të folësit të nevojshëm për klonimin e zërit — përdor Chatterbox / IndexTTS2 / F5-TTS për klonim, ose Kokoro / MeloTTS për jo-anglisht.

Më i miri për: Gjenerati i shpejtë i gjuhës angleze në hardware me VRAM të ulët, parashikime të shpejta

Provoje pa pagesë

OuteTTSOuteTTS I lirë

OuteTTS zgjeron modelet e mëdha të gjuhës me aftësitë e tekstit në fjalë duke ruajtur arkitekturën origjinale. Ajo suporton backends të shumta duke përfshirë llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, dhe madje edhe inferimet e shfletuesit nëpërmjet Transformers.js. Përmban klonim zero-shot të zërit nëpërmjet profileve të folësit të ruajtur si JSON.

Më i miri për: Shpërndarje Edge, TTS i bazuar në shfletues, mjedise me burime të ulta

Provoje pa pagesë

Pocket TTSPocket TTS I lirë

Pocket TTS nga Kyutai (krijuesit e Moshi) është një model i vogël tekst-në-folje me parametra 100M që punon shumë më mirë se sa peshon. Ekzekutohet me efektshmëri në CPU, mbështet klonimin e zërit zero-shot nga një shembull i vetëm audio, dhe prodhon një zë natyror. Madhësia e vogël e modelit e bën atë ideal për përdorimin në periferi dhe mjedise me burime të pakta.

Më i miri për: Shpërndarje e lehtë, mjedise vetëm CPU, klonim i shpejtë zëri

Provoje pa pagesë

Kitten TTSKitten TTS I lirë

Kitten TTS nga KittenML është një model i lehtë tekst-në-folje i ndërtuar mbi ONNX. Me variante nga 15M në 80M parametra (25-80 MB në disk), ai jep sintezë të zërit me cilësi të lartë në CPU pa kërkuar një GPU. Përmban 8 zëra të ndërtuar, shpejtësi të rregullueshme të fjalës, dhe paraprocesim të tekstit të ndërtuar për numra, monedha dhe njësi. Ideal për zbatimin e skajshëm dhe aplikacionet me kohë të shkurtër.

Më i miri për: TTS i shpejtë dhe i lehtë, zbatim në skaj, aplikime me kohë të shkurtër

Provoje pa pagesë

Ming-Omni TTSMing-Omni TTS I lirë

Ming-omni-tts-0.5B nga inclusionAI është një model kompakt omni-modal i foljes i ndërtuar mbi bazën e dendur BailingMM me një dekoder audio të përshtatshëm për rrjedhjen Patch-by-Patch. Shërben 44.1kHz output (pranë cilësisë CD), mbështet klonimin e zërit zero-shot nga një referencë 3+ sekonda, dhe përfshin kontrollin e ndërtuar të emocionit / dialektit / BGM nëpërmjet instruksioneve JSON. Stabilitet i shkëlqyer — 0.83% WER në standardet kineze.

Më i miri për: Narracioni dygjuhësh me besnikëri të lartë, zëri i kontrolluar nga emocionet, përmbajtja e audiolibrit kinez

Provoje pa pagesë

MOSS-TTS NanoMOSS-TTS Nano I lirë

MOSS-TTS-Nano-100M është varianta e OpenMOSS me 100M parametra e familjes MOSS-TTS, duke ndarë arkitekturën e vonesës-transformuesit. Shkëmben cilësinë e modelit 8B për ~80 herë më pak peshë dhe VRAM dramatikisht më të ulët për kërkesë, duke e bërë të përshtatshëm për zbatime të nivelit të lirë dhe të performancës së lartë. E njëjta arritje në 20 gjuhë.

Më i miri për: Free-tier TTS, prodhim i madh, përdorim interaktiv me kohë të shkurtër

Provoje pa pagesë

BarkBark Standard

Modeli i tekstit në audio i bazuar në transformator që gjeneron fjalë, muzikë dhe efekte të tingullit realiste.

Programuesi: Suno · Liçenca: MIT

Provoje.

Bark SmallBark Small Standard

Version më i lehtë i Bark me përfundim më të shpejtë dhe përdorim më të ulët të kujtesës.

Programuesi: Suno · Liçenca: MIT

Provoje.

CosyVoice 2CosyVoice 2 Standard

Alibaba's scaleable streaming TTS me natyrshmërinë e paritetit njerëzor dhe afërsisht zero vonesë.

Programuesi: Alibaba (Tongyi Lab) · Liçenca: Apache 2.0

Provoje.

Dia TTSDia TTS Standard

Modeli i krijimit të dialogut me shumë folës që krijon biseda natyrore midis folësve.

Programuesi: Nari Labs · Liçenca: Apache 2.0

Provoje.

Parler TTSParler TTS Standard

Përshkruaj zërin që dëshiron në gjuhën natyrore dhe Parler gjeneron një zë të përshtatshëm.

Programuesi: Hugging Face · Liçenca: Apache 2.0

Provoje.

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS me kontroll të mirë të emocioneve dhe shprehje të lartë.

Programuesi: Index Team · Liçenca: Bilibili Model License

Provoje.

Spark TTSSpark TTS Standard

Klonimi i zërit TTS me emocione të kontrollueshme dhe stil të foljes nëpërmjet kërkesave.

Programuesi: SparkAudio · Liçenca: CC BY-NC-SA 4.0

Provoje.

GPT-SoVITSGPT-SoVITS Standard

Klonimi i zërit me pak gjuajtje TTS që kopjon çdo zë nga vetëm 5 sekonda audio.

Programuesi: RVC-Boss · Liçenca: MIT

Provoje.

OrpheusOrpheus Standard

Modeli TTS emocional në nivelin njerëzor i trajnuar në 100K orë të dhëna të foljes.

Programuesi: Canopy Labs · Liçenca: Llama 3.2 Community

Provoje.

Qwen3 TTSQwen3 TTS Standard

TTS shumëgjuhësh i Alibaba me zëra të paracaktuar dhe dizajn zëri nga teksti.

Programuesi: Alibaba (Qwen) · Liçenca: Apache 2.0

Provoje.

VieNeu-TTS-v2VieNeu-TTS-v2 Standard

Vietnameze + Anglisht TTS me 7 zëra të paracaktuar dhe klonim zëri zero-shot. CPU vetëm, nuk kërkohet GPU.

Programuesi: Phạm Nguyễn Ngọc Bảo · Liçenca: Apache 2.0

Provoje.

Chatterbox TurboChatterbox Turbo Standard

Chatterbox më i shpejtë me kohë të vonuar nën 200ms dhe etiketa paralinguistike për qeshje, kollë dhe më shumë.

Programuesi: Resemble AI · Liçenca: MIT

Provoje.

VoxCPMVoxCPM Standard

Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.

Programuesi: OpenBMB · Liçenca: Apache 2.0

Provoje.

VibeVoiceVibeVoice Standard

Modeli i Microsoft-it për përmbajtjen e formës së gjatë me shumë folës si podcasts dhe audiobooks.

Programuesi: Microsoft · Liçenca: MIT

Provoje.

CosyVoice3CosyVoice3 Standard

TTS e brezit të ardhshëm shumëgjuhësh me bi-streaming, kontroll emocionesh, dhe klonim zëri zero-shot.

Programuesi: Alibaba (FunAudioLLM) · Liçenca: Apache 2.0

Provoje.

NAMAA Saudi TTSNAMAA Saudi TTS Standard

Dialekti vendas i Arabisë Saudite me klonim zëri me cilësi Chatterbox.

Programuesi: NAMAA Space · Liçenca: MIT

Provoje.

Darwin TTSDarwin TTS Standard

Cross-modal Qwen3-TTS variant me peshë FFN të përzier nga Qwen3-1.7B model gjuhësor për klonim më të mprehtë shumëgjuhësh.

Programuesi: FINAL-Bench · Liçenca: Apache 2.0

Provoje.

MOSS-TTSDMOSS-TTSD Standard

Modeli i vazhdimit të dialogut me shumë folës - gjeneron biseda në stil podcast me deri në 5 folës dhe 60 minuta audio të koherentë.

Programuesi: OpenMOSS · Liçenca: Apache 2.0

Provoje.

ChatterboxChatterbox Premium

Klonimi i zërit me kontroll të emocioneve nga "Resemble AI".

Cilësia:

Provoje.

Tortoise TTSTortoise TTS Premium

Teksti-në-folje me shumë zëra i përqëndruar në cilësinë me arkitekturë autoregresive.

Cilësia:

Provoje.

StyleTTS 2StyleTTS 2 Premium

Teksti në nivelin e njeriut në fjalë nëpërmjet përhapjes së stilit dhe trainimit kundërshtar.

Cilësia:

Provoje.

OpenVoiceOpenVoice Premium

Klonimi i menjëhershëm i zërit me kontroll të hollësishëm mbi stilin, emocionet dhe theksin.

Cilësia:

Provoje.

Sesame CSMSesame CSM Premium

Modeli i bisedës që gjeneron dialog natyror me kohën dhe emocionin e duhur.

Cilësia:

Provoje.

CosyVoice 2CosyVoice 2

Alibaba's scaleable streaming TTS me natyrshmërinë e paritetit njerëzor dhe afërsisht zero vonesë.

Gjuhë: en, zh, ja, ko, fr, de, it, es

Klono zërin

IndexTTS-2IndexTTS-2

Zero-shot TTS me kontroll të mirë të emocioneve dhe shprehje të lartë.

Gjuhë: en, zh

Klono zërin

Spark TTSSpark TTS

Klonimi i zërit TTS me emocione të kontrollueshme dhe stil të foljes nëpërmjet kërkesave.

Gjuhë: en, zh

Klono zërin

GPT-SoVITSGPT-SoVITS

Klonimi i zërit me pak gjuajtje TTS që kopjon çdo zë nga vetëm 5 sekonda audio.

Gjuhë: en, zh, ja, ko

Klono zërin

ChatterboxChatterbox

Klonimi i zërit me kontroll të emocioneve nga "Resemble AI".

Gjuhë: en

Klono zërin

Tortoise TTSTortoise TTS

Teksti-në-folje me shumë zëra i përqëndruar në cilësinë me arkitekturë autoregresive.

Gjuhë: en

Klono zërin

OpenVoiceOpenVoice

Klonimi i menjëhershëm i zërit me kontroll të hollësishëm mbi stilin, emocionet dhe theksin.

Gjuhë: en, zh, ja, ko, fr, es

Klono zërin

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnameze + Anglisht TTS me 7 zëra të paracaktuar dhe klonim zëri zero-shot. CPU vetëm, nuk kërkohet GPU.

Gjuhë: vi, en

Klono zërin

Chatterbox TurboChatterbox Turbo

Chatterbox më i shpejtë me kohë të vonuar nën 200ms dhe etiketa paralinguistike për qeshje, kollë dhe më shumë.

Gjuhë: en

Klono zërin

VoxCPMVoxCPM

Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.

Gjuhë: en, zh

Klono zërin

OuteTTSOuteTTS

LLM-bazuar TTS që shkon në CPU, GPU, ose browser nëpërmjet llama.cpp dhe Transformers.js.

Gjuhë: en

Klono zërin

Pocket TTSPocket TTS

Model i lehtë me parametra 100M nga Kyutai me klonim zëri nga një shembull i vetëm.

Gjuhë: en, fr

Klono zërin

CosyVoice3CosyVoice3

TTS e brezit të ardhshëm shumëgjuhësh me bi-streaming, kontroll emocionesh, dhe klonim zëri zero-shot.

Gjuhë: en, zh, ja, ko, de, es, fr, it, ru

Klono zërin

NAMAA Saudi TTSNAMAA Saudi TTS

Dialekti vendas i Arabisë Saudite me klonim zëri me cilësi Chatterbox.

Gjuhë: ar

Klono zërin

Darwin TTSDarwin TTS

Cross-modal Qwen3-TTS variant me peshë FFN të përzier nga Qwen3-1.7B model gjuhësor për klonim më të mprehtë shumëgjuhësh.

Gjuhë: en, ko, ja, zh

Klono zërin

MOSS-TTSDMOSS-TTSD

Modeli i vazhdimit të dialogut me shumë folës - gjeneron biseda në stil podcast me deri në 5 folës dhe 60 minuta audio të koherentë.

Gjuhë: en, zh

Klono zërin

Ming-Omni TTSMing-Omni TTS

Model kompakt 0.5B i foljes omni-modal nga inclusionAI me 44.1kHz të lartë-besueshmërisë dhe klonimin e zërit zero-shot.

Gjuhë: en, zh

Klono zërin

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M MOSS-TTS variant — e njëjta arkitekturë, 80x më e vogël, latency e nivelit të lirë.

Gjuhë: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Klono zërin

API e parë e zhvilluesit

REST API e përshtatshme me OpenAI. Një pikë përfundimtare, më shumë se 22 modele. Mbështetje streaming për aplikacionet në kohë reale.

  • Format i përshtatshëm OpenAI
  • Streaming TTS për aplikacionet në kohë reale
  • Përpunimi i grupeve për punë të mëdha
  • Njoftime webhook
Shiko dokumentet e API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Çmime të thjeshta, transparente

Fillo i lirë.Shkallezohu ndërsa rritesh.

I lirë

$0

15,000 karakterë + 5,000/ditë

  • 7 modele të lira duke përfshirë Kokoro
  • 5,000 karaktere për gjeneratë
  • API akses përfshirë
Regjistrohu pa pagesë

Fillues

$9/Mb

500,000 karakterë/muaj

  • Të gjitha 22+ modelet
  • 100,000 karaktere për gjeneratë
  • Klonimi i zërit
Fillo
Më të popullarizuarit

Pro

$29/Mb

2,000,000 karakterë/muaj

  • Gjithçka në Starter
  • Hyrja në API
  • Përpunimi i përparësisë
Bëhu Pro

Biznes

$99/Mb

10,000,000 karakterë/muaj

  • Gjithçka në Pro
  • Bulk API
  • Rreshta e përparësisë
Merr biznesin

Shiko të gjitha planet duke përfshirë paketat e karaktereve →

Pyetje të shpeshta

TTS.ai është platforma më e gjerë e zërit AI, duke ofruar 22+ modele të tekstit në fjalë, klonimin e zërit, fjalën në tekst dhe instrumentet audio. Të gjithë modelet janë me burim të hapur pa bllokimin e shitësit.

Po! TTS.ai ofron tekst-në-folje falas me modelet Kokoro, Piper, VITS, dhe MeloTTS. Nuk kërkohet llogari. Regjistrohu për të marrë 15,000 karaktere falas dhe akses në të gjithë modelet. Planet e paguar fillojnë nga $9/muaj.

Për shpejtësi, përdor Kokoro ose Piper. Për cilësi, provo CosyVoice 2 ose StyleTTS 2. Për klonim zëri, përdor Chatterbox ose GPT-SoVITS. Për dialog, përdor Dia TTS. Provo disa modele në të njëjtin tekst për t'u krahasuar.

Po. API REST e përshtatshme me OpenAI për TTS, STT, klonimin e zërit dhe instrumentet audio. Përfshihet në çdo plan duke përfshirë edhe pa pagesë, me kufizime të shpejtësisë që rriten sipas nivelit (Pa pagesë: 10 kërkesa/min, Lite: 20, Starter: 30, Pro: 60, Biznes: 300). Shiko dokumentacionin tek tts.ai/api/.

Cilësia e zërit ndryshon sipas modelit. Modelet Premium si CosyVoice 2, StyleTTS 2, dhe Chatterbox prodhojnë fjalë me cilësi pothuajse njerëzore me intonacion natyror dhe emocione. Modelet pa pagesë si Kokoro ofrojnë cilësi të shkëlqyer për shumicën e rasteve të përdorimit.

TTS.ai suporton më shumë se 30 gjuhë nëpërmjet bibliotekës së modeleve të tij. Anglishtja ka mbështetjen më të gjerë të modelit, por modelet si CosyVoice 2 mbulojnë kinezisht, japonisht dhe koreanisht; GPT-SoVITS trajton kinezisht, japonisht, koreanisht dhe anglisht; dhe MeloTTS mbështet anglisht, spanjisht, frëngjisht, kinezisht, japonisht dhe koreanisht.

Po. E gjithë përpunimi ndodh në serverat tanë të dedikuar GPU. Ne nuk ruajmë tekstin tuaj të hyrës apo audion e gjeneruar pas dorëzimit. Shembujt e zërit të ngarkuar për klonim përdoren vetëm për seancën aktuale dhe nuk ruhen. Ne kurrë nuk i ndajmë të dhënat tuaja me të tretat apo i përdorim ato për të trajnuar modelet.

Po. Të gjithë audiot e gjeneruar në TTS.ai janë të tuat për përdorim komercial, duke përfshirë videot e YouTube, podcast-et, audiolibër, aplikacione, reklama dhe produkte. Modelet tona janë me burim të hapur nën licencat e lejueshme (MIT, Apache 2.0). Nuk kërkohen royalties apo atribuime.

TTS.ai gjeneron audio në formatin WAV në mënyrë të prezgjedhur për cilësinë maksimale. Mund të konvertosh në MP3, FLAC, OGG, ose M4A duke përdorur instrumentin tonë të lirë të konvertimit të audios. API suporton specifikimin e formatit të preferuar të daljes drejtpërsëdrejti në kërkesë.

Ngarko një shembull të shkurtër audio (sa më pak se 5 sekonda) të zërit që dëshiron të klonosh, pastaj shkruaj ndonjë tekst për të gjeneruar një zë në atë zë. Modelet si Chatterbox, GPT-SoVITS, dhe CosyVoice 2 suportojnë klonimin e zërit. Zëri i klonuar kap tonin, theksin dhe stilin e të folurit.

Modelet falas (Kokoro, Piper, VITS, MeloTTS) nuk kërkojnë llogari dhe kushton zero karaktere. Modelet standarde (2,000 karaktere/1K input) përfshijnë Bark, CosyVoice 2, F5-TTS, dhe Dia. Modelet Premium (4,000 karaktere/1K input) përfshijnë OpenVoice, Chatterbox, StyleTTS 2, dhe Tortoise. Modelet me pagesë përgjithësisht ofrojnë cilësi më të lartë, më shumë zëra dhe funksione shtesë si klonimi i zërit.

Po. API suporton përpunimin e grupeve për konvertimin e volumeve të mëdha të tekstit në fjalë. Paraqitja e kërkesave të shumta dhe marrja e rezultateve në mënyrë asinkrone duke përdorur UUID-të e punës. Plani i biznesit ($99/muaj) dhe më i lartë përfshin aksesin e rendit të përparësisë për përpunimin më të shpejtë të grupeve. Ideal për prodhimin e audio librave, përmbajtjen e kurseve dhe projektet e votimit në shkallë të madhe.
4.1/5 (42)

Çfarë mund të përmirësojmë? Feedback-i juaj na ndihmon të zgjidhim problemet.

Fillo të përdorësh zërin AI sot

Bashkohu me krijues, zhvillues dhe biznese që përdorin TTS.ai