Free AI Teksti në Fjalë

31+ modele me burim të hapur, 231+ Zërat, 34+ Nuk kërkohet llogari.

8K+
krijues
30K+
gjenerata
31+
Modelet e AI
231+
zëra
0/500 gërma · Sign up for 5,000 per generation → I lirë
Të pëlqen TTS.ai?

Gjithçka që ju duhet për AI të zërit

Më shumë se 30 instrumentë të mbështetur nga modele të inteligjencës artificiale me burim të hapur

31+ Modelet e zërit AI

Koleksioni më i plotë i modeleve të TTS me burim të hapur në një platformë

KokoroKokoro Free

Kokoro është një model tekst-në-folje me 82 milion parametra që punon shumë më mirë se klasa e tij e peshes. Pavarësisht nga madhësia e vogël, prodhon një folje të jashtëzakonshme natyrale dhe shprehëse. Kokoro suporton gjuhë të shumta duke përfshirë anglishten, japonishten, kinezishten dhe koreanishten me një varietet zërash shprehës. Ekzekutohet jashtëzakonisht shpejt — duke gjeneruar tinguj pothuajse 100 herë më shpejt se në kohë reale në një GPU.

Më i miri për: TTS me cilësi të lartë me kohëzgjatje minimale, aplikime streaming

Provoje pa pagesë

PiperPiper Free

Piper është një motor i lehtë tekst-në-folje i zhvilluar nga Rhasspy që përdor arkitekturat VITS dhe larynx. Ekzekutohet krejtësisht në CPU, duke e bërë atë ideal për pajisjet e periferisë, automatikën shtëpiake dhe aplikacionet që kërkojnë TTS jashtë linje. Me mbi 100 zëra në më shumë se 30 gjuhë, Piper jep një zë natyror në shpejtësi të kohës reale edhe në një Raspberry Pi 4.

Më i miri për: Pamje të shpejta, açesibilitet dhe aplikativë të ndërlidhur

Provoje pa pagesë

VITSVITS Free

VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) është një metodë paralele TTS që gjeneron tinguj më natyrorë se sa modelet aktuale me dy faza. Ajo adopton variacionin e inferimit të rritur me rrjedhat normalizuese dhe një proces trainimi kundërshtar, duke arritur një përmirësim të ndjeshëm në natyrshmëri.

Më i miri për: Tekst-në-Fjalë me qëllim të përgjithshëm me prozodi natyrore

Provoje pa pagesë

MeloTTSMeloTTS Free

MeloTTS nga MyShell.ai është një bibliotekë shumëgjuhëshe TTS që suporton anglishten (amerikane, britanike, indiane, australiane), spanjishten, frëngjishten, kineze, japoneze dhe koreane. Është shumë e shpejtë, duke përpunuar tekstin me shpejtësi pothuajse në kohë reale vetëm në CPU. MeloTTS është projektuar për përdorim në prodhim dhe suporton si CPU ashtu edhe GPU.

Më i miri për: Aplikacionet e prodhimit kanë nevojë për TTS të shpejtë dhe shumëgjuhësh

Provoje pa pagesë

OuteTTSOuteTTS Free

OuteTTS zgjeron modelet e mëdha të gjuhës me aftësitë e tekstit në fjalë duke ruajtur arkitekturën origjinale. Ajo suporton backends të shumta duke përfshirë llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, dhe madje edhe inferimet e shfletuesit nëpërmjet Transformers.js. Përmban klonim zero-shot të zërit nëpërmjet profileve të folësit të ruajtur si JSON.

Më i miri për: Shpërndarje Edge, TTS i bazuar në shfletues, mjedise me burime të ulta

Provoje pa pagesë

Pocket TTSPocket TTS Free

Pocket TTS nga Kyutai (krijuesit e Moshi) është një model i vogël tekst-në-folje me parametra 100M që punon shumë më mirë se sa peshon. Ekzekutohet me efektshmëri në CPU, mbështet klonimin e zërit zero-shot nga një shembull i vetëm audio, dhe prodhon një zë natyror. Madhësia e vogël e modelit e bën atë ideal për përdorimin në periferi dhe mjedise me burime të pakta.

Më i miri për: Shpërndarje e lehtë, mjedise vetëm CPU, klonim i shpejtë zëri

Provoje pa pagesë

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Më i miri për: Fast lightweight TTS, edge deployment, low-latency applications

Provoje pa pagesë

BarkBark Standard

Modeli i tekstit në audio i bazuar në transformator që gjeneron fjalë, muzikë dhe efekte të tingullit realiste.

Programuesi: Suno · Liçenca: MIT

Provoje.

Bark SmallBark Small Standard

Version më i lehtë i Bark me përfundim më të shpejtë dhe përdorim më të ulët të kujtesës.

Programuesi: Suno · Liçenca: MIT

Provoje.

CosyVoice 2CosyVoice 2 Standard

Alibaba's scaleable streaming TTS me natyrshmërinë e paritetit njerëzor dhe afërsisht zero vonesë.

Programuesi: Alibaba (Tongyi Lab) · Liçenca: Apache 2.0

Provoje.

Dia TTSDia TTS Standard

Modeli i krijimit të dialogut me shumë folës që krijon biseda natyrore midis folësve.

Programuesi: Nari Labs · Liçenca: Apache 2.0

Provoje.

Parler TTSParler TTS Standard

Përshkruaj zërin që dëshiron në gjuhën natyrore dhe Parler gjeneron një zë të përshtatshëm.

Programuesi: Hugging Face · Liçenca: Apache 2.0

Provoje.

GLM-TTSGLM-TTS Standard

Arrit normat më të ulta të gabimit të karaktereve midis modeleve të TTS me burim të hapur.

Programuesi: Zhipu AI · Liçenca: GLM-4 License

Provoje.

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS me kontroll të mirë të emocioneve dhe shprehje të lartë.

Programuesi: Index Team · Liçenca: Bilibili Model License

Provoje.

Spark TTSSpark TTS Standard

Klonimi i zërit TTS me emocione të kontrollueshme dhe stil të foljes nëpërmjet kërkesave.

Programuesi: SparkAudio · Liçenca: CC BY-NC-SA 4.0

Provoje.

GPT-SoVITSGPT-SoVITS Standard

Klonimi i zërit me pak gjuajtje TTS që kopjon çdo zë nga vetëm 5 sekonda audio.

Programuesi: RVC-Boss · Liçenca: MIT

Provoje.

OrpheusOrpheus Standard

Modeli TTS emocional në nivelin njerëzor i trajnuar në 100K orë të dhëna të foljes.

Programuesi: Canopy Labs · Liçenca: Llama 3.2 Community

Provoje.

Qwen3 TTSQwen3 TTS Standard

TTS shumëgjuhësh i Alibaba me klonim zëri, zëra të paracaktuar dhe dizajn zëri nga teksti.

Programuesi: Alibaba (Qwen) · Liçenca: Apache 2.0

Provoje.

Chatterbox TurboChatterbox Turbo Standard

Chatterbox më i shpejtë me kohë të vonuar nën 200ms dhe etiketa paralinguistike për qeshje, kollë dhe më shumë.

Programuesi: Resemble AI · Liçenca: MIT

Provoje.

Dia 2Dia 2 Standard

Fluturimi i parë bisedor TTS me dialog multi-folës dhe shenja paralinguistike.

Programuesi: Nari Labs · Liçenca: Apache 2.0

Provoje.

VoxCPMVoxCPM Standard

Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.

Programuesi: OpenBMB · Liçenca: Apache 2.0

Provoje.

TADATADA Standard

Zero-hallucination TTS me tekst-akustik dyfishtë të përshtatur, 5 herë më shpejt se krahasuar LLM TTS.

Programuesi: Hume AI · Liçenca: MIT

Provoje.

VibeVoiceVibeVoice Standard

Modeli i Microsoft-it për përmbajtjen e formës së gjatë me shumë folës si podcasts dhe audiobooks.

Programuesi: Microsoft · Liçenca: MIT

Provoje.

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Programuesi: Alibaba (FunAudioLLM) · Liçenca: Apache 2.0

Provoje.

ChatterboxChatterbox Premium

Klonimi i zërit me kontroll të emocioneve nga "Resemble AI".

Cilësia:

Provoje.

Tortoise TTSTortoise TTS Premium

Teksti-në-folje me shumë zëra i përqëndruar në cilësinë me arkitekturë autoregresive.

Cilësia:

Provoje.

StyleTTS 2StyleTTS 2 Premium

Teksti në nivelin e njeriut në fjalë nëpërmjet përhapjes së stilit dhe trainimit kundërshtar.

Cilësia:

Provoje.

OpenVoiceOpenVoice Premium

Klonimi i menjëhershëm i zërit me kontroll të hollësishëm mbi stilin, emocionet dhe theksin.

Cilësia:

Provoje.

Sesame CSMSesame CSM Premium

Modeli i bisedës që gjeneron dialog natyror me kohën dhe emocionin e duhur.

Cilësia:

Provoje.

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Cilësia:

Provoje.

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Cilësia:

Provoje.

CosyVoice 2CosyVoice 2

Alibaba's scaleable streaming TTS me natyrshmërinë e paritetit njerëzor dhe afërsisht zero vonesë.

Gjuhë: en, zh, ja, ko, fr, de, it, es

Klono zërin

GLM-TTSGLM-TTS

Arrit normat më të ulta të gabimit të karaktereve midis modeleve të TTS me burim të hapur.

Gjuhë: en, zh

Klono zërin

IndexTTS-2IndexTTS-2

Zero-shot TTS me kontroll të mirë të emocioneve dhe shprehje të lartë.

Gjuhë: en, zh

Klono zërin

Spark TTSSpark TTS

Klonimi i zërit TTS me emocione të kontrollueshme dhe stil të foljes nëpërmjet kërkesave.

Gjuhë: en, zh

Klono zërin

GPT-SoVITSGPT-SoVITS

Klonimi i zërit me pak gjuajtje TTS që kopjon çdo zë nga vetëm 5 sekonda audio.

Gjuhë: en, zh, ja, ko

Klono zërin

ChatterboxChatterbox

Klonimi i zërit me kontroll të emocioneve nga "Resemble AI".

Gjuhë: en

Klono zërin

Tortoise TTSTortoise TTS

Teksti-në-folje me shumë zëra i përqëndruar në cilësinë me arkitekturë autoregresive.

Gjuhë: en

Klono zërin

OpenVoiceOpenVoice

Klonimi i menjëhershëm i zërit me kontroll të hollësishëm mbi stilin, emocionet dhe theksin.

Gjuhë: en, zh, ja, ko, fr, de, es, it

Klono zërin

Qwen3 TTSQwen3 TTS

TTS shumëgjuhësh i Alibaba me klonim zëri, zëra të paracaktuar dhe dizajn zëri nga teksti.

Gjuhë: en, zh, ja, ko, de, fr, ru, pt, es, it

Klono zërin

Chatterbox TurboChatterbox Turbo

Chatterbox më i shpejtë me kohë të vonuar nën 200ms dhe etiketa paralinguistike për qeshje, kollë dhe më shumë.

Gjuhë: en

Klono zërin

VoxCPMVoxCPM

Tokenizer-free TTS producing 44.1kHz audio with context-aware paragraph consistency.

Gjuhë: en, zh

Klono zërin

OuteTTSOuteTTS

LLM-bazuar TTS që shkon në CPU, GPU, ose browser nëpërmjet llama.cpp dhe Transformers.js.

Gjuhë: en

Klono zërin

Pocket TTSPocket TTS

Model i lehtë me parametra 100M nga Kyutai me klonim zëri nga një shembull i vetëm.

Gjuhë: en, fr

Klono zërin

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Gjuhë: en, zh, ja, ko, de, es, fr, it, ru

Klono zërin

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Gjuhë: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Klono zërin

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Gjuhë: en, zh

Klono zërin

API e parë e zhvilluesit

REST API e përshtatshme me OpenAI. Një pikë përfundimtare, më shumë se 22 modele. Mbështetje streaming për aplikacionet në kohë reale.

  • Format i përshtatshëm OpenAI
  • Streaming TTS për aplikacionet në kohë reale
  • Përpunimi i grupeve për punë të mëdha
  • Njoftime webhook
Shiko dokumentet e API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Çmime të thjeshta, transparente

Fillo i lirë.Shkallezohu ndërsa rritesh.

I lirë

$0

15 kreditë

  • Kokoro, Piper, VITS, MeloTTS
  • Kufiri i 500 karakterëve
  • 3 gjen/orë (pa llogari)
Regjistrohu pa pagesë

Fillues

$9/Mb

500,000 karakterë/muaj

  • Të gjitha 22+ modelet
  • 100,000 karaktere për gjeneratë
  • Klonimi i zërit
Fillo
Më të popullarizuarit

Pro

$29/Mb

2,000,000 karakterë/muaj

  • Gjithçka në Starter
  • Hyrja në API
  • Përpunimi i përparësisë
Bëhu Pro

Biznes

$99/Mb

10,000,000 karakterë/muaj

  • Gjithçka në Pro
  • Bulk API
  • Rreshta e përparësisë
Merr biznesin

Shiko të gjitha planet duke përfshirë paketat e karaktereve →

Pyetje të shpeshta

TTS.ai është platforma më e gjerë e zërit AI, duke ofruar 22+ modele të tekstit në fjalë, klonimin e zërit, fjalën në tekst dhe instrumentet audio. Të gjithë modelet janë me burim të hapur pa bllokimin e shitësit.

Po! TTS.ai ofron tekst-në-folje falas me modelet Kokoro, Piper, VITS, dhe MeloTTS. Nuk kërkohet llogari. Regjistrohu për të marrë 15,000 karaktere falas dhe akses në të gjithë modelet. Planet e paguar fillojnë nga $9/muaj.

Për shpejtësi, përdor Kokoro ose Piper. Për cilësi, provo CosyVoice 2 ose StyleTTS 2. Për klonim zëri, përdor Chatterbox ose GPT-SoVITS. Për dialog, përdor Dia TTS. Provo disa modele në të njëjtin tekst për t'u krahasuar.

Po. API REST e përshtatshme me OpenAI për TTS, STT, klonimin e zërit dhe instrumentët audio. Në dispozicion në planet Pro ($29/muaj) dhe Enterprise ($99/muaj). Shiko dokumentacionin tek tts.ai/api/.

Cilësia e zërit ndryshon sipas modelit. Modelet Premium si CosyVoice 2, StyleTTS 2, dhe Chatterbox prodhojnë fjalë me cilësi pothuajse njerëzore me intonacion natyror dhe emocione. Modelet pa pagesë si Kokoro ofrojnë cilësi të shkëlqyer për shumicën e rasteve të përdorimit.

TTS.ai suporton më shumë se 30 gjuhë nëpërmjet bibliotekës së modeleve të tij. Anglishtja ka mbështetjen më të gjerë të modelit, por modelet si CosyVoice 2 mbulojnë kinezisht, japonisht dhe koreanisht; GPT-SoVITS trajton kinezisht, japonisht, koreanisht dhe anglisht; dhe MeloTTS mbështet anglisht, spanjisht, frëngjisht, kinezisht, japonisht dhe koreanisht.

Po. E gjithë përpunimi ndodh në serverat tanë të dedikuar GPU. Ne nuk ruajmë tekstin tuaj të hyrës apo audion e gjeneruar pas dorëzimit. Shembujt e zërit të ngarkuar për klonim përdoren vetëm për seancën aktuale dhe nuk ruhen. Ne kurrë nuk i ndajmë të dhënat tuaja me të tretat apo i përdorim ato për të trajnuar modelet.

Po. Të gjithë audiot e gjeneruar në TTS.ai janë të tuat për përdorim komercial, duke përfshirë videot e YouTube, podcast-et, audiolibër, aplikacione, reklama dhe produkte. Modelet tona janë me burim të hapur nën licencat e lejueshme (MIT, Apache 2.0). Nuk kërkohen royalties apo atribuime.

TTS.ai gjeneron audio në formatin WAV në mënyrë të prezgjedhur për cilësinë maksimale. Mund të konvertosh në MP3, FLAC, OGG, ose M4A duke përdorur instrumentin tonë të lirë të konvertimit të audios. API suporton specifikimin e formatit të preferuar të daljes drejtpërsëdrejti në kërkesë.

Ngarko një shembull të shkurtër audio (sa më pak se 5 sekonda) të zërit që dëshiron të klonosh, pastaj shkruaj ndonjë tekst për të gjeneruar një zë në atë zë. Modelet si Chatterbox, GPT-SoVITS, dhe CosyVoice 2 suportojnë klonimin e zërit. Zëri i klonuar kap tonin, theksin dhe stilin e të folurit.

Modelet falas (Kokoro, Piper, VITS, MeloTTS) nuk kërkojnë llogari dhe kushton zero karaktere. Modelet standarde (2,000 karaktere/1K input) përfshijnë Bark, CosyVoice 2, F5-TTS, dhe Dia. Modelet Premium (4,000 karaktere/1K input) përfshijnë OpenVoice, Chatterbox, StyleTTS 2, dhe Tortoise. Modelet me pagesë përgjithësisht ofrojnë cilësi më të lartë, më shumë zëra dhe funksione shtesë si klonimi i zërit.

Po. API suporton përpunimin e grupeve për konvertimin e volumeve të mëdha të tekstit në fjalë. Paraqitja e kërkesave të shumta dhe marrja e rezultateve në mënyrë asinkrone duke përdorur UUID-të e punës. Planet Enterprise ($99/muaj) përfshijnë hyrjen në radhën e përparësisë për përpunimin më të shpejtë të grupeve. Ideale për prodhimin e audio librave, përmbajtjen e kurseve dhe projektet e votimit në shkallë të madhe.
4.1/5 (21)

Çfarë mund të përmirësojmë? Feedback-i juaj na ndihmon të zgjidhim problemet.

Fillo të përdorësh zërin AI sot

Bashkohu me krijues, zhvillues dhe biznese që përdorin TTS.ai