Free AI Testutik hizketara

33+ kode irekiko ereduak, 273+ ahotsak, 33+ Hizkuntzak. Ez da konturik behar.

17K+
sortzaileak
70K+
belaunaldi
33+
AI modeloak
273+
ahotsak
0/500 karaktereak · 5.000 belaunaldiko. → Libre
Maite TTS.ai? Esan zure lagunei!

Ahots-AIrako behar duzun guztia

Iturburu irekiko AI ereduetan oinarritutako 30+ tresna

33+ AI ahots modeloak

Iturburu irekiko TTS ereduen bildumarik osoena plataforma bakar batean

KokoroKokoro Libre

Kokoro 82 milioi parametro dituen testu-hizketa modelo bat da, bere pisu-klasearen gainetik dagoena. Bere tamaina txikia izan arren, hizketa oso naturala eta adierazgarria ekoizten du. Kokorok hainbat hizkuntza onartzen ditu, besteak beste, ingelesa, japoniera, txinera eta koreera, hainbat ahots adierazgarrirekin. Oso azkar exekutatzen da — GPU batean denbora errealean baino ia 100 aldiz azkarrago sortzen du audioa.

Honako hauentzako onena: Kalitate handiko TTS, atzerapen minimoa, streaming aplikazioak

Saiatu doan

PiperPiper Libre

Piper Rhasspy-k garatutako testu-hizketa motor arina da, VITS eta larynx arkitekturak erabiltzen dituena. Erabat PUZ-n exekutatzen da, eta, beraz, ezin hobea da ertz-gailuetarako, etxeko automatizaziorako eta lineaz kanpoko TTS behar duten aplikazioetarako. 30 hizkuntza baino gehiagoko 100 ahots baino gehiagorekin, Piper-ek hizketa naturala ematen du denbora errealean, Raspberry Pi 4-n ere bai.

Honako hauentzako onena: Aurrebista azkarrak, erabilerraztasuna eta aplikazio kapsulatuak

Saiatu doan

VITSVITS Libre

VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) amaieratik amaierara TTS metodo paralelo bat da, gaur egungo bi faseko ereduek baino soinu naturalagoa sortzen duena. Inferentzia bariazionala hartzen du, fluxu normalizatzaileekin eta entrenamendu-prozesu aurkariarekin handitua, naturaltasunean hobekuntza nabarmena lortzeko.

Honako hauentzako onena: Helburu orokorreko testu-hizketa prosodia naturalekin

Saiatu doan

MeloTTSMeloTTS Libre

MyShell.ai-ren MeloTTS hizkuntz anitzeko TTS liburutegi bat da, ingelesa (amerikarra, britainiarra, indiarra, australiarra), gaztelania, frantsesa, txinera, japoniera eta koreera onartzen dituena. Oso azkarra da, testua ia denbora errealean prozesatzen du PUZ soilarekin. MeloTTS ekoizpenerako diseinatuta dago, eta PUZ eta GPU inferentzia onartzen ditu.

Honako hauentzako onena: TTS azkarra eta hizkuntza anitzekoa behar duten ekoizpen-aplikazioak

Saiatu doan

Kani TTS 2Kani TTS 2 Libre

NineNineSix-en Kani-TTS-2 400M parametrodun modelo ultra-arina da, LiquidAI LFM2 bizkarrezurra eta Nvidia NanoCodec-ekin eraikia. 3 GB-ko VRAM-ean bakarrik exekutatzen da eta 10 segundoko hizketa lortzen du ~2 segundotan (RTF 0.2). Ahots-klonaketa zero-shot onartzen du bozgorailuen kapsulazioen bidez.

Honako hauentzako onena: Sorkuntza azkarra, baliabide gutxiko inguruneak, aurrebista azkarrak

Saiatu doan

OuteTTSOuteTTS Libre

OuteTTS-ek hizkuntza-eredu handiak testu-hizketa gaitasunekin hedatzen ditu, jatorrizko arkitektura mantenduz. Hainbat backend onartzen ditu, hala nola llama.cpp (PUZ/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, eta baita arakatzailearen inferentzia Transformers.js-en bidez ere. Ahots-klonaketa zero-shot-a eskaintzen du JSON gisa gordetako hiztun-profilen bidez.

Honako hauentzako onena: Edge deployment, arakatzailean oinarritutako TTS, baliabide gutxiko inguruneak

Saiatu doan

Pocket TTSPocket TTS Libre

Kyutai-ren (Moshi-ren sortzaileak) Pocket TTS 100M parametro dituen testu-hizketa modelo trinkoa da, bere pisua gainditzen duena. PUZ-an eraginkortasunez exekutatzen da, audio-lagin bakar batetik zero-shot ahots klonaketa onartzen du, eta soinu naturala duen hizketa sortzen du. Modeloaren tamaina txikiak ezin hobea egiten du ertz-hedapenetarako eta baliabide gutxiko inguruneetarako.

Honako hauentzako onena: Banaketa arina, PUZ-soilik inguruneak, ahots klonazio azkarra

Saiatu doan

Kitten TTSKitten TTS Libre

Kitten TTS, KittenML-k garatua, testu-hizketa modelo ultra-arina da, ONNX-en oinarrituta. 15M eta 80M parametroen arteko aldaerak ditu (25-80 MB diskoan), eta kalitate handiko ahots-sintesia eskaintzen du PUZ-n GPUrik behar izan gabe. 8 ahots barneratu, hizketa-abiadura doigarria eta zenbaki, diru eta unitateetarako testu-aurreprozesatzaile barneratua ditu. Oso egokia da ertz-hedapenerako eta latentzia txikiko aplikazioetarako.

Honako hauentzako onena: TTS arin eta azkarra, ertz-hedapena, latentzia txikiko aplikazioak

Saiatu doan

Ming-Omni TTSMing-Omni TTS Libre

Ming-omni-tts-0.5B, inclusionAI-k garatua, hizketa-eredu omnimodal trinkoa da, BailingMM bizkarrezur dentsoan eraikia, adabakiz adabaki fluxua parekatzen duen audio-deskodetzaile batekin. 44,1 kHz-ko irteera eskaintzen du (CD kalitatearen antzekoa), zero-shot ahots klonaketa onartzen du 3 segundotik gorako erreferentzia batetik, eta barneko emozio / dialekto / BGM kontrola JSON aginduen bidez. Egonkortasun bikaina — %0,83 WER txinatar erreferentzia-balioetan.

Honako hauentzako onena: Hizkuntza biko narrazio fidela, emozioz kontrolaturiko ahots-aktorea, audioliburu txinatarraren edukia

Saiatu doan

MOSS-TTS NanoMOSS-TTS Nano Libre

MOSS-TTS-Nano-100M OpenMOSS-en MOSS-TTS familiaren 100M parametro-aldaera trinkoa da, atzerapen-transformadorearen arkitektura partekatzen duena. 8B modeloaren kalitate gorena ~80 aldiz pisu txikiagoengatik eta eskaera bakoitzeko VRAM nabarmen txikiagoengatik trukatzen du, free-layer eta abiadura handiko hedapenetarako egokia bihurtuz. 20 hizkuntza-eremu bera.

Honako hauentzako onena: Free-layer TTS, ekoizpen bolumen handia, erabilera interaktiboaren latentzia baxua

Saiatu doan

BarkBark Lehenetsia

Transformadorean oinarritutako testu-audio eredua, hizketa, musika eta soinu-efektu errealistak sortzen dituena.

Garatzailea: Suno · Lizentzia: MIT

Saiatu.

Bark SmallBark Small Lehenetsia

Bark-en bertsio arinagoa, inferentzia azkarragoa eta memoria-erabilera txikiagoa.

Garatzailea: Suno · Lizentzia: MIT

Saiatu.

CosyVoice 2CosyVoice 2 Lehenetsia

Alibabaren streaming TTS eskalagarria, giza paritatearen naturaltasunarekin eta ia zero latentziarekin.

Garatzailea: Alibaba (Tongyi Lab) · Lizentzia: Apache 2.0

Saiatu.

Dia TTSDia TTS Lehenetsia

Multi-hiztun elkarrizketa sortzeko eredua, hiztun arteko elkarrizketak sortzen dituena.

Garatzailea: Nari Labs · Lizentzia: Apache 2.0

Saiatu.

Parler TTSParler TTS Lehenetsia

Deskribatu nahi duzun ahotsa hizkuntza naturalean eta Parler-ek bat datorren hizketa sortuko du.

Garatzailea: Hugging Face · Lizentzia: Apache 2.0

Saiatu.

IndexTTS-2IndexTTS-2 Lehenetsia

Zero-shot TTS, emozioen kontrol finarekin eta adierazkortasun handiarekin.

Garatzailea: Index Team · Lizentzia: Bilibili Model License

Saiatu.

Spark TTSSpark TTS Lehenetsia

TTS ahots klonaketa, emozio kontrolagarriekin eta hizketa-estiloarekin, aholkuen bidez.

Garatzailea: SparkAudio · Lizentzia: CC BY-NC-SA 4.0

Saiatu.

GPT-SoVITSGPT-SoVITS Lehenetsia

Ahotsa klonatzeko TTS, edozein ahots erreplikatzen duena 5 segundoko audio batetik.

Garatzailea: RVC-Boss · Lizentzia: MIT

Saiatu.

OrpheusOrpheus Lehenetsia

100.000 orduko hizketa-datuetan trebatutako giza mailako TTS emozionalaren eredua.

Garatzailea: Canopy Labs · Lizentzia: Llama 3.2 Community

Saiatu.

Qwen3 TTSQwen3 TTS Lehenetsia

Alibabaren hizkuntza anitzeko TTS ahots klonazioarekin, aurrezarritako ahotsak eta ahots diseinua testutik.

Garatzailea: Alibaba (Qwen) · Lizentzia: Apache 2.0

Saiatu.

VieNeu-TTS-v2VieNeu-TTS-v2 Lehenetsia

Vietnamera + ingelesa kode-aldatze TTS, 7 aurrezarritako ahots eta zero-shot ahots klonatzearekin. PUZ soilik, GPUrik ez.

Garatzailea: Phạm Nguyễn Ngọc Bảo · Lizentzia: Apache 2.0

Saiatu.

Chatterbox TurboChatterbox Turbo Lehenetsia

Chatterbox azkarragoa, 200 ms-tik beherako latentzia eta etiketa paralinguistikoekin barreak, eztula eta abar adierazteko.

Garatzailea: Resemble AI · Lizentzia: MIT

Saiatu.

VoxCPMVoxCPM Lehenetsia

Tokenizerrik gabeko TTS-ak 44.1kHz-ko audioa ekoizten du testuinguru-kontzienteko paragrafo-koherentziarekin.

Garatzailea: OpenBMB · Lizentzia: Apache 2.0

Saiatu.

VibeVoiceVibeVoice Lehenetsia

Microsoft-en modeloa forma luzeko hiztun anitzeko edukietarako, podcastak eta audioliburuak adibidez.

Garatzailea: Microsoft · Lizentzia: MIT

Saiatu.

CosyVoice3CosyVoice3 Lehenetsia

Hurrengo belaunaldiko hizkuntza anitzeko TTS bi-streaming, emozio kontrol eta zero-shot ahots klonazioarekin.

Garatzailea: Alibaba (FunAudioLLM) · Lizentzia: Apache 2.0

Saiatu.

NAMAA Saudi TTSNAMAA Saudi TTS Lehenetsia

Lehen arabiar-saudiar TTS irekia. Saudiar dialektoa, Chatterbox-en kalitatezko ahots klonatzearekin.

Garatzailea: NAMAA Space · Lizentzia: MIT

Saiatu.

Darwin TTSDarwin TTS Lehenetsia

Qwen3-TTS aldaera cross-modal bat FFN pisuekin Qwen3-1.7B hizkuntza ereduarekin nahasita, hizkuntza anitzeko klonazio zehatzagoa lortzeko.

Garatzailea: FINAL-Bench · Lizentzia: Apache 2.0

Saiatu.

MOSS-TTSDMOSS-TTSD Lehenetsia

Hizlari anitzeko elkarrizketa-jarduera modeloa — podcast-estiloko elkarrizketak sortzen ditu, gehienez 5 hizlarirekin eta 60 minutuko audio koherentearekin.

Garatzailea: OpenMOSS · Lizentzia: Apache 2.0

Saiatu.

ChatterboxChatterbox Premium

Zero-shot ahots klonazio modernoa, Resemble AI-ren emozioen kontrolarekin.

Kalitatea:

Saiatu.

Tortoise TTSTortoise TTS Premium

Multi-ahots testu-hizketa arkitektura autoregresiboarekin kalitatean zentratzen da.

Kalitatea:

Saiatu.

StyleTTS 2StyleTTS 2 Premium

Hizkuntzalaritza historikoa hizkuntzen sorrera eta garapena aztertzen du, hizkuntzalaritza historikoaren ikuspegitik.

Kalitatea:

Saiatu.

OpenVoiceOpenVoice Premium

Berehalako ahots klonaketa, estilo, emozio eta akzentuen kontrol zorrotzarekin.

Kalitatea:

Saiatu.

Sesame CSMSesame CSM Premium

Hizkuntza naturala hizkera naturala da, hizkera naturala hizkera naturala da eta hizkera naturala hizkera naturala da.

Kalitatea:

Saiatu.

CosyVoice 2CosyVoice 2

Alibabaren streaming TTS eskalagarria, giza paritatearen naturaltasunarekin eta ia zero latentziarekin.

Hizkuntzak: en, zh, ja, ko, fr, de, it, es

Klonatu ahotsa

IndexTTS-2IndexTTS-2

Zero-shot TTS, emozioen kontrol finarekin eta adierazkortasun handiarekin.

Hizkuntzak: en, zh

Klonatu ahotsa

Spark TTSSpark TTS

TTS ahots klonaketa, emozio kontrolagarriekin eta hizketa-estiloarekin, aholkuen bidez.

Hizkuntzak: en, zh

Klonatu ahotsa

GPT-SoVITSGPT-SoVITS

Ahotsa klonatzeko TTS, edozein ahots erreplikatzen duena 5 segundoko audio batetik.

Hizkuntzak: en, zh, ja, ko

Klonatu ahotsa

ChatterboxChatterbox

Zero-shot ahots klonazio modernoa, Resemble AI-ren emozioen kontrolarekin.

Hizkuntzak: en

Klonatu ahotsa

Tortoise TTSTortoise TTS

Multi-ahots testu-hizketa arkitektura autoregresiboarekin kalitatean zentratzen da.

Hizkuntzak: en

Klonatu ahotsa

OpenVoiceOpenVoice

Berehalako ahots klonaketa, estilo, emozio eta akzentuen kontrol zorrotzarekin.

Hizkuntzak: en, zh, ja, ko, fr, es

Klonatu ahotsa

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnamera + ingelesa kode-aldatze TTS, 7 aurrezarritako ahots eta zero-shot ahots klonatzearekin. PUZ soilik, GPUrik ez.

Hizkuntzak: vi, en

Klonatu ahotsa

Chatterbox TurboChatterbox Turbo

Chatterbox azkarragoa, 200 ms-tik beherako latentzia eta etiketa paralinguistikoekin barreak, eztula eta abar adierazteko.

Hizkuntzak: en

Klonatu ahotsa

VoxCPMVoxCPM

Tokenizerrik gabeko TTS-ak 44.1kHz-ko audioa ekoizten du testuinguru-kontzienteko paragrafo-koherentziarekin.

Hizkuntzak: en, zh

Klonatu ahotsa

OuteTTSOuteTTS

LLMn oinarritutako TTS bat, PUZ, GPU edo nabigatzaile batean exekutatzen dena llama.cpp eta Transformers.js bidez.

Hizkuntzak: en

Klonatu ahotsa

Pocket TTSPocket TTS

Kyutai-ren 100M parametrodun modelo arina, ahots klonaketa lagin bakar batetik.

Hizkuntzak: en, fr

Klonatu ahotsa

CosyVoice3CosyVoice3

Hurrengo belaunaldiko hizkuntza anitzeko TTS bi-streaming, emozio kontrol eta zero-shot ahots klonazioarekin.

Hizkuntzak: en, zh, ja, ko, de, es, fr, it, ru

Klonatu ahotsa

NAMAA Saudi TTSNAMAA Saudi TTS

Lehen arabiar-saudiar TTS irekia. Saudiar dialektoa, Chatterbox-en kalitatezko ahots klonatzearekin.

Hizkuntzak: ar

Klonatu ahotsa

Darwin TTSDarwin TTS

Qwen3-TTS aldaera cross-modal bat FFN pisuekin Qwen3-1.7B hizkuntza ereduarekin nahasita, hizkuntza anitzeko klonazio zehatzagoa lortzeko.

Hizkuntzak: en, ko, ja, zh

Klonatu ahotsa

MOSS-TTSDMOSS-TTSD

Hizlari anitzeko elkarrizketa-jarduera modeloa — podcast-estiloko elkarrizketak sortzen ditu, gehienez 5 hizlarirekin eta 60 minutuko audio koherentearekin.

Hizkuntzak: en, zh

Klonatu ahotsa

Ming-Omni TTSMing-Omni TTS

0,5B hizketa-eredu omni-modal trinkoa inclusionAI-tik, fideltasun handiko 44,1 kHz irteera eta zero-shot ahots klonazioarekin.

Hizkuntzak: en, zh

Klonatu ahotsa

MOSS-TTS NanoMOSS-TTS Nano

100M MOSS-TTS aldaera txikia — arkitektura bera, 80x txikiagoa, free-layer latentzia.

Hizkuntzak: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Klonatu ahotsa

Garatzaileentzako lehen APIa

OpenAI-rekin bateragarria den REST APIa. Amaierako puntu bat, 22 modelo baino gehiago. Denbora errealeko aplikazioentzako streaming euskarria.

  • OpenAI-rekin bateragarria den formatua
  • TTS streaming-a denbora errealeko aplikazioetarako
  • Batch prozesamendua lan handietarako
  • Webhook jakinarazpenak
Ikusi API dokumentazioa
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Prezio sinple eta gardenak

Hasi libre. Eskalatu hazten zarenean.

Libre

$0

15.000 karaktere + 5.000/egunean

  • 7 modelo libre, Kokoro barne
  • 5.000 karaktere belaunaldiko
  • API sarbide barne
Izena eman doan

Abiarazlea

$9/% 1 MB

500 kreditu/hilabete

  • 22+ modelo guztiak
  • 100.000 karaktere belaunaldiko
  • Ahots klonaketa
Hasi
Ospetsuenak

Pro

$29/% 1 MB

2.000 kreditu/hilabete

  • Hasierako dena
  • API atzipena
  • Lehentasunaren prozesamendua
Eskuratu Pro

Negozioak

$99/% 1 MB

10.000 kreditu/hilean

  • Dena Pro-n
  • Bulk APIa
  • Lehentasunaren ilara
Eskuratu negozioa

Ikusi plan guztiak, kreditu-paketeak barne →

Maiz egiten diren galderak

TTS.ai adimen artifizialeko ahots-plataformarik osoena da, 22+ testu-hizketa eredu, ahots-klonaketa, hizketa-testu eta audio-tresna eskaintzen dituena. Eredu guztiak kode irekikoak dira, hornitzaileen blokeorik gabe.

Bai! TTS.aik Kokoro, Piper, VITS eta MeloTTS ereduekin doako testu-hizketa eskaintzen du. Ez da konturik behar. Izena eman 15.000 karaktere doan lortzeko eta eredu guztiak erabiltzeko. Ordainpeko planak $9/hilean hasten dira.

Abiadura hobetzeko, erabili Kokoro edo Piper. Kalitatea hobetzeko, saiatu CosyVoice 2 edo StyleTTS 2. Ahotsa klonatzeko, erabili Chatterbox edo GPT-SoVITS. Elkarrizketarako, erabili Dia TTS. Saiatu testu berean hainbat eredu konparatzen.

Bai. OpenAI-rekin bateragarria den REST APIa TTS, STT, ahots klonaketa eta audio-tresnetarako. Plan guztietan dago, doakoa barne, eta mailak eskalatzen dituen abiadura-mugak ditu (Doakoa: 10 eskaera/min, Lite: 20, Hasierakoa: 30, Pro: 60, Negoziokoa: 300). Ikusi dokumentazioa hemen: tts.ai/api/.

Ahots-kalitatea modeloaren arabera aldatzen da. CosyVoice 2, StyleTTS 2 eta Chatterbox bezalako premium-modeloek ia giza-kalitatea duten hitzak sortzen dituzte, intonazio eta emozio naturalekin. Kokoro bezalako modelo libreek kalitate bikaina eskaintzen dute kasu gehienetan.

TTS.ai-k 30 hizkuntza baino gehiago onartzen ditu bere modelo-liburutegian. Ingelesa da gehien onartzen den hizkuntza, baina CosyVoice 2 bezalako modeloek txinera, japoniera eta koreera onartzen dituzte; GPT-SoVITS-ek txinera, japoniera, koreera eta ingelesa kudeatzen ditu; eta MeloTTS-ek ingelesa, gaztelania, frantsesa, txinera, japoniera eta koreera onartzen ditu.

Bai. Prozesamendu guztiak gure GPU zerbitzari dedikatuetan gertatzen dira. Ez dugu zure testu-sarrera edo sortutako audioa gordetzen entregatu ondoren. Klonatzeko igotako ahots-laginak uneko saiorako bakarrik erabiltzen dira eta ez dira gordetzen. Inoiz ez ditugu zure datuak hirugarrenekin partekatzen edo ereduak entrenatzeko erabiltzen.

Bai. TTS.ai-n sortutako audio guztiak zureak dira erabilera komertzialerako, YouTubeko bideoak, podcastak, audioliburuak, aplikazioak, iragarkiak eta produktuak barne. Gure ereduak kode irekikoak dira, baimendutako lizentziapean (MIT, Apache 2.0). Ez da errentagarritasunik edo aitorpenik behar.

TTS.ai-k WAV formatuan sortzen du audioa lehenespenez, kalitate maximoa lortzeko. MP3, FLAC, OGG edo M4A formatura bihur dezakezu Audio Converter tresna dohainik erabiliz. APIak onartzen du irteera-formatu nahiagoa zuzenean eskaeran zehaztea.

Kargatu klonatu nahi duzun ahotsaren audio-lagin labur bat (5 segundo gutxienez), eta idatzi edozein testu ahots horretan hizketa sortzeko. Chatterbox, GPT-SoVITS eta CosyVoice 2 ereduek ahots-klonazioa onartzen dute. Ahots klonatuak tonua, azentu eta hizketa-estiloa hartzen ditu.

Libreko modeloek (Kokoro, Piper, VITS, MeloTTS) ez dute konturik behar eta zero kreditu balio dute. Modelo estandarrek (2 kreditu/1.000 karaktere) Bark, CosyVoice 2, F5-TTS eta Dia dituzte. Premium modeloek (4 kreditu/1.000 karaktere) OpenVoice, Chatterbox, StyleTTS 2 eta Tortoise dituzte. Ordaindutako modeloek, oro har, kalitate handiagoa, ahots gehiago eta ezaugarri gehigarriak eskaintzen dituzte, hala nola ahotsaren klonaketa.

Bai. APIak batch prozesamendua onartzen du testu-hizketa bolumen handiak bihurtzeko. Bidali eskaera anitz eta eskuratu emaitzak asinkronoki lan-UUIDak erabiliz. Negozio-planak (99 $/hilean) eta goragokoek lehentasun-ilara-sarbidearekin batch prozesamendu azkarragoa dute. Audioliburu ekoizpenerako, ikastaro-edukietarako eta ahots-proiektu handietarako ezin hobea.
4.1/5 (42)

Zer hobetu dezakegu? Zure iritziak arazoak konpontzen laguntzen digu.

Hasi AI ahotsa erabiltzen gaur

Bat egin TTS.ai erabiltzen duten sortzaile, garatzaile eta enpresekin