Free AI Testutik hizketara

82M parametroak Oso azkarra Ahots adierazkorrak Hizkuntza anitzekoa Streaming euskarria

82M parametrodun modelo arina, estudio-kalitateko hizketa ematen duena, inferentzia azkarrarekin.

Azkarra · 1.5GB VRAM Saiatu.

Piper

PUZarentzako lagungarria Lineaz kanpoko gaitasuna 100+ ahots 30 hizkuntza baino gehiago SSML euskarria

Testutik hizketarako sistema neuronal azkarra eta lokala, Raspberry Pi eta gailu kapsulatuetarako optimizatua.

Azkarra · 0 (CPU only) VRAM Saiatu.

VITS

Amaieratik amaierara sintetizazioa Prosodia naturala Inferentzia azkarra Hainbat bozgorailu

Testu-hizketarako autokodetzaile aldakor baldintzatua, ikaskuntza aurkakoarekin, amaieratik amaierara.

Azkarra · 1GB VRAM Saiatu.

MeloTTS

PUZ- optimizatua Hizkuntza anitzekoa Hainbat azentu Produkziorako prest Atzerapen txikia

Kalitate handiko hizkuntz anitzeko testu-hizketa, PUZ-an exekutatzen dena, latentzia minimoarekin.

Azkarra · 0.5GB (GPU optional) VRAM Saiatu.

Bark

Soinu-efektuak Barrez/hasperenka Musika sortzea 100+ hiztun Hizkuntza anitzekoa

Transformadorean oinarritutako testu-audio eredua, hizketa, musika eta soinu-efektu errealistak sortzen dituena.

Motela · 5GB VRAM Saiatu.

Bark Small

Arina Azala osoa baino azkarragoa Hizkuntza emozionala Hizkuntza anitzekoa

Bark-en bertsio arinagoa, inferentzia azkarragoa eta memoria-erabilera txikiagoa.

Ertaina · 2GB VRAM Saiatu.

CosyVoice 2

Korrontea Zero-shot klonatzea Hizkuntzaz gaindikoa Emozioen kontrola Giza paritatea

Alibabaren streaming TTS eskalagarria, giza paritatearen naturaltasunarekin eta ia zero latentziarekin.

Dia TTS

Hainbat bozgorailu Elkarrizketa-koadroa sortzea Txanda-hartze naturala Adierazpen emozionala 1.6B parametroak

Multi-hiztun elkarrizketa sortzeko eredua, hiztun arteko elkarrizketak sortzen dituena.

Parler TTS

Ahotsaren azalpena Hizkuntza naturalaren kontrola Ahots sorkuntza malgua Ez da aurrezarritako ahotsik behar

Deskribatu nahi duzun ahotsa hizkuntza naturalean eta Parler-ek bat datorren hizketa sortuko du.

Indic Parler TTS

11 hizkuntzatan. Ahotsaren azalpena Hizkuntza naturalaren kontrola Benetako indiar ahoskatzea

Kalitate handiko hizketa 8+ indiar hizkuntzatan, ahots naturalaren kontrolarekin.

Motela · 8GB VRAM Saiatu.

KhanomTan TTS

Thaiera TTS Hainbat bozgorailu YourTTS arkitektura Lizentzia segurua

Thai-lehen testu-hizketa ahots aukeraketa batekin.

Azkarra · 2GB VRAM Saiatu.

IndexTTS-2

Emozioen kontrola Zero-shot Emozio-bektoreak Hitz adierazkorrak Granulazio fineko kontrola

Zero-shot TTS, emozioen kontrol finarekin eta adierazkortasun handiarekin.

Spark TTS

Ahotsa klonatzea Emozioen kontrola Estilo-kontrola Instrukzioan oinarritua 5 segundoko klonaketa

TTS ahots klonaketa, emozio kontrolagarriekin eta hizketa-estiloarekin, aholkuen bidez.

GPT-SoVITS

5 segundoko klonaketa Ahots abeslaria Ikasi tiro gutxirekin Fidagarritasun handia Hizkuntzaz gaindikoa

Ahotsa klonatzeko TTS, edozein ahots erreplikatzen duena 5 segundoko audio batetik.

Motela · 6GB VRAM Saiatu.

Orpheus

Giza mailako emozioa 100K orduko entrenamendua Enfasi naturala Hitz adierazkorrak

100.000 orduko hizketa-datuetan trebatutako giza mailako TTS emozionalaren eredua.

Chatterbox

Zero-shot klonatzea Emozioen kontrola Fidagarritasun handia Estilo-transferentzia Lagin bakarreko klonaketa

Zero-shot ahots klonazio modernoa, Resemble AI-ren emozioen kontrolarekin.

Tortoise TTS

Kalitaterik onena Ahots anitzekoa DALL-E arkitektura Ahotsa klonatzea Autoerregresioa

Multi-ahots testu-hizketa arkitektura autoregresiboarekin kalitatean zentratzen da.

Motela · 8GB VRAM Saiatu.

StyleTTS 2

Giza-maila Estilo difusioa Aurkako entrenamendua Aldaketa naturala Fidagarritasun handia

Hizkuntzalaritza historikoa hizkuntzen sorrera eta garapena aztertzen du, hizkuntzalaritza historikoaren ikuspegitik.

OpenVoice

Berehalako klonaketa Ahots bihurketa Emozioen kontrola Akzentuen kontrola Hizkuntza anitzekoa

Berehalako ahots klonaketa, estilo, emozio eta akzentuen kontrol zorrotzarekin.

Qwen3 TTS

Ahotsa klonatzea 9 aurrezarritako ahots Ahots-diseinua testutik Emozioen kontrola

Alibabaren hizkuntza anitzeko TTS ahots klonazioarekin, aurrezarritako ahotsak eta ahots diseinua testutik.

Ertaina · 7GB VRAM Saiatu.

VieNeu-TTS-v2

7 aurrezarritako ahots (iparraldeko + hegoaldeko azentuekin) En-Vi kode-aldaketa Ahots klonaketa (3-5s erreferentzia) Podcast / bozgorailu anitzeko euskarria PUZ soilik — GPUrik ez da behar

Vietnamera + ingelesa kode-aldatze TTS, 7 aurrezarritako ahots eta zero-shot ahots klonatzearekin. PUZ soilik, GPUrik ez.

Azkarra · CPU VRAM Saiatu.

Sesame CSM

Elkarrizketa Denbora naturala Txanda hartzea Atzeko kanala 1B parametroak

Hizkuntza naturala hizkera naturala da, hizkera naturala hizkera naturala da eta hizkera naturala hizkera naturala da.

Motela · 8GB VRAM Saiatu.

Chatterbox Turbo

200 ms azpiko atzerapena Paralinguistikoak 6x denbora errealean Ahotsa klonatzea Ur-marka

Chatterbox azkarragoa, 200 ms-tik beherako latentzia eta etiketa paralinguistikoekin barreak, eztula eta abar adierazteko.

Azkarra · 2GB VRAM Saiatu.

VoxCPM

44.1kHz audioa Tokenizer-free Hizkuntza arteko klonaketa Testuinguruaren araberakoa LoRA doitzea

Tokenizerrik gabeko TTS-ak 44.1kHz-ko audioa ekoizten du testuinguru-kontzienteko paragrafo-koherentziarekin.

Azkarra · 4GB VRAM Saiatu.

Kani TTS 2

3GB VRAM Oso azkarra Ahotsa klonatzea Arina NanoCodec

400M ultra-arina, 3GB VRAM soilik erabiltzen duena, ahots klonazioaren laguntzarekin.

Azkarra · 3GB VRAM Saiatu.

OuteTTS

PUZaren inferentzia Arakatzailearen inferentzia Hainbat motor Ahoskatzeko profilak

LLMn oinarritutako TTS bat, PUZ, GPU edo nabigatzaile batean exekutatzen dena llama.cpp eta Transformers.js bidez.

Motela · 2GB VRAM Saiatu.

VibeVoice

Hainbat bozgorailu 90 min. arte Podcast sorkuntza Hizlariaren koherentzia 200ms korrontea

Microsoft-en modeloa forma luzeko hiztun anitzeko edukietarako, podcastak eta audioliburuak adibidez.

Azkarra · 4GB VRAM Saiatu.

Pocket TTS

100M parametroak PUZaren inferentzia Ahots klonaketa Lagin bakarreko klonaketa Edge-ready

Kyutai-ren 100M parametrodun modelo arina, ahots klonaketa lagin bakar batetik.

Azkarra · 1GB VRAM Saiatu.

Kitten TTS

PUZ-soilik inferentzia 80MB baino gutxiagoko modeloaren tamaina 8 ahots barneratu Abiadura kontrola ONNX-n oinarritua 24kHz irteera

TTS ultra-arina, 80MB baino gutxiagokoa. PUZ batean exekutatzen da, GPUrik gabe.

Azkarra · 0GB VRAM Saiatu.

CosyVoice3

Bi korronte Emozioen kontrola Ahots klonaketa Abiadura/bolumen kontrola Agindua jarraitzen du

Hurrengo belaunaldiko hizkuntza anitzeko TTS bi-streaming, emozio kontrol eta zero-shot ahots klonazioarekin.

Azkarra · 4GB VRAM Saiatu.

NAMAA Saudi TTS

Arabiar arabiera Arabiar estandar modernoa Zero-shot ahots klonaketa Emozioen kontrola Jatorrizko ahoskatzea

Lehen arabiar-saudiar TTS irekia. Saudiar dialektoa, Chatterbox-en kalitatezko ahots klonatzearekin.

Ertaina · 6GB VRAM Saiatu.

Darwin TTS

Ahots klonaketa Hizkuntza-artekoa FFN- nahasia 4 hizkuntza Qwen3 bizkarrezurra

Qwen3-TTS aldaera cross-modal bat FFN pisuekin Qwen3-1.7B hizkuntza ereduarekin nahasita, hizkuntza anitzeko klonazio zehatzagoa lortzeko.

Ertaina · 7GB VRAM Saiatu.

MOSS-TTSD

Hizlari anitzeko elkarrizketa 5 bozgorailu arte 60min audio koherentea Ahots klonaketa Podcast optimizazioak

Hizlari anitzeko elkarrizketa-jarduera modeloa — podcast-estiloko elkarrizketak sortzen ditu, gehienez 5 hizlarirekin eta 60 minutuko audio koherentearekin.

Ertaina · 12GB VRAM Saiatu.

Ming-Omni TTS

44. 1kHz irteera Ahots klonaketa Emozioen kontrola Dialekto-kontrola BGM sorkuntza Konpaktua 0. 5B

0,5B hizketa-eredu omni-modal trinkoa inclusionAI-tik, fideltasun handiko 44,1 kHz irteera eta zero-shot ahots klonazioarekin.

Ertaina · 3GB VRAM Saiatu.

MOSS-TTS Nano