Vapaa tekoäly Teksti puheenaiheeksi

82M-parametrit Ultranopeat Ilmaisevat äänet Monikielinen Tukien virtaviivaistaminen

Kevyt 82M parametrimalli, joka tuottaa studiolaatuista puhetta, jolla on nopea päätelmä.

Nopea · 1.5GB VRAM Kokeile.

Piper

CPU-ystävällinen Offline-kytkentäkykyinen 100+ ääntä Yli 35 kieltä SSML:n tuki

Nopea paikallinen neuroteksti puhejärjestelmään optimoitu Vadelma Pi:lle ja sulautetuille laitteille.

Nopea · 0 (CPU only) VRAM Kokeile.

VITS

Pääte-pääte-synteesi Luonnollinen prosody Nopea päätelmä Useita puhujia

Ehdollinen variaatio-automaattikoodaaja, jolla on advertikaalioppimista tekstistä ääneen.

Nopea · 1GB VRAM Kokeile.

MeloTTS

CPU-optimoitu Monikielinen Useita aksentteja Tuotantovalmiit Alhainen latenssi

Korkealaatuinen monikielinen tekstistä ääneen -ohjelma, joka toimii prosessorilla pienellä viiveellä.

Nopea · 0.5GB (GPU optional) VRAM Kokeile.

Bark

Äänitehosteet Nauraminen/huumaaminen Musiikkisukupolvi Yli 100 puhujaa Monikielinen

Transformer-pohjainen teksti-audio-malli, joka tuottaa realistisia puhe-, musiikki- ja äänitehosteita.

Hitaasti · 5GB VRAM Kokeile.

Bark Small

Kevyt Nopeampi kuin täysi Bark Tunteellinen puhe Monikielinen

Kevyempi versio Barkista nopeammalla päättelyllä ja pienemmällä muistinkäytöllä.

Keskikoko · 2GB VRAM Kokeile.

CosyVoice 2

Virtaus Ei laukausta -kloonaus Ristiinkielinen Tunteiden hallinta Ihmispariteetti

Alibaban skaalautuva suoratoisto TTS:n ihmispariteetilla ja lähes nollan latenssilla.

Dia TTS

Monikielisyys Dialog-sukupolvi Luonnollinen kääntyminen Tunteellinen ilme 1.6B-parametrit

Monikielisten dialogien sukupolven malli, joka luo luonnollisia keskusteluja puhujien välillä.

Parler TTS

Äänikuvaus Luonnollinen kielenkäyttö Joustava äänenluonti Ennakkoääniä ei tarvita

Kuvaile haluamaasi ääntä luonnollisella kielellä, ja Parler luo sopivan puheen.

Indic Parler TTS

11 Intian kieltä Äänikuvaus Luonnollinen kielenkäyttö Aito indikaattori lausuu

Korkeatasoista puhetta 8+ Intian kielelle, joilla on luontainen ääniohjaus.

Hitaasti · 8GB VRAM Kokeile.

KhanomTan TTS

Thaimaan TTS Useita puhujia YourTTS-arkkitehtuuri Kaupallinen turvallisuuslisenssi

Thai-ensi-äänestää-äänestä-äänenvalinnalla.

Nopea · 2GB VRAM Kokeile.

IndexTTS-2

Tunteiden hallinta Zero-shot Emotion vektorit Ilmeinen puhe Hienorakeinen ohjaus

Zero-shot TTS, hienorakeinen tunteiden hallinta ja suuri ilmaisukyky.

Spark TTS

Äänien kloonaus Tunteiden hallinta Tyylien hallinta Prompt-pohjainen Viiden sekunnin kloonaus

Äänikloonaus TTS:n ohjattavalla tunteella ja puhetyylillä kehotuksilla.

GPT-SoVITS

Viiden sekunnin kloonaus Laulava ääni Harvat laukaukset -oppiminen Korkea uskollisuus Ristiinkielinen

Vain harvan kuvan ääni kloonaa TTS-ääntä, joka jäljittelee ääntä vain viiden sekunnin ääninopeudesta.

Hitaasti · 6GB VRAM Kokeile.

Orpheus

Ihmistason tunteet 100K-tuntinen harjoittelu Luonnollinen painotus Ilmeinen puhe

Ihmistason tunneperäinen TTS-malli kouluttautui 100 000 tunnin puhedataan.

Chatterbox

Ei laukausta -kloonaus Tunteiden hallinta Korkea uskollisuus Tyylinsiirto Yhden näytteen kloonaus

Huippuluokan nollaäänikloonaus ja tunteiden hallinta tekoälystä.

Tortoise TTS

Korkein laatu Moniääninen DALL-E-arkkitehtuuri Äänien kloonaus Autoreagoiva

Moniääninen tekstipuhe keskittyi laatuun autoregressiivisen arkkitehtuurin avulla.

Hitaasti · 8GB VRAM Kokeile.

StyleTTS 2

Inhimillinen taso Tyylidiffuusio Vastavuoroinen koulutus Luonnollinen vaihtelu Korkea uskollisuus

Ihmistason tekstistä puheenaiheeksi tyylin levittämisen ja vastakkaisen treenin avulla.

OpenVoice

Välitön kloonaus Äänen muuntaminen Tunteiden hallinta Accent-ohjaus Monikielinen

Välitön äänenkloonaus, jolla hallitaan rakeisesti tyyliä, tunteita ja korostusta.

Qwen3 TTS

9 ennakkoääntä Äänisuunnittelu tekstistä Tunteiden hallinta 10 kieltä

Alibaban monikielinen TTS, jossa on ennakkoäänet ja äänisuunnittelu tekstistä.

Keskikoko · 7GB VRAM Kokeile.

VieNeu-TTS-v2

7 ennakkoääntä (pohjoinen + eteläinen aksentti) En-Vi-koodinvaihto Äänikloonaus (3-5s reference) Podcast- tai monikaiutintuki Ainoastaan prosessori – GPU:ta ei tarvita

Vietnam + Englantilainen koodinvaihtaja TTS, jossa 7 ennalta asetettua ääntä ja nollalaukausäänen kloonaus. Vain prosessori, ei GPU:ta.

Nopea · CPU VRAM Kokeile.

Sesame CSM

Keskustelu Luonnollinen ajoitus Kääntyminen Takakanava 1B-parametrit

Keskustelupuhemalli luo luonnollista vuoropuhelua sopivalla ajoituksella ja tunteella.

Hitaasti · 8GB VRAM Kokeile.

Chatterbox Turbo

Alle 200 millimetrin latenssi Paralingvistiset tunnisteet 6x reaaliajassa Äänien kloonaus Vesileima

Nopeampi Chatterbox, jossa on alle 200 ms latenssi ja paralinguistiset tunnisteet nauramiseen, yskimiseen ja muuhun.

Nopea · 2GB VRAM Kokeile.

VoxCPM

44.1kHz-ääni Tokenizer-vapaa Monikielinen kloonaus Kontekstitietoisuus LoRAn hienosäätö

Tokenizer-vapaa TTS tuottaa 44.1kHz-ääntä, joka on asiayhteydestään tietoinen.

Nopea · 4GB VRAM Kokeile.

Kani TTS 2

3GB VRAM Ultranopeat Kevyt NanoCodec Vapaa

Ultrakevyt 400M englantilainen TTS-malli käynnissä vain 3GB VRAM-puhelimella.

Nopea · 3GB VRAM Kokeile.

OuteTTS

CPU-päätelmä Selainpäätelmä Useita taustoja Kaiutinprofiilit

LLM-pohjainen TTS, joka toimii CPU:lla, GPU:lla tai selaimella lama.cpp:n ja Transformers.js:n kautta.

Hitaasti · 2GB VRAM Kokeile.

VibeVoice

Monikielisyys Enintään 90 min Podcast-sukupolvi Puheenjohdonmukaisuus 200 metrin suoratoisto

Microsoft-malli pitkän muotoiselle monikieliselle sisällölle, kuten podcastille ja äänikirjoille.

Nopea · 4GB VRAM Kokeile.

Pocket TTS

100M-parametrit CPU-päätelmä Äänien kloonaus Yhden näytteen kloonaus Edge-valmius

Kyutain kevyt 100 metrin parametrimalli äänen kloonauksella yhdestä näytteestä.

Nopea · 1GB VRAM Kokeile.

Kitten TTS

Vain CPU-päätelmä Alle 80MB mallikoko 8 sisäänrakennettua ääntä Nopeudensäätö ONNX-pohjainen 24kHz ulostulo

Ultrakevyt TTS alle 80 Mt. Toimii prosessorilla ilman GPU:ta.

Nopea · 0GB VRAM Kokeile.

CosyVoice3

Kaksoisvirtaus Tunteiden hallinta Äänien kloonaus Nopeus-/tilavuussäätö Ohjeita seuraaville:

Seuraavan sukupolven monikielinen TTS, jossa on bi-streaming, tunteiden hallinta ja nollalaukausäänen kloonaus.

Nopea · 4GB VRAM Kokeile.

NAMAA Saudi TTS

Saudi-Arabian murre Nykyaikainen arabia Äänien kloonaus nollalla Tunteiden hallinta Alkuasukasäänten lausuminen

Ensimmäinen avoin saudiarabialainen TTS. Native Saudi murre Chatterbox-laadukas äänikloonaus.

Keskikoko · 6GB VRAM Kokeile.

Darwin TTS

Äänien kloonaus Ristiinkielinen FFN-merkitty 4 ydinkieltä Qwen3 selkäranka

Cross-modaalisella Qwen3-TTS-variantilla FFN-painoja sekoitettuna Qwen3-1.7B-kielimallista terävämpään monikieliseen kloonaukseen.

Keskikoko · 7GB VRAM Kokeile.

MOSS-TTSD

Monikielistä vuoropuhelua Enintään 5 puhujaa 60min yhtenäinen ääni Äänien kloonaus Podcast-optimoitu

Monikielisen dialogin jatkomalli – synnyttää podcast-tyylisiä keskusteluja, joissa on jopa viisi puhujaa ja 60 minuuttia johdonmukaista ääntä.

Keskikoko · 12GB VRAM Kokeile.

Ming-Omni TTS

44.1kHz ulostulo Äänien kloonaus Tunteiden hallinta Dialect-ohjaus BGM-sukupolvi Kompakti 0.5B

Kompakti 0.5B-modaalipuhemalli include-AI:lta, jossa on korkea uskollisuus 44.1kHz:n ulostulo ja nollalaukausäänen kloonaus.

Keskikoko · 3GB VRAM Kokeile.

MOSS-TTS Nano