Laisva AI Tekstas į kalbą

82M parametrai Ultra greita Išreikšti balsai Daugiakalbiai Srautų palaikymas

Lengvas 82M parametro modelis, suteikiantis studijos-kokybės kalbą su blazing-fast inference.

Greitas · 1.5GB VRAM Pabandyk

Piper

CPU patogus Neprisijungęs 100 + balsai 35+ kalbos BPML palaikymas

Greitas, vietinis nervinis tekstas kalbėjimo sistema optimizuota Aviečių Pi ir įterptinių įrenginių.

Greitas · 0 (CPU only) VRAM Pabandyk

VITS

Sintezė nuo galo iki galo Gamtinė prozodija Greitas pasisakymas Keletas kalbėtojų

Sąlyginis variantinis automatinis koderis su priešpriešiniu mokymusi, skirtas visam tekstui-to-speech.

Greitas · 1GB VRAM Pabandyk

MeloTTS

CPU optimizuotas Daugiakalbiai Keli akcentai Pasirengta gamybai Žema latentinė

Aukštos kokybės daugiakalbis tekstas-į-speech, kuris veikia CPU su minimaliu latentiniu.

Greitas · 0.5GB (GPU optional) VRAM Pabandyk

Bark

Garso efektai Juokimasis/dygimas Muzikos karta 100+ kalbėtojų Daugiakalbiai

Transformatorių paremtas tekstų-audio modelis, kuris sukuria realų kalbos, muzikos ir garso efektai.

Lėtas · 5GB VRAM Pabandyk

Bark Small

Lengvas Greitesnė už pilną mėšlą Emocinė kalba Daugiakalbiai

Lengvesnė versija bark su greičiau indo ir mažesnio atminties naudojimo.

Vidutinis · 2GB VRAM Pabandyk

CosyVoice 2

Srautas Nulinis klonavimas Kryžminės kalbos Emocinė kontrolė Žmogaus paritetas

Alibaba masyviai transliuojama TTS su žmogaus pariteto natūralumo ir beveik nulinės latentiškumo.

Dia TTS

Daugiakalbis garsiakalbis Dialogo generavimas Natūralus posūkis Emocinė išraiška 1.6B parametrai

Kelių garsiakalbių dialogo generavimo modelis, kuris sukuria natūralius pokalbius tarp garsiakalbių.

Parler TTS

Balso aprašymas Gamtinių kalbų kontrolė Lankstus balso kūrimas Nereikalingi iš anksto nustatyti balsai

Apibūdinkite norimą balsą natūralia kalba, o Parler generuoja atitinkamą kalbą.

Indic Parler TTS

11 indėnų kalbų Balso aprašymas Gamtinių kalbų kontrolė Autentiškas indikavimas

Aukštos kokybės kalba 8+ indėnų kalbomis su natūralios kalbos balso valdymo.

Lėtas · 8GB VRAM Pabandyk

KhanomTan TTS

Thai TTS Keletas kalbėtojų YourTTS architektūra Komercinio saugumo licencija

Thai-pirmas tekstas-į-speech su garsiakalbio balsų pasirinkimas.

Greitas · 2GB VRAM Pabandyk

IndexTTS-2

Emocinė kontrolė Nulis-shot Emociniai vektoriai Išreikšta kalba Smulkių grūdų kontrolė

Zero-shot TTS su plono grūdo emocijų kontrolė ir didelis išraiškingumas.

Spark TTS

Balso klonavimas Emocinė kontrolė Stilio kontrolė Neatidėliotinai pagrįsta 5 sekundės klonavimas

Balso klonavimas TTS su reguliuojamas emocijų ir kalbėjimo stilius per paspaudimus.

GPT-SoVITS

5 sekundės klonavimas Garso dainavimas Nedaugkartinis mokymasis Didelis patikimumas Kryžminės kalbos

Nedaug fotografinio balso klonavimo TTS, kuris kartoja bet kokį balsą vos iš 5 sekundžių garso.

Lėtas · 6GB VRAM Pabandyk

Orpheus

Žmogaus lygmens emocijos 100K valandų mokymas Natūralus dėmesys Išreikšta kalba

Žmogaus lygio emocinių TTS modelis apmokytas 100K kalbos valandų duomenimis.

Chatterbox

Nulinis klonavimas Emocinė kontrolė Didelis patikimumas Stilio perdavimas Atskiro mėginio klonavimas

Šiuolaikinės nulinės fotografijos balso klonavimas su emocijų reguliavimu iš Reemble AI.

Tortoise TTS

Aukščiausia kokybė Daugiabalsiai DALL-E architektūra Balso klonavimas Autoregesyvi

Daugiabalsis tekstas-to-speech sutelktas į kokybę su autoregesyvios architektūros.

Lėtas · 8GB VRAM Pabandyk

StyleTTS 2

Žmogaus lygmuo Stilio difuzija Priešpriešinis mokymas Natūralus variantas Didelis patikimumas

Žmogaus lygio tekstas-į-speech per stiliaus difuzijos ir priešpriešinio mokymo.

OpenVoice

Momentinis klonavimas Balso konvertavimas Emocinė kontrolė Akimirkinė kontrolė Daugiakalbiai

Momentinis balso klonavimas su granuliuotu reguliavimu per stilių, emocijas, ir akcentą.

Qwen3 TTS

9 iš anksto nustatyti balsai Balso dizainas iš teksto Emocinė kontrolė 10 kalbų

Alibaba daugiakalbė TTS su iš anksto nustatytų balsų ir balso dizainas iš teksto.

Vidutinis · 7GB VRAM Pabandyk

VieNeu-TTS-v2

7 iš anksto nustatyti balsai (Šiaurės + Pietiniai akcentai) En-Vi kodo perjungimas Balso klonavimas (3-5s nuoroda) Podcast / daugelio garsiakalbių palaikymas Tik CPU – nereikia GPU

Vietnamiečių + anglų kodas-switching TTS su 7 iš anksto nustatyti balsai ir nulinės fotografijos balso klonavimas. CPU tik, nereikia GPU.

Greitas · CPU VRAM Pabandyk

Sesame CSM

Pokalbis Natūralus laikas Apyvarta Atgalinis kanalas 1B parametrai

Pokalbio kalbos modelis generuoja natūralų dialogą su tinkamu laiku ir emocijomis.

Lėtas · 8GB VRAM Pabandyk

Chatterbox Turbo

Iki 200 m latentiškumo Paralingvistinės žymos 6x realiu laiku Balso klonavimas Vandens žymėjimas

Greičiau Chatterbox su sub-200m latentiškumo ir paralingvistinės žymės juokams, kosulys, ir daugiau.

Greitas · 2GB VRAM Pabandyk

VoxCPM

44.1kHz garsas Tokenizatoriaus neturintis Kryžminis klonavimas Kontekstas LORA patikslinimas

TTS be tokenaizerio gamyba 44.1kHz garso su kontekste išmaniosios dalies konsistencija.

Greitas · 4GB VRAM Pabandyk

Kani TTS 2

3GB VRAM Ultra greita Lengvas Nanokodasc Neapmuitinama

Ultra lengvo svorio 400M Anglų TTS modelis veikia tik 3GB VRAM.

Greitas · 3GB VRAM Pabandyk

OuteTTS

CPU išvados Naršyklės išvados Kelios realizacijos Garsiakalbių profiliai

LLM pagrindu TTS, kurie veikia CPU, GPU, arba naršyklė per llama.cpp ir Transformers.js.

Lėtas · 2GB VRAM Pabandyk

VibeVoice

Daugiakalbis garsiakalbis Iki 90 min. Tinklalaidės generavimas Garsiakalbio nuoseklumas 200 m srovė

Microsoft modelis ilgai formuojamo daugiakalbio turinio, pavyzdžiui, podcast ir garso knygų.

Greitas · 4GB VRAM Pabandyk

Pocket TTS

100M parametrai CPU išvados Balso klonavimas Klonavimas viename mėginyje Kraštas paruoštas

Mažo svorio 100M parametro modelis Kyutai su balso klonavimu iš vieno mėginio.

Greitas · 1GB VRAM Pabandyk

Kitten TTS

Tik CPU išvados Mažiau nei 80MB modelio dydis 8 įmontuoti balsai Greičio reguliatorius ONNX pagrįstas 24kHz išvestis

Ultra lengvo svorio TTS iki 80MB. Vyksta su procesoriumi be GPU.

Greitas · 0GB VRAM Pabandyk

CosyVoice3

Dujotiekis Emocinė kontrolė Balso klonavimas Greičio/tūrio reguliatorius Nurodymai po

Naujos kartos daugiakalbiai TTS su dvipusiu srautu, emocijų valdymu ir nuliniu balso klonavimu.

Greitas · 4GB VRAM Pabandyk

NAMAA Saudi TTS

Saudo Arabijos dialektas Šiuolaikinis standartas arabų Nulinis balso klonavimas Emocinė kontrolė Natūralus tarimas

Pirmas atviras Saudo Arabijos TTS. Native Saudo Arabijos dialektu su Chatterbox kokybės balso klonavimas.

Vidutinis · 6GB VRAM Pabandyk

Darwin TTS

Balso klonavimas Kryžminės kalbos FFN išblukęs 4 pagrindinės kalbos Qwen3 pagrindas

Kryžminis Qwen3-TTS variantas su FFN svoriais, sumaišytais iš Qwen3-1.7B kalbos modelio aštresniam daugiakalbiam klonavimui.

Vidutinis · 7GB VRAM Pabandyk

MOSS-TTSD

Kelių garsiakalbių dialogas Iki 5 kalbėtojų 60 min nuoseklus garsas Balso klonavimas Optimizuota tinklalaidė

Daugiakalbio dialogo tęsinio modelis – generuoti podcast tipo pokalbius su iki 5 garsiakalbiais ir 60 minučių nuoseklaus garso.

Vidutinis · 12GB VRAM Pabandyk

Ming-Omni TTS

44.1kHz išvestis Balso klonavimas Emocinė kontrolė Dialekto valdymas BGM generavimas Kompaktas 0.5B

Kompaktiškas 0.5B omni-modal kalbos modelis nuo inclusionAI su aukšto patikimumo 44.1kHz išvestimi ir nulinio atšvaito balso klonavimu.

Vidutinis · 3GB VRAM Pabandyk

MOSS-TTS Nano