Fri AI Tekst til tale

82M parametre Ultrahurtig Udtryksstemmer Flersproget Streaming- understøttelse

Letvægts 82M parameter model leverer studio-kvalitet tale med flammende hurtig inferens.

Hurtig · 1.5GB VRAM Prøv det.

Piper

CPU-venlig Offline i stand til 100+ stemmer 35+ sprog SSML-støtte

En hurtig, lokal neural tekst til talesystem optimeret til Raspberry Pi og indlejrede enheder.

Hurtig · 0 (CPU only) VRAM Prøv det.

VITS

Slut- til- slut- syntese Naturlig prosody Hurtig inferens Flere højttalere

Betinget variational autoencoder med adversarial læring for end-to-end tekst-til-tale.

Hurtig · 1GB VRAM Prøv det.

MeloTTS

CPU- optimeret Flersproget Flere accenter Produktionsklar Lav latenstid

Høj kvalitet flersproget tekst-til-tale, der kører på CPU med minimal latency.

Hurtig · 0.5GB (GPU optional) VRAM Prøv det.

Bark

Lydeffekter Latter/suk Musikproduktion 100+ højttalere Flersproget

Transformer-baseret tekst-til-audio model, der gener realistisk tale, musik og lydeffekter.

Langsom · 5GB VRAM Prøv det.

Bark Small

Letvægt Hurtigere end fuld Bark Følelsesmæssig tale Flersproget

Lettere version af Bark med hurtigere inferens og lavere hukommelsesforbrug.

Mellem · 2GB VRAM Prøv det.

CosyVoice 2

Streaming Nulskudskloning Tværsproget Følelseskontrol Menneskers ligeværdighed

Alibaba skalerbar streaming TTS med menneskelig-paritet naturlighed og nær-nul latency.

Dia TTS

Flerhøjttaler Dialoggenerering Naturlig turnus Følelsesmæssigt udtryk 1.6B-parametre

Multi-højttaler dialog generation model, der skaber naturlige samtaler mellem højttalere.

Parler TTS

Stemmebeskrivelse Naturlig sprogkontrol Fleksibelt taleskabelse Ingen forudindstillede stemmer nødvendig

Beskriv den stemme, du ønsker i naturligt sprog og Parler gener matchende tale.

Indic Parler TTS

11 indiske sprog Stemmebeskrivelse Naturlig sprogkontrol Autentisk indisk udtale

Højkvalitets tale til 8+ indiske sprog med naturlig sproglig stemmekontrol.

Langsom · 8GB VRAM Prøv det.

KhanomTan TTS

Thai TTS Flere højttalere YourTTS- arkitektur Kommerciel-sikker licens

Thai-første tekst-til-tale med et udvalg af højttalerstemmer.

Hurtig · 2GB VRAM Prøv det.

IndexTTS-2

Følelseskontrol Nulskud Følelsesvektorer udtryksfuld tale Finkornet kontrol

Zero-shot TTS med finkornet følelsesmæssig kontrol og høj ekspressivitet.

Spark TTS

Stemmekloning Følelseskontrol Stilstyring Promptbaseret 5-sekunders kloning

Stemmekloning TTS med styrbar følelse og talestil via prompter.

GPT-SoVITS

5-sekunders kloning Syngende stemme Få-shot læring Høj troskab Tværsproget

Få-shot stemme kloning TTS, der replikerer enhver stemme fra kun 5 sekunder af lyd.

Langsom · 6GB VRAM Prøv det.

Orpheus

Menneskelige følelser 100K timers træning Naturlig vægt udtryksfuld tale

Human-level emotionel TTS model trænet på 100K timers taledata.

Chatterbox

Nulskudskloning Følelseskontrol Høj troskab Stiloverførsel Enkeltprøvekloning

Den nyeste nul-shot stemmekloning med følelsesmæssig kontrol fra Resemble AI.

Tortoise TTS

Højeste kvalitet Flerfaktura DALL-E arkitektur Stemmekloning Autoregressiv

Multi-stemme tekst-til-tale fokuseret på kvalitet med autoregressiv arkitektur.

Langsom · 8GB VRAM Prøv det.

StyleTTS 2

Menneskeligt niveau Stildiffusion Advokatuddannelse Naturlig variation Høj troskab

Menneske-niveau tekst-til-tale gennem stil diffusion og adversarial uddannelse.

OpenVoice

Øjeblikkelig kloning Stemmekonvertering Følelseskontrol Accentkontrol Flersproget

Øjeblikkelig stemmekloning med granuleret kontrol over stil, følelser og accent.

Qwen3 TTS

9 forudindstillede stemmer Stemmedesign fra tekst Følelseskontrol 10 sprog

Alibaba's flersprogede TTS med forudindstillede stemmer og stemmedesign fra tekst.

Mellem · 7GB VRAM Prøv det.

VieNeu-TTS-v2

7 forudindstillede stemmer (nord + syd accenter) En-Vi-kodeskift Stemmekloning (3-5-reference) Podcast / multi- højttaler support CPU- kun! ingen GPU kræves

Vietnamesisk + engelsk kode-switching TTS med 7 forudindstillede stemmer og nul-shot stemme kloning. CPU-kun, ingen GPU kræves.

Hurtig · CPU VRAM Prøv det.

Sesame CSM

Samtale Naturlig timing Drejeomdrejning BackkanalName 1B-parametre

Konversationel talemodel skaber naturlig dialog med passende timing og følelser.

Langsom · 8GB VRAM Prøv det.

Chatterbox Turbo

Under 200ms latency Paralingvistisk tags 6x realtid Stemmekloning Vandmærkning

Hurtigere Chatterbox med sub-200ms latency og paralsprog tags til grin, hoste og meget mere.

Hurtig · 2GB VRAM Prøv det.

VoxCPM

44,1kHz lyd Tokenizer-fri Flersproget kloning Kontekstbevidst@ info: whatsthis LoRA finjustering

Tokenizer-fri TTS producerer 44,1kHz lyd med kontekst-aware afsnit konsistens.

Hurtig · 4GB VRAM Prøv det.

Kani TTS 2

3GB VRAM Ultrahurtig Letvægt NanoCodec Fri

Ultra-letvægt 400M English TTS model kører i kun 3GB VRAM.

Hurtig · 3GB VRAM Prøv det.

OuteTTS

CPU- inferens Browser- inferens Flere backends Højttalerprofiler

LLM-baserede TTS, der kører på CPU, GPU, eller browser via lama.cpp og Transformers.js.

Langsom · 2GB VRAM Prøv det.

VibeVoice

Flerhøjttaler Op til 90 min. Produktion af podcast Højttalerkonsistens 200ms streaming

Microsoft model til lang-form multi-højttaler indhold som podcasts og lydbøger.

Hurtig · 4GB VRAM Prøv det.

Pocket TTS

100M parametre CPU- inferens Stemmekloning Kloning af enkeltprøver Kant- klar

Letvægts 100M parametermodel af Kyutai med stemmekloning fra en enkelt prøve.

Hurtig · 1GB VRAM Prøv det.

Kitten TTS

CPU- kun- inferens Under 80MB modelstørrelse 8 indbyggede stemmer Hastighedskontrol ONNX-baseret 24kHz output

Ultra-letvægt TTS under 80MB. Kører på CPU uden GPU.

Hurtig · 0GB VRAM Prøv det.

CosyVoice3

Bistreaming Følelseskontrol Stemmekloning Hastigheds-/volumenregulering Instruktion efter

Næste generations flersprogede TTS med bi-streaming, følelsesmæssig kontrol og nul-shot stemme kloning.

Hurtig · 4GB VRAM Prøv det.

NAMAA Saudi TTS

saudiarabisk dialekt Moderne Standard Arabic Nul-shot stemme kloning Følelseskontrol Native udtale

Første åbne Saudi-arabiske TTS. Native Saudi dialekt med Chatterbox-kvalitet stemme kloning.

Mellem · 6GB VRAM Prøv det.

Darwin TTS

Stemmekloning Tværsproget FFN-benede 4 kernesprog Qwen3 rygrad

Cross-modal Qwen3-TTS variant med FFN vægte blandet fra Qwen3-1.7B sprogmodel for skarpere flersproget kloning.

Mellem · 7GB VRAM Prøv det.

MOSS-TTSD

Dialog mellem flere højttalere Op til 5 højttalere 60min sammenhængende lyd Stemmekloning Podcastoptimeret

Multi-højttaler dialog continuation model generere podcast-stil samtaler med op til 5 højttalere og 60 minutters sammenhængende lyd.

Mellem · 12GB VRAM Prøv det.

Ming-Omni TTS

44,1kHz output Stemmekloning Følelseskontrol Dialect-kontrol MGM-produktion Kompakt 0, 5B

Kompakt 0.5B omni-modal talemodel fra inklusionAI med high-fidelity 44.1kHz output og nul-shot stemme kloning.

Mellem · 3GB VRAM Prøv det.

MOSS-TTS Nano