Ledig AI Tekst til tale

82M-parametrer Ultrahurtig Uttrykksfulle stemmer Flerspråklig Støtte for strøm

En modell med en lettvekts 82M-parameter som leverer studio-kvalitetstale med hurtig blending.

Rask · 1.5GB VRAM Prøv det

Piper

CPU-vennlig Kan frakoblet 100+ stemmer 35+ språk SSML- støtte

En rask, lokal neural tekst til talesystemet som er optimalisert for Raspberry Pi og innebygd utstyr.

Rask · 0 (CPU only) VRAM Prøv det

VITS

Ende- til- ende- syntese Naturlig prosody Rask slutning Flere høyttalere

Betinget variasjon i autoencoder med antagonistisk læring for ende-til-ende tekst-til-tale.

Rask · 1GB VRAM Prøv det

MeloTTS

CPU-optimert Flerspråklig Flere aksenter Produksjon klar Lav latens

Høykvalitets flerspråklig tekst-til-tale som kjører på CPU med minimal latens.

Rask · 0.5GB (GPU optional) VRAM Prøv det

Bark

Lydeffekter Skremmende/sjøgående Musikkgenerering 100+høyttalere Flerspråklig

Transformer-basert tekst-til-lyd-modell som gener realistisk tale, musikk og lydeffekter.

Langsom · 5GB VRAM Prøv det

Bark Small

Lettvekt Hurtigere enn full Bark Følelsesmessig tale Flerspråklig

Lysere versjon av Bark med raskere unøyaktighet og lavere minnebruk.

Middels · 2GB VRAM Prøv det

CosyVoice 2

Strømmer Kloning med null skudd Tverrspråklig Bevegelseskontroll Menneskelig paritet

Alibaba skalerbare streaming TTS med menneskelig-paritet naturlighet og nær-null latency.

Dia TTS

Flerhøytaler Gener dialog Naturlig dreiing Følelsesuttrykk 1.6B-parametrer

Generasjonsmodell med flere høyttalere som skaper naturlige samtaler mellom høyttalere.

Parler TTS

Stemmebeskrivelse Kontroll av naturlig språk Fleksibel taleskaping Ingen stemmer trengs for forhåndsinnstillinga

Beskriv stemmen du vil ha i naturlig språk, og Parler gener tilsvarende tale.

Indic Parler TTS

11 indiske språk Stemmebeskrivelse Kontroll av naturlig språk Autentisert indisk uttale

Høykvalitets tale for 8+ indiske språk med naturlig stemmekontroll.

Langsom · 8GB VRAM Prøv det

KhanomTan TTS

Thailandsk TTS Flere høyttalere Din TTS- arkitektur Kommersielt sikker lisens

Thai-først tekst-til-tale med valg av høyttaler stemmer.

Rask · 2GB VRAM Prøv det

IndexTTS-2

Bevegelseskontroll Nullbilde Følelsesvektorer Uttrykksfull tale Finkornet kontroll

TTS uten skudd med finkornet følelseskontroll og høy ekspressivitet.

Spark TTS

Stemmekloning Bevegelseskontroll Stilkontroll Spørjebasert 5-sekunders kloning

Stemmekloning TTS med styrbare følelser og talestil via spørsmål.

GPT-SoVITS

5-sekunders kloning Singende stemme Få skuddlæring Høy troverdighet Tverrspråklig

Få skuddsstemme kloning TTS som replikerer enhver stemme fra bare 5 sekunders lyd.

Langsom · 6GB VRAM Prøv det

Orpheus

Følelser på menneskenivå 100K-timers opplæring Naturlig vekt Uttrykksfull tale

Emosjonell TTS-modell på menneskenivå, opplært på 100 K timers taledata.

Chatterbox

Kloning med null skudd Bevegelseskontroll Høy troverdighet Stiloverføring Kloning av enkeltprøver

Det nåværende utviklingstrinn i teknikken «null-skudds-tale kloning» med følelseskontroll fra AI-enheten som kan gjenopprettes.

Tortoise TTS

Høyeste kvalitet Flerstemme DALL-E-arkitektur Stemmekloning Autoregressiv

Tekst til tale med flere tale, med fokus på kvalitet med autoregressiv arkitektur.

Langsom · 8GB VRAM Prøv det

StyleTTS 2

Menneskelig nivå Stilspredning Adversarisk opplæring Naturlig variasjon Høy troverdighet

Tekst-til-tale på menneskenivå gjennom style diffusion og antagonistisk opplæring.

OpenVoice

Øyeblikkelig kloning Stemmekonvertering Bevegelseskontroll Akskent kontroll Flerspråklig

Øyeblikkelig stemmekloning med granulert styring av stil, følelser og aksent.

Qwen3 TTS

9 stemmer på forhåndsinnstillinga Stemmeutforming fra tekst Bevegelseskontroll 10 språk

Alibabas flerspråklige TTS med forhåndsinnstilte stemmer og stemmedesign fra tekst.

Middels · 7GB VRAM Prøv det

VieNeu-TTS-v2

7 stemmer med forhåndsinnstilt verdi (nord - og søraksent) En- Vi-kodeskifting Stemmekloning (3-5s referanse) Støtte for podkaster/flerhøytalere CPU- bare – trengs ikke GPU

Vietnamesisk + engelsk kodeskifting TTS med 7 forhåndsinnstilte stemmer og null- skudds stemmekloning. CPU- bare, trenger ikke GPU.

Rask · CPU VRAM Prøv det

Sesame CSM

Samtale Naturlig tidtaking Dreiing Tilbakekanal 1B-parametrer

Samtalebasert talemodell som skaper naturlig dialog med passende tidspunkter og følelser.

Langsom · 8GB VRAM Prøv det

Chatterbox Turbo

Latens på sub- 200ms Paralinguistiske tagger 6x i sanntid Stemmekloning Vannmerking

Raskere Chatterbox med sub-200ms latency og paralinguistiske tagger for latter, hoster, og mer.

Rask · 2GB VRAM Prøv det

VoxCPM

44.1 kHz lyd Tokenizerfri Kryssspråklig kloning Kontekst- bevisst LoRA fininnstilling

Tokenizer-fri TTS som produserer 44,1 kHz lyd med punktkonsistens med hensyn til kontekst.

Rask · 4GB VRAM Prøv det

Kani TTS 2

3GB VRAM Ultrahurtig Lettvekt NanoCodec Ledig

Ultra-lettvekts 400M engelsk TTS-modell som kjører i bare 3GB VRAM.

Rask · 3GB VRAM Prøv det

OuteTTS

CPU- konferanse Avslutning på nettleseren Flere motorer Høyttalerprofiler

LLM-basert TTS som kjører på CPU, GPU eller nettleser via llama.cpp og Transformers.js.

Langsom · 2GB VRAM Prøv det

VibeVoice

Flerhøytaler Inntil 90 minutter Podkastgenerering Høyttalerens konsistens streaming på 200 ms

Microsoft-modell for langformet flertalerinnhold som podkaster og lydbøker.

Rask · 4GB VRAM Prøv det

Pocket TTS

100M-parametrer CPU- konferanse Stemmekloning Kloning av enkeltprøver Kantklar

Lettvekts-parametermodell på 100 M av Kyutai med talekloning fra én enkelt prøve.

Rask · 1GB VRAM Prøv det

Kitten TTS

Konferanse bare med CPU Under 80 MB modellstørrelse 8 innebygde stemmer Hastighetskontroll ONNX-basert 24kHz utdata

Ultra- lettvekts TTS under 80 MB. Kjører på CPU uten GPU.

Rask · 0GB VRAM Prøv det

CosyVoice3

Tostrøms Bevegelseskontroll Stemmekloning Styring av hastighet/volum Instruksjoner som følger

Neste generasjons flerspråklige TTS med to-strømmers kontroll, følelseskontroll og null-skudds-talekloning.

Rask · 4GB VRAM Prøv det

NAMAA Saudi TTS

Saudi- arabisk dialekt Moderne Standard Arabisk Talekloning, nullbilde Bevegelseskontroll Innebygget uttale

Første åpne Saudi- Arabiske TTS. Native Saudi- dialekt med talekloning av Chatterbox- kvalitet.

Middels · 6GB VRAM Prøv det

Darwin TTS

Stemmekloning Tverrspråklig FFN-blending 4 kjernespråk Qwen3 ryggrad

Tverrmodal Qwen3-TTS-variant med FFN-vekter blandet fra Qwen3-1,7B-språkmodellen for skarpere flerspråklig kloning.

Middels · 7GB VRAM Prøv det

MOSS-TTSD

Dialog med flere høyttalere Inntil 5 høyttalere 60 min sammenhengende lyd Stemmekloning Podkastoptimert

Fortsatt dialog med flere høyttalere – lag podkastsamtaler med opptil 5 høyttalere og 60 minutter sammenhengende lyd.

Middels · 12GB VRAM Prøv det

Ming-Omni TTS

44. 1kHz utdata Stemmekloning Bevegelseskontroll Styring av dialect Generering av BGM Kompakt 0. 5B

Kompakt 0.5B talemodell med alle transportsystemer fra inkluderingAI med høy troverdighet på 44,1 kHz og null-shot-talekloning.

Middels · 3GB VRAM Prøv det

MOSS-TTS Nano