Fritt AI Text till tal

82M parametrar Ultrasnabbt Uttryckliga röster Flerspråkig Strömma stöd

Lättviktig 82M parametermodell som levererar studio-kvalitet tal med flammande-snabb slutledning.

Snabbt · 1.5GB VRAM Försök.

Piper

CPU-vänlig Kan stängas av 100 + röster 35 + språk SSML- stöd

En snabb, lokal neural text till talsystem optimerad för Raspberry Pi och inbyggda enheter.

Snabbt · 0 (CPU only) VRAM Försök.

VITS

End-to-end-syntes Naturligt skydd Snabba slutsatser Flera högtalare

Villkorlig variantal autoencoder med kontradiktorisk inlärning för end-to-end text-to-talk.

Snabbt · 1GB VRAM Försök.

MeloTTS

CPU-optimerad Flerspråkig Flera accenter Produktionsfärdig Låg latens

Högkvalitativ flerspråkig text-till-tal som körs på CPU med minimal latens.

Snabbt · 0.5GB (GPU optional) VRAM Försök.

Bark

Ljudeffekter Skrattande/slipande Musikalisk produktion 100+ högtalare Flerspråkig

Transformatorbaserad text-till-audio modell som genererar realistiska tal, musik och ljudeffekter.

Långsamt · 5GB VRAM Försök.

Bark Small

Lättviktig Snabbare än full Bark Känslomässigt tal Flerspråkig

Lättare version av Bark med snabbare slutledning och lägre minnesanvändning.

Medel · 2GB VRAM Försök.

CosyVoice 2

Strömma Noll-shot kloning Överlingsspråk Känslokontroll Mänsklig paritet

Alibaba skalbara strömmande TTS med mänsklig-paritet naturlighet och nära-noll latency.

Dia TTS

Flertaltalare Dialoggenerering Naturligt turn-taking Känslomässigt uttryck Parametrar för 1,6B

Flertaltalsdialogruta generation modell som skapar naturliga samtal mellan talare.

Parler TTS

Röstbeskrivning Kontroll av naturligt språk Flexibel röstskapande Inga förinställda röster behövs

Beskriv den röst du vill ha i naturligt språk och Parler genererar matchande tal.

Indic Parler TTS

11 indiska språk Röstbeskrivning Kontroll av naturligt språk Autentiskt indiskt uttal

Högkvalitativt tal för 8+ indiska språk med naturlig språkröstkontroll.

Långsamt · 8GB VRAM Försök.

KhanomTan TTS

Thailändska TTS Flera högtalare Ditt TTTS- arkitekturName Kommersiellt säker licens

Thailändsk-första text-till-tal med ett urval av högtalare röster.

Snabbt · 2GB VRAM Försök.

IndexTTS-2

Känslokontroll Noll skott Emotionsvektorer Uttryckligt tal Finkornig kontroll

Noll-shot TTS med finkornig känslokontroll och hög uttrycksfullhet.

Spark TTS

Röstkloning Känslokontroll Stilstyrning Snabbt baserad 5-sekunders kloning

Röstkloning TTS med kontrollerbara känslor och talstil via samtal.

GPT-SoVITS

5-sekunders kloning Sjungande röst Få försök till lärande Hög trohet Överlingsspråk

Få skott röst kloning TTS som replikerar någon röst från bara 5 sekunder av ljud.

Långsamt · 6GB VRAM Försök.

Orpheus

Känslor på mänsklig nivå 100K-timmars träning Naturlig betoning Uttryckligt tal

Känslomässig TTS-modell tränad på 100K timmars taldata.

Chatterbox

Noll-shot kloning Känslokontroll Hög trohet Stilöverföring Kloning av ett enda prov

Toppmodern nollshotad röstkloning med känslokontroll från Resemble AI.

Tortoise TTS

Högsta kvalitet Flerröstig DALL-E arkitektur Röstkloning Självregressiv

Flera rösttext-till-tal fokuserade på kvalitet med autoregressiv arkitektur.

Långsamt · 8GB VRAM Försök.

StyleTTS 2

Mänsklig nivå Stilspridning Motståndsutbildning Naturlig variation Hög trohet

Mänsklig nivå text-till-tal genom stilspridning och kontradiktorisk träning.

OpenVoice

Omedelbar kloning Röstomvandling Känslokontroll Accentkontroll Flerspråkig

Omedelbar röst kloning med granulär kontroll över stil, känslor och accent.

Qwen3 TTS

9 förinställda röster Röstdesign från text Känslokontroll 10 språk

Alibabas flerspråkiga TTS med förinställda röster och röstdesign från text.

Medel · 7GB VRAM Försök.

VieNeu-TTS-v2

7 förinställda röster (norra + södra accenter) En-vi kodbyte Röstkloning (3-5-talsreferens) Stöd för podcast/ multihögtalare Endast processor – ingen GPU krävs

Vietnamesiska + engelska kod-switching TTS med 7 förinställda röster och noll-shot röst kloning. CPU-enbart, ingen GPU krävs.

Snabbt · CPU VRAM Försök.

Sesame CSM

Konversationella frågor Naturlig timing Turn-ning Backkanal 1B-parametrar

Konversationstal modell som genererar naturlig dialog med lämplig timing och känslor.

Långsamt · 8GB VRAM Försök.

Chatterbox Turbo

Avstängning under 200 ms Paralinguistiska taggar 6x i realtid Röstkloning Vattenmärkning

Snabbare Chatterbox med sub-200ms latens och paralinguistiska taggar för skratt, hosta och mycket mer.

Snabbt · 2GB VRAM Försök.

VoxCPM

44.1kHz ljud Fri från tokenizer Flerspråkig kloning Sammanhangsmedveten LoRA finjustering

Tokenizer-fri TTS som producerar 44,1kHz ljud med sammanhangsmedveten styckekonsistens.

Snabbt · 4GB VRAM Försök.

Kani TTS 2

3GB VRAM Ultrasnabbt Lättviktig Nanokodec Ordförande Avgiftsfri

Ultralätt 400M engelska TTS modell körs i bara 3GB VRAM.

Snabbt · 3GB VRAM Försök.

OuteTTS

CPU-slutsats Webbläsarens slutsats Flera gränssnitt Högtalarprofiler

LLM-baserade TTS som körs på CPU, GPU, eller webbläsare via lama.cpp och Transformers.js.

Långsamt · 2GB VRAM Försök.

VibeVoice

Flertaltalare Upp till 90 min Podcast- generering Talarkonsistens 200 ms streaming

Microsoft modell för lång form multi-högtalare innehåll som podcasts och ljudböcker.

Snabbt · 4GB VRAM Försök.

Pocket TTS

100M parametrar CPU-slutsats Röstkloning Kloning av ett enda prov Kantförberedd

Lätt 100M parameter modell av Kyutai med röst kloning från ett enda prov.

Snabbt · 1GB VRAM Försök.

Kitten TTS

CPU-enbart slutledning Under 80 MB modellstorlek 8 inbyggda röster Hastighetsreglering ONNX-baserad Utgång från 24kHz

Ultra lättvikt TTS under 80MB. Körs på CPU utan GPU.

Snabbt · 0GB VRAM Försök.

CosyVoice3

Biströmning Känslokontroll Röstkloning Varvtal/volymreglering Instruktion efter

Nästa generations flerspråkiga TTS med bi-streaming, känslokontroll, och noll-shot röst kloning.

Snabbt · 4GB VRAM Försök.

NAMAA Saudi TTS

Saudiarabisk arabisk dialekt Modern standard arabiska Noll-shot röst kloning Känslokontroll Inhemskt uttal

Först öppen saudiarabisk-arabisk TTS. Native saudisk dialekt med Chatterbox-kvalitet röst kloning.

Medel · 6GB VRAM Försök.

Darwin TTS

Röstkloning Överlingsspråk FFN-blandning 4 kärnspråk Ryggbenet Qwen3

Cross-modal Qwen3-TTS variant med FFN vikter blandas från Qwen3-1.7B språkmodell för skarpare flerspråkig kloning.

Medel · 7GB VRAM Försök.

MOSS-TTSD

Dialog med flera talare Upp till 5 högtalare 60min sammanhängande ljud Röstkloning Podcast-optimerad

Flerhögtalardialog fortsättning modell — generera podcast-stil samtal med upp till 5 högtalare och 60 minuter sammanhängande ljud.

Medel · 12GB VRAM Försök.

Ming-Omni TTS

44.1kHz utgång Röstkloning Känslokontroll Dialektkontroll Generering av BGM Kompakt 0,5B

Kompakt 0,5B omni-modal talmodell från inklusionAI med hög trohet 44,1kHz utgång och noll-shot röst kloning.

Medel · 3GB VRAM Försök.

MOSS-TTS Nano