Ingyenes MI Szöveg a beszédhez

82M paraméterek Ultragyors Expressív hangok Többnyelvű Streaming support

Könnyű 82M paraméter modell, amely stúdió-minőségi beszéd a fénylő-gyors következtetés.

Gyorsan! · 1.5GB VRAM Próbáld ki.

Piper

CPU-barát Offline-kompatibilis 100+ hang 35+ nyelvek Az SSML támogatása

Egy gyors, helyi neurális szöveg beszéd rendszer optimalizált málna Pi és beágyazott eszközök.

Gyorsan! · 0 (CPU only) VRAM Próbáld ki.

VITS

Vég-vég szintézis Természetes proszódia Gyors következtetés Több hangszóró

Feltételes variációs autoencoder ellenféllel történő tanulással a végtől-végig szövegtől-beszédig.

Gyorsan! · 1GB VRAM Próbáld ki.

MeloTTS

CPU-optimalizált Többnyelvű Többszörös akcentus Gyártásra kész Alacsony lappangási idő

Kiváló minőségű többnyelvű szöveg-to-speech, amely fut CPU minimális késéssel.

Gyorsan! · 0.5GB (GPU optional) VRAM Próbáld ki.

Bark

Hanghatások Nevetés/sóhajtozás Zenei generáció 100+ hangszóró Többnyelvű

Transformer-alapú szöveg-audio modell, amely realisztikus beszéd, zene, és hanghatások.

Lassan. · 5GB VRAM Próbáld ki.

Bark Small

Könnyűsúly Gyorsabb, mint a teljes Bark Érzelmi beszéd Többnyelvű

Könnyebb változata Bark gyorsabb következtetés és kisebb memória használat.

Közepes · 2GB VRAM Próbáld ki.

CosyVoice 2

Áramlás Nulla lövéses klónozás Többnyelvű Érzelmi vezérlés Az emberiparitás

Alibaba skálázható TTS-e emberi-paritatív természetességgel és majdnem nulla késéssel.

Dia TTS

Több hangszóró Dialógusgenerálás Természetes forrasztás Érzelmi kifejezés 1.6B paraméterek

Multi-speaker dialógus generációs modell, amely létrehoz természetes beszélgetések hangszórók között.

Parler TTS

A hang leírása Természetes nyelvellenőrzés Rugalmas hangalkotás Nincs szükség előre beállított hangokra.

Írja le a kívánt hangot természetes nyelven, és Parler generál megfelelő beszédet.

Indic Parler TTS

11 indiai nyelv A hang leírása Természetes nyelvellenőrzés Authentic Indic kiejtése

Kiváló minőségű beszéd 8+ indiai nyelven, természetes hangvezérléssel.

Lassan. · 8GB VRAM Próbáld ki.

KhanomTan TTS

Thai TTSCity name (optional, probably does not need a translation) Több hangszóró YourTTS architektúra Kereskedelmi-biztonsági engedély

Thai-első szövegtől-beszélgetésig, a hangszórók választékával.

Gyorsan! · 2GB VRAM Próbáld ki.

IndexTTS-2

Érzelmi vezérlés Nulla lövés Érzelmi vektorok Kifejező beszéd Finom szemű kontroll

Zéró lövés TTS finoman kifinomult érzelmi kontroll és magas kifejezőképesség.

Spark TTS

Hang klónozása Érzelmi vezérlés Stílusvezérlés Prompt-alapú 5 másodperces klónozás

Hang klónozása TTS irányítható érzelemmel és beszédstílus segítségével prompts.

GPT-SoVITS

5 másodperces klónozás Éneklő hang Kevés lövés a tanulásra Magas hűség Többnyelvű

Kevés hang klónozza a TTS-t, ami lemásolja a hangot mindössze 5 másodpercnyi hangból.

Lassan. · 6GB VRAM Próbáld ki.

Orpheus

Emberi szintű érzelem 100 ezer óra képzés Természetes hangsúly Kifejező beszéd

Emberi szintű TTS modell, 100 ezer órányi beszédadattal.

Chatterbox

Nulla lövéses klónozás Érzelmi vezérlés Magas hűség Stílusátadás Egyetlen minta klónozása

A legmodernebb zéró hangú klónozás érzelmi irányítással Resemble AI-tól.

Tortoise TTS

Legmagasabb minőség Többhangú DALL-E architektúra Hang klónozása Autoregresszív

A többhangú szövegtől a beszédig a minőségre koncentrált, autoregresszív architektúrával.

Lassan. · 8GB VRAM Próbáld ki.

StyleTTS 2

Emberi szint Stílusszóródás Ellenállási képzés Természetes variáció Magas hűség

Az emberi szintű szövegtől a beszédig a stílusdiffúziós és az ellenzői képzésen keresztül.

OpenVoice

Azonnali klónozás Hangkonverzió Érzelmi vezérlés Akcentusvezérlés Többnyelvű

Azonnali hang klónozás szemcsés kontroll felett stílus, érzelem, és akcentus.

Qwen3 TTS

9 előre beállított hang A szöveg hangdesignja Érzelmi vezérlés 10 nyelv

Alibaba többnyelvű TTS-e előre beállított hangokkal és szöveges hangtervezéssel.

Közepes · 7GB VRAM Próbáld ki.

VieNeu-TTS-v2

7 előre beállított hang (északi + déli akcentus) En-Vi kódváltás Hang klónozás (3-5s hivatkozás) Podcast / több hangszórós támogatás Csak CPU - nem szükséges GPU

Vietnámi + Angol kódkapcsoló TTS 7 előre beállított hangok és zéró-shot hang klónozás. CPU-csak, nincs szükség GPU.

Gyorsan! · CPU VRAM Próbáld ki.

Sesame CSM

Beszélgetés Természetes időzítés Fordítás Backchannel 1B paraméterek

Beszélgetési beszéd modell generál természetes párbeszéd megfelelő időzítéssel és érzelmekkel.

Lassan. · 8GB VRAM Próbáld ki.

Chatterbox Turbo

200ms alatti késés Paralinguista címkék 6x valós idejű Hang klónozása Vízjelezés

Gyorsabb Chatterbox szub-200 ms késés és paralinguista címkék nevetés, köhögés, és így tovább.

Gyorsan! · 2GB VRAM Próbáld ki.

VoxCPM

44,1kHz hang Tokenizer-mentes Többnyelvű klónozás Kontextusismeret LoRA finomhangolás

Tokenizer-mentes TTS 44.1kHz audio konzisztenciával.

Gyorsan! · 4GB VRAM Próbáld ki.

Kani TTS 2

3GB VRAM Ultragyors Könnyűsúly NanoCodecCity name (optional, probably does not need a translation) Ingyenes

Ultra-könnyű 400M angol TTS modell fut, mindössze 3GB VRAM.

Gyorsan! · 3GB VRAM Próbáld ki.

OuteTTS

A CPU következtetése Böngésző-összefüggés Többszörös biztonsági másolatok Hangszóróprofilok

LLM alapú TTS, amely CPU, GPU vagy böngészőn keresztül fut a lama.cpp és Transformers.js.

Lassan. · 2GB VRAM Próbáld ki.

VibeVoice

Több hangszóró Legfeljebb 90 perc Podcast-generáció Hangszórókonzisztencia 200 ms-os streaming

Microsoft modell hosszú formájú több hangszórós tartalom, mint a podcasts és audiobooks.

Gyorsan! · 4GB VRAM Próbáld ki.

Pocket TTS

100M paraméterek A CPU következtetése Hang klónozása Egymintaű klónozás Edge-re kész

Könnyű 100M paraméter modell Kyutai hang klónozás egyetlen mintából.

Gyorsan! · 1GB VRAM Próbáld ki.

Kitten TTS

Csak CPU-eredmények 80MB-os modellméret alatt 8 beépített hang Sebességszabályozás ONNX alapú 24kHz kimenet

Ultra-könnyű TTS 80MB alatt. CPU nélkül fut.

Gyorsan! · 0GB VRAM Próbáld ki.

CosyVoice3

Bi-streaming Érzelmi vezérlés Hang klónozása Sebesség- és térfogatszabályozás Utasítást követően

Következő generációs többnyelvű TTS bi-streaming, érzelmi kontroll, és nulla-shot hang klónozás.

Gyorsan! · 4GB VRAM Próbáld ki.

NAMAA Saudi TTS

Szaúd-Arábiai nyelvjárás Modern Standard ArabicCity name (optional, probably does not need a translation) Nulla löketű hang klónozása Érzelmi vezérlés Natív kiejtés

Az első nyitott szaúdi-arábiai TTS, Native szaúdi dialektus Chatterbox minőségű hang klónozással.

Közepes · 6GB VRAM Próbáld ki.

Darwin TTS

Hang klónozása Többnyelvű FFN-befecskendezett 4 alapnyelv Qwen3 gerinc

Keresztmodális Qwen3-TTS változat FFN súlyokkal keverve a Qwen3-1.7B nyelvi modell élesebb többnyelvű klónozás.

Közepes · 7GB VRAM Próbáld ki.

MOSS-TTSD

Több felszólalós párbeszéd Legfeljebb 5 hangszóró 60perces koherens audió Hang klónozása Podcast-optimalizált

Multi-speaker párbeszéd folytatása modell Podcast stílusú beszélgetések akár 5 hangszóró és 60 perc koherens audio.

Közepes · 12GB VRAM Próbáld ki.

Ming-Omni TTS

44,1kHz kimenet Hang klónozása Érzelmi vezérlés A dialektus vezérlése BGM-generáció Kompakt 0.5B

Kompakt 0.5B omni-modális beszédmodell az includingAI-ból, nagy hűségű 44,1kHz kimenettel és zéró-shot hang klónozással.

Közepes · 3GB VRAM Próbáld ki.

MOSS-TTS Nano