Libera AI Teksto- al- ParoloComment

82M parametroj Tre rapida Esprimaj voĉoj Plurlingva Subteno por fluado

2000-02-08. ↑ 2000-02-08. ↑ 2000-02-08. ↑ 2000-02-08. ↑ 2000-02-08. ↑ 2000-02-08. ↑ 2000-02-08. ↑ 2000-02-08.

Fiksa · 1.5GB VRAM Provu ĝin

Piper

CPU- amika Senkonekta kapabla 100+ voĉoj 30+ lingvoj SSML- subteno

Rapida, loka neŭrona teksto- al- parola sistemo optimumigita por Raspberry Pi kaj enkorpigitaj aparatoj. Name

Fiksa · 0 (CPU only) VRAM Provu ĝin

VITS

Fin-al-fina sintezo Natura prozodio Rapida dedukto Pluraj parolantoj

Kondicia variacia aŭtokodilo kun kontraŭstara lernado por fin-al-fina teksto-al-parolo.

Fiksa · 1GB VRAM Provu ĝin

MeloTTS

CPU- optimumigita Plurlingva Pluraj akcentoj Preta por produktado Malalta latenteco

Altkvalita multlingva teksto-al-vorto kiu ruliĝas sur CPU kun minimuma prokrasto.

Fiksa · 0.5GB (GPU optional) VRAM Provu ĝin

Bark

Sonaj efektojName Ridado/sopiro Muzika generado 100+ parolantoj Plurlingva

Transform-bazita teksto-al-aŭda modelo kiu generas realisman paroladon, muzikon, kaj sonajn efektojn.

Malrapide · 5GB VRAM Provu ĝin

Bark Small

Malpeza Pli rapida ol plena ŝelo Emocia parolado Plurlingva

Malpeza versio de Bark kun pli rapida deduktado kaj pli malalta memoro-uzo.

Medium · 2GB VRAM Provu ĝin

CosyVoice 2

Fluo Zero-shot klonado Interlingva Emocia kontrolo Human- parity

Alibaba's skalebla streaming TTS kun homa-pareco natureco kaj preskaŭ nula latenteco.

Dia TTS

Plurparolilo Dialoggenerado Natural turn-taking Emocia esprimo 1. 6B parametroj

Multi-parolanto dialogo generacio modelo kiu kreas naturajn konversaciojn inter parolantoj.

Parler TTS

Voĉa priskribo Kontrolo de natura lingvo Fleksebla voĉkreado Ne necesas antaŭdifinitaj voĉoj

Priskribu la voĉon kiun vi volas en natura lingvo kaj Parler kreos kongruan paroladon.

Indic Parler TTS

11 lingvoj Voĉa priskribo Kontrolo de natura lingvo Aŭtenta hinda prononco

Alta kvalito parolado por 8+ hindaj lingvoj kun natura-lingva voĉo kontrolo.

Malrapide · 8GB VRAM Provu ĝin

KhanomTan TTS

Tajlanda TTS Pluraj parolantoj YourTTS arkitekturo Komerce sekura permesilo

La unua teksto estas skribita per la voĉo de la parolanto.

Fiksa · 2GB VRAM Provu ĝin

IndexTTS-2

Emocia kontrolo Zero-shot Emociaj vektoroj Ekspresiva parolado Finegrana kontrolo

Ĝenerale oni parolas pri TTT-legilo, kiu havas bonan grafikan interfacon kaj altan rapidecon.

Spark TTS

Voĉa klonado Emocia kontrolo Stilkontrolo Prompt-bazita 5- sekunda klonado

Voĉo klonado TTS kun kontrolata emocio kaj parola stilo tra alvokoj.

GPT-SoVITS

5- sekunda klonado Kantanta voĉo Lerno per malmultaj pafoj Alta fideleco Interlingva

Kelkaj voĉoj klonado TTS kiu replikas ajnan voĉon de nur 5 sekundoj de aŭdo.

Malrapide · 6GB VRAM Provu ĝin

Orpheus

Emocio je homa nivelo 100K horoj da trejnado Natural emphasis Ekspresiva parolado

100.000 horoj da parolaj datumoj.

Chatterbox

Zero-shot klonado Emocia kontrolo Alta fideleco Stiltransigo Klonado de unuopa specimeno

Ŝtata-de-la-arto zero-shot voĉo klonado kun emocia kontrolo de Resemble AI.

Tortoise TTS

Plej alta kvalito Plurvoĉa DALL-E arkitekturo Voĉa klonado Aŭtoregresiva

Plurvoĉa teksto-al-parolo fokusiĝas je kvalito kun aŭtoregresiva arkitekturo.

Malrapide · 8GB VRAM Provu ĝin

StyleTTS 2

Homa-nivela Stila difuzo Kontraŭa trejnado Natural variance Alta fideleco

Teksto-al-parolo je homa nivelo per stila disvastigo kaj kontraŭstara trejnado.

OpenVoice

Tuja klonado Voĉkonverto Emocia kontrolo Akcenta kontrolo Plurlingva

Tuja voĉo klonado kun granulara kontrolo super stilo, emocio, kaj akcento.

Qwen3 TTS

Voĉa klonado 9 antaŭdifinitaj voĉoj Voĉa dezajno el teksto Emocia kontrolo

Alibaba's multlingva TTS kun voĉo klonado, antaŭdifinitaj voĉoj, kaj voĉo dezajno de teksto.

Medium · 7GB VRAM Provu ĝin

VieNeu-TTS-v2

7 antaŭdifinitaj voĉoj (nord- kaj sud- akcentoj) En-Vi kodoŝanĝo Voĉo-klonado (3-5s referenco) Podkasto / multparolilo- subteno Nur CPU - neniu GPU necesas

Vjetnama + angla kodŝanĝa TTS kun 7 antaŭdifinitaj voĉoj kaj nulo- pafa voĉklonado. Nur CPU, ne necesas GPU. Name

Fiksa · CPU VRAM Provu ĝin

Sesame CSM

Konversacia Natural timing Turn-taking Malantaŭkanalo 1B parametroj

Konversacia parola modelo generanta naturan dialogon kun taŭga tempo kaj emocio.

Malrapide · 8GB VRAM Provu ĝin

Chatterbox Turbo

Sub- 200ms latenco Paralingvistikaj etikedoj 6x realtempa Voĉa klonado Akvosignado

Pli rapida Chatterbox kun sub-200ms latenteco kaj paralingvaj etikedoj por ridoj, tuso, kaj pli.

Fiksa · 2GB VRAM Provu ĝin

VoxCPM

Sono Tokenizer-free Interlingva klonado Kunteksta LoRA-aĝustigo

La 44.1 kHz-a frekvenco estas uzata por la elsendoj de la radiostacio.

Fiksa · 4GB VRAM Provu ĝin

Kani TTS 2

3GB VRAM Tre rapida Voĉa klonado Malpeza NanoCodec

La 400-megabajta modelo funkcias en nur 3 GB da VRAM kun voĉ-klona subteno.

Fiksa · 3GB VRAM Provu ĝin

OuteTTS

CPU- dedukto TTT- legilo Pluraj internoj Parolantoprofiloj

LLM-bazita TTS kiu ruliĝas sur CPU, GPU, aŭ retumilo tra llama.cpp kaj Transformers.js.

Malrapide · 2GB VRAM Provu ĝin

VibeVoice

Plurparolilo 90 min Podkasta generado Konsistenco de parolantoj 200ms fluo

Microsoft-modelo por longforma multparolanta enhavo kiel podkastoj kaj aŭdlibroj.

Fiksa · 4GB VRAM Provu ĝin

Pocket TTS

Parametroj CPU- dedukto Voĉo- klonado Unuspecimena klonado Randpreta

100 mm-a diametro de la ĉasio, kun 100 mm-a diametro de la ĉasio.

Fiksa · 1GB VRAM Provu ĝin

Kitten TTS

CPU- sole inferenco Malpli ol 80MB modelograndeco 8 enkonstruitaj voĉoj Rapideco ONNX- bazita 24kHz eligo

Ultra-malpeza TTS sub 80MB. Rulas sur CPU sen GPU.

Fiksa · 0GB VRAM Provu ĝin

CosyVoice3

Duflua Emocia kontrolo Voĉo- klonado Rapideco/laŭteco Instrukcio sekvas

Sekva generacio de multlingva TTS kun du-flua, emocia kontrolo, kaj nulo-pafa voĉo-klonado.

Fiksa · 4GB VRAM Provu ĝin

NAMAA Saudi TTS

Araba (Sauda) Moderna norma araba Voĉo-klonado sen ŝoto Emocia kontrolo Nacia prononco

Unua malfermita TTS por la Saud- Araba. Denaska Sauda dialekto kun voĉ- klonado de kvalito de Ĉatelbokso. Name

Medium · 6GB VRAM Provu ĝin

Darwin TTS

Voĉo- klonado Interlingva FFN- miksita 4 ĉefaj lingvoj Qwen3 dorso

La plej konata estas la Qwen3-1.7B, kiu estas la plej malnova lingvomodelo por la transskribado de la ĉina lingvo.

Medium · 7GB VRAM Provu ĝin

MOSS-TTSD

PlurparoliloComment Ĝis 5 laŭtparoliloj 60min kohera aŭdo Voĉo- klonado Podkasto-optimumigo

La plej konata estas la 12-minuta filmo "La Ŝanĝo" (angle: The Change), kiu enhavas 50-minutan filmon kaj 60-minutan dokumentaron.

Medium · 12GB VRAM Provu ĝin

Ming-Omni TTS

44. 1kHz eligo Voĉo- klonado Emocia kontrolo Dialekta kontrolo BGM- generado Compact 0. 5B

La 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo de la 1000-bita kodo.

Medium · 3GB VRAM Provu ĝin

MOSS-TTS Nano