AI liberă Text la discurs

Parametri 82M Ușor de viteză Voci expresive Multilinguală Suport pentru fluxuri

Model de parametraj uşor 82M care oferă un discurs de calitate studio cu inferenţă rapidă.

Repede · 1.5GB VRAM Încearcă.

Piper

UCP-friendly Capacitate deconectată 100+ voci 35+ limbi Suport SSML

Un text neuronal rapid, local pentru sistemul de voce optimizat pentru Raspberry Pi și dispozitive încorporate.

Repede · 0 (CPU only) VRAM Încearcă.

VITS

Sinteză de sfârșit la sfârșit Prosodie naturală Inferire rapidă Speakers multiplu

Autoencodator variabil condiționat cu învățare adversarie pentru text-la-end-speech.

Repede · 1GB VRAM Încearcă.

MeloTTS

Optimizată de CPU Multilinguală Accenturi multiple Pregătită pentru producție Latenţă scăzută

Text-to-speech multilingv de înaltă calitate care funcționează pe CPU cu latență minimă.

Repede · 0.5GB (GPU optional) VRAM Încearcă.

Bark

Efecte sonore Râsete/oxid Generație muzicală 100+ de vorbitori Multilinguală

Model text-to-audio bazat pe transformatori care generează efecte realiste de vorbire, muzica și sunet.

Lent · 5GB VRAM Încearcă.

Bark Small

Limpede Mai repede decât barcă plină Discursul emoţional Multilinguală

Versiune mai ușoară a Bark cu o inferință mai rapidă și o utilizare mai mică a memoriei.

Mediu · 2GB VRAM Încearcă.

CosyVoice 2

Fluctuare Clonarea cu foc zero Limbi transversale Controlul emoției Paritate umană

TTS de streaming scalabil al lui Alibaba cu naturalitate umană-paritate și latență aproape zero.

Dia TTS

Multi-prelucrator Generare dialog Consum natural de rotire Expresie emoţională Parametrii 1.6B

Model de generare de dialog multi-speaker care creează conversații naturale între vorbitori.

Parler TTS

Descriere vocală Controlul limbii naturale Crearea vocală flexibilă Nu sunt necesare voci predefinite

Descrieți vocea pe care doriți în limba naturală și Parler generează vorbire potrivită.

Indic Parler TTS

11 limbi indiene Descriere vocală Controlul limbii naturale Pronunțare indică autentică

Discursul de înaltă calitate pentru 8+ limbi indiene cu control vocal natural.

Lent · 8GB VRAM Încearcă.

KhanomTan TTS

TTS tailandez Speakers multiplu Arhitectura dvs.TTS Licență comercială sigură

Tailandez-prim text-to-speech cu o alegere de voci de vorbitor.

Repede · 2GB VRAM Încearcă.

IndexTTS-2

Controlul emoției Impuscat zero Vectoare de emoție Discursul expresiv Comandă aglomerată fină

TTS zero-shot cu control de emoții fin-grained și mare expresibilitate.

Spark TTS

Clonarea vocală Controlul emoției Controlul stilului Pe bază prompt Clonarea la 5 secunde

Clonarea vocală TTS cu emoție controlabilă și stil de vorbire prin prompte.

GPT-SoVITS

Clonarea la 5 secunde Cântă vocea Puţine învăţare Înălţime fidelitate Limbi transversale

Puţine vocală de clonare TTS care repetă orice voce de la doar 5 secunde de audio.

Lent · 6GB VRAM Încearcă.

Orpheus

Emoții la nivel uman 100K ore de pregătire Concentrare naturală Discursul expresiv

Modelul emoţional de TTS la nivel uman instruit pe 100K de ore de date de vorbire.

Chatterbox

Clonarea cu foc zero Controlul emoției Înălţime fidelitate Transfer Style Clonarea unică a eșantionului

Vocea de ultimă generaţie, cu un control de emoţie de la Resemble AI.

Tortoise TTS

Calitatea cea mai înaltă Multi-voce Arhitectura DALL-E Clonarea vocală Autoregresiv

Multi-voce text-to-speech se concentrează pe calitate cu arhitectura autorregressivă.

Lent · 8GB VRAM Încearcă.

StyleTTS 2

Nivelul omului Difuzarea stilului Formare adversară Variație naturală Înălţime fidelitate

Textul la speech la nivel uman prin difuzarea stilului si formarea adversariala.

OpenVoice

Clonarea instantaneu Conversie vocală Controlul emoției Controlul acventului Multilinguală

Clonarea vocală instantană cu control granular asupra stilului, emoţiei şi accentului.

Qwen3 TTS

9 voci predefinite Proiect vocal din text Controlul emoției 10 limbi

TTS multilingv al lui Alibaba cu voce predefinită și design vocal din text.

Mediu · 7GB VRAM Încearcă.

VieNeu-TTS-v2

7 voci preconizate (Nord + Sud accents) Switching de cod En-Vi Clonarea vocală (3-5 s de referință) Suport pentru podcast / multi- vorbitor Numai CPU – nu este necesară GPU

Vietnameză + engleză TTS-switching de cod cu 7 voci preconizate și de clonare vocală zero-shot. numai CPU-, nu este necesar GPU.

Repede · CPU VRAM Încearcă.

Sesame CSM

Conversare Calendar natural Întoarcerea Backcanal Parametrii 1B

Modelul de vorbire de conversație generarea dialogului natural cu timp și emoție adecvat.

Lent · 8GB VRAM Încearcă.

Chatterbox Turbo

Latenţă sub200ms Etichete paralinguiste 6x în timp real Clonarea vocală Marcarea apei

Mai rapid Chatterbox cu latență sub-200ms și etichete paralinguiste pentru râsete, tuse, și mai mult.

Repede · 2GB VRAM Încearcă.

VoxCPM

audio 44.1kHz Fără tokenizator Clonarea translinuală Context-conștient Ajustări fine LoRA

TTS fără tokenizare producând audio 44.1kHz cu consecvența paragrafului context-aware.

Repede · 4GB VRAM Încearcă.

Kani TTS 2

3GB VRAM Ușor de viteză Limpede NanoCodec Gratuit

Modelul TTS englez ultra-luz 400M rulează în doar 3GB VRAM.

Repede · 3GB VRAM Încearcă.

OuteTTS

Inferință CPU Inferință browser Mulți backend-uri Profile de speaker

LLM-based TTS care funcționează pe CPU, GPU, sau browser via lama.cpp și Transformers.js.

Lent · 2GB VRAM Încearcă.

VibeVoice

Multi-prelucrator Până la 90 min Generație Podcast Consecvența speakerului 200ms streaming

Modelul Microsoft pentru conținutul multispeaker de forma lungă, cum ar fi podcast-uri și audiobook-uri.

Repede · 4GB VRAM Încearcă.

Pocket TTS

Parametrii 100M Inferință CPU Clonarea vocală Clonarea cu un singur eșantion Pregătită la margine

Model de parametraj 100M uşor de Kyutai cu clonare vocală dintr-un singur eșantion.

Repede · 1GB VRAM Încearcă.

Kitten TTS

Inferință numai CPU Sub dimensiunea modelului 80MB 8 voci integrate Controlul vitezei Pe baza ONNX Ieșire 24kHz

TTS ultra-lumină sub 80MB. Se execută pe CPU fără GPU.

Repede · 0GB VRAM Încearcă.

CosyVoice3

Bi-circuire Controlul emoției Clonarea vocală Controlul vitezei/volume Instrucțiuni care urmează

TTS multilingv de generație viitoare cu bi-flux, controlul emoțiilor și clonarea vocală zero-shot.

Repede · 4GB VRAM Încearcă.

NAMAA Saudi TTS

Dialecte arabă saudită Arab modern standard Clonarea vocală zero-shot Controlul emoției Pronunțare nativă

Prima deschidere Saudi-Arabic TTS. Dialect nativ saudita cu clonarea vocală de calitate Chatterbox.

Mediu · 6GB VRAM Încearcă.

Darwin TTS

Clonarea vocală Limbi transversale FFN-blended 4 limbi de bază Codul vertebral Qwen3

Varianta cross-modal Qwen3-TTS cu greutatea FFN combinată din modelul de limbaj Qwen3-1.7B pentru clonarea multilingue mai ascuțită.

Mediu · 7GB VRAM Încearcă.

MOSS-TTSD

Dialogul multi-prelucrator Până la 5 vorbitori Audio coerent 60min Clonarea vocală Podcast-otimizat

Modelul de continuare a dialogului multi-speaker – genera conversații în stil podcast cu până la 5 vorbitori și 60 de minute de audio coerent.

Mediu · 12GB VRAM Încearcă.

Ming-Omni TTS

Ieșire 44.1kHz Clonarea vocală Controlul emoției Controlul dialectului Generație BGM Compact 0.5B

Modelul de vorbire omnimodal compact 0.5B din includereaAI cu ieșire de înaltă fidelitate 44.1kHz și clonarea vocală zero-shot.

Mediu · 3GB VRAM Încearcă.

MOSS-TTS Nano