Free AI Text proslovu

82M parametry Ultrarychlostní Výrazné hlasy Vícejazyčné Podpora streamování

Parametrový model Lightweight 82M přináší studiově kvalitní řeč s blazing-fast inference.

Rychle · 1.5GB VRAM Zkus to.

Piper

CPU-přátelský Offline schopné 100+ hlasů 35+ jazyky Podpora SSML

Rychlý, místní neurální text do řečového systému optimalizované pro Malina Pi a vložené zařízení.

Rychle · 0 (CPU only) VRAM Zkus to.

VITS

Syntéza ke konci Přírodní prosodie Rychlý závěr Více reproduktorů

Podmíněný variační autoenkodér s protivním učením pro end-to-end text-to-speech.

Rychle · 1GB VRAM Zkus to.

MeloTTS

CPU-optimalizováno Vícejazyčné Více přízvuků Připraveno na výrobu Nízká latence

Vysoce kvalitní vícejazyčný text-to-speech, který běží na CPU s minimální latence.

Rychle · 0.5GB (GPU optional) VRAM Zkus to.

Bark

Účinky zvuku Smích/povzdech Hudební generace 100+ reproduktory Vícejazyčné

Model na bázi transformeru, který vytváří realistickou řeč, hudbu a zvukové efekty.

Pomalu · 5GB VRAM Zkus to.

Bark Small

Lehká Rychlejší než plný kůra Citová řeč Vícejazyčné

Osvětlená verze Barku s rychlejší inferencí a nižším využitím paměti.

Střední · 2GB VRAM Zkus to.

CosyVoice 2

Streamování Zero-shot klonování Cross-lingving Kontrola emocí Lidská parita

Alibaba je škálovatelný streaming TTS s lidskou-parity přirozenost a téměř-nula latence.

Dia TTS

Víceproudový reproduktor Vygenerování dialogu Přirozené zatáčení Emocionální výraz Parametry 1.6B

Model generování dialogů s více reproduktory, který vytváří přirozené konverzace mezi reproduktory.

Parler TTS

Popis hlasu Kontrola přirozeného jazyka Flexibilní tvorba hlasu Žádné přednastavené hlasy nepotřebují

Popište hlas, který chcete v přirozeném jazyce a Parler generuje odpovídající řeč.

Indic Parler TTS

11 indických jazyků Popis hlasu Kontrola přirozeného jazyka Authentic Indic výslovnost

Vysoce kvalitní řeč pro 8+ indické jazyky s přirozenou jazykovou hlasovou kontrolou.

Pomalu · 8GB VRAM Zkus to.

KhanomTan TTS

Thajské TTS Více reproduktorů Architektura YourTTS Commercial-safe licence

Thajsko-první text-to-speech s výběrem hlasových mluvčích.

Rychle · 2GB VRAM Zkus to.

IndexTTS-2

Kontrola emocí Zero-shot Emoční vektory Výrazná řeč Kontrola jemného zrnění

Nula-shot TTS s jemně zakořeněnou emocionální kontrolou a vysokou expresivitou.

Spark TTS

Klonování hlasu Kontrola emocí Kontrola stylu Prompt-based 5-sekundový klonování

Hlasové klonování TTS s ovladatelnými emocemi a stylem mluvení prostřednictvím podnětů.

GPT-SoVITS

5-sekundový klonování Zpívající hlas Párkrát se učím. Vysoká věrnost Cross-lingving

Několik-shot hlas klonování TTS, který replikuje jakýkoliv hlas z pouhých 5 sekund zvuku.

Pomalu · 6GB VRAM Zkus to.

Orpheus

Lidské emoce 100K hodin tréninku Přírodní důraz Výrazná řeč

Lidský emocionální TTS model vycvičený na 100K hodin řečových dat.

Chatterbox

Zero-shot klonování Kontrola emocí Vysoká věrnost Přenos stylu Klonování jednotlivých vzorků

Nejmodernější klonování nulovacího hlasu s emoční kontrolou z Resse Al.

Tortoise TTS

Nejvyšší kvalita Vícehlasové Architektura DALL-E Klonování hlasu Autoregresivní

Multi-voice text-to-speech zaměřený na kvalitu s autoregresivní architekturou.

Pomalu · 8GB VRAM Zkus to.

StyleTTS 2

Lidská úroveň Rozptýlení stylu Advokátní výcvik Přirozená odchylka Vysoká věrnost

Lidská úroveň textu-k-mluvě prostřednictvím stylu difuze a protivní školení.

OpenVoice

Okamžité klonování Převod hlasu Kontrola emocí Kontrola zrychlení Vícejazyčné

Okamžité klonování hlasu s granulovanou kontrolou nad stylem, emocemi a přízvukem.

Qwen3 TTS

9 přednastavených hlasů Návrh hlasu z textu Kontrola emocí 10 jazyků

Alibaba je vícejazyčné TTS s předem nastavenými hlasy a hlasový design z textu.

Střední · 7GB VRAM Zkus to.

VieNeu-TTS-v2

7 přednastavených hlasů (severní + jižní přízvuky) Přepínač kódu En-Vi Klonování hlasu (3-5s reference) Podpora podcastu / multi-speaker Pouze CPU není nutné GPU

Vietnamec + anglický kód-přepínač TTS se 7 přednastavené hlasy a nulovací hlas klonování. CPU-pouze, není potřeba GPU.

Rychle · CPU VRAM Zkus to.

Sesame CSM

Konverzační Přírodní načasování Přijímací řízení Backchannel 1B parametry

Model konverzační řeči vytváří přirozený dialog s vhodným načasováním a emocemi.

Pomalu · 8GB VRAM Zkus to.

Chatterbox Turbo

Pod 200ms latence Paralinguistické značky 6x v reálném čase Klonování hlasu Vodoznak

Rychlejší Chatterbox s sub-200ms latence a paralinguistické značky pro smích, kašel, a další.

Rychle · 2GB VRAM Zkus to.

VoxCPM

44.1kHz audio Bez tokenizéru Cross-lingual kloning Kontextově-uvědomělé LORA jemné ladění

Tokenizer-free TTS produkující 44.1kHz audio s kontextově-uvědomělý odstavec konzistence.

Rychle · 4GB VRAM Zkus to.

Kani TTS 2

3GB VRAM Ultrarychlostní Lehká Nanokodek Volné

Ultra-lightweight 400M English TTS model běží pouze v 3GB VRAM.

Rychle · 3GB VRAM Zkus to.

OuteTTS

Závěr CPU Závěr prohlížeče Více backendů Profily reproduktorů

TTS založené na LLM, které běží na procesoru, GPU nebo prohlížeči přes lama.cpp a Transformers.js.

Pomalu · 2GB VRAM Zkus to.

VibeVoice

Víceproudový reproduktor Do 90 min Generace podcastu Konzistence řečníka 200ms streaming

Microsoft model pro dlouhý-formovat multi-reproduktor obsah, jako podcasty a audioknihy.

Rychle · 4GB VRAM Zkus to.

Pocket TTS

100M parametry Závěr CPU Klonování hlasu Klonování jednotlivých vzorků Připravené hrany

Lehký model parametru 100M od Kyutai s klonováním hlasu z jednoho vzorku.

Rychle · 1GB VRAM Zkus to.

Kitten TTS

CPU-only inference Pod 80MB velikost modelu 8 vestavěných hlasů Ovládání rychlosti ONNX na bázi Výstup 24kHz

Ultra-lehké TTS pod 80MB. Spouští na CPU bez GPU.

Rychle · 0GB VRAM Zkus to.

CosyVoice3

Bi-streamování Kontrola emocí Klonování hlasu Kontrola rychlosti/objemu Instrukce následující

Další generace vícejazyčných TTS s bi-streamováním, ovládáním emocí a bezvýstřelovým klonováním hlasu.

Rychle · 4GB VRAM Zkus to.

NAMAA Saudi TTS

Saudský arabský dialekt Moderní standard arabsky Zero-shot hlasové klonování Kontrola emocí Původní výslovnost

První otevřený saúdsko-arabský TTS, rodilý saúdský dialekt s klonováním hlasu v Chatterboxu.

Střední · 6GB VRAM Zkus to.

Darwin TTS

Klonování hlasu Cross-lingving FFN-blated 4 hlavní jazyky páteř Qwen3

Cross-modal Qwen3-TTS varianta se závažími FFN smíchanými z jazykového modelu Qwen3-1.7B pro ostřejší vícejazyčné klonování.

Střední · 7GB VRAM Zkus to.

MOSS-TTSD

Dialog s více reproduktory Až 5 reproduktorů 60min souvislý zvuk Klonování hlasu Podcast-optimalizováno

Multi-speaker dialog pokračování modelu?, generovat podcast-styl konverzace s až 5 reproduktory a 60 minut soudržného zvuku.

Střední · 12GB VRAM Zkus to.

Ming-Omni TTS

44.1kHz výstup Klonování hlasu Kontrola emocí Kontrola dialektu GM generování Kompaktní 0.5B

Kompaktní model 0.5B omni-modální řeči z inkluzeAI s vysokou věrností 44.1kHz výstupem a bezvýstřelovým klonováním hlasu.

Střední · 3GB VRAM Zkus to.

MOSS-TTS Nano