Free AI Prevod textu na reč

Parametre 82M Ultra rýchly Expresívne hlasy Viacjazyčné Podpora pre streaming

Ľahký 82M parameter model prináša štúdio-kvalitné reči s bleskovo rýchle odvodenie.

Rýchlo · 1.5GB VRAM Skúste si to

Piper

Priateľský k CPU Offline schopný 100 + hlasy Viac ako 35 jazykov Podpora pre SSML

Rýchly, lokálny neurálny systém premeny textu na reč optimalizovaný pre Raspberry Pi a vstavané zariadenia.

Rýchlo · 0 (CPU only) VRAM Skúste si to

VITS

End-to-end syntéza Prirodzená prozódia Rýchla dedukcia Viacnásobné reproduktory

Podmienený variačný autoenkóder s protichodným učením pre koncové text-to-speech.

Rýchlo · 1GB VRAM Skúste si to

MeloTTS

Optimalizované pre CPU Viacjazyčné Viacnásobné prízvuky Pripravené na výrobu S nízkou latenciou

Vysoko kvalitný viacjazyčný prevod textu na reč, ktorý beží na CPU s minimálnou latenciou.

Rýchlo · 0.5GB (GPU optional) VRAM Skúste si to

Bark

Zvukové efekty Smiech / vzdychanie Generácia hudby Viac ako 100 reproduktorov Viacjazyčné

Model prevodu textu na zvuk založený na transformátoroch, ktorý generuje realistickú reč, hudbu a zvukové efekty.

Pomaly · 5GB VRAM Skúste si to

Bark Small

Ľahký Rýchlejšie ako plná kôra Emocionálna reč Viacjazyčné

Odľahčená verzia Bark s rýchlejším odvodzovaním a nižším využitím pamäte.

Stredná · 2GB VRAM Skúste si to

CosyVoice 2

Streamovanie Klonovanie s nulovým výstrelom Cross-language Ovládanie emócií Human- parity

Alibaba škálovateľný streaming TTS s prirodzenosťou ľudskej parity a takmer nulovou latenciou.

Dia TTS

Multi- reproduktor Generovanie dialógu Prirodzené odbočovanie Emocionálne vyjadrenie Parametre 1.6B

Model generovania dialógu s viacerými reproduktormi, ktorý vytvára prirodzené konverzácie medzi reproduktormi.

Parler TTS

Popis hlasu Kontrola prirodzeného jazyka Flexibilné vytváranie hlasu Nie sú potrebné žiadne prednastavené hlasy

Popíšte hlas, ktorý chcete v prirodzenom jazyku a Parler generuje zodpovedajúcu reč.

Indic Parler TTS

11 Indické jazyky Popis hlasu Kontrola prirodzeného jazyka Authentic Indic výslovnosť

Vysoko kvalitná reč pre 8+ indické jazyky s prirodzeným hlasom ovládania.

Pomaly · 8GB VRAM Skúste si to

KhanomTan TTS

Thajský TTS Viacnásobné reproduktory Architektúra systému YourTTS Komerčne bezpečná licencia

Thai-prvý text-to-speech s možnosťou výberu reproduktorových hlasov.

Rýchlo · 2GB VRAM Skúste si to

IndexTTS-2

Ovládanie emócií Zero-shot Vektory emócií Expresívna reč Jemnozrnná kontrola

Zero-shot TTS s jemnozrnnou kontrolou emócií a vysokou expresivitou.

Spark TTS

Klonovanie hlasu Ovládanie emócií Ovládanie štýlu Na základe výzvy Klonovanie za 5 sekúnd

Hlasové klonovanie TTS s kontrolovateľnými emóciami a štýlom hovorenia prostredníctvom výziev.

GPT-SoVITS

Klonovanie za 5 sekúnd Spievajúci hlas Učenie v niekoľkých záberoch Vysoká vernosť zvuku Cross-language

Niekoľko záberov klonovanie hlasu TTS, ktorý replikuje akýkoľvek hlas z iba 5 sekúnd zvuku.

Pomaly · 6GB VRAM Skúste si to

Orpheus

Emócie na ľudskej úrovni 100K hodín školenia Prirodzený dôraz Expresívna reč

Emocionálny model TTS na ľudskej úrovni trénovaný na 100 000 hodinách rečových dát.

Chatterbox

Klonovanie s nulovým výstrelom Ovládanie emócií Vysoká vernosť zvuku Prenos štýlu Klonovanie jednej vzorky

Najmodernejšie klonovanie hlasu s nulovým záberom s ovládaním emócií od spoločnosti Resemble AI.

Tortoise TTS

Najvyššia kvalita Viachlasý Architektúra DALL-E Klonovanie hlasu Autoregresívna

Multi-hlas text-to-speech zameraný na kvalitu s autoregresívnou architektúrou.

Pomaly · 8GB VRAM Skúste si to

StyleTTS 2

Na ľudskej úrovni Difúzia štýlu Konfrontačný tréning Prirodzená variácia Vysoká vernosť zvuku

Prevod textu na reč na ľudskej úrovni prostredníctvom difúzie štýlu a súboja.

OpenVoice

Okamžité klonovanie Konverzia hlasu Ovládanie emócií Ovládanie prízvuku Viacjazyčné

Okamžité klonovanie hlasu s granulárnou kontrolou nad štýlom, emóciami a prízvukom.

Qwen3 TTS

9 prednastavených hlasov Hlasový dizajn z textu Ovládanie emócií 10 jazykov

Alibaba je viacjazyčný TTS s prednastavenými hlasmi a hlasový dizajn z textu.

Stredná · 7GB VRAM Skúste si to

VieNeu-TTS-v2

7 prednastavených hlasov (sever + juh akcenty) Prepínanie kódov En-Vi Klonovanie hlasu (3-5s referencie) Podpora podcastov/viacerých reproduktorov Iba CPU – nevyžaduje sa GPU

Vietnamský + anglický kód-prepínanie TTS so 7 prednastavenými hlasmi a klonovanie hlasu zero-shot.CPU-len, nie je potrebný GPU.

Rýchlo · CPU VRAM Skúste si to

Sesame CSM

Konverzačné Prirodzené načasovanie Prestupovanie Backchannel Parametre 1B

Model konverzačnej reči generujúci prirodzený dialóg s vhodným načasovaním a emóciami.

Pomaly · 8GB VRAM Skúste si to

Chatterbox Turbo

Sub-200 ms latencia Paralingvistické značky 6x v reálnom čase Klonovanie hlasu Vodoznak

Rýchlejší Chatterbox s latenciou menšou ako 200 ms a paralingvistickými značkami pre smiech, kašeľ a ďalšie.

Rýchlo · 2GB VRAM Skúste si to

VoxCPM

44,1 kHz zvuk Bez tokenizátora Cross-language klonovanie Kontextovo citlivé Jemné ladenie LoRA

Tokenizer-free TTS produkujúce 44.1kHz audio s kontextovou konzistenciou odsekov.

Rýchlo · 4GB VRAM Skúste si to

Kani TTS 2

3GB VRAM Ultra rýchly Ľahký NanoCodec Voľný

Ultraľahký 400M anglický model TTS bežiaci len v 3 GB pamäte VRAM.

Rýchlo · 3GB VRAM Skúste si to

OuteTTS

CPU inference Dedukcia z prehliadača Viacnásobné backendy Profily reproduktorov

LLM-založené TTS, ktorý beží na CPU, GPU, alebo prehliadač cez llama.cpp a Transformers.js.

Pomaly · 2GB VRAM Skúste si to

VibeVoice

Multi- reproduktor Až 90 min Generovanie podcastov Konzistencia reproduktorov 200 ms streamovanie

Model spoločnosti Microsoft pre dlhý obsah s viacerými reproduktormi, ako sú podcasty a audioknihy.

Rýchlo · 4GB VRAM Skúste si to

Pocket TTS

Parametre 100M CPU inference Klonovanie hlasu Klonovanie jednej vzorky Edge- ready

Ľahký 100M parametrický model od Kyutai s klonovaním hlasu z jednej vzorky.

Rýchlo · 1GB VRAM Skúste si to

Kitten TTS

Inferencia len na CPU Menej ako 80MB veľkosť modelu 8 vstavaných hlasov Regulácia otáčok Na báze ONNX Výstup 24 kHz

Ultra-ľahký TTS pod 80MB. Beží na CPU bez GPU.

Rýchlo · 0GB VRAM Skúste si to

CosyVoice3

Bi-streaming Ovládanie emócií Klonovanie hlasu Ovládanie rýchlosti/hlasitosti Pokyny nasledujú

Viacjazyčný TTS novej generácie s dvojitým streamovaním, ovládaním emócií a klonovaním hlasu bez výstrelov.

Rýchlo · 4GB VRAM Skúste si to

NAMAA Saudi TTS

Saudská arabčina Moderná štandardná arabčina Klonovanie hlasu bez záberu Ovládanie emócií Native výslovnosť

Prvý otvorený Saudskoarabský TTS. Natívny Saudský dialekt s klonovaním hlasu v kvalite Chatterbox.

Stredná · 6GB VRAM Skúste si to

Darwin TTS

Klonovanie hlasu Cross-language Zmes s FFN 4 základné jazyky Qwen3 chrbtica

Cross-modálny Qwen3-TTS variant s FFN váhami zmiešanými z jazykového modelu Qwen3-1.7B pre ostrejšie viacjazyčné klonovanie.

Stredná · 7GB VRAM Skúste si to

MOSS-TTSD

Dialóg s viacerými rečníkmi Až 5 reproduktorov 60min koherentný zvuk Klonovanie hlasu Optimalizácia pre podcasty

Model pokračovania dialógu s viacerými reproduktormi – vytvárajte konverzácie v štýle podcastu až s 5 reproduktormi a 60 minútami koherentného zvuku.

Stredná · 12GB VRAM Skúste si to

Ming-Omni TTS

44,1 kHz výstup Klonovanie hlasu Ovládanie emócií Kontrola dialektu Generácia BGM Kompaktný 0,5 B

Kompaktný 0.5B omnimodálny model reči od inclusionAI s vysoko verným 44.1kHz výstupom a nulovým klonovaním hlasu.

Stredná · 3GB VRAM Skúste si to

MOSS-TTS Nano