Free AI Text proslovu
33+ modely open-source, 273+ hlasy, 33+ jazyky, žádný účet není nutný.
Vše, co potřebujete pro hlas AI
30+ nářadí poháněné modely Open-source AI
33+ AI Voice Models
Nejkomplexnější kolekce modelů TTS open-source na jedné platformě
Kokoro Volné
Kokoro je 82 milionů parametru text-to-speech model, který punčuje daleko nad jeho hmotnost třídy. Navzdory své malé velikosti, produkuje pozoruhodně přírodní a expresivní řeč. Kokoro podporuje více jazyků včetně angličtiny, japonštiny, čínštiny a korejštiny s řadou expresivních hlasů. To běží neuvěřitelně rychle, generování zvuku téměř 100x rychleji než v reálném čase na GPU.
Nejlepší pro: Vysoce kvalitní TTS s minimální latence, streaming aplikace
Zkuste zdarma
Piper Volné
Piper je lehký text-to-speech motor vyvinutý Rhasspy, který používá VITS a hrtan architektury. To běží zcela na CPU, což je ideální pro hrany zařízení, domácí automatizace, a aplikace vyžadující offline TTS. S více než 100 hlasy v 30 + jazyky, Piper poskytuje přírodní-zpívající řeč při rychlostech v reálném čase i na Malina Pi 4.
Nejlepší pro: Rychlé náhledy, dostupnost a vložené aplikace
Zkuste zdarma
VITS Volné
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) je paralelní metoda TTS ke konci, která generuje více přirozeného zvuku než současné dvoustupňové modely. Přijímá variační inferenci rozšířenou o normalizační toky a protivní výcvikový proces, který dosahuje významného zlepšení přirozenosti.
Nejlepší pro: Univerzální text-to-speech s přírodní prosodou
Zkuste zdarma
MeloTTS Volné
MeloTTS by MyShell.ai je vícejazyčná TTS knihovna podporující angličtinu (American, British, Indian, Australan), španělštinu, francouzštinu, čínštinu, japonštinu a korejštinu. Je to velmi rychlé, zpracování textu při rychlosti téměř v reálném čase na procesoru sám. MeloTTS je určen pro výrobu a podporuje jak CPU a GPU inference.
Nejlepší pro: Výrobní aplikace potřebné rychle, vícejazyčné TTS
Zkuste zdarma
Kani TTS 2 Volné
Kani-TTS-2 od NineNineSix je ultra-lehký 400M parametr model postavený na Liquid AI LFM2 páteře s NVIDIA NanoCodec. To běží v pouhých 3GB VRAM a produkuje ~10 sekund řeči za ~2 sekundy na A100 (RTF 0.2). Současné veřejné vydání lodí pouze angličtina-kani-tts-2-en[2] checkpoint a nevystavuje reproduktor-embedding háček potřebný pro klonování hlasu ~2 používá Chatterbox / IndexTTS2 / F5-TTS pro klonování, nebo Kokoro / MeloTTS pro non-angličtina.
Nejlepší pro: Rychlá anglická generace na nízkoVRAM hardware, rychlé náhledy
Zkuste zdarma
OuteTTS Volné
OuteTTS rozšiřuje velké jazykové modely s funkcemi text-to-speech při zachování původní architektury. Podporuje více backendů včetně lama.cpp (CPU/GPU), objímání transformerů obličeje, ExLlamaV2, VLLM, a dokonce i inference prohlížeče přes Transformers.js. Funkce klonování hlasu s nulovým výstřelem přes reproduktorové profily uložené jako JSON.
Nejlepší pro: Zavádění hran, TTS na bázi prohlížeče, prostředí s nízkým zdrojem
Zkuste zdarma
Pocket TTS Volné
Kapesní TTS od Kyutai (tvůrci Moshi) je kompaktní 100M parametr text-to-speech modelu, který prorazí vysoko nad svou váhu. To běží efektivně na CPU, podporuje nulovací hlasové klonování z jediného zvukového vzorku, a produkuje přirozený-zvučení řeči. Malá velikost modelu je ideální pro nasazení hran a nízko-zdrojové prostředí.
Nejlepší pro: Lehké nasazení, prostředí pouze CPU, rychlé klonování hlasu
Zkuste zdarma
Kitten TTS Volné
Kitten TTS by KittenML je ultralehký text-to-speech model postavený na ONNX. S variantami od 15M do 80M parametry (25-80 MB na disku), poskytuje vysoce kvalitní hlasovou syntézu na procesoru bez nutnosti GPU. Vlastnosti 8 vestavěných hlasů, nastavitelná rychlost řeči a vestavěný text předzpracování pro čísla, měny a jednotky. Ideální pro nasazení hran a nízkonákladové aplikace.
Nejlepší pro: Rychlé lehké TTS, nasazení hran, nízkonákladové aplikace
Zkuste zdarma
Ming-Omni TTS Volné
Ming-omni-tts-0.5B podle inkluzeAI je kompaktní omni-modální model řeči postavený na BailingMM husté páteři s Patch-by-Patch flow-match-match audio dekodér. Dodává 44.1kHz výstup (blízká kvalita CD), podporuje nulovací hlas klonování z 3+ druhé reference, a zahrnuje vestavěný emoční / dialekt / BGM ovládání přes JSON pokyny. Vynikající stabilita 0,8% WER na čínské referenční hodnoty.
Nejlepší pro: Vysoce věrnostní dvojjazyčné vyprávění, emocionálně řízené hlasové hraní, čínský audioknihový obsah
Zkuste zdarma
MOSS-TTS Nano Volné
MOSS-TTS-Nano-100M je kompaktní varianta 100M-parametrů OpenMOSS rodiny MOSS-TTS, která sdílí architekturu zpožděných transformátorů. Vyměňuje maximální kvalitu 8B modelu pro ~80x menší váhy a dramaticky nižší na žádost VRAM, takže je vhodná pro nasazení free-tier a high-throughput. Stejný 20-jazyčný dosah.
Nejlepší pro: Free-tier TTS, velkoobjemová výroba, nízkonákladové interaktivní použití
Zkuste zdarma
Bark Standardní
Model na bázi transformeru, který vytváří realistickou řeč, hudbu a zvukové efekty.
Vývojář: Suno · Licence: MIT
Zkus to.
Bark Small Standardní
Osvětlená verze Barku s rychlejší inferencí a nižším využitím paměti.
Vývojář: Suno · Licence: MIT
Zkus to.
CosyVoice 2 Standardní
Alibaba je škálovatelný streaming TTS s lidskou-parity přirozenost a téměř-nula latence.
Vývojář: Alibaba (Tongyi Lab) · Licence: Apache 2.0
Zkus to.
Dia TTS Standardní
Model generování dialogů s více reproduktory, který vytváří přirozené konverzace mezi reproduktory.
Vývojář: Nari Labs · Licence: Apache 2.0
Zkus to.
Parler TTS Standardní
Popište hlas, který chcete v přirozeném jazyce a Parler generuje odpovídající řeč.
Vývojář: Hugging Face · Licence: Apache 2.0
Zkus to.
IndexTTS-2 Standardní
Nula-shot TTS s jemně zakořeněnou emocionální kontrolou a vysokou expresivitou.
Vývojář: Index Team · Licence: Bilibili Model License
Zkus to.
Spark TTS Standardní
Hlasové klonování TTS s ovladatelnými emocemi a stylem mluvení prostřednictvím podnětů.
Vývojář: SparkAudio · Licence: CC BY-NC-SA 4.0
Zkus to.
GPT-SoVITS Standardní
Několik-shot hlas klonování TTS, který replikuje jakýkoliv hlas z pouhých 5 sekund zvuku.
Vývojář: RVC-Boss · Licence: MIT
Zkus to.
Orpheus Standardní
Lidský emocionální TTS model vycvičený na 100K hodin řečových dat.
Vývojář: Canopy Labs · Licence: Llama 3.2 Community
Zkus to.
Qwen3 TTS Standardní
Alibaba je vícejazyčné TTS s předem nastavenými hlasy a hlasový design z textu.
Vývojář: Alibaba (Qwen) · Licence: Apache 2.0
Zkus to.
VieNeu-TTS-v2 Standardní
Vietnamec + anglický kód-přepínač TTS se 7 přednastavené hlasy a nulovací hlas klonování. CPU-pouze, není potřeba GPU.
Vývojář: Phạm Nguyễn Ngọc Bảo · Licence: Apache 2.0
Zkus to.
Chatterbox Turbo Standardní
Rychlejší Chatterbox s sub-200ms latence a paralinguistické značky pro smích, kašel, a další.
Vývojář: Resemble AI · Licence: MIT
Zkus to.
VoxCPM Standardní
Tokenizer-free TTS produkující 44.1kHz audio s kontextově-uvědomělý odstavec konzistence.
Vývojář: OpenBMB · Licence: Apache 2.0
Zkus to.
VibeVoice Standardní
Microsoft model pro dlouhý-formovat multi-reproduktor obsah, jako podcasty a audioknihy.
Vývojář: Microsoft · Licence: MIT
Zkus to.
CosyVoice3 Standardní
Další generace vícejazyčných TTS s bi-streamováním, ovládáním emocí a bezvýstřelovým klonováním hlasu.
Vývojář: Alibaba (FunAudioLLM) · Licence: Apache 2.0
Zkus to.
NAMAA Saudi TTS Standardní
První otevřený saúdsko-arabský TTS, rodilý saúdský dialekt s klonováním hlasu v Chatterboxu.
Vývojář: NAMAA Space · Licence: MIT
Zkus to.
Darwin TTS Standardní
Cross-modal Qwen3-TTS varianta se závažími FFN smíchanými z jazykového modelu Qwen3-1.7B pro ostřejší vícejazyčné klonování.
Vývojář: FINAL-Bench · Licence: Apache 2.0
Zkus to.
MOSS-TTSD Standardní
Multi-speaker dialog pokračování modelu?, generovat podcast-styl konverzace s až 5 reproduktory a 60 minut soudržného zvuku.
Vývojář: OpenMOSS · Licence: Apache 2.0
Zkus to.
CosyVoice 2
Alibaba je škálovatelný streaming TTS s lidskou-parity přirozenost a téměř-nula latence.
Jazyky: en, zh, ja, ko, fr, de, it, es
Klonový hlas
IndexTTS-2
Nula-shot TTS s jemně zakořeněnou emocionální kontrolou a vysokou expresivitou.
Jazyky: en, zh
Klonový hlas
Spark TTS
Hlasové klonování TTS s ovladatelnými emocemi a stylem mluvení prostřednictvím podnětů.
Jazyky: en, zh
Klonový hlas
GPT-SoVITS
Několik-shot hlas klonování TTS, který replikuje jakýkoliv hlas z pouhých 5 sekund zvuku.
Jazyky: en, zh, ja, ko
Klonový hlas
Chatterbox
Nejmodernější klonování nulovacího hlasu s emoční kontrolou z Resse Al.
Jazyky: en
Klonový hlas
Tortoise TTS
Multi-voice text-to-speech zaměřený na kvalitu s autoregresivní architekturou.
Jazyky: en
Klonový hlas
OpenVoice
Okamžité klonování hlasu s granulovanou kontrolou nad stylem, emocemi a přízvukem.
Jazyky: en, zh, ja, ko, fr, es
Klonový hlas
VieNeu-TTS-v2
Vietnamec + anglický kód-přepínač TTS se 7 přednastavené hlasy a nulovací hlas klonování. CPU-pouze, není potřeba GPU.
Jazyky: vi, en
Klonový hlas
Chatterbox Turbo
Rychlejší Chatterbox s sub-200ms latence a paralinguistické značky pro smích, kašel, a další.
Jazyky: en
Klonový hlas
VoxCPM
Tokenizer-free TTS produkující 44.1kHz audio s kontextově-uvědomělý odstavec konzistence.
Jazyky: en, zh
Klonový hlas
OuteTTS
TTS založené na LLM, které běží na procesoru, GPU nebo prohlížeči přes lama.cpp a Transformers.js.
Jazyky: en
Klonový hlas
Pocket TTS
Lehký model parametru 100M od Kyutai s klonováním hlasu z jednoho vzorku.
Jazyky: en, fr
Klonový hlas
CosyVoice3
Další generace vícejazyčných TTS s bi-streamováním, ovládáním emocí a bezvýstřelovým klonováním hlasu.
Jazyky: en, zh, ja, ko, de, es, fr, it, ru
Klonový hlas
NAMAA Saudi TTS
První otevřený saúdsko-arabský TTS, rodilý saúdský dialekt s klonováním hlasu v Chatterboxu.
Jazyky: ar
Klonový hlas
Darwin TTS
Cross-modal Qwen3-TTS varianta se závažími FFN smíchanými z jazykového modelu Qwen3-1.7B pro ostřejší vícejazyčné klonování.
Jazyky: en, ko, ja, zh
Klonový hlas
MOSS-TTSD
Multi-speaker dialog pokračování modelu?, generovat podcast-styl konverzace s až 5 reproduktory a 60 minut soudržného zvuku.
Jazyky: en, zh
Klonový hlas
Ming-Omni TTS
Kompaktní model 0.5B omni-modální řeči z inkluzeAI s vysokou věrností 44.1kHz výstupem a bezvýstřelovým klonováním hlasu.
Jazyky: en, zh
Klonový hlas
MOSS-TTS Nano
Drobná varianta 100M MOSS-TTS, stejná architektura, 80x menší, free-tier latency.
Jazyky: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Klonový hlasVývojář-První API
OpenAI kompatibilní REST API. Jeden cíl, 22+ modely. Streamování podpory pro aplikace v reálném čase.
- Formát kompatibilní s OpenAI
- Streamování TTS pro aplikace v reálném čase
- Zpracovávání šarží pro velká pracovní místa
- Oznámení o webhooku
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Jednoduché, Průhledné ceny
Začněte zdarma, jak rostete.
Volné
15 000 znaků + 5 000/den
- 7 volných modelů včetně Kokoro
- 5,000 znaků na generaci
- Součástí je přístup API
Starter
500 kreditů/měsíc
- Všechny 22+ modely
- 100 000 znaků na generaci
- Klonování hlasu
Pro
2 000 kreditů/měsíc
- Všechno v Starteru
- Přístup API
- Prioritní zpracování
Často kladené otázky
Co bychom mohli zlepšit? Vaše zpětná vazba nám pomáhá řešit problémy.
Začněte používat AI hlas dnes
Připojte se k tvůrcům, developerům a podnikům využívajícím TTS.ai