Ingyenes MI Szöveg a beszédhez
33+ nyílt forráskódú modellek, 273+ hangok, 33+ nyelveket. Számla nem szükséges.
Minden, amire szükséged van a hangjelzőhöz
30+ szerszámok nyílt forráskódú MI modellekkel
33+ AI hangmodellek
A nyílt forráskódú TTS modellek legátfogóbb gyűjteménye egy platformon
Kokoro Ingyenes
Kokoro egy 82 millió paraméteres szövegtől-beszédig modell, amely jóval a súlyosztály felett üt. Kis mérete ellenére rendkívül természetes és kifejező beszédet ad. Kokoro több nyelvet támogat, köztük angolt, japánt, kínait és koreait különböző expresszív hangokkal. Hihetetlenül gyorsan fut, közel 100x-kal gyorsabban generál hangokat, mint valós időben egy GPU-n.
Legjobb: Kiváló minőségű TTS minimális késéssel, streaming alkalmazásokkal
Próbálja ki a szabad
Piper Ingyenes
Piper egy könnyű SMS-to-speech motor által kifejlesztett Rhasspy, amely használja VITS és gége architektúrák. Ez teljesen a CPU, így ideális az él eszközök, otthon automatizálás, és alkalmazások igényel offline TTS. Több mint 100 hangok 30+ nyelvek, Piper szállít természetes hangzású beszéd valós idejű sebesség még egy málna Pi 4.
Legjobb: Gyors előnézetek, akadálymentesítés és beágyazott alkalmazások
Próbálja ki a szabad
VITS Ingyenes
A VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) egy párhuzamos vég-vég-vég TTS módszer, amely több természetes hangzást generál, mint a jelenlegi kétlépcsős modellek. A standardizáló áramlásokkal és egy ellenzős képzési folyamattal kiegészített variációs következtetéseket fogad el, amelyek jelentős javulást eredményeznek a természetességben.
Legjobb: Általános célú szöveg-szólás természetes proszódiával
Próbálja ki a szabad
MeloTTS Ingyenes
MelotTS by MyShell.ai egy többnyelvű TTS könyvtár támogató angol (amerikai, brit, indiai, ausztrál), spanyol, francia, kínai, japán, és koreai. Ez rendkívül gyors, feldolgozás szöveg közel valós idejű sebesség CPU egyedül. MelotTS célja a termelés használata, és támogatja a CPU és a GPU következtetések.
Legjobb: Gyors, többnyelvű TTS gyártási alkalmazásokra van szükség
Próbálja ki a szabad
Kani TTS 2 Ingyenes
Kani-TTS-2 by NineNineSix egy ultra könnyű 400M paraméter modell, amely egy folyékony AI LFM2 gerinc NVIDIA NanoCodec. Ez fut csak 3GB VRAM és gyárt ~10 másodperc beszéd ~2 másodperc egy A100 (RTF 0.2). A jelenlegi nyilvános felszabadító hajók egy angol-csak Πkani-tts-2-en Π ellenőrzőpont, és nem teszi ki a hangszóró-embeding kampó szükséges hang klónozáshoz Chatterbox / IndexTTS2 / F5-TTS klónozáshoz, vagy Kokoro / MelotTS nem angol.
Legjobb: Gyors angol generáció alacsony VRAM hardverrel, gyors előnézet
Próbálja ki a szabad
OuteTTS Ingyenes
Az OuteTTS nagy nyelvi modelleket nyújt szöveges-speech képességekkel, miközben megőrzi az eredeti architektúrát. Támogatja a több backendet, beleértve a lama.cpp (CPU/GPU), az ölelés Face Transformers, ExLlamaV2, VLLM, és még böngészői következtetéseket Transformers.js. Jellemzők zéró-shot hang klónozás a hangszóró profilok mentett JSON.
Legjobb: Edge telepítése, böngészőalapú TTS, alacsony forráskódú környezetek
Próbálja ki a szabad
Pocket TTS Ingyenes
A Kyutai Pocket TTS (Moshi alkotói) egy kompakt 100M-es paraméterű szövegtől-beszédig modell, amely jóval a súlya fölé hat. Hatékonyan fut a CPU-n, támogatja a zéró hang klónozását egyetlen audió mintából, és természetes hangzású beszédet ad. A kis modell mérete ideálissá teszi az élkiépítéshez és az alacsony forráskódú környezetekhez.
Legjobb: Könnyű bevetés, csak CPU környezetek, gyors hang klónozás
Próbálja ki a szabad
Kitten TTS Ingyenes
Kitten TTS által KittenML egy ultra-könnyű szöveg-to-speech modell épült ONNX. Változatok 15M-től 80M paraméterek (25-80 MB lemezen), hogy kiváló minőségű hangszintézist CPU nélkül igényel GPU. Jellemzők 8 beépített hangok, állítható beszédsebesség, és beépített szöveg előfeldolgozás számok, pénznemek, és egységek. Ideális szél telepítése és alacsony-szélességű alkalmazások.
Legjobb: Gyors, könnyű TTS, élkialakítás, alacsony latenciajú alkalmazások
Próbálja ki a szabad
Ming-Omni TTS Ingyenes
Ming-omni-tts-0.5B by includingAI egy kompakt mindenimodális beszédmodell, amely a BailingMM sűrű gerincére épül egy Patch-by-Patch áramlás-egyező audio dekóderrel. 44,1kHz kimenetet szállít (a CD-minőség közelében), támogatja a zéró-shot hang klónozást egy 3+ második referenciapontból, és magában foglalja a beépített érzelmet / dialektust / BGM vezérlést JSON utasításokon keresztül. Kiváló stabilitás (a kínai referenciaértékeken 0,83% WER)
Legjobb: Hűséges kétnyelvű narráció, érzelem-kontrollos hanghatás, kínai audiobook tartalom
Próbálja ki a szabad
MOSS-TTS Nano Ingyenes
A MOSS-TTS-Nano-100M az OpenMOSS kompakt 100M-paraméteres változata a MOSS-TTS családnak, amely megosztja a késleltetett transzformer architektúrát. A 8B modell csúcsminősége ~80x kisebb súlyokra és drámaian alacsonyabb VRAM-ra, így alkalmas a szabad és nagy teljesítményű telepítésekre.
Legjobb: Ingyenes TTS, nagy volumenű gyártás, alacsony felbontású interaktív használat
Próbálja ki a szabad
Bark Szabvány
Transformer-alapú szöveg-audio modell, amely realisztikus beszéd, zene, és hanghatások.
Fejlesztő: Suno · Jogosítvány: MIT
Próbáld ki.
Bark Small Szabvány
Könnyebb változata Bark gyorsabb következtetés és kisebb memória használat.
Fejlesztő: Suno · Jogosítvány: MIT
Próbáld ki.
CosyVoice 2 Szabvány
Alibaba skálázható TTS-e emberi-paritatív természetességgel és majdnem nulla késéssel.
Fejlesztő: Alibaba (Tongyi Lab) · Jogosítvány: Apache 2.0
Próbáld ki.
Dia TTS Szabvány
Multi-speaker dialógus generációs modell, amely létrehoz természetes beszélgetések hangszórók között.
Fejlesztő: Nari Labs · Jogosítvány: Apache 2.0
Próbáld ki.
Parler TTS Szabvány
Írja le a kívánt hangot természetes nyelven, és Parler generál megfelelő beszédet.
Fejlesztő: Hugging Face · Jogosítvány: Apache 2.0
Próbáld ki.
IndexTTS-2 Szabvány
Zéró lövés TTS finoman kifinomult érzelmi kontroll és magas kifejezőképesség.
Fejlesztő: Index Team · Jogosítvány: Bilibili Model License
Próbáld ki.
Spark TTS Szabvány
Hang klónozása TTS irányítható érzelemmel és beszédstílus segítségével prompts.
Fejlesztő: SparkAudio · Jogosítvány: CC BY-NC-SA 4.0
Próbáld ki.
GPT-SoVITS Szabvány
Kevés hang klónozza a TTS-t, ami lemásolja a hangot mindössze 5 másodpercnyi hangból.
Fejlesztő: RVC-Boss · Jogosítvány: MIT
Próbáld ki.
Orpheus Szabvány
Emberi szintű TTS modell, 100 ezer órányi beszédadattal.
Fejlesztő: Canopy Labs · Jogosítvány: Llama 3.2 Community
Próbáld ki.
Qwen3 TTS Szabvány
Alibaba többnyelvű TTS-e előre beállított hangokkal és szöveges hangtervezéssel.
Fejlesztő: Alibaba (Qwen) · Jogosítvány: Apache 2.0
Próbáld ki.
VieNeu-TTS-v2 Szabvány
Vietnámi + Angol kódkapcsoló TTS 7 előre beállított hangok és zéró-shot hang klónozás. CPU-csak, nincs szükség GPU.
Fejlesztő: Phạm Nguyễn Ngọc Bảo · Jogosítvány: Apache 2.0
Próbáld ki.
Chatterbox Turbo Szabvány
Gyorsabb Chatterbox szub-200 ms késés és paralinguista címkék nevetés, köhögés, és így tovább.
Fejlesztő: Resemble AI · Jogosítvány: MIT
Próbáld ki.
VoxCPM Szabvány
Tokenizer-mentes TTS 44.1kHz audio konzisztenciával.
Fejlesztő: OpenBMB · Jogosítvány: Apache 2.0
Próbáld ki.
VibeVoice Szabvány
Microsoft modell hosszú formájú több hangszórós tartalom, mint a podcasts és audiobooks.
Fejlesztő: Microsoft · Jogosítvány: MIT
Próbáld ki.
CosyVoice3 Szabvány
Következő generációs többnyelvű TTS bi-streaming, érzelmi kontroll, és nulla-shot hang klónozás.
Fejlesztő: Alibaba (FunAudioLLM) · Jogosítvány: Apache 2.0
Próbáld ki.
NAMAA Saudi TTS Szabvány
Az első nyitott szaúdi-arábiai TTS, Native szaúdi dialektus Chatterbox minőségű hang klónozással.
Fejlesztő: NAMAA Space · Jogosítvány: MIT
Próbáld ki.
Darwin TTS Szabvány
Keresztmodális Qwen3-TTS változat FFN súlyokkal keverve a Qwen3-1.7B nyelvi modell élesebb többnyelvű klónozás.
Fejlesztő: FINAL-Bench · Jogosítvány: Apache 2.0
Próbáld ki.
MOSS-TTSD Szabvány
Multi-speaker párbeszéd folytatása modell Podcast stílusú beszélgetések akár 5 hangszóró és 60 perc koherens audio.
Fejlesztő: OpenMOSS · Jogosítvány: Apache 2.0
Próbáld ki.
CosyVoice 2
Alibaba skálázható TTS-e emberi-paritatív természetességgel és majdnem nulla késéssel.
Nyelvek: en, zh, ja, ko, fr, de, it, es
Klónhang
IndexTTS-2
Zéró lövés TTS finoman kifinomult érzelmi kontroll és magas kifejezőképesség.
Nyelvek: en, zh
Klónhang
Spark TTS
Hang klónozása TTS irányítható érzelemmel és beszédstílus segítségével prompts.
Nyelvek: en, zh
Klónhang
GPT-SoVITS
Kevés hang klónozza a TTS-t, ami lemásolja a hangot mindössze 5 másodpercnyi hangból.
Nyelvek: en, zh, ja, ko
Klónhang
Chatterbox
A legmodernebb zéró hangú klónozás érzelmi irányítással Resemble AI-tól.
Nyelvek: en
Klónhang
Tortoise TTS
A többhangú szövegtől a beszédig a minőségre koncentrált, autoregresszív architektúrával.
Nyelvek: en
Klónhang
OpenVoice
Azonnali hang klónozás szemcsés kontroll felett stílus, érzelem, és akcentus.
Nyelvek: en, zh, ja, ko, fr, es
Klónhang
VieNeu-TTS-v2
Vietnámi + Angol kódkapcsoló TTS 7 előre beállított hangok és zéró-shot hang klónozás. CPU-csak, nincs szükség GPU.
Nyelvek: vi, en
Klónhang
Chatterbox Turbo
Gyorsabb Chatterbox szub-200 ms késés és paralinguista címkék nevetés, köhögés, és így tovább.
Nyelvek: en
Klónhang
OuteTTS
LLM alapú TTS, amely CPU, GPU vagy böngészőn keresztül fut a lama.cpp és Transformers.js.
Nyelvek: en
Klónhang
Pocket TTS
Könnyű 100M paraméter modell Kyutai hang klónozás egyetlen mintából.
Nyelvek: en, fr
Klónhang
CosyVoice3
Következő generációs többnyelvű TTS bi-streaming, érzelmi kontroll, és nulla-shot hang klónozás.
Nyelvek: en, zh, ja, ko, de, es, fr, it, ru
Klónhang
NAMAA Saudi TTS
Az első nyitott szaúdi-arábiai TTS, Native szaúdi dialektus Chatterbox minőségű hang klónozással.
Nyelvek: ar
Klónhang
Darwin TTS
Keresztmodális Qwen3-TTS változat FFN súlyokkal keverve a Qwen3-1.7B nyelvi modell élesebb többnyelvű klónozás.
Nyelvek: en, ko, ja, zh
Klónhang
MOSS-TTSD
Multi-speaker párbeszéd folytatása modell Podcast stílusú beszélgetések akár 5 hangszóró és 60 perc koherens audio.
Nyelvek: en, zh
Klónhang
Ming-Omni TTS
Kompakt 0.5B omni-modális beszédmodell az includingAI-ból, nagy hűségű 44,1kHz kimenettel és zéró-shot hang klónozással.
Nyelvek: en, zh
Klónhang
MOSS-TTS Nano
Tiny 100M MOSS-TTS variáns, azonos architektúra, 80x kisebb, ingyenes latency.
Nyelvek: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
KlónhangFejlesztő-első API
OpenAI-kompatibilis REST API. Egy végpont, 22+ modellek. Streaming támogatás valós idejű alkalmazások.
- OpenAI-kompatibilis formátum
- TTS közvetítés valós idejű alkalmazásokhoz
- Batch processing for large jobs
- Webhook értesítések
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Egyszerű, átlátható árképzés
Kezdd el, ahogy nősz.
Ingyenes
15 000 karakter + 5000/nap
- 7 ingyenes modell, beleértve Kokoro
- 5000 char/generáció
- API-hozzáféréssel együtt
Indító
500 kredit/hó
- Mind a 22+ modell
- 100 000 chars generációnként
- Hang klónozása
Pro
2000 kredit/hó
- Minden kezdőben
- API-hozzáférés
- Prioritású feldolgozás
Üzleti tevékenység
10 000 kredit/hó
- Minden a Pro-ban
- Ömlesztett API
- Prioritási sor
Az összes terv megtekintése, beleértve a karaktercsomagokat →
Gyakran ismételt kérdések
Mit lehetne javítani? A visszajelzés segít megoldani a problémákat.
Kezdd el használni az AI Voice-t ma
Csatlakozz az alkotókhoz, a fejlesztőkhöz és a TTS.ai-et használó vállalkozásokhoz