Ingyenes MI Szöveg a beszédhez

33+ nyílt forráskódú modellek, 273+ hangok, 33+ nyelveket. Számla nem szükséges.

17K+
alkotók
70K+
generációk
33+
AI-modellek
273+
hangok
0/500 karakterek · Feliratkozás 5000 generációnként → Ingyenes
Mondd el a barátaidnak!

Minden, amire szükséged van a hangjelzőhöz

30+ szerszámok nyílt forráskódú MI modellekkel

33+ AI hangmodellek

A nyílt forráskódú TTS modellek legátfogóbb gyűjteménye egy platformon

KokoroKokoro Ingyenes

Kokoro egy 82 millió paraméteres szövegtől-beszédig modell, amely jóval a súlyosztály felett üt. Kis mérete ellenére rendkívül természetes és kifejező beszédet ad. Kokoro több nyelvet támogat, köztük angolt, japánt, kínait és koreait különböző expresszív hangokkal. Hihetetlenül gyorsan fut, közel 100x-kal gyorsabban generál hangokat, mint valós időben egy GPU-n.

Legjobb: Kiváló minőségű TTS minimális késéssel, streaming alkalmazásokkal

Próbálja ki a szabad

PiperPiper Ingyenes

Piper egy könnyű SMS-to-speech motor által kifejlesztett Rhasspy, amely használja VITS és gége architektúrák. Ez teljesen a CPU, így ideális az él eszközök, otthon automatizálás, és alkalmazások igényel offline TTS. Több mint 100 hangok 30+ nyelvek, Piper szállít természetes hangzású beszéd valós idejű sebesség még egy málna Pi 4.

Legjobb: Gyors előnézetek, akadálymentesítés és beágyazott alkalmazások

Próbálja ki a szabad

VITSVITS Ingyenes

A VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) egy párhuzamos vég-vég-vég TTS módszer, amely több természetes hangzást generál, mint a jelenlegi kétlépcsős modellek. A standardizáló áramlásokkal és egy ellenzős képzési folyamattal kiegészített variációs következtetéseket fogad el, amelyek jelentős javulást eredményeznek a természetességben.

Legjobb: Általános célú szöveg-szólás természetes proszódiával

Próbálja ki a szabad

MeloTTSMeloTTS Ingyenes

MelotTS by MyShell.ai egy többnyelvű TTS könyvtár támogató angol (amerikai, brit, indiai, ausztrál), spanyol, francia, kínai, japán, és koreai. Ez rendkívül gyors, feldolgozás szöveg közel valós idejű sebesség CPU egyedül. MelotTS célja a termelés használata, és támogatja a CPU és a GPU következtetések.

Legjobb: Gyors, többnyelvű TTS gyártási alkalmazásokra van szükség

Próbálja ki a szabad

Kani TTS 2Kani TTS 2 Ingyenes

Kani-TTS-2 by NineNineSix egy ultra könnyű 400M paraméter modell, amely egy folyékony AI LFM2 gerinc NVIDIA NanoCodec. Ez fut csak 3GB VRAM és gyárt ~10 másodperc beszéd ~2 másodperc egy A100 (RTF 0.2). A jelenlegi nyilvános felszabadító hajók egy angol-csak Πkani-tts-2-en Π ellenőrzőpont, és nem teszi ki a hangszóró-embeding kampó szükséges hang klónozáshoz Chatterbox / IndexTTS2 / F5-TTS klónozáshoz, vagy Kokoro / MelotTS nem angol.

Legjobb: Gyors angol generáció alacsony VRAM hardverrel, gyors előnézet

Próbálja ki a szabad

OuteTTSOuteTTS Ingyenes

Az OuteTTS nagy nyelvi modelleket nyújt szöveges-speech képességekkel, miközben megőrzi az eredeti architektúrát. Támogatja a több backendet, beleértve a lama.cpp (CPU/GPU), az ölelés Face Transformers, ExLlamaV2, VLLM, és még böngészői következtetéseket Transformers.js. Jellemzők zéró-shot hang klónozás a hangszóró profilok mentett JSON.

Legjobb: Edge telepítése, böngészőalapú TTS, alacsony forráskódú környezetek

Próbálja ki a szabad

Pocket TTSPocket TTS Ingyenes

A Kyutai Pocket TTS (Moshi alkotói) egy kompakt 100M-es paraméterű szövegtől-beszédig modell, amely jóval a súlya fölé hat. Hatékonyan fut a CPU-n, támogatja a zéró hang klónozását egyetlen audió mintából, és természetes hangzású beszédet ad. A kis modell mérete ideálissá teszi az élkiépítéshez és az alacsony forráskódú környezetekhez.

Legjobb: Könnyű bevetés, csak CPU környezetek, gyors hang klónozás

Próbálja ki a szabad

Kitten TTSKitten TTS Ingyenes

Kitten TTS által KittenML egy ultra-könnyű szöveg-to-speech modell épült ONNX. Változatok 15M-től 80M paraméterek (25-80 MB lemezen), hogy kiváló minőségű hangszintézist CPU nélkül igényel GPU. Jellemzők 8 beépített hangok, állítható beszédsebesség, és beépített szöveg előfeldolgozás számok, pénznemek, és egységek. Ideális szél telepítése és alacsony-szélességű alkalmazások.

Legjobb: Gyors, könnyű TTS, élkialakítás, alacsony latenciajú alkalmazások

Próbálja ki a szabad

Ming-Omni TTSMing-Omni TTS Ingyenes

Ming-omni-tts-0.5B by includingAI egy kompakt mindenimodális beszédmodell, amely a BailingMM sűrű gerincére épül egy Patch-by-Patch áramlás-egyező audio dekóderrel. 44,1kHz kimenetet szállít (a CD-minőség közelében), támogatja a zéró-shot hang klónozást egy 3+ második referenciapontból, és magában foglalja a beépített érzelmet / dialektust / BGM vezérlést JSON utasításokon keresztül. Kiváló stabilitás (a kínai referenciaértékeken 0,83% WER)

Legjobb: Hűséges kétnyelvű narráció, érzelem-kontrollos hanghatás, kínai audiobook tartalom

Próbálja ki a szabad

MOSS-TTS NanoMOSS-TTS Nano Ingyenes

A MOSS-TTS-Nano-100M az OpenMOSS kompakt 100M-paraméteres változata a MOSS-TTS családnak, amely megosztja a késleltetett transzformer architektúrát. A 8B modell csúcsminősége ~80x kisebb súlyokra és drámaian alacsonyabb VRAM-ra, így alkalmas a szabad és nagy teljesítményű telepítésekre.

Legjobb: Ingyenes TTS, nagy volumenű gyártás, alacsony felbontású interaktív használat

Próbálja ki a szabad

BarkBark Szabvány

Transformer-alapú szöveg-audio modell, amely realisztikus beszéd, zene, és hanghatások.

Fejlesztő: Suno · Jogosítvány: MIT

Próbáld ki.

Bark SmallBark Small Szabvány

Könnyebb változata Bark gyorsabb következtetés és kisebb memória használat.

Fejlesztő: Suno · Jogosítvány: MIT

Próbáld ki.

CosyVoice 2CosyVoice 2 Szabvány

Alibaba skálázható TTS-e emberi-paritatív természetességgel és majdnem nulla késéssel.

Fejlesztő: Alibaba (Tongyi Lab) · Jogosítvány: Apache 2.0

Próbáld ki.

Dia TTSDia TTS Szabvány

Multi-speaker dialógus generációs modell, amely létrehoz természetes beszélgetések hangszórók között.

Fejlesztő: Nari Labs · Jogosítvány: Apache 2.0

Próbáld ki.

Parler TTSParler TTS Szabvány

Írja le a kívánt hangot természetes nyelven, és Parler generál megfelelő beszédet.

Fejlesztő: Hugging Face · Jogosítvány: Apache 2.0

Próbáld ki.

IndexTTS-2IndexTTS-2 Szabvány

Zéró lövés TTS finoman kifinomult érzelmi kontroll és magas kifejezőképesség.

Fejlesztő: Index Team · Jogosítvány: Bilibili Model License

Próbáld ki.

Spark TTSSpark TTS Szabvány

Hang klónozása TTS irányítható érzelemmel és beszédstílus segítségével prompts.

Fejlesztő: SparkAudio · Jogosítvány: CC BY-NC-SA 4.0

Próbáld ki.

GPT-SoVITSGPT-SoVITS Szabvány

Kevés hang klónozza a TTS-t, ami lemásolja a hangot mindössze 5 másodpercnyi hangból.

Fejlesztő: RVC-Boss · Jogosítvány: MIT

Próbáld ki.

OrpheusOrpheus Szabvány

Emberi szintű TTS modell, 100 ezer órányi beszédadattal.

Fejlesztő: Canopy Labs · Jogosítvány: Llama 3.2 Community

Próbáld ki.

Qwen3 TTSQwen3 TTS Szabvány

Alibaba többnyelvű TTS-e előre beállított hangokkal és szöveges hangtervezéssel.

Fejlesztő: Alibaba (Qwen) · Jogosítvány: Apache 2.0

Próbáld ki.

VieNeu-TTS-v2VieNeu-TTS-v2 Szabvány

Vietnámi + Angol kódkapcsoló TTS 7 előre beállított hangok és zéró-shot hang klónozás. CPU-csak, nincs szükség GPU.

Fejlesztő: Phạm Nguyễn Ngọc Bảo · Jogosítvány: Apache 2.0

Próbáld ki.

Chatterbox TurboChatterbox Turbo Szabvány

Gyorsabb Chatterbox szub-200 ms késés és paralinguista címkék nevetés, köhögés, és így tovább.

Fejlesztő: Resemble AI · Jogosítvány: MIT

Próbáld ki.

VoxCPMVoxCPM Szabvány

Tokenizer-mentes TTS 44.1kHz audio konzisztenciával.

Fejlesztő: OpenBMB · Jogosítvány: Apache 2.0

Próbáld ki.

VibeVoiceVibeVoice Szabvány

Microsoft modell hosszú formájú több hangszórós tartalom, mint a podcasts és audiobooks.

Fejlesztő: Microsoft · Jogosítvány: MIT

Próbáld ki.

CosyVoice3CosyVoice3 Szabvány

Következő generációs többnyelvű TTS bi-streaming, érzelmi kontroll, és nulla-shot hang klónozás.

Fejlesztő: Alibaba (FunAudioLLM) · Jogosítvány: Apache 2.0

Próbáld ki.

NAMAA Saudi TTSNAMAA Saudi TTS Szabvány

Az első nyitott szaúdi-arábiai TTS, Native szaúdi dialektus Chatterbox minőségű hang klónozással.

Fejlesztő: NAMAA Space · Jogosítvány: MIT

Próbáld ki.

Darwin TTSDarwin TTS Szabvány

Keresztmodális Qwen3-TTS változat FFN súlyokkal keverve a Qwen3-1.7B nyelvi modell élesebb többnyelvű klónozás.

Fejlesztő: FINAL-Bench · Jogosítvány: Apache 2.0

Próbáld ki.

MOSS-TTSDMOSS-TTSD Szabvány

Multi-speaker párbeszéd folytatása modell Podcast stílusú beszélgetések akár 5 hangszóró és 60 perc koherens audio.

Fejlesztő: OpenMOSS · Jogosítvány: Apache 2.0

Próbáld ki.

ChatterboxChatterbox Prémium

A legmodernebb zéró hangú klónozás érzelmi irányítással Resemble AI-tól.

Minőség:

Próbáld ki.

Tortoise TTSTortoise TTS Prémium

A többhangú szövegtől a beszédig a minőségre koncentrált, autoregresszív architektúrával.

Minőség:

Próbáld ki.

StyleTTS 2StyleTTS 2 Prémium

Az emberi szintű szövegtől a beszédig a stílusdiffúziós és az ellenzői képzésen keresztül.

Minőség:

Próbáld ki.

OpenVoiceOpenVoice Prémium

Azonnali hang klónozás szemcsés kontroll felett stílus, érzelem, és akcentus.

Minőség:

Próbáld ki.

Sesame CSMSesame CSM Prémium

Beszélgetési beszéd modell generál természetes párbeszéd megfelelő időzítéssel és érzelmekkel.

Minőség:

Próbáld ki.

CosyVoice 2CosyVoice 2

Alibaba skálázható TTS-e emberi-paritatív természetességgel és majdnem nulla késéssel.

Nyelvek: en, zh, ja, ko, fr, de, it, es

Klónhang

IndexTTS-2IndexTTS-2

Zéró lövés TTS finoman kifinomult érzelmi kontroll és magas kifejezőképesség.

Nyelvek: en, zh

Klónhang

Spark TTSSpark TTS

Hang klónozása TTS irányítható érzelemmel és beszédstílus segítségével prompts.

Nyelvek: en, zh

Klónhang

GPT-SoVITSGPT-SoVITS

Kevés hang klónozza a TTS-t, ami lemásolja a hangot mindössze 5 másodpercnyi hangból.

Nyelvek: en, zh, ja, ko

Klónhang

ChatterboxChatterbox

A legmodernebb zéró hangú klónozás érzelmi irányítással Resemble AI-tól.

Nyelvek: en

Klónhang

Tortoise TTSTortoise TTS

A többhangú szövegtől a beszédig a minőségre koncentrált, autoregresszív architektúrával.

Nyelvek: en

Klónhang

OpenVoiceOpenVoice

Azonnali hang klónozás szemcsés kontroll felett stílus, érzelem, és akcentus.

Nyelvek: en, zh, ja, ko, fr, es

Klónhang

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnámi + Angol kódkapcsoló TTS 7 előre beállított hangok és zéró-shot hang klónozás. CPU-csak, nincs szükség GPU.

Nyelvek: vi, en

Klónhang

Chatterbox TurboChatterbox Turbo

Gyorsabb Chatterbox szub-200 ms késés és paralinguista címkék nevetés, köhögés, és így tovább.

Nyelvek: en

Klónhang

VoxCPMVoxCPM

Tokenizer-mentes TTS 44.1kHz audio konzisztenciával.

Nyelvek: en, zh

Klónhang

OuteTTSOuteTTS

LLM alapú TTS, amely CPU, GPU vagy böngészőn keresztül fut a lama.cpp és Transformers.js.

Nyelvek: en

Klónhang

Pocket TTSPocket TTS

Könnyű 100M paraméter modell Kyutai hang klónozás egyetlen mintából.

Nyelvek: en, fr

Klónhang

CosyVoice3CosyVoice3

Következő generációs többnyelvű TTS bi-streaming, érzelmi kontroll, és nulla-shot hang klónozás.

Nyelvek: en, zh, ja, ko, de, es, fr, it, ru

Klónhang

NAMAA Saudi TTSNAMAA Saudi TTS

Az első nyitott szaúdi-arábiai TTS, Native szaúdi dialektus Chatterbox minőségű hang klónozással.

Nyelvek: ar

Klónhang

Darwin TTSDarwin TTS

Keresztmodális Qwen3-TTS változat FFN súlyokkal keverve a Qwen3-1.7B nyelvi modell élesebb többnyelvű klónozás.

Nyelvek: en, ko, ja, zh

Klónhang

MOSS-TTSDMOSS-TTSD

Multi-speaker párbeszéd folytatása modell Podcast stílusú beszélgetések akár 5 hangszóró és 60 perc koherens audio.

Nyelvek: en, zh

Klónhang

Ming-Omni TTSMing-Omni TTS

Kompakt 0.5B omni-modális beszédmodell az includingAI-ból, nagy hűségű 44,1kHz kimenettel és zéró-shot hang klónozással.

Nyelvek: en, zh

Klónhang

MOSS-TTS NanoMOSS-TTS Nano

Tiny 100M MOSS-TTS variáns, azonos architektúra, 80x kisebb, ingyenes latency.

Nyelvek: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Klónhang

Fejlesztő-első API

OpenAI-kompatibilis REST API. Egy végpont, 22+ modellek. Streaming támogatás valós idejű alkalmazások.

  • OpenAI-kompatibilis formátum
  • TTS közvetítés valós idejű alkalmazásokhoz
  • Batch processing for large jobs
  • Webhook értesítések
Az API dokumentációjának megtekintése
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Egyszerű, átlátható árképzés

Kezdd el, ahogy nősz.

Ingyenes

$0

15 000 karakter + 5000/nap

  • 7 ingyenes modell, beleértve Kokoro
  • 5000 char/generáció
  • API-hozzáféréssel együtt
Regisztráció Ingyenes

Indító

$9/unit description in lists

500 kredit/hó

  • Mind a 22+ modell
  • 100 000 chars generációnként
  • Hang klónozása
Kezdés@ info: whatsthis
Legnépszerűbb

Pro

$29/unit description in lists

2000 kredit/hó

  • Minden kezdőben
  • API-hozzáférés
  • Prioritású feldolgozás
Get Pro

Üzleti tevékenység

$99/unit description in lists

10 000 kredit/hó

  • Minden a Pro-ban
  • Ömlesztett API
  • Prioritási sor
Szerezz üzletet!

Az összes terv megtekintése, beleértve a karaktercsomagokat →

Gyakran ismételt kérdések

TTS.ai a legátfogóbb AI hangplatform, amely 22+ szöveg-nyelv modellek, hang klónozás, beszéd-szöveg, és audio eszközök. Minden modell nyílt forráskódú, nem eladói zárolás.

Igen! TTS.ai kínál ingyenes szöveg-to-speech Kokoro, Piper, VITS, és MelotTS modellek. Nincs szükség fiók. Regisztráljon fel, hogy 15 000 ingyenes karakterek és hozzáférést minden modell. Fizetett tervek kezdődik $9/hónap.

A sebesség, használja Kokoro vagy Piper. A minőség, próbálja CosyVoice 2 vagy StyletTS 2. Hang klónozás, használja Chatterbox vagy GPT-Sovits. A párbeszédablak, használja Dia TTS. Próbálja ki több modell ugyanazon a szövegen összehasonlítani.

Igen. OpenAI-kompatibilis REST API TTS, STT, hang klónozás, és audio eszközök. Tartalmazza minden terv, beleértve a szabad, díjkorlátok, hogy skála szerint szint (Ingyenes: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Üzleti: 300). Dokumentáció megtekintése tts.ai/api/.

A hangminőség modellenként változik. Az olyan prémium modellek, mint a CosyVoice 2, a StyletTS 2 és a Chatterbox természetes intonációval és érzelemmel állítják elő az emberközeli minőségű beszédet. Az ingyenes modellek, mint a Kokoro kiváló minőségűek a legtöbb használathoz.

TTS.ai támogatja 30+ nyelvek az egész modell könyvtár. Angol rendelkezik a legszélesebb modell támogatás, de modellek, mint a CosyVoice 2 kiterjed kínai, japán, koreai; GPT-SovitS kezeli a kínai, japán, koreai és angol; és MelotTS támogatja az angol, spanyol, francia, kínai, japán, és koreai.

Igen. Minden feldolgozás a mi dedikált GPU szervereinken történik. Nem tároljuk a szövegbemenetet vagy generált audiót a szállítás után. A klónozáshoz feltöltött hangmintákat csak az aktuális munkamenethez használjuk fel, és nem tartjuk meg. Az Ön adatait soha nem osztjuk meg harmadik felekkel, és nem használjuk a modellek kiképzésére.

Igen. Minden hang generált TTS.ai a tiéd, hogy használja a kereskedelmi, beleértve a YouTube videók, podcastok, audiobookok, alkalmazások, hirdetések, és termékek. Modeljeink nyílt forráskód alatt engedélyezett licencek (MIT, Apache 2.0).

TTS.ai generál audio WAV formátumban alapértelmezés szerint a maximális minőség. Akkor konvertálni MP3, FLAC, OGG, vagy M4A segítségével a mi ingyenes Audio Converter eszköz. Az API támogatja, hogy meghatározza az előnyben részesített kimeneti formátum közvetlenül a kérés.

Töltsön fel egy rövid hangmintát (5 másodperc alatt) a klónozni kívánt hangból, majd gépeljen be bármilyen szöveget, hogy beszédet generáljon abban a hangban. Modellek, mint a Chatterbox, a GPT-Sovits, és a CosyVoice 2 támogatja a hang klónozást. A klónozott hang elfogja a hangot, az akcentust és a beszédstílust.

Ingyenes modellek (Kokoro, Piper, VITS, MelotTS) nem igényelnek számla és költségek nulla karakterek. Standard modellek (2,000 karakter/1K bevitel) közé Bark, CosyVoice 2, F5-TTS, és Dia. Premium modellek (4,000 karakter/1K bevitel) közé OpenVoice, Chatterbox, StyletTS 2, és Tortoise. Paid modellek általában kínálnak magasabb minőségű, több hang, és további funkciók, mint a hang klónozás.

Igen. Az API támogatja a tételfeldolgozást a nagy mennyiségű szöveg beszédté alakításához. Több kérelem benyújtása és az eredmények letöltése szinkronban az UUID-ok segítségével. Az üzleti terv ($99/mo) és a magasabb közé tartozik az elsőbbségi sorban elérhető gyorsabb gyártási tételek. Ideális audiobook gyártáshoz, tanfolyam tartalmak, és nagyszabású hangátviteli projektek.
4.1/5 (42)

Mit lehetne javítani? A visszajelzés segít megoldani a problémákat.

Kezdd el használni az AI Voice-t ma

Csatlakozz az alkotókhoz, a fejlesztőkhöz és a TTS.ai-et használó vállalkozásokhoz