Prosti AI Besedilo v govor

33+ modeli odprtega izvora, 273+ glasovi, 33+ jeziki. Račun ni potreben.

18K+
ustvarjalci
73K+
generacije
33+
AI modeli
273+
glasovi
Ljubi TTS.ai, povej prijateljem!

33+ AI Glasovni modeli

Najobsežnejša zbirka modelov TTS na odprtem viru v eni platformi

KokoroKokoro Prosto

Kokoro je 82 milijonov parametrov besedila do jezika modela, ki udarja veliko nad svojo težo razreda. Kljub svoji majhni velikosti, proizvaja izredno naravno in izrazito govor. Kokoro podpira več jezikov, vključno angleško, japonsko, kitajsko in korejsko z različnimi izrazitivne glasove. Teče neverjetno hitro – ustvarjanje avdio skoraj 100x hitreje kot v realnem času na GPU.

Najboljše za: visokokakovostni TTS z minimalno latenco, streaming aplikacije

Poskusite svobodno

PiperPiper Prosto

Piper je lahek tekst-to-speech motor, ki ga je razvil Rhaspy, ki uporablja VITS in grla arhitekture. To deluje v celoti na CPU, kar je idealen za robne naprave, hišna avtomatizacija in aplikacije, ki zahtevajo offline TTS. Z več kot 100 glasov v 30+ jezikih, Piper zagotavlja naravno-zvočni govor pri hitrosti v realnem času tudi na Raspberry Pi 4.

Najboljše za: Hitri pregledi, dostopnost in vgrajeni programi

Poskusite svobodno

VITSVITS Prosto

VITS (Variacionalni sklepi z nasprotnim učenjem za končni na koncu besedila v govor) je vzporedna metoda TTS od konca do konca, ki ustvarja bolj naravni zvočni zvok kot trenutni dvostopenjski modeli. Prevzema variacijski zaključek, ki se povečuje z normalizacijskimi tokovi in procesom vertikalnega usposabljanja, ki doseže znatno izboljšanje narave.

Najboljše za: Splošni namenski tekstilni govor z naravno prozodijo

Poskusite svobodno

MeloTTSMeloTTS Prosto

MeloTTS by MyShell.ai je večjezična knjižnica TTS, ki podpira angleščino (ameriški, britanski, indijski, avstralski), španski, francoski, kitajski, japonski in korejski. Je izjemno hitro, obdelava besedila z skoraj realno hitrostjo samo na CPU. MeloTTS je zasnovan za uporabo v proizvodnji in podpira tako CPU in GPU zaključek.

Najboljše za: Zahtevki za proizvodnjo, ki potrebujejo hitro, večjezično TTS

Poskusite svobodno

Kani TTS 2Kani TTS 2 Prosto

Kani-TTS-2 od NineNineSix je ultra lahek model parametra 400M, zgrajen na hrbtenici Liquid AI LFM2 z NVIDIA NanoCodec. Teče samo v 3GB VRAM in proizvaja ~10 sekund govora v ~2 sekundi na A100 (RTF 0.2). Trenutni javni sproščanje ladje samo angleško `kani-tts-2-en` kontrolno točko in ne razkriva zvočnika-vajanje kloniranja – uporabi Chatterbox / IndexTTS2 / F5-TTS za kloniranje, ali Kokoro / Melotts za ne-angleško.

Najboljše za: Hitra angleška generacija na nizko-VRAM strojnici, hiter pregled

Poskusite svobodno

OuteTTSOuteTTS Prosto

OutetTS razširja velike jezikovne modele z besedilnimi zmožnostmi pri ohranjanju izvirne arhitekture. Podpira več podstavkov, vključno z lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM in celo brskalnik zaključek preko Transformers.js. Značilnosti brez strelnega kloniranja glasu skozi zvočniške profile, shranjene kot JSON.

Najboljše za: Uporaba roba, TTS na podlagi brskalnika, okolja z nizkimi viri

Poskusite svobodno

Pocket TTSPocket TTS Prosto

Pocket TTS s strani Kyutai (kreatorji Moshi) je kompakten model 100M parametrov besedila-na-špeih, ki udarja veliko nad svojo težo. Teče učinkovito na CPU, podpira kloniranje glasu brez utripa iz enega zvočnega vzorca in ustvarja naravno-zvočni govor. Mala velikost modela ga naredi idealnega za uvajanje roba in okolja z nizkimi viri.

Najboljše za: Lahka uporaba, okolje samo za CPU, hitro kloniranje glasu

Poskusite svobodno

Kitten TTSKitten TTS Prosto

Kitten TTS by KittenML je ultra-lahek model besedila-na-špeih, zgrajen na ONNX. Z različicami od 15M do 80M parametrov (25-80 MB na disku), zagotavlja visokokakovostno sintezo glasu na CPU brez potrebe GPU. Značilnosti 8 vgrajenih glasov, nastavljivo hitrost govora, in vgrajeno besedilo vnaprej obdelava za številke, valute in enote. Idealno za uvajanje roba in nizko poznejše aplikacije.

Najboljše za: Hitro lahka TTS, uvajanje roba, nizko poznejše aplikacije

Poskusite svobodno

Ming-Omni TTSMing-Omni TTS Prosto

Ming-omni-tts-0.5B z vključevanjemAI je kompakten vsemodalni govorni model, zgrajen na gosti hrbtenici BailingMM s preklopnim tokom, ki ustreza zvočni dekoder. Dovaja 44.1kHz izhod (približno kakovost CD), podpira kloniranje glasu brez utripa od 3+ sekunde, in vključuje vgrajeno čustvo / dialekt / BGM kontrola preko navodil JSON. Odlična stabilnost – 0,83% WER na kitajskih referenčnih vrednostih.

Najboljše za: Visoka zvestoba dvojezična naracija, čustveno nadzorovano glas igranje, kitajska audiobook vsebina

Poskusite svobodno

MOSS-TTS NanoMOSS-TTS Nano Prosto

MOSS-TTS-Nano-100M je kompaktna različica OpenMOSS 100M-parameter družine MOSS-TTS, ki deli zamudo-transformersko arhitekturo. Trdi najvišjo kakovost modela 8B za ~80x manjše teže in dramatično nižje na zahtevo VRAM, zaradi česar je primeren za brezplačne in visokoprepustne namestitve. Enako 20 jezikovni doseg.

Najboljše za: Prostoročna TTS, proizvodnja visoke količine, interaktivna uporaba z nizkim časom

Poskusite svobodno

BarkBark Standardno

Transformer-na-audio model, ki ustvarja realen govor, glasbo in zvočne učinke.

Razvijalec: Suno · Licenca: MIT

Poskusi.

Bark SmallBark Small Standardno

Lažja različica Barka z hitrejšim zaključkom in manjšim uporabo pomnilnika.

Razvijalec: Suno · Licenca: MIT

Poskusi.

CosyVoice 2CosyVoice 2 Standardno

Alibabov skalabilni TTS s človeško pariteto naravo in skoraj nula latencijo.

Razvijalec: Alibaba (Tongyi Lab) · Licenca: Apache 2.0

Poskusi.

Dia TTSDia TTS Standardno

Večzvočniški dialogski model, ki ustvarja naravne pogovore med zvočniki.

Razvijalec: Nari Labs · Licenca: Apache 2.0

Poskusi.

Parler TTSParler TTS Standardno

Opišite glas, ki ga želite v naravnem jeziku in Parler ustvarja enak govor.

Razvijalec: Hugging Face · Licenca: Apache 2.0

Poskusi.

IndexTTS-2IndexTTS-2 Standardno

Zero strelja TTS z dobro zrelim nadzorom čustev in visoko izrazitostjo.

Razvijalec: Index Team · Licenca: Bilibili Model License

Poskusi.

Spark TTSSpark TTS Standardno

Glasovno kloniranje TTS z nadzorovanimi čustvi in govorniški slog prek nasvetov.

Razvijalec: SparkAudio · Licenca: CC BY-NC-SA 4.0

Poskusi.

GPT-SoVITSGPT-SoVITS Standardno

Nekajkratno kloniranje glasu TTS, ki replicira vsak glas iz samo 5 sekund zvoka.

Razvijalec: RVC-Boss · Licenca: MIT

Poskusi.

OrpheusOrpheus Standardno

Emocionalni TTS model na človeški ravni je izurjen na 100K urah govora.

Razvijalec: Canopy Labs · Licenca: Llama 3.2 Community

Poskusi.

Qwen3 TTSQwen3 TTS Standardno

Alibabov večjezični TTS z nastavljenimi glasovi in oblikovanjem glasu iz besedila.

Razvijalec: Alibaba (Qwen) · Licenca: Apache 2.0

Poskusi.

VieNeu-TTS-v2VieNeu-TTS-v2 Standardno

Vietnamski + angleški kodni preklopnik TTS s 7 prednastavljenih glasov in kloniranje glasu brez utripa. CPU-samo, GPU ni potreben.

Razvijalec: Phạm Nguyễn Ngọc Bảo · Licenca: Apache 2.0

Poskusi.

Chatterbox TurboChatterbox Turbo Standardno

Hitreje Chatterbox z pod-200ms latency in paralinguistične oznake za smeh, kašelj in več.

Razvijalec: Resemble AI · Licenca: MIT

Poskusi.

VoxCPMVoxCPM Standardno

TTS brez tokenizerja, ki proizvaja zvok 44.1kHz z doslednostjo iz konteksta.

Razvijalec: OpenBMB · Licenca: Apache 2.0

Poskusi.

VibeVoiceVibeVoice Standardno

Microsoft model za dolgoformne večzvočniške vsebine, kot so podcasti in zvočne knjige.

Razvijalec: Microsoft · Licenca: MIT

Poskusi.

CosyVoice3CosyVoice3 Standardno

Naslednja generacija večjezični TTS z dvojnim streamingom, kontrolo čustev in ničelnim kloniranjem glasu.

Razvijalec: Alibaba (FunAudioLLM) · Licenca: Apache 2.0

Poskusi.

NAMAA Saudi TTSNAMAA Saudi TTS Standardno

Prvi odprt saudsko-arabski TTS. Naravni saudski dialekt s Chatterbox kakovost glas kloniranje.

Razvijalec: NAMAA Space · Licenca: MIT

Poskusi.

Darwin TTSDarwin TTS Standardno

Medmodalna različica Qwen3-TTS z uteži FFN zmešana iz jezikovnega modela Qwen3-1,7B za ostrejšo večjezično kloniranje.

Razvijalec: FINAL-Bench · Licenca: Apache 2.0

Poskusi.

MOSS-TTSDMOSS-TTSD Standardno

Model za nadaljevanje večzvočniškega dialoga – ustvari pogovore v stilu podcasta z do 5 zvočniki in 60 minutami skladnega zvoka.

Razvijalec: OpenMOSS · Licenca: Apache 2.0

Poskusi.

ChatterboxChatterbox Premium

Najmodernejši kloniranje glasu z obvladovanjem čustev iz Resemble AI.

Kakovost:

Poskusi.

Tortoise TTSTortoise TTS Premium

Večglasno besedilo-to-speech osredotočen na kakovost z avtoregresivno arhitekturo.

Kakovost:

Poskusi.

StyleTTS 2StyleTTS 2 Premium

Z difuzijo sloga in nasprotnim usposabljanjem na ravni ljudi.

Kakovost:

Poskusi.

OpenVoiceOpenVoice Premium

Trenutno kloniranje glasu z granuliranim nadzorom nad slogom, čustvi in naglasom.

Kakovost:

Poskusi.

Sesame CSMSesame CSM Premium

Pogovorni model govora ustvarja naravni dialog z ustreznim časovnim razporedom in čustvi.

Kakovost:

Poskusi.

CosyVoice 2CosyVoice 2

Alibabov skalabilni TTS s človeško pariteto naravo in skoraj nula latencijo.

Jeziki: en, zh, ja, ko, fr, de, it, es

Klonov glas

IndexTTS-2IndexTTS-2

Zero strelja TTS z dobro zrelim nadzorom čustev in visoko izrazitostjo.

Jeziki: en, zh

Klonov glas

Spark TTSSpark TTS

Glasovno kloniranje TTS z nadzorovanimi čustvi in govorniški slog prek nasvetov.

Jeziki: en, zh

Klonov glas

GPT-SoVITSGPT-SoVITS

Nekajkratno kloniranje glasu TTS, ki replicira vsak glas iz samo 5 sekund zvoka.

Jeziki: en, zh, ja, ko

Klonov glas

ChatterboxChatterbox

Najmodernejši kloniranje glasu z obvladovanjem čustev iz Resemble AI.

Jeziki: en

Klonov glas

Tortoise TTSTortoise TTS

Večglasno besedilo-to-speech osredotočen na kakovost z avtoregresivno arhitekturo.

Jeziki: en

Klonov glas

OpenVoiceOpenVoice

Trenutno kloniranje glasu z granuliranim nadzorom nad slogom, čustvi in naglasom.

Jeziki: en, zh, ja, ko, fr, es

Klonov glas

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnamski + angleški kodni preklopnik TTS s 7 prednastavljenih glasov in kloniranje glasu brez utripa. CPU-samo, GPU ni potreben.

Jeziki: vi, en

Klonov glas

Chatterbox TurboChatterbox Turbo

Hitreje Chatterbox z pod-200ms latency in paralinguistične oznake za smeh, kašelj in več.

Jeziki: en

Klonov glas

VoxCPMVoxCPM

TTS brez tokenizerja, ki proizvaja zvok 44.1kHz z doslednostjo iz konteksta.

Jeziki: en, zh

Klonov glas

OuteTTSOuteTTS

LLM-based TTS, ki deluje na CPU, GPU ali brskalnik preko lama.cpp in Transformers.js.

Jeziki: en

Klonov glas

Pocket TTSPocket TTS

Lahek model parametrov 100M s strani Kyutai z kloniranjem glasu iz enega vzorca.

Jeziki: en, fr

Klonov glas

CosyVoice3CosyVoice3

Naslednja generacija večjezični TTS z dvojnim streamingom, kontrolo čustev in ničelnim kloniranjem glasu.

Jeziki: en, zh, ja, ko, de, es, fr, it, ru

Klonov glas

NAMAA Saudi TTSNAMAA Saudi TTS

Prvi odprt saudsko-arabski TTS. Naravni saudski dialekt s Chatterbox kakovost glas kloniranje.

Jeziki: ar

Klonov glas

Darwin TTSDarwin TTS

Medmodalna različica Qwen3-TTS z uteži FFN zmešana iz jezikovnega modela Qwen3-1,7B za ostrejšo večjezično kloniranje.

Jeziki: en, ko, ja, zh

Klonov glas

MOSS-TTSDMOSS-TTSD

Model za nadaljevanje večzvočniškega dialoga – ustvari pogovore v stilu podcasta z do 5 zvočniki in 60 minutami skladnega zvoka.

Jeziki: en, zh

Klonov glas

Ming-Omni TTSMing-Omni TTS

Compact 0.5B vsemodalni govorni model iz vključevanjaAI z visoko vernostjo 44.1kHz izhoda in kloniranjem glasu brez utripa.

Jeziki: en, zh

Klonov glas

MOSS-TTS NanoMOSS-TTS Nano

Različica 100M MOSS-TTS – ista arhitektura, 80x manjša, brezplačna latenca.

Jeziki: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Klonov glas

Razvijalec-prva API

Združljiv z OpenAI REST API. En opazovani dogodek, 22+ modeli. Pogon podpore za aplikacije v realnem času.

  • Združljiva z OpenAI formatom
  • Streaming TTS za aplikacije v realnem času
  • Serija obdelave za velika delovna mesta
  • Spletna obvestila
Poglejte API Docs
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Preprosta, pregledna cena

Začnite svobodno.

Prosto

$0

15.000 znakov + 5000 na dan

  • 7 brezplačnih modelov, vključno z Kokoro
  • 5000 znakov na generacijo
  • Vključen dostop API
Prosto se prijavite

Začetek

$9/Mo

500 kreditov/mesec

  • Vsi 22+ modeli
  • 100.000 znakov na generacijo
  • Kloniranje glasu
Začnite
Najbolj priljubljeno

Prof.

$29/Mo

2.000 kreditov mesečno

  • Vse v zagonu
  • Dostop API
  • Prednostna obdelava
Get Prof

Podjetje

$99/Mo

10.000 kreditov/mesec

  • Vse v prof.
  • Masovni API
  • Prednostna vrstica
Poslovno pridobivanje

Oglejte si vse načrte, vključno z znaki →

Pogosta vprašanja

TTS.ai je najbolj obsežna AI glasovna platforma, ki ponuja 22+ modelov besedila-na-špeh, kloniranje glasu, govor-na-tekst in zvočna orodja. Vsi modeli so odprt vir brez prodajalca zakleniti.

Da! TTS.ai ponuja brezplačno besedilo-to-speech z modeli Kokoro, Piper, VITS in MeloTTS. Ni potreben račun. Prijavite se, da bi dobili 15.000 brezplačnih znakov in dostop do vseh modelov. Plačani načrti se začnejo z 9 $/mesec.

Za hitrost uporabite Kokoro ali Piper. Za kakovost poskusite CosyVoice 2 ali StyleTTS 2. Za kloniranje glasu uporabite Chatterbox ali GPT-SoviTS. Za dialog uporabite Dia TTS. Primerjajte več modelov v istem besedilu.

Da. Združljivo z OpenAI REST API za TTS, STT, glasovno kloniranje in zvočno orodje. Vključeno na vsakem načrtu, vključno z brezplačno, z mejami hitrosti, da lestvica po vrsti (Free: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Business: 300). Poglej dokumentacijo na tts.ai/api/.

Kvaliteta glasu se razlikuje po modelu.Premium modeli, kot je CosyVoice 2, StyleTTS 2, in Chatterbox proizvajajo skoraj človeški kakovostni govor z naravnim intonacijo in čustvi. Brezplačni modeli kot Kokoro ponujajo odlično kakovost za večino primerov uporabe.

TTS.ai podpira 30+ jezikov v svoji modelski knjižnici. Angleški ima najširši model podpore, vendar modeli, kot je CosyVoice 2 naslovnica kitajske, japonske in korejske; GPT-SoviTS upravlja kitajsko, japonsko, korejsko in angleško; in MelotTS podpira angleško, špansko, francosko, kitajsko, japonsko in korejsko.

Da. Vse obdelava se zgodi na naših namenskih strežnikih GPU. Ne shranjujemo vnosa vašega besedila ali ustvariti zvoka po dostavi. Nalagani glasovni vzorci za kloniranje se uporabljajo samo za trenutno sejo in niso obdržani. Vaši podatki nikoli ne delimo s tretjimi stranmi ali jih uporabljamo za usposabljanje modelov.

Da. Vsi zvočniki, ki so ustvarjeni na TTS.ai je vaš za komercialno uporabo, vključno z YouTube video posnetki, podcasti, audioknjige, aplikacije, oglasi in izdelki. Naši modeli so odprt vir pod popustnimi licencami (MIT, Apache 2.0). Ni potreben licenčnine ali pripis.

TTS.ai ustvarja zvok v WAV formatu privzeto za največjo kakovost. Lahko pretvorite v MP3, FLAC, OGG ali M4A z uporabo našega brezplačnega orodja Audio Converter. API podpira navedbo vašega najprimernejšega izhodnega formata neposredno v zahtevi.

Pošljite kratek zvočni vzorec (najmanj 5 sekund) glasu, ki ga želite klonirati, nato vpišite katero koli besedilo za ustvarjanje govora v tem glasu. Modeli, kot so Chatterbox, GPT-SoviTS in CosyVoice 2 podpira kloniranje glasu. Klonirani glas zajema ton, naglas in govorni stil.

Brezplačni modeli (Kokoro, Piper, VITS, MeloTTS) ne zahtevajo nikakršnih računov in stroškov. Standardni modeli (2.000 znakov/1K vnos) vključujejo Bark, CosyVoice 2, F5-TTS in Dia. Premium modeli (4.000 znakov/1K vnosov) vključujejo OpenVoice, Chatterbox, StyleTTS 2 in Tortoise. Plačani modeli na splošno ponujajo višjo kakovost, več glasov in dodatne funkcije, kot je kloniranje glasu.

Da. API podpira obdelavo serije za pretvorbo velike količine besedila v govor. Pošljite več zahtev in dobite rezultate asinhronično z uporabo zaposlitve UUIDs. Poslovni načrt ($99/mo) in višje vključujejo prednostni red dostop za hitrejše obdelavo serije. Idealno za proizvodnjo audioknjig, vsebino tečaja in obsežne glasovne projekte.
4.1/5 (44)

Kaj bi lahko izboljšali? Vaša povratna informacija nam pomaga rešiti vprašanja.

Začnite uporabljati AI glas danes

Pridružite se ustvarjalcem, razvijalcem in podjetjem z uporabo TTS.ai