Vapaa tekoäly Teksti puheenaiheeksi
33+ avoimen lähdekoodin mallit, 273+ äänet, 33+ Kieliä. Ei tiliä.
Kaikki mitä tarvitset puheälyyn
Avoimen lähdekoodin tekoälymalleilla toimivat 30+ työkalua
33+ Al-äänimallit
Kattava kokoelma avoimen lähdekoodin TTS-malleja yhdellä alustalla
Kokoro Vapaa
Kokoro on 82 miljoonan parametrin tekstistä ääneen -malli, joka lyö selvästi painoluokkansa yläpuolelle. Pienestä koostaan huolimatta se tuottaa huomattavan luonnollisen ja ilmaisukykyisen puheen. Kokoro tukee useita kieliä, kuten englantia, japania, kiinaa ja koreaa erilaisilla ilmaisuäänillä. Se toimii uskomattoman nopeasti – tuottaa äänen lähes 100 kertaa nopeammin kuin reaaliaikaisesti GPU:lla.
Paras: Korkealaatuinen TTS, minimaalinen latenssi, suoratoistosovellukset
Kokeile vapaasti
Piper Vapaa
Piper on Rhasspyn kehittämä kevyt teksti-to-speech-moottori, joka käyttää VITS- ja kurkunpääarkkitehtuureja. Se toimii täysin prosessorilla, mikä tekee siitä ihanteellisen reunalaitteille, kodin automaatiolle ja sovelluksille, jotka vaativat offline TTS:ää. Yli 100 äänellä 30 + kielellä Piper pitää luonnolta kuulostavaa puhetta reaaliaikaisesti jopa Vadelma Pi 4:llä.
Paras: Nopea esikatselu, saavutettavuus ja sulautetut sovellukset
Kokeile vapaasti
VITS Vapaa
VITS (Variaational Interference with advertial learning for end-to-end Text-to-Speech) on rinnakkainen TTS-menetelmä, joka tuottaa luonnollisempaa kaikuääntä kuin nykyiset kaksivaiheiset mallit. Siinä otetaan käyttöön variaatiomainen päättely, jota lisätään normalisoivilla virroilla ja advertiaalisella koulutusprosessilla ja jolla saavutetaan merkittävä parannus luonnollisuudessa.
Paras: Yleiskäyttöinen tekstistä puheen ollen, luonnollinen prosody
Kokeile vapaasti
MeloTTS Vapaa
MeloTTS by MyShell.ai on monikielinen TTS-kirjasto, joka tukee englantia (amerikkalainen, britti, intialainen, australialainen), espanjaa, ranskaa, kiinaa, japania ja koreaa. Se on erittäin nopea ja käsittelee tekstiä lähes reaaliaikaisesti pelkästään prosessorilla. MeloTTS on suunniteltu tuotantokäyttöön ja tukee sekä CPU:n että GPU:n päättelyä.
Paras: Tuotantosovelluksia, jotka tarvitsevat nopeita, monikielisiä TTS-sovelluksia
Kokeile vapaasti
Kani TTS 2 Vapaa
Kani-TTS-2 by NineNineSix on ultrakevyt 400M -parametrimalli, joka on rakennettu NVIDIA NanoCodec -nimiselle nestemäiselle AI-LFM2-kouralle. Se toimii vain 3GB VRAM-muistissa ja tuottaa ~10 sekuntia puhetta ~2 sekunnissa A100:lla (RTF 0.2). Nykyinen julkinen julkaisualus on englantilainen `kani-tts-2-en`-tarkastuspiste, eikä se paljasta äänen kloonaukseen tarvittavaa kaiuttimeen kiinnittyvää koukkua – käytä Chatterboxia / IndexTS2 / F5-TTS kloonaukseen, tai Kokoro / MeloTTS ei-englantilaisille.
Paras: Nopea englantilainen sukupolvi matala-VRAM-laitteilla, nopeat esikatselut
Kokeile vapaasti
OuteTTS Vapaa
OutetTS laajentaa suuria kielimalleja tekstistä ääneen -ominaisuuksilla säilyttäen alkuperäisen arkkitehtuurin. Se tukee useita taustakuvia, kuten lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM ja jopa selainpäätelmät Transformers.js:n kautta. JSON:ksi tallennetuissa kaiuttimen profiileissa on nollalaukausäänikloonaus.
Paras: Edgen käyttöönotto, selainpohjainen TTS, vähävaraiset ympäristöt
Kokeile vapaasti
Pocket TTS Vapaa
Kyutain Pocket TTS (Creators of Moshi) on kompakti 100M-parametrinen teksti-äänestä-malli, joka lyö reilusti yli painonsa. Se toimii tehokkaasti suorittimella, tukee yhden ääninäytteen nollaäänikloonausta ja tuottaa luonnollista puhetta. Pieni mallikoko tekee siitä ihanteellisen reunan käyttöönotolle ja vähävaraisille ympäristöille.
Paras: Kevyt käyttö, vain suorittimen käyttöympäristöt, nopea äänen kloonaus
Kokeile vapaasti
Kitten TTS Vapaa
Kitten TTS KittenML on ultrakevyt, ONNX:lle rakennettu teksti-to-speech-malli. Se tarjoaa 15 M:n ja 80 M:n muuttujilla (25-80 Mt levylle) korkealaatuista äänisynteesiä prosessorille ilman GPU:ta. Siinä on 8 sisäänrakennettua ääntä, säädettävissä olevaa puhenopeutta ja sisäänrakennettua tekstin esikäsittelyä numeroille, valuutoille ja yksiköille. Ihanteellinen reunan käyttöönotolle ja matalan latenssin sovelluksille.
Paras: Nopea kevyt TTS, reunakäyttö, matalan latenssin sovellukset
Kokeile vapaasti
Ming-Omni TTS Vapaa
Ming-omni-tts-0.5B by inclusionAI on kompakti omnimodaalinen puhemalli, joka on rakennettu BailingMM:n tiheälle selkärangalle ja jossa on Patch-by-Patch-virtausvastaavuusäänidekooderi. Toimittaa 44.1kHz:n ulostulon (lähellä CD:n laatua), tukee 3+ sekunnin mittaista nollalaukausäänen kloonausta ja sisältää sisäänrakennetun tunteen / murteen / BCM-ohjauksen JSON-ohjeiden avulla. Erinomainen vakaus – 0,83 % WER kiinalaisilla vertailuarvoilla.
Paras: Korkean uskollisuuden kaksikielinen kertosäe, tunteiden hallitsema ääninäytteleminen, kiinalainen äänikirjasisältö
Kokeile vapaasti
MOSS-TTS Nano Vapaa
MOSS-TTS-Nano-100M on OpenMOSSin kompakti 100M-parametriversio MOSS-TTS-perheestä jakaen viive-transformer-arkkitehtuurin. 8B-mallin huippulaatu on ~80x pienemmällä painolla ja huomattavasti matalammalla pyydettäessä VRAM-muistilla, mikä tekee siitä sopivan vapaa- ja huipputason käyttöönotoille. Sama 20-kielinen.
Paras: Vapaatasoinen TTS, suuritehoinen tuotanto, matalan latenssin vuorovaikutteinen käyttö
Kokeile vapaasti
Bark Standardi
Transformer-pohjainen teksti-audio-malli, joka tuottaa realistisia puhe-, musiikki- ja äänitehosteita.
Kehittäjä: Suno · Lisenssi: MIT
Kokeile.
Bark Small Standardi
Kevyempi versio Barkista nopeammalla päättelyllä ja pienemmällä muistinkäytöllä.
Kehittäjä: Suno · Lisenssi: MIT
Kokeile.
CosyVoice 2 Standardi
Alibaban skaalautuva suoratoisto TTS:n ihmispariteetilla ja lähes nollan latenssilla.
Kehittäjä: Alibaba (Tongyi Lab) · Lisenssi: Apache 2.0
Kokeile.
Dia TTS Standardi
Monikielisten dialogien sukupolven malli, joka luo luonnollisia keskusteluja puhujien välillä.
Kehittäjä: Nari Labs · Lisenssi: Apache 2.0
Kokeile.
Parler TTS Standardi
Kuvaile haluamaasi ääntä luonnollisella kielellä, ja Parler luo sopivan puheen.
Kehittäjä: Hugging Face · Lisenssi: Apache 2.0
Kokeile.
IndexTTS-2 Standardi
Zero-shot TTS, hienorakeinen tunteiden hallinta ja suuri ilmaisukyky.
Kehittäjä: Index Team · Lisenssi: Bilibili Model License
Kokeile.
Spark TTS Standardi
Äänikloonaus TTS:n ohjattavalla tunteella ja puhetyylillä kehotuksilla.
Kehittäjä: SparkAudio · Lisenssi: CC BY-NC-SA 4.0
Kokeile.
GPT-SoVITS Standardi
Vain harvan kuvan ääni kloonaa TTS-ääntä, joka jäljittelee ääntä vain viiden sekunnin ääninopeudesta.
Kehittäjä: RVC-Boss · Lisenssi: MIT
Kokeile.
Orpheus Standardi
Ihmistason tunneperäinen TTS-malli kouluttautui 100 000 tunnin puhedataan.
Kehittäjä: Canopy Labs · Lisenssi: Llama 3.2 Community
Kokeile.
Qwen3 TTS Standardi
Alibaban monikielinen TTS, jossa on ennakkoäänet ja äänisuunnittelu tekstistä.
Kehittäjä: Alibaba (Qwen) · Lisenssi: Apache 2.0
Kokeile.
VieNeu-TTS-v2 Standardi
Vietnam + Englantilainen koodinvaihtaja TTS, jossa 7 ennalta asetettua ääntä ja nollalaukausäänen kloonaus. Vain prosessori, ei GPU:ta.
Kehittäjä: Phạm Nguyễn Ngọc Bảo · Lisenssi: Apache 2.0
Kokeile.
Chatterbox Turbo Standardi
Nopeampi Chatterbox, jossa on alle 200 ms latenssi ja paralinguistiset tunnisteet nauramiseen, yskimiseen ja muuhun.
Kehittäjä: Resemble AI · Lisenssi: MIT
Kokeile.
VoxCPM Standardi
Tokenizer-vapaa TTS tuottaa 44.1kHz-ääntä, joka on asiayhteydestään tietoinen.
Kehittäjä: OpenBMB · Lisenssi: Apache 2.0
Kokeile.
VibeVoice Standardi
Microsoft-malli pitkän muotoiselle monikieliselle sisällölle, kuten podcastille ja äänikirjoille.
Kehittäjä: Microsoft · Lisenssi: MIT
Kokeile.
CosyVoice3 Standardi
Seuraavan sukupolven monikielinen TTS, jossa on bi-streaming, tunteiden hallinta ja nollalaukausäänen kloonaus.
Kehittäjä: Alibaba (FunAudioLLM) · Lisenssi: Apache 2.0
Kokeile.
NAMAA Saudi TTS Standardi
Ensimmäinen avoin saudiarabialainen TTS. Native Saudi murre Chatterbox-laadukas äänikloonaus.
Kehittäjä: NAMAA Space · Lisenssi: MIT
Kokeile.
Darwin TTS Standardi
Cross-modaalisella Qwen3-TTS-variantilla FFN-painoja sekoitettuna Qwen3-1.7B-kielimallista terävämpään monikieliseen kloonaukseen.
Kehittäjä: FINAL-Bench · Lisenssi: Apache 2.0
Kokeile.
MOSS-TTSD Standardi
Monikielisen dialogin jatkomalli – synnyttää podcast-tyylisiä keskusteluja, joissa on jopa viisi puhujaa ja 60 minuuttia johdonmukaista ääntä.
Kehittäjä: OpenMOSS · Lisenssi: Apache 2.0
Kokeile.
CosyVoice 2
Alibaban skaalautuva suoratoisto TTS:n ihmispariteetilla ja lähes nollan latenssilla.
Kielet: en, zh, ja, ko, fr, de, it, es
Klooniääni
IndexTTS-2
Zero-shot TTS, hienorakeinen tunteiden hallinta ja suuri ilmaisukyky.
Kielet: en, zh
Klooniääni
Spark TTS
Äänikloonaus TTS:n ohjattavalla tunteella ja puhetyylillä kehotuksilla.
Kielet: en, zh
Klooniääni
GPT-SoVITS
Vain harvan kuvan ääni kloonaa TTS-ääntä, joka jäljittelee ääntä vain viiden sekunnin ääninopeudesta.
Kielet: en, zh, ja, ko
Klooniääni
Tortoise TTS
Moniääninen tekstipuhe keskittyi laatuun autoregressiivisen arkkitehtuurin avulla.
Kielet: en
Klooniääni
OpenVoice
Välitön äänenkloonaus, jolla hallitaan rakeisesti tyyliä, tunteita ja korostusta.
Kielet: en, zh, ja, ko, fr, es
Klooniääni
VieNeu-TTS-v2
Vietnam + Englantilainen koodinvaihtaja TTS, jossa 7 ennalta asetettua ääntä ja nollalaukausäänen kloonaus. Vain prosessori, ei GPU:ta.
Kielet: vi, en
Klooniääni
Chatterbox Turbo
Nopeampi Chatterbox, jossa on alle 200 ms latenssi ja paralinguistiset tunnisteet nauramiseen, yskimiseen ja muuhun.
Kielet: en
Klooniääni
VoxCPM
Tokenizer-vapaa TTS tuottaa 44.1kHz-ääntä, joka on asiayhteydestään tietoinen.
Kielet: en, zh
Klooniääni
OuteTTS
LLM-pohjainen TTS, joka toimii CPU:lla, GPU:lla tai selaimella lama.cpp:n ja Transformers.js:n kautta.
Kielet: en
Klooniääni
Pocket TTS
Kyutain kevyt 100 metrin parametrimalli äänen kloonauksella yhdestä näytteestä.
Kielet: en, fr
Klooniääni
CosyVoice3
Seuraavan sukupolven monikielinen TTS, jossa on bi-streaming, tunteiden hallinta ja nollalaukausäänen kloonaus.
Kielet: en, zh, ja, ko, de, es, fr, it, ru
Klooniääni
NAMAA Saudi TTS
Ensimmäinen avoin saudiarabialainen TTS. Native Saudi murre Chatterbox-laadukas äänikloonaus.
Kielet: ar
Klooniääni
Darwin TTS
Cross-modaalisella Qwen3-TTS-variantilla FFN-painoja sekoitettuna Qwen3-1.7B-kielimallista terävämpään monikieliseen kloonaukseen.
Kielet: en, ko, ja, zh
Klooniääni
MOSS-TTSD
Monikielisen dialogin jatkomalli – synnyttää podcast-tyylisiä keskusteluja, joissa on jopa viisi puhujaa ja 60 minuuttia johdonmukaista ääntä.
Kielet: en, zh
Klooniääni
Ming-Omni TTS
Kompakti 0.5B-modaalipuhemalli include-AI:lta, jossa on korkea uskollisuus 44.1kHz:n ulostulo ja nollalaukausäänen kloonaus.
Kielet: en, zh
Klooniääni
MOSS-TTS Nano
Pieni 100M MOSS-TTS-variantti – sama arkkitehtuuri, 80x pienempi, vapaatasoinen latenssi.
Kielet: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
KlooniääniKehittäjä-Ensimmäinen API
OpenAI-yhteensopiva REST API. Yksi päätetapahtuma, 22+-mallia. Suoratoistotuki reaaliaikaisiin sovelluksiin.
- OpenAI-yhteensopiva muoto
- Virrataan TTS:ää reaaliaikaisiin sovelluksiin
- Erän käsittely suurille työpaikoille
- Verkkokoukkuilmoitukset
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Yksinkertainen, läpinäkyvä hinnoittelu
Aloita vapaalla ja laajenna kasvaessasi.
Vapaa
15 000 merkkiä + 5 000 päivää
- 7 ilmaista mallia, mukaan lukien Kokoro
- 5 000 chars per sukupolvi
- API-yhteys mukana
Käynnistin
500 opintopistettä kuukaudessa
- Kaikki 22+-mallit
- 100 000 chars per sukupolvi
- Äänien kloonaus
Pro
2 000 opintopistettä kuukaudessa
- Kaikki Starterissa
- API-yhteys
- Ensisijainen käsittely
Bisnekset
10 000 opintopistettä/kuukausi
- Kaikki Prossa
- Bulk API
- Ensisijainen jono
Usein kysyttyjä kysymyksiä
Mitä voisimme parantaa? Palautteesi auttaa meitä korjaamaan ongelmia.
Ala käyttää tekoälyääntä nykyään
Liity TTS.ai:a käyttäviin luojiin, kehittäjiin ja yrityksiin