Vapaa tekoäly Teksti puheenaiheeksi
31+ avoimen lähdekoodin mallit, 231+ äänet, 34+ Kieliä. Ei tiliä.
Kaikki mitä tarvitset puheälyyn
Avoimen lähdekoodin tekoälymalleilla toimivat 30+ työkalua
31+ Al-äänimallit
Kattava kokoelma avoimen lähdekoodin TTS-malleja yhdellä alustalla
Kokoro Vapaa
Kokoro on 82 miljoonan parametrin tekstistä ääneen -malli, joka lyö selvästi painoluokkansa yläpuolelle. Pienestä koostaan huolimatta se tuottaa huomattavan luonnollisen ja ilmaisukykyisen puheen. Kokoro tukee useita kieliä, kuten englantia, japania, kiinaa ja koreaa erilaisilla ilmaisuäänillä. Se toimii uskomattoman nopeasti – tuottaa äänen lähes 100 kertaa nopeammin kuin reaaliaikaisesti GPU:lla.
Paras: Korkealaatuinen TTS, minimaalinen latenssi, suoratoistosovellukset
Kokeile vapaasti
Piper Vapaa
Piper on Rhasspyn kehittämä kevyt teksti-to-speech-moottori, joka käyttää VITS- ja kurkunpääarkkitehtuureja. Se toimii täysin prosessorilla, mikä tekee siitä ihanteellisen reunalaitteille, kodin automaatiolle ja sovelluksille, jotka vaativat offline TTS:ää. Yli 100 äänellä 30 + kielellä Piper pitää luonnolta kuulostavaa puhetta reaaliaikaisesti jopa Vadelma Pi 4:llä.
Paras: Nopea esikatselu, saavutettavuus ja sulautetut sovellukset
Kokeile vapaasti
VITS Vapaa
VITS (Variaational Interference with advertial learning for end-to-end Text-to-Speech) on rinnakkainen TTS-menetelmä, joka tuottaa luonnollisempaa kaikuääntä kuin nykyiset kaksivaiheiset mallit. Siinä otetaan käyttöön variaatiomainen päättely, jota lisätään normalisoivilla virroilla ja advertiaalisella koulutusprosessilla ja jolla saavutetaan merkittävä parannus luonnollisuudessa.
Paras: Yleiskäyttöinen tekstistä puheen ollen, luonnollinen prosody
Kokeile vapaasti
MeloTTS Vapaa
MeloTTS by MyShell.ai on monikielinen TTS-kirjasto, joka tukee englantia (amerikkalainen, britti, intialainen, australialainen), espanjaa, ranskaa, kiinaa, japania ja koreaa. Se on erittäin nopea ja käsittelee tekstiä lähes reaaliaikaisesti pelkästään prosessorilla. MeloTTS on suunniteltu tuotantokäyttöön ja tukee sekä CPU:n että GPU:n päättelyä.
Paras: Tuotantosovelluksia, jotka tarvitsevat nopeita, monikielisiä TTS-sovelluksia
Kokeile vapaasti
OuteTTS Vapaa
OutetTS laajentaa suuria kielimalleja tekstistä ääneen -ominaisuuksilla säilyttäen alkuperäisen arkkitehtuurin. Se tukee useita taustakuvia, kuten lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM ja jopa selainpäätelmät Transformers.js:n kautta. JSON:ksi tallennetuissa kaiuttimen profiileissa on nollalaukausäänikloonaus.
Paras: Edgen käyttöönotto, selainpohjainen TTS, vähävaraiset ympäristöt
Kokeile vapaasti
Pocket TTS Vapaa
Kyutain Pocket TTS (Creators of Moshi) on kompakti 100M-parametrinen teksti-äänestä-malli, joka lyö reilusti yli painonsa. Se toimii tehokkaasti suorittimella, tukee yhden ääninäytteen nollaäänikloonausta ja tuottaa luonnollista puhetta. Pieni mallikoko tekee siitä ihanteellisen reunan käyttöönotolle ja vähävaraisille ympäristöille.
Paras: Kevyt käyttö, vain suorittimen käyttöympäristöt, nopea äänen kloonaus
Kokeile vapaasti
Kitten TTS Vapaa
Kitten TTS KittenML on ultrakevyt, ONNX:lle rakennettu teksti-to-speech-malli. Se tarjoaa 15 M:n ja 80 M:n muuttujilla (25-80 Mt levylle) korkealaatuista äänisynteesiä prosessorille ilman GPU:ta. Siinä on 8 sisäänrakennettua ääntä, säädettävissä olevaa puhenopeutta ja sisäänrakennettua tekstin esikäsittelyä numeroille, valuutoille ja yksiköille. Ihanteellinen reunan käyttöönotolle ja matalan latenssin sovelluksille.
Paras: Nopea kevyt TTS, reunakäyttö, matalan latenssin sovellukset
Kokeile vapaasti
Bark Standardi
Transformer-pohjainen teksti-audio-malli, joka tuottaa realistisia puhe-, musiikki- ja äänitehosteita.
Kehittäjä: Suno · Lisenssi: MIT
Kokeile.
Bark Small Standardi
Kevyempi versio Barkista nopeammalla päättelyllä ja pienemmällä muistinkäytöllä.
Kehittäjä: Suno · Lisenssi: MIT
Kokeile.
CosyVoice 2 Standardi
Alibaban skaalautuva suoratoisto TTS:n ihmispariteetilla ja lähes nollan latenssilla.
Kehittäjä: Alibaba (Tongyi Lab) · Lisenssi: Apache 2.0
Kokeile.
Dia TTS Standardi
Monikielisten dialogien sukupolven malli, joka luo luonnollisia keskusteluja puhujien välillä.
Kehittäjä: Nari Labs · Lisenssi: Apache 2.0
Kokeile.
Parler TTS Standardi
Kuvaile haluamaasi ääntä luonnollisella kielellä, ja Parler luo sopivan puheen.
Kehittäjä: Hugging Face · Lisenssi: Apache 2.0
Kokeile.
GLM-TTS Standardi
Avoimen lähdekoodin TTS-mallien pienin merkkivirheprosentti saavutetaan.
Kehittäjä: Zhipu AI · Lisenssi: GLM-4 License
Kokeile.
IndexTTS-2 Standardi
Zero-shot TTS, hienorakeinen tunteiden hallinta ja suuri ilmaisukyky.
Kehittäjä: Index Team · Lisenssi: Bilibili Model License
Kokeile.
Spark TTS Standardi
Äänikloonaus TTS:n ohjattavalla tunteella ja puhetyylillä kehotuksilla.
Kehittäjä: SparkAudio · Lisenssi: CC BY-NC-SA 4.0
Kokeile.
GPT-SoVITS Standardi
Vain harvan kuvan ääni kloonaa TTS-ääntä, joka jäljittelee ääntä vain viiden sekunnin ääninopeudesta.
Kehittäjä: RVC-Boss · Lisenssi: MIT
Kokeile.
Orpheus Standardi
Ihmistason tunneperäinen TTS-malli kouluttautui 100 000 tunnin puhedataan.
Kehittäjä: Canopy Labs · Lisenssi: Llama 3.2 Community
Kokeile.
Qwen3 TTS Standardi
Alibaban monikielinen TTS, jossa on äänen kloonaus, ennakkoäänet ja äänisuunnittelu tekstistä.
Kehittäjä: Alibaba (Qwen) · Lisenssi: Apache 2.0
Kokeile.
Chatterbox Turbo Standardi
Nopeampi Chatterbox, jossa on alle 200 ms latenssi ja paralinguistiset tunnisteet nauramiseen, yskimiseen ja muuhun.
Kehittäjä: Resemble AI · Lisenssi: MIT
Kokeile.
Dia 2 Standardi
Virtaava ensimmäinen keskustelu TTS monikielisyydellä ja paralinguistisilla vinkeillä.
Kehittäjä: Nari Labs · Lisenssi: Apache 2.0
Kokeile.
VoxCPM Standardi
Tokenizer-vapaa TTS tuottaa 44.1kHz-ääntä, joka on asiayhteydestään tietoinen.
Kehittäjä: OpenBMB · Lisenssi: Apache 2.0
Kokeile.
TADA Standardi
Nollahallusinaatio TTS tekstiakustisella kaksoissitomisella, 5 kertaa nopeampi kuin vastaava LLM TTS.
Kehittäjä: Hume AI · Lisenssi: MIT
Kokeile.
VibeVoice Standardi
Microsoft-malli pitkän muotoiselle monikieliselle sisällölle, kuten podcastille ja äänikirjoille.
Kehittäjä: Microsoft · Lisenssi: MIT
Kokeile.
CosyVoice3 Standardi
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Kehittäjä: Alibaba (FunAudioLLM) · Lisenssi: Apache 2.0
Kokeile.
CosyVoice 2
Alibaban skaalautuva suoratoisto TTS:n ihmispariteetilla ja lähes nollan latenssilla.
Kielet: en, zh, ja, ko, fr, de, it, es
Klooniääni
GLM-TTS
Avoimen lähdekoodin TTS-mallien pienin merkkivirheprosentti saavutetaan.
Kielet: en, zh
Klooniääni
IndexTTS-2
Zero-shot TTS, hienorakeinen tunteiden hallinta ja suuri ilmaisukyky.
Kielet: en, zh
Klooniääni
Spark TTS
Äänikloonaus TTS:n ohjattavalla tunteella ja puhetyylillä kehotuksilla.
Kielet: en, zh
Klooniääni
GPT-SoVITS
Vain harvan kuvan ääni kloonaa TTS-ääntä, joka jäljittelee ääntä vain viiden sekunnin ääninopeudesta.
Kielet: en, zh, ja, ko
Klooniääni
Tortoise TTS
Moniääninen tekstipuhe keskittyi laatuun autoregressiivisen arkkitehtuurin avulla.
Kielet: en
Klooniääni
OpenVoice
Välitön äänenkloonaus, jolla hallitaan rakeisesti tyyliä, tunteita ja korostusta.
Kielet: en, zh, ja, ko, fr, de, es, it
Klooniääni
Qwen3 TTS
Alibaban monikielinen TTS, jossa on äänen kloonaus, ennakkoäänet ja äänisuunnittelu tekstistä.
Kielet: en, zh, ja, ko, de, fr, ru, pt, es, it
Klooniääni
Chatterbox Turbo
Nopeampi Chatterbox, jossa on alle 200 ms latenssi ja paralinguistiset tunnisteet nauramiseen, yskimiseen ja muuhun.
Kielet: en
Klooniääni
VoxCPM
Tokenizer-vapaa TTS tuottaa 44.1kHz-ääntä, joka on asiayhteydestään tietoinen.
Kielet: en, zh
Klooniääni
OuteTTS
LLM-pohjainen TTS, joka toimii CPU:lla, GPU:lla tai selaimella lama.cpp:n ja Transformers.js:n kautta.
Kielet: en
Klooniääni
Pocket TTS
Kyutain kevyt 100 metrin parametrimalli äänen kloonauksella yhdestä näytteestä.
Kielet: en, fr
Klooniääni
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Kielet: en, zh, ja, ko, de, es, fr, it, ru
Klooniääni
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Kielet: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Klooniääni
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Kielet: en, zh
KlooniääniKehittäjä-Ensimmäinen API
OpenAI-yhteensopiva REST API. Yksi päätetapahtuma, 22+-mallia. Suoratoistotuki reaaliaikaisiin sovelluksiin.
- OpenAI-yhteensopiva muoto
- Virrataan TTS:ää reaaliaikaisiin sovelluksiin
- Erän käsittely suurille työpaikoille
- Verkkokoukkuilmoitukset
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Yksinkertainen, läpinäkyvä hinnoittelu
Aloita vapaalla ja laajenna kasvaessasi.
Vapaa
15 opintopistettä
- Kokoro, Piper, VITS, MeloTTS
- 500 merkin raja-arvo
- 3 gen/tunti (ei tiliä)
Käynnistin
500 opintopistettä kuukaudessa
- Kaikki 22+-mallit
- 100 000 chars per sukupolvi
- Äänien kloonaus
Pro
2 000 opintopistettä kuukaudessa
- Kaikki Starterissa
- API-yhteys
- Ensisijainen käsittely
Bisnekset
10 000 opintopistettä/kuukausi
- Kaikki Prossa
- Bulk API
- Ensisijainen jono
Usein kysyttyjä kysymyksiä
Mitä voisimme parantaa? Palautteesi auttaa meitä korjaamaan ongelmia.
Ala käyttää tekoälyääntä nykyään
Liity TTS.ai:a käyttäviin luojiin, kehittäjiin ja yrityksiin