Vapaa tekoäly Teksti puheenaiheeksi

33+ avoimen lähdekoodin mallit, 273+ äänet, 33+ Kieliä. Ei tiliä.

18K+
tekijät
71K+
sukupolvet
33+
Tekoälymallit
273+
äänet
Rakasta TTS.aita, kerro ystävillesi!

Kaikki mitä tarvitset puheälyyn

Avoimen lähdekoodin tekoälymalleilla toimivat 30+ työkalua

33+ Al-äänimallit

Kattava kokoelma avoimen lähdekoodin TTS-malleja yhdellä alustalla

KokoroKokoro Vapaa

Kokoro on 82 miljoonan parametrin tekstistä ääneen -malli, joka lyö selvästi painoluokkansa yläpuolelle. Pienestä koostaan huolimatta se tuottaa huomattavan luonnollisen ja ilmaisukykyisen puheen. Kokoro tukee useita kieliä, kuten englantia, japania, kiinaa ja koreaa erilaisilla ilmaisuäänillä. Se toimii uskomattoman nopeasti – tuottaa äänen lähes 100 kertaa nopeammin kuin reaaliaikaisesti GPU:lla.

Paras: Korkealaatuinen TTS, minimaalinen latenssi, suoratoistosovellukset

Kokeile vapaasti

PiperPiper Vapaa

Piper on Rhasspyn kehittämä kevyt teksti-to-speech-moottori, joka käyttää VITS- ja kurkunpääarkkitehtuureja. Se toimii täysin prosessorilla, mikä tekee siitä ihanteellisen reunalaitteille, kodin automaatiolle ja sovelluksille, jotka vaativat offline TTS:ää. Yli 100 äänellä 30 + kielellä Piper pitää luonnolta kuulostavaa puhetta reaaliaikaisesti jopa Vadelma Pi 4:llä.

Paras: Nopea esikatselu, saavutettavuus ja sulautetut sovellukset

Kokeile vapaasti

VITSVITS Vapaa

VITS (Variaational Interference with advertial learning for end-to-end Text-to-Speech) on rinnakkainen TTS-menetelmä, joka tuottaa luonnollisempaa kaikuääntä kuin nykyiset kaksivaiheiset mallit. Siinä otetaan käyttöön variaatiomainen päättely, jota lisätään normalisoivilla virroilla ja advertiaalisella koulutusprosessilla ja jolla saavutetaan merkittävä parannus luonnollisuudessa.

Paras: Yleiskäyttöinen tekstistä puheen ollen, luonnollinen prosody

Kokeile vapaasti

MeloTTSMeloTTS Vapaa

MeloTTS by MyShell.ai on monikielinen TTS-kirjasto, joka tukee englantia (amerikkalainen, britti, intialainen, australialainen), espanjaa, ranskaa, kiinaa, japania ja koreaa. Se on erittäin nopea ja käsittelee tekstiä lähes reaaliaikaisesti pelkästään prosessorilla. MeloTTS on suunniteltu tuotantokäyttöön ja tukee sekä CPU:n että GPU:n päättelyä.

Paras: Tuotantosovelluksia, jotka tarvitsevat nopeita, monikielisiä TTS-sovelluksia

Kokeile vapaasti

Kani TTS 2Kani TTS 2 Vapaa

Kani-TTS-2 by NineNineSix on ultrakevyt 400M -parametrimalli, joka on rakennettu NVIDIA NanoCodec -nimiselle nestemäiselle AI-LFM2-kouralle. Se toimii vain 3GB VRAM-muistissa ja tuottaa ~10 sekuntia puhetta ~2 sekunnissa A100:lla (RTF 0.2). Nykyinen julkinen julkaisualus on englantilainen `kani-tts-2-en`-tarkastuspiste, eikä se paljasta äänen kloonaukseen tarvittavaa kaiuttimeen kiinnittyvää koukkua – käytä Chatterboxia / IndexTS2 / F5-TTS kloonaukseen, tai Kokoro / MeloTTS ei-englantilaisille.

Paras: Nopea englantilainen sukupolvi matala-VRAM-laitteilla, nopeat esikatselut

Kokeile vapaasti

OuteTTSOuteTTS Vapaa

OutetTS laajentaa suuria kielimalleja tekstistä ääneen -ominaisuuksilla säilyttäen alkuperäisen arkkitehtuurin. Se tukee useita taustakuvia, kuten lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM ja jopa selainpäätelmät Transformers.js:n kautta. JSON:ksi tallennetuissa kaiuttimen profiileissa on nollalaukausäänikloonaus.

Paras: Edgen käyttöönotto, selainpohjainen TTS, vähävaraiset ympäristöt

Kokeile vapaasti

Pocket TTSPocket TTS Vapaa

Kyutain Pocket TTS (Creators of Moshi) on kompakti 100M-parametrinen teksti-äänestä-malli, joka lyö reilusti yli painonsa. Se toimii tehokkaasti suorittimella, tukee yhden ääninäytteen nollaäänikloonausta ja tuottaa luonnollista puhetta. Pieni mallikoko tekee siitä ihanteellisen reunan käyttöönotolle ja vähävaraisille ympäristöille.

Paras: Kevyt käyttö, vain suorittimen käyttöympäristöt, nopea äänen kloonaus

Kokeile vapaasti

Kitten TTSKitten TTS Vapaa

Kitten TTS KittenML on ultrakevyt, ONNX:lle rakennettu teksti-to-speech-malli. Se tarjoaa 15 M:n ja 80 M:n muuttujilla (25-80 Mt levylle) korkealaatuista äänisynteesiä prosessorille ilman GPU:ta. Siinä on 8 sisäänrakennettua ääntä, säädettävissä olevaa puhenopeutta ja sisäänrakennettua tekstin esikäsittelyä numeroille, valuutoille ja yksiköille. Ihanteellinen reunan käyttöönotolle ja matalan latenssin sovelluksille.

Paras: Nopea kevyt TTS, reunakäyttö, matalan latenssin sovellukset

Kokeile vapaasti

Ming-Omni TTSMing-Omni TTS Vapaa

Ming-omni-tts-0.5B by inclusionAI on kompakti omnimodaalinen puhemalli, joka on rakennettu BailingMM:n tiheälle selkärangalle ja jossa on Patch-by-Patch-virtausvastaavuusäänidekooderi. Toimittaa 44.1kHz:n ulostulon (lähellä CD:n laatua), tukee 3+ sekunnin mittaista nollalaukausäänen kloonausta ja sisältää sisäänrakennetun tunteen / murteen / BCM-ohjauksen JSON-ohjeiden avulla. Erinomainen vakaus – 0,83 % WER kiinalaisilla vertailuarvoilla.

Paras: Korkean uskollisuuden kaksikielinen kertosäe, tunteiden hallitsema ääninäytteleminen, kiinalainen äänikirjasisältö

Kokeile vapaasti

MOSS-TTS NanoMOSS-TTS Nano Vapaa

MOSS-TTS-Nano-100M on OpenMOSSin kompakti 100M-parametriversio MOSS-TTS-perheestä jakaen viive-transformer-arkkitehtuurin. 8B-mallin huippulaatu on ~80x pienemmällä painolla ja huomattavasti matalammalla pyydettäessä VRAM-muistilla, mikä tekee siitä sopivan vapaa- ja huipputason käyttöönotoille. Sama 20-kielinen.

Paras: Vapaatasoinen TTS, suuritehoinen tuotanto, matalan latenssin vuorovaikutteinen käyttö

Kokeile vapaasti

BarkBark Standardi

Transformer-pohjainen teksti-audio-malli, joka tuottaa realistisia puhe-, musiikki- ja äänitehosteita.

Kehittäjä: Suno · Lisenssi: MIT

Kokeile.

Bark SmallBark Small Standardi

Kevyempi versio Barkista nopeammalla päättelyllä ja pienemmällä muistinkäytöllä.

Kehittäjä: Suno · Lisenssi: MIT

Kokeile.

CosyVoice 2CosyVoice 2 Standardi

Alibaban skaalautuva suoratoisto TTS:n ihmispariteetilla ja lähes nollan latenssilla.

Kehittäjä: Alibaba (Tongyi Lab) · Lisenssi: Apache 2.0

Kokeile.

Dia TTSDia TTS Standardi

Monikielisten dialogien sukupolven malli, joka luo luonnollisia keskusteluja puhujien välillä.

Kehittäjä: Nari Labs · Lisenssi: Apache 2.0

Kokeile.

Parler TTSParler TTS Standardi

Kuvaile haluamaasi ääntä luonnollisella kielellä, ja Parler luo sopivan puheen.

Kehittäjä: Hugging Face · Lisenssi: Apache 2.0

Kokeile.

IndexTTS-2IndexTTS-2 Standardi

Zero-shot TTS, hienorakeinen tunteiden hallinta ja suuri ilmaisukyky.

Kehittäjä: Index Team · Lisenssi: Bilibili Model License

Kokeile.

Spark TTSSpark TTS Standardi

Äänikloonaus TTS:n ohjattavalla tunteella ja puhetyylillä kehotuksilla.

Kehittäjä: SparkAudio · Lisenssi: CC BY-NC-SA 4.0

Kokeile.

GPT-SoVITSGPT-SoVITS Standardi

Vain harvan kuvan ääni kloonaa TTS-ääntä, joka jäljittelee ääntä vain viiden sekunnin ääninopeudesta.

Kehittäjä: RVC-Boss · Lisenssi: MIT

Kokeile.

OrpheusOrpheus Standardi

Ihmistason tunneperäinen TTS-malli kouluttautui 100 000 tunnin puhedataan.

Kehittäjä: Canopy Labs · Lisenssi: Llama 3.2 Community

Kokeile.

Qwen3 TTSQwen3 TTS Standardi

Alibaban monikielinen TTS, jossa on ennakkoäänet ja äänisuunnittelu tekstistä.

Kehittäjä: Alibaba (Qwen) · Lisenssi: Apache 2.0

Kokeile.

VieNeu-TTS-v2VieNeu-TTS-v2 Standardi

Vietnam + Englantilainen koodinvaihtaja TTS, jossa 7 ennalta asetettua ääntä ja nollalaukausäänen kloonaus. Vain prosessori, ei GPU:ta.

Kehittäjä: Phạm Nguyễn Ngọc Bảo · Lisenssi: Apache 2.0

Kokeile.

Chatterbox TurboChatterbox Turbo Standardi

Nopeampi Chatterbox, jossa on alle 200 ms latenssi ja paralinguistiset tunnisteet nauramiseen, yskimiseen ja muuhun.

Kehittäjä: Resemble AI · Lisenssi: MIT

Kokeile.

VoxCPMVoxCPM Standardi

Tokenizer-vapaa TTS tuottaa 44.1kHz-ääntä, joka on asiayhteydestään tietoinen.

Kehittäjä: OpenBMB · Lisenssi: Apache 2.0

Kokeile.

VibeVoiceVibeVoice Standardi

Microsoft-malli pitkän muotoiselle monikieliselle sisällölle, kuten podcastille ja äänikirjoille.

Kehittäjä: Microsoft · Lisenssi: MIT

Kokeile.

CosyVoice3CosyVoice3 Standardi

Seuraavan sukupolven monikielinen TTS, jossa on bi-streaming, tunteiden hallinta ja nollalaukausäänen kloonaus.

Kehittäjä: Alibaba (FunAudioLLM) · Lisenssi: Apache 2.0

Kokeile.

NAMAA Saudi TTSNAMAA Saudi TTS Standardi

Ensimmäinen avoin saudiarabialainen TTS. Native Saudi murre Chatterbox-laadukas äänikloonaus.

Kehittäjä: NAMAA Space · Lisenssi: MIT

Kokeile.

Darwin TTSDarwin TTS Standardi

Cross-modaalisella Qwen3-TTS-variantilla FFN-painoja sekoitettuna Qwen3-1.7B-kielimallista terävämpään monikieliseen kloonaukseen.

Kehittäjä: FINAL-Bench · Lisenssi: Apache 2.0

Kokeile.

MOSS-TTSDMOSS-TTSD Standardi

Monikielisen dialogin jatkomalli – synnyttää podcast-tyylisiä keskusteluja, joissa on jopa viisi puhujaa ja 60 minuuttia johdonmukaista ääntä.

Kehittäjä: OpenMOSS · Lisenssi: Apache 2.0

Kokeile.

ChatterboxChatterbox Palkkio

Huippuluokan nollaäänikloonaus ja tunteiden hallinta tekoälystä.

Laatu:

Kokeile.

Tortoise TTSTortoise TTS Palkkio

Moniääninen tekstipuhe keskittyi laatuun autoregressiivisen arkkitehtuurin avulla.

Laatu:

Kokeile.

StyleTTS 2StyleTTS 2 Palkkio

Ihmistason tekstistä puheenaiheeksi tyylin levittämisen ja vastakkaisen treenin avulla.

Laatu:

Kokeile.

OpenVoiceOpenVoice Palkkio

Välitön äänenkloonaus, jolla hallitaan rakeisesti tyyliä, tunteita ja korostusta.

Laatu:

Kokeile.

Sesame CSMSesame CSM Palkkio

Keskustelupuhemalli luo luonnollista vuoropuhelua sopivalla ajoituksella ja tunteella.

Laatu:

Kokeile.

CosyVoice 2CosyVoice 2

Alibaban skaalautuva suoratoisto TTS:n ihmispariteetilla ja lähes nollan latenssilla.

Kielet: en, zh, ja, ko, fr, de, it, es

Klooniääni

IndexTTS-2IndexTTS-2

Zero-shot TTS, hienorakeinen tunteiden hallinta ja suuri ilmaisukyky.

Kielet: en, zh

Klooniääni

Spark TTSSpark TTS

Äänikloonaus TTS:n ohjattavalla tunteella ja puhetyylillä kehotuksilla.

Kielet: en, zh

Klooniääni

GPT-SoVITSGPT-SoVITS

Vain harvan kuvan ääni kloonaa TTS-ääntä, joka jäljittelee ääntä vain viiden sekunnin ääninopeudesta.

Kielet: en, zh, ja, ko

Klooniääni

ChatterboxChatterbox

Huippuluokan nollaäänikloonaus ja tunteiden hallinta tekoälystä.

Kielet: en

Klooniääni

Tortoise TTSTortoise TTS

Moniääninen tekstipuhe keskittyi laatuun autoregressiivisen arkkitehtuurin avulla.

Kielet: en

Klooniääni

OpenVoiceOpenVoice

Välitön äänenkloonaus, jolla hallitaan rakeisesti tyyliä, tunteita ja korostusta.

Kielet: en, zh, ja, ko, fr, es

Klooniääni

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnam + Englantilainen koodinvaihtaja TTS, jossa 7 ennalta asetettua ääntä ja nollalaukausäänen kloonaus. Vain prosessori, ei GPU:ta.

Kielet: vi, en

Klooniääni

Chatterbox TurboChatterbox Turbo

Nopeampi Chatterbox, jossa on alle 200 ms latenssi ja paralinguistiset tunnisteet nauramiseen, yskimiseen ja muuhun.

Kielet: en

Klooniääni

VoxCPMVoxCPM

Tokenizer-vapaa TTS tuottaa 44.1kHz-ääntä, joka on asiayhteydestään tietoinen.

Kielet: en, zh

Klooniääni

OuteTTSOuteTTS

LLM-pohjainen TTS, joka toimii CPU:lla, GPU:lla tai selaimella lama.cpp:n ja Transformers.js:n kautta.

Kielet: en

Klooniääni

Pocket TTSPocket TTS

Kyutain kevyt 100 metrin parametrimalli äänen kloonauksella yhdestä näytteestä.

Kielet: en, fr

Klooniääni

CosyVoice3CosyVoice3

Seuraavan sukupolven monikielinen TTS, jossa on bi-streaming, tunteiden hallinta ja nollalaukausäänen kloonaus.

Kielet: en, zh, ja, ko, de, es, fr, it, ru

Klooniääni

NAMAA Saudi TTSNAMAA Saudi TTS

Ensimmäinen avoin saudiarabialainen TTS. Native Saudi murre Chatterbox-laadukas äänikloonaus.

Kielet: ar

Klooniääni

Darwin TTSDarwin TTS

Cross-modaalisella Qwen3-TTS-variantilla FFN-painoja sekoitettuna Qwen3-1.7B-kielimallista terävämpään monikieliseen kloonaukseen.

Kielet: en, ko, ja, zh

Klooniääni

MOSS-TTSDMOSS-TTSD

Monikielisen dialogin jatkomalli – synnyttää podcast-tyylisiä keskusteluja, joissa on jopa viisi puhujaa ja 60 minuuttia johdonmukaista ääntä.

Kielet: en, zh

Klooniääni

Ming-Omni TTSMing-Omni TTS

Kompakti 0.5B-modaalipuhemalli include-AI:lta, jossa on korkea uskollisuus 44.1kHz:n ulostulo ja nollalaukausäänen kloonaus.

Kielet: en, zh

Klooniääni

MOSS-TTS NanoMOSS-TTS Nano

Pieni 100M MOSS-TTS-variantti – sama arkkitehtuuri, 80x pienempi, vapaatasoinen latenssi.

Kielet: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Klooniääni

Kehittäjä-Ensimmäinen API

OpenAI-yhteensopiva REST API. Yksi päätetapahtuma, 22+-mallia. Suoratoistotuki reaaliaikaisiin sovelluksiin.

  • OpenAI-yhteensopiva muoto
  • Virrataan TTS:ää reaaliaikaisiin sovelluksiin
  • Erän käsittely suurille työpaikoille
  • Verkkokoukkuilmoitukset
Näytä API-dokumentit
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Yksinkertainen, läpinäkyvä hinnoittelu

Aloita vapaalla ja laajenna kasvaessasi.

Vapaa

$0

15 000 merkkiä + 5 000 päivää

  • 7 ilmaista mallia, mukaan lukien Kokoro
  • 5 000 chars per sukupolvi
  • API-yhteys mukana
Rekisteröidy ilmaiseksi

Käynnistin

$9/m

500 opintopistettä kuukaudessa

  • Kaikki 22+-mallit
  • 100 000 chars per sukupolvi
  • Äänien kloonaus
Aloita
Suosituin

Pro

$29/m

2 000 opintopistettä kuukaudessa

  • Kaikki Starterissa
  • API-yhteys
  • Ensisijainen käsittely
Hae Pro

Bisnekset

$99/m

10 000 opintopistettä/kuukausi

  • Kaikki Prossa
  • Bulk API
  • Ensisijainen jono
Hanki bisnestä

Näytä kaikki suunnitelmat, mukaan lukien merkkipakkaukset →

Usein kysyttyjä kysymyksiä

TTS.ai on kattavin tekoälyäänialusta, joka tarjoaa 22+ tekstistä ääneen -mallia, äänen kloonausta, puheesta tekstiin -työkaluja ja äänityökaluja. Kaikki mallit ovat avoimen lähdekoodin mukaisia ilman toimittajan lukitusta.

Kyllä! TTS.ai tarjoaa kokoomuksen, Piperin, VITS:n ja MeloTTS:n mallien kanssa ilmaisen tekstipuheen. Tiliä ei tarvita. Rekisteröidy saadaksesi 15 000 ilmaista merkkiä ja pääset kaikkiin malleihin. Maksetut suunnitelmat alkavat 9 dollarista kuukaudessa.

Käytä nopeuteen Kokoroa tai Piperia. Kokeile CosyVoice 2:ta tai Styletts 2:ta. Äänikloonaamiseen käytä Chatterboxia tai GPT-SoVITS:iä. Käytä dia TTS:ää. Vertaa useita malleja samaan tekstiin.

Kyllä. OpenAI-yhteensopiva REST API TTS:lle, STT:lle, äänikloonaukselle ja äänityökaluille. Mukana jokaisessa suunnitelmassa, mukaan lukien ilmainen, ja hintarajat asteikolla asteikolla (Ilmainen: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Business: 300). Katso dokumentit osoitteessa tts.ai/api/.

Äänenlaatu vaihtelee mallien mukaan. Huippumallit, kuten CosyVoice 2, Styletts 2 ja Chatterbox, tuottavat lähes ihmisläheistä laadukasta puhetta, jossa on luonnollinen intonaatio ja tunne. Kokoron kaltaiset vapaat mallit tarjoavat erinomaista laatua useimpiin käyttökohteisiin.

TTS.ai tukee 30:tä ylikieltä mallikirjastossaan. Englannin mallisto on laajin, mutta CosyVoice 2:n kaltaiset mallit kattavat kiinan, japanin ja korean; GPT-SoVITS käsittelee kiinaa, japania, koreaa ja englantia; ja MeloTTS tukee englantia, espanjaa, ranskaa, kiinaa, japania ja koreaa.

Kyllä. Kaikki käsittely tapahtuu omistetuilla GPU-palvelimillamme. Emme tallenna tekstituloksiasi tai luo ääntä toimituksen jälkeen. Ladattuja ääninäytteitä kloonaukseen käytetään vain nykyisessä istunnossa, eikä niitä säilytetä. Emme koskaan jaa tietojasi kolmansille osapuolille tai käytä niitä mallien kouluttamiseen.

Kyllä. Kaikki TTS.ai:lla tuotettu ääni on sinun kaupallisesti käytettäväsi, mukaan lukien YouTube-videot, podcastit, äänikirjat, sovellukset, mainokset ja tuotteet. Mallimme ovat avoimen lähdekoodin sallivia lisenssejä (MIT, Apache 2.0). Rojalteja tai jakoa ei tarvita.

TTS.ai luo äänen WAV-muodossa oletuksena maksimilaadun. Voit muuntaa MP3:ksi, FLAC:ksi, OGG:ksi tai M4A:ksi ilmaisen Audio Converter -työkalumme avulla. API tukee haluamaasi lähtömuotoa suoraan pyynnössä.

Lataa lyhyt ääninäyte (alle 5 sekuntia) ääntä, jonka haluat kloonata, ja kirjoita sitten mitä tahansa tekstiä puheen tuottamiseksi tuohon ääneen. Mallit, kuten Chatterbox, GPT-SoVITS ja CosyVoice 2, tukevat äänen kloonausta. Kloonattu ääni vangitsee äänensävyn, korostuksen ja puhetyylin.

Vapaat mallit (Kokoro, Piper, VITS, MeloTTS) eivät vaadi tiliä ja maksavat nolla merkkiä. Vakiomallit (2 000 merkkiä/1K syöttöä) sisältävät Barkin, CosyVoice 2, F5-TTS ja Dia. Premium-malleja (4 000 merkkiä/1K syöttöä) ovat OpenVoice, Chatterbox, StyletTS 2 ja Tortoise. Maksulliset mallit tarjoavat yleensä parempaa laatua, enemmän ääniä ja muita ominaisuuksia, kuten äänen kloonausta.

Kyllä. API tukee erien käsittelyä suurten tekstimäärien muuntamiseksi puheeksi. Lähetä useita pyyntöjä ja hae tulokset yhtäjaksoisesti käyttäen työn UUID-tietoja. Liiketoimintasuunnitelma (99 dollaria/m) ja sitä korkeampi sisältävät ensisijaisen jonon nopeamman eränkäsittelyn. Ihanteellinen äänikirjojen tuotantoon, kurssin sisältöön ja suuriin puheohjelmiin.
4.1/5 (42)

Mitä voisimme parantaa? Palautteesi auttaa meitä korjaamaan ongelmia.

Ala käyttää tekoälyääntä nykyään

Liity TTS.ai:a käyttäviin luojiin, kehittäjiin ja yrityksiin