Vapaa tekoäly Teksti puheenaiheeksi

31+ avoimen lähdekoodin mallit, 231+ äänet, 34+ Kieliä. Ei tiliä.

8K+
tekijät
32K+
sukupolvet
31+
Tekoälymallit
231+
äänet
0/500 hahmot · Sign up for 5,000 per generation → Vapaa
Rakasta TTS.aita, kerro ystävillesi!

Kaikki mitä tarvitset puheälyyn

Avoimen lähdekoodin tekoälymalleilla toimivat 30+ työkalua

31+ Al-äänimallit

Kattava kokoelma avoimen lähdekoodin TTS-malleja yhdellä alustalla

KokoroKokoro Vapaa

Kokoro on 82 miljoonan parametrin tekstistä ääneen -malli, joka lyö selvästi painoluokkansa yläpuolelle. Pienestä koostaan huolimatta se tuottaa huomattavan luonnollisen ja ilmaisukykyisen puheen. Kokoro tukee useita kieliä, kuten englantia, japania, kiinaa ja koreaa erilaisilla ilmaisuäänillä. Se toimii uskomattoman nopeasti – tuottaa äänen lähes 100 kertaa nopeammin kuin reaaliaikaisesti GPU:lla.

Paras: Korkealaatuinen TTS, minimaalinen latenssi, suoratoistosovellukset

Kokeile vapaasti

PiperPiper Vapaa

Piper on Rhasspyn kehittämä kevyt teksti-to-speech-moottori, joka käyttää VITS- ja kurkunpääarkkitehtuureja. Se toimii täysin prosessorilla, mikä tekee siitä ihanteellisen reunalaitteille, kodin automaatiolle ja sovelluksille, jotka vaativat offline TTS:ää. Yli 100 äänellä 30 + kielellä Piper pitää luonnolta kuulostavaa puhetta reaaliaikaisesti jopa Vadelma Pi 4:llä.

Paras: Nopea esikatselu, saavutettavuus ja sulautetut sovellukset

Kokeile vapaasti

VITSVITS Vapaa

VITS (Variaational Interference with advertial learning for end-to-end Text-to-Speech) on rinnakkainen TTS-menetelmä, joka tuottaa luonnollisempaa kaikuääntä kuin nykyiset kaksivaiheiset mallit. Siinä otetaan käyttöön variaatiomainen päättely, jota lisätään normalisoivilla virroilla ja advertiaalisella koulutusprosessilla ja jolla saavutetaan merkittävä parannus luonnollisuudessa.

Paras: Yleiskäyttöinen tekstistä puheen ollen, luonnollinen prosody

Kokeile vapaasti

MeloTTSMeloTTS Vapaa

MeloTTS by MyShell.ai on monikielinen TTS-kirjasto, joka tukee englantia (amerikkalainen, britti, intialainen, australialainen), espanjaa, ranskaa, kiinaa, japania ja koreaa. Se on erittäin nopea ja käsittelee tekstiä lähes reaaliaikaisesti pelkästään prosessorilla. MeloTTS on suunniteltu tuotantokäyttöön ja tukee sekä CPU:n että GPU:n päättelyä.

Paras: Tuotantosovelluksia, jotka tarvitsevat nopeita, monikielisiä TTS-sovelluksia

Kokeile vapaasti

OuteTTSOuteTTS Vapaa

OutetTS laajentaa suuria kielimalleja tekstistä ääneen -ominaisuuksilla säilyttäen alkuperäisen arkkitehtuurin. Se tukee useita taustakuvia, kuten lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM ja jopa selainpäätelmät Transformers.js:n kautta. JSON:ksi tallennetuissa kaiuttimen profiileissa on nollalaukausäänikloonaus.

Paras: Edgen käyttöönotto, selainpohjainen TTS, vähävaraiset ympäristöt

Kokeile vapaasti

Pocket TTSPocket TTS Vapaa

Kyutain Pocket TTS (Creators of Moshi) on kompakti 100M-parametrinen teksti-äänestä-malli, joka lyö reilusti yli painonsa. Se toimii tehokkaasti suorittimella, tukee yhden ääninäytteen nollaäänikloonausta ja tuottaa luonnollista puhetta. Pieni mallikoko tekee siitä ihanteellisen reunan käyttöönotolle ja vähävaraisille ympäristöille.

Paras: Kevyt käyttö, vain suorittimen käyttöympäristöt, nopea äänen kloonaus

Kokeile vapaasti

Kitten TTSKitten TTS Vapaa

Kitten TTS KittenML on ultrakevyt, ONNX:lle rakennettu teksti-to-speech-malli. Se tarjoaa 15 M:n ja 80 M:n muuttujilla (25-80 Mt levylle) korkealaatuista äänisynteesiä prosessorille ilman GPU:ta. Siinä on 8 sisäänrakennettua ääntä, säädettävissä olevaa puhenopeutta ja sisäänrakennettua tekstin esikäsittelyä numeroille, valuutoille ja yksiköille. Ihanteellinen reunan käyttöönotolle ja matalan latenssin sovelluksille.

Paras: Nopea kevyt TTS, reunakäyttö, matalan latenssin sovellukset

Kokeile vapaasti

BarkBark Standardi

Transformer-pohjainen teksti-audio-malli, joka tuottaa realistisia puhe-, musiikki- ja äänitehosteita.

Kehittäjä: Suno · Lisenssi: MIT

Kokeile.

Bark SmallBark Small Standardi

Kevyempi versio Barkista nopeammalla päättelyllä ja pienemmällä muistinkäytöllä.

Kehittäjä: Suno · Lisenssi: MIT

Kokeile.

CosyVoice 2CosyVoice 2 Standardi

Alibaban skaalautuva suoratoisto TTS:n ihmispariteetilla ja lähes nollan latenssilla.

Kehittäjä: Alibaba (Tongyi Lab) · Lisenssi: Apache 2.0

Kokeile.

Dia TTSDia TTS Standardi

Monikielisten dialogien sukupolven malli, joka luo luonnollisia keskusteluja puhujien välillä.

Kehittäjä: Nari Labs · Lisenssi: Apache 2.0

Kokeile.

Parler TTSParler TTS Standardi

Kuvaile haluamaasi ääntä luonnollisella kielellä, ja Parler luo sopivan puheen.

Kehittäjä: Hugging Face · Lisenssi: Apache 2.0

Kokeile.

GLM-TTSGLM-TTS Standardi

Avoimen lähdekoodin TTS-mallien pienin merkkivirheprosentti saavutetaan.

Kehittäjä: Zhipu AI · Lisenssi: GLM-4 License

Kokeile.

IndexTTS-2IndexTTS-2 Standardi

Zero-shot TTS, hienorakeinen tunteiden hallinta ja suuri ilmaisukyky.

Kehittäjä: Index Team · Lisenssi: Bilibili Model License

Kokeile.

Spark TTSSpark TTS Standardi

Äänikloonaus TTS:n ohjattavalla tunteella ja puhetyylillä kehotuksilla.

Kehittäjä: SparkAudio · Lisenssi: CC BY-NC-SA 4.0

Kokeile.

GPT-SoVITSGPT-SoVITS Standardi

Vain harvan kuvan ääni kloonaa TTS-ääntä, joka jäljittelee ääntä vain viiden sekunnin ääninopeudesta.

Kehittäjä: RVC-Boss · Lisenssi: MIT

Kokeile.

OrpheusOrpheus Standardi

Ihmistason tunneperäinen TTS-malli kouluttautui 100 000 tunnin puhedataan.

Kehittäjä: Canopy Labs · Lisenssi: Llama 3.2 Community

Kokeile.

Qwen3 TTSQwen3 TTS Standardi

Alibaban monikielinen TTS, jossa on äänen kloonaus, ennakkoäänet ja äänisuunnittelu tekstistä.

Kehittäjä: Alibaba (Qwen) · Lisenssi: Apache 2.0

Kokeile.

Chatterbox TurboChatterbox Turbo Standardi

Nopeampi Chatterbox, jossa on alle 200 ms latenssi ja paralinguistiset tunnisteet nauramiseen, yskimiseen ja muuhun.

Kehittäjä: Resemble AI · Lisenssi: MIT

Kokeile.

Dia 2Dia 2 Standardi

Virtaava ensimmäinen keskustelu TTS monikielisyydellä ja paralinguistisilla vinkeillä.

Kehittäjä: Nari Labs · Lisenssi: Apache 2.0

Kokeile.

VoxCPMVoxCPM Standardi

Tokenizer-vapaa TTS tuottaa 44.1kHz-ääntä, joka on asiayhteydestään tietoinen.

Kehittäjä: OpenBMB · Lisenssi: Apache 2.0

Kokeile.

TADATADA Standardi

Nollahallusinaatio TTS tekstiakustisella kaksoissitomisella, 5 kertaa nopeampi kuin vastaava LLM TTS.

Kehittäjä: Hume AI · Lisenssi: MIT

Kokeile.

VibeVoiceVibeVoice Standardi

Microsoft-malli pitkän muotoiselle monikieliselle sisällölle, kuten podcastille ja äänikirjoille.

Kehittäjä: Microsoft · Lisenssi: MIT

Kokeile.

CosyVoice3CosyVoice3 Standardi

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Kehittäjä: Alibaba (FunAudioLLM) · Lisenssi: Apache 2.0

Kokeile.

ChatterboxChatterbox Palkkio

Huippuluokan nollaäänikloonaus ja tunteiden hallinta tekoälystä.

Laatu:

Kokeile.

Tortoise TTSTortoise TTS Palkkio

Moniääninen tekstipuhe keskittyi laatuun autoregressiivisen arkkitehtuurin avulla.

Laatu:

Kokeile.

StyleTTS 2StyleTTS 2 Palkkio

Ihmistason tekstistä puheenaiheeksi tyylin levittämisen ja vastakkaisen treenin avulla.

Laatu:

Kokeile.

OpenVoiceOpenVoice Palkkio

Välitön äänenkloonaus, jolla hallitaan rakeisesti tyyliä, tunteita ja korostusta.

Laatu:

Kokeile.

Sesame CSMSesame CSM Palkkio

Keskustelupuhemalli luo luonnollista vuoropuhelua sopivalla ajoituksella ja tunteella.

Laatu:

Kokeile.

MOSS-TTSMOSS-TTS Palkkio

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Laatu:

Kokeile.

MegaTTS3MegaTTS3 Palkkio

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Laatu:

Kokeile.

CosyVoice 2CosyVoice 2

Alibaban skaalautuva suoratoisto TTS:n ihmispariteetilla ja lähes nollan latenssilla.

Kielet: en, zh, ja, ko, fr, de, it, es

Klooniääni

GLM-TTSGLM-TTS

Avoimen lähdekoodin TTS-mallien pienin merkkivirheprosentti saavutetaan.

Kielet: en, zh

Klooniääni

IndexTTS-2IndexTTS-2

Zero-shot TTS, hienorakeinen tunteiden hallinta ja suuri ilmaisukyky.

Kielet: en, zh

Klooniääni

Spark TTSSpark TTS

Äänikloonaus TTS:n ohjattavalla tunteella ja puhetyylillä kehotuksilla.

Kielet: en, zh

Klooniääni

GPT-SoVITSGPT-SoVITS

Vain harvan kuvan ääni kloonaa TTS-ääntä, joka jäljittelee ääntä vain viiden sekunnin ääninopeudesta.

Kielet: en, zh, ja, ko

Klooniääni

ChatterboxChatterbox

Huippuluokan nollaäänikloonaus ja tunteiden hallinta tekoälystä.

Kielet: en

Klooniääni

Tortoise TTSTortoise TTS

Moniääninen tekstipuhe keskittyi laatuun autoregressiivisen arkkitehtuurin avulla.

Kielet: en

Klooniääni

OpenVoiceOpenVoice

Välitön äänenkloonaus, jolla hallitaan rakeisesti tyyliä, tunteita ja korostusta.

Kielet: en, zh, ja, ko, fr, de, es, it

Klooniääni

Qwen3 TTSQwen3 TTS

Alibaban monikielinen TTS, jossa on äänen kloonaus, ennakkoäänet ja äänisuunnittelu tekstistä.

Kielet: en, zh, ja, ko, de, fr, ru, pt, es, it

Klooniääni

Chatterbox TurboChatterbox Turbo

Nopeampi Chatterbox, jossa on alle 200 ms latenssi ja paralinguistiset tunnisteet nauramiseen, yskimiseen ja muuhun.

Kielet: en

Klooniääni

VoxCPMVoxCPM

Tokenizer-vapaa TTS tuottaa 44.1kHz-ääntä, joka on asiayhteydestään tietoinen.

Kielet: en, zh

Klooniääni

OuteTTSOuteTTS

LLM-pohjainen TTS, joka toimii CPU:lla, GPU:lla tai selaimella lama.cpp:n ja Transformers.js:n kautta.

Kielet: en

Klooniääni

Pocket TTSPocket TTS

Kyutain kevyt 100 metrin parametrimalli äänen kloonauksella yhdestä näytteestä.

Kielet: en, fr

Klooniääni

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Kielet: en, zh, ja, ko, de, es, fr, it, ru

Klooniääni

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Kielet: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Klooniääni

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Kielet: en, zh

Klooniääni

Kehittäjä-Ensimmäinen API

OpenAI-yhteensopiva REST API. Yksi päätetapahtuma, 22+-mallia. Suoratoistotuki reaaliaikaisiin sovelluksiin.

  • OpenAI-yhteensopiva muoto
  • Virrataan TTS:ää reaaliaikaisiin sovelluksiin
  • Erän käsittely suurille työpaikoille
  • Verkkokoukkuilmoitukset
Näytä API-dokumentit
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Yksinkertainen, läpinäkyvä hinnoittelu

Aloita vapaalla ja laajenna kasvaessasi.

Vapaa

$0

15 opintopistettä

  • Kokoro, Piper, VITS, MeloTTS
  • 500 merkin raja-arvo
  • 3 gen/tunti (ei tiliä)
Rekisteröidy ilmaiseksi

Käynnistin

$9/m

500 opintopistettä kuukaudessa

  • Kaikki 22+-mallit
  • 100 000 chars per sukupolvi
  • Äänien kloonaus
Aloita
Suosituin

Pro

$29/m

2 000 opintopistettä kuukaudessa

  • Kaikki Starterissa
  • API-yhteys
  • Ensisijainen käsittely
Hae Pro

Bisnekset

$99/m

10 000 opintopistettä/kuukausi

  • Kaikki Prossa
  • Bulk API
  • Ensisijainen jono
Hanki bisnestä

Näytä kaikki suunnitelmat, mukaan lukien merkkipakkaukset →

Usein kysyttyjä kysymyksiä

TTS.ai on kattavin tekoälyäänialusta, joka tarjoaa 22+ tekstistä ääneen -mallia, äänen kloonausta, puheesta tekstiin -työkaluja ja äänityökaluja. Kaikki mallit ovat avoimen lähdekoodin mukaisia ilman toimittajan lukitusta.

Kyllä! TTS.ai tarjoaa kokoomuksen, Piperin, VITS:n ja MeloTTS:n mallien kanssa ilmaisen tekstipuheen. Tiliä ei tarvita. Rekisteröidy saadaksesi 15 000 ilmaista merkkiä ja pääset kaikkiin malleihin. Maksetut suunnitelmat alkavat 9 dollarista kuukaudessa.

Käytä nopeuteen Kokoroa tai Piperia. Kokeile CosyVoice 2:ta tai Styletts 2:ta. Äänikloonaamiseen käytä Chatterboxia tai GPT-SoVITS:iä. Käytä dia TTS:ää. Vertaa useita malleja samaan tekstiin.

Kyllä. OpenAI-yhteensopiva REST API TTS-, STT-, äänikloonaus- ja äänityökaluille. Saatavilla Pron ($29/mo) ja Enterprisen ($99/mo) suunnitelmista. Katso dokumentit osoitteessa tts.ai/api/.

Äänenlaatu vaihtelee mallien mukaan. Huippumallit, kuten CosyVoice 2, Styletts 2 ja Chatterbox, tuottavat lähes ihmisläheistä laadukasta puhetta, jossa on luonnollinen intonaatio ja tunne. Kokoron kaltaiset vapaat mallit tarjoavat erinomaista laatua useimpiin käyttökohteisiin.

TTS.ai tukee 30:tä ylikieltä mallikirjastossaan. Englannin mallisto on laajin, mutta CosyVoice 2:n kaltaiset mallit kattavat kiinan, japanin ja korean; GPT-SoVITS käsittelee kiinaa, japania, koreaa ja englantia; ja MeloTTS tukee englantia, espanjaa, ranskaa, kiinaa, japania ja koreaa.

Kyllä. Kaikki käsittely tapahtuu omistetuilla GPU-palvelimillamme. Emme tallenna tekstituloksiasi tai luo ääntä toimituksen jälkeen. Ladattuja ääninäytteitä kloonaukseen käytetään vain nykyisessä istunnossa, eikä niitä säilytetä. Emme koskaan jaa tietojasi kolmansille osapuolille tai käytä niitä mallien kouluttamiseen.

Kyllä. Kaikki TTS.ai:lla tuotettu ääni on sinun kaupallisesti käytettäväsi, mukaan lukien YouTube-videot, podcastit, äänikirjat, sovellukset, mainokset ja tuotteet. Mallimme ovat avoimen lähdekoodin sallivia lisenssejä (MIT, Apache 2.0). Rojalteja tai jakoa ei tarvita.

TTS.ai luo äänen WAV-muodossa oletuksena maksimilaadun. Voit muuntaa MP3:ksi, FLAC:ksi, OGG:ksi tai M4A:ksi ilmaisen Audio Converter -työkalumme avulla. API tukee haluamaasi lähtömuotoa suoraan pyynnössä.

Lataa lyhyt ääninäyte (alle 5 sekuntia) ääntä, jonka haluat kloonata, ja kirjoita sitten mitä tahansa tekstiä puheen tuottamiseksi tuohon ääneen. Mallit, kuten Chatterbox, GPT-SoVITS ja CosyVoice 2, tukevat äänen kloonausta. Kloonattu ääni vangitsee äänensävyn, korostuksen ja puhetyylin.

Vapaat mallit (Kokoro, Piper, VITS, MeloTTS) eivät vaadi tiliä ja maksavat nolla merkkiä. Vakiomallit (2 000 merkkiä/1K syöttöä) sisältävät Barkin, CosyVoice 2, F5-TTS ja Dia. Premium-malleja (4 000 merkkiä/1K syöttöä) ovat OpenVoice, Chatterbox, StyletTS 2 ja Tortoise. Maksulliset mallit tarjoavat yleensä parempaa laatua, enemmän ääniä ja muita ominaisuuksia, kuten äänen kloonausta.

Kyllä. API tukee erien käsittelyä suurten tekstimäärien muuntamiseksi puheeksi. Lähetä useita pyyntöjä ja hae tulokset yhtäjaksoisesti käyttäen työn UUID-tietoja. Yrityssuunnitelmiin (99 dollaria/m) kuuluu nopeamman eränkäsittelyn ensisijainen jonotus. Ihanteellinen audiobook-tuotannolle, kurssin sisällölle ja laajamittaisille puheprojekteille.
4.0/5 (22)

Mitä voisimme parantaa? Palautteesi auttaa meitä korjaamaan ongelmia.

Ala käyttää tekoälyääntä nykyään

Liity TTS.ai:a käyttäviin luojiin, kehittäjiin ja yrityksiin