Laisva AI Tekstas į kalbą
31+ atvirojo kodo modeliai, 231+ balsai, 34+ kalbos. Sąskaitos nereikia.
Viskas, ko jums reikia balso AI
30+ įrankių, varomų atvirojo šaltinio AI modeliais
31+ AI balso modeliai
Išsamiausias atvirojo kodo TTS modelių rinkinys vienoje platformoje
Kokoro Free
Kokoro yra 82 milijonų parametrų teksto-į-speech modelis, kuris perforuoja gerokai virš savo svorio klasės. Nepaisant jo mažyčių dydis, jis gamina nepaprastai natūralus ir išraiškingas kalba. Kokoro palaiko kelias kalbas, įskaitant anglų, japonų, kinų ir korėjiečių išraiškingų balsų įvairovė. Jis veikia neįtikėtinai greitai – generuoti garso beveik 100x greičiau nei realiu laiku GPU.
Geriausias už: Aukštos kokybės TTS su minimalia latentine, srautinės programos
Bandyti nemokamai
Piper Free
Piper yra lengvas tekstas-į-speech variklis, sukurtas Rhasspy, kuris naudoja VITS ir gerklx architektūrų. Jis veikia visiškai CPU, todėl idealiai tinka kraštutinių įrenginių, namų automatizavimo, ir taikomosios programos reikalauja belaidis TTS. Su daugiau nei 100 balsų 30+ kalbomis, Piper pristato natūralų garsą kalba realiu laiku net Aviečių Pi 4.
Geriausias už: Greita peržiūra, prieinamumas ir įterptosios programos
Bandyti nemokamai
VITS Free
VITS (Variational Inclusion with conversarial learning for end-to-end Text-to-Speech) yra lygiagretus „nuo galo iki galo“ TTS metodas, kuris generuoja daugiau natūralių garso skambesių nei dabartiniai dviejų pakopų modeliai. Jis priima įvairų interferenciją, sustiprintą normalizuojant srautus ir atliekant priešpriešinio mokymo procesą, užtikrinantį reikšmingą natūralios aplinkos pagerėjimą.
Geriausias už: Bendrosios paskirties tekstas-į-speech su natūralia prozodija
Bandyti nemokamai
MeloTTS Free
MeloTTS by MyShell.ai yra daugiakalbė TTS biblioteka, remianti anglų (American, British, Indian, Australia), ispanų, prancūzų, kinų, japonų, ir korėjiečių. Tai yra labai greitai, apdoroti tekstą beveik realiu laiku vien procesoriaus. MeloTTS yra skirtas gamybos naudojimui ir palaiko tiek procesoriaus ir GPU inferencija.
Geriausias už: Gamybos programos, kurioms reikia greitų, daugiakalbių TTS
Bandyti nemokamai
OuteTTS Free
OuteTTS palaiko didelius kalbų modelius su teksto-įspėjimu išlaikant originalią architektūrą. Ji palaiko kelias programines sąsajas, įskaitant llama.cpp (CPU/GPU), Hagging Face Transformers, ExLlamaV2, VLLM, ir net naršyklę, trukdančią per Transformers.js. Funkcijos nulinės fotografijos balso klonavimas per garsiakalbio profilius, išsaugotus kaip JSON.
Geriausias už: Įdiegimas iš briaunos, naršykle pagrįsti TTS, mažo išteklių kiekio aplinka
Bandyti nemokamai
Pocket TTS Free
Pocket TTS by Kyutai (Moshi kūrėjai) yra kompaktiškas 100M parametro teksto-į-speech modelis, kuris perforuoja daug daugiau nei jo svoris. Jis veikia efektyviai naudojant CPU, palaiko nulinio smogtuvo balso klonavimą iš vieno garso mėginio ir gamina natūralų garsą. Dėl mažo modelio dydžio jis yra idealus briaunos ir mažo šaltinio aplinkai.
Geriausias už: Lengvas įdiegimas, tik procesorių veikiančios aplinkos, greitas balso klonavimas
Bandyti nemokamai
Kitten TTS Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
Geriausias už: Fast lightweight TTS, edge deployment, low-latency applications
Bandyti nemokamai
Bark Standard
Transformatorių paremtas tekstų-audio modelis, kuris sukuria realų kalbos, muzikos ir garso efektai.
Programuotojas: Suno · Licencija: MIT
Pabandyk
Bark Small Standard
Lengvesnė versija bark su greičiau indo ir mažesnio atminties naudojimo.
Programuotojas: Suno · Licencija: MIT
Pabandyk
CosyVoice 2 Standard
Alibaba masyviai transliuojama TTS su žmogaus pariteto natūralumo ir beveik nulinės latentiškumo.
Programuotojas: Alibaba (Tongyi Lab) · Licencija: Apache 2.0
Pabandyk
Dia TTS Standard
Kelių garsiakalbių dialogo generavimo modelis, kuris sukuria natūralius pokalbius tarp garsiakalbių.
Programuotojas: Nari Labs · Licencija: Apache 2.0
Pabandyk
Parler TTS Standard
Apibūdinkite norimą balsą natūralia kalba, o Parler generuoja atitinkamą kalbą.
Programuotojas: Hugging Face · Licencija: Apache 2.0
Pabandyk
GLM-TTS Standard
Pasiekti mažiausią simbolių klaidų lygį tarp atvirojo šaltinio TTS modelių.
Programuotojas: Zhipu AI · Licencija: GLM-4 License
Pabandyk
IndexTTS-2 Standard
Zero-shot TTS su plono grūdo emocijų kontrolė ir didelis išraiškingumas.
Programuotojas: Index Team · Licencija: Bilibili Model License
Pabandyk
Spark TTS Standard
Balso klonavimas TTS su reguliuojamas emocijų ir kalbėjimo stilius per paspaudimus.
Programuotojas: SparkAudio · Licencija: CC BY-NC-SA 4.0
Pabandyk
GPT-SoVITS Standard
Nedaug fotografinio balso klonavimo TTS, kuris kartoja bet kokį balsą vos iš 5 sekundžių garso.
Programuotojas: RVC-Boss · Licencija: MIT
Pabandyk
Orpheus Standard
Žmogaus lygio emocinių TTS modelis apmokytas 100K kalbos valandų duomenimis.
Programuotojas: Canopy Labs · Licencija: Llama 3.2 Community
Pabandyk
Qwen3 TTS Standard
Alibaba daugiakalbė TTS su balso klonavimu, iš anksto nustatytais balsais ir balso dizainu iš teksto.
Programuotojas: Alibaba (Qwen) · Licencija: Apache 2.0
Pabandyk
Chatterbox Turbo Standard
Greičiau Chatterbox su sub-200m latentiškumo ir paralingvistinės žymės juokams, kosulys, ir daugiau.
Programuotojas: Resemble AI · Licencija: MIT
Pabandyk
Dia 2 Standard
Pirmieji pokalbių TTS su kelių garsiakalbių dialogu ir paralingvistiniais cues.
Programuotojas: Nari Labs · Licencija: Apache 2.0
Pabandyk
VoxCPM Standard
TTS be tokenaizerio gamyba 44.1kHz garso su kontekste išmaniosios dalies konsistencija.
Programuotojas: OpenBMB · Licencija: Apache 2.0
Pabandyk
TADA Standard
Nulinės haliucinacijos TTS su teksto akustiniu dvigubu suderinimu, 5x greitesnis nei palyginamas LLM TTS.
Programuotojas: Hume AI · Licencija: MIT
Pabandyk
VibeVoice Standard
Microsoft modelis ilgai formuojamo daugiakalbio turinio, pavyzdžiui, podcast ir garso knygų.
Programuotojas: Microsoft · Licencija: MIT
Pabandyk
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Programuotojas: Alibaba (FunAudioLLM) · Licencija: Apache 2.0
Pabandyk
CosyVoice 2
Alibaba masyviai transliuojama TTS su žmogaus pariteto natūralumo ir beveik nulinės latentiškumo.
Kalbos: en, zh, ja, ko, fr, de, it, es
Klonuoti balsą
GLM-TTS
Pasiekti mažiausią simbolių klaidų lygį tarp atvirojo šaltinio TTS modelių.
Kalbos: en, zh
Klonuoti balsą
IndexTTS-2
Zero-shot TTS su plono grūdo emocijų kontrolė ir didelis išraiškingumas.
Kalbos: en, zh
Klonuoti balsą
Spark TTS
Balso klonavimas TTS su reguliuojamas emocijų ir kalbėjimo stilius per paspaudimus.
Kalbos: en, zh
Klonuoti balsą
GPT-SoVITS
Nedaug fotografinio balso klonavimo TTS, kuris kartoja bet kokį balsą vos iš 5 sekundžių garso.
Kalbos: en, zh, ja, ko
Klonuoti balsą
Chatterbox
Šiuolaikinės nulinės fotografijos balso klonavimas su emocijų reguliavimu iš Reemble AI.
Kalbos: en
Klonuoti balsą
Tortoise TTS
Daugiabalsis tekstas-to-speech sutelktas į kokybę su autoregesyvios architektūros.
Kalbos: en
Klonuoti balsą
OpenVoice
Momentinis balso klonavimas su granuliuotu reguliavimu per stilių, emocijas, ir akcentą.
Kalbos: en, zh, ja, ko, fr, de, es, it
Klonuoti balsą
Qwen3 TTS
Alibaba daugiakalbė TTS su balso klonavimu, iš anksto nustatytais balsais ir balso dizainu iš teksto.
Kalbos: en, zh, ja, ko, de, fr, ru, pt, es, it
Klonuoti balsą
Chatterbox Turbo
Greičiau Chatterbox su sub-200m latentiškumo ir paralingvistinės žymės juokams, kosulys, ir daugiau.
Kalbos: en
Klonuoti balsą
VoxCPM
TTS be tokenaizerio gamyba 44.1kHz garso su kontekste išmaniosios dalies konsistencija.
Kalbos: en, zh
Klonuoti balsą
OuteTTS
LLM pagrindu TTS, kurie veikia CPU, GPU, arba naršyklė per llama.cpp ir Transformers.js.
Kalbos: en
Klonuoti balsą
Pocket TTS
Mažo svorio 100M parametro modelis Kyutai su balso klonavimu iš vieno mėginio.
Kalbos: en, fr
Klonuoti balsą
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Kalbos: en, zh, ja, ko, de, es, fr, it, ru
Klonuoti balsą
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Kalbos: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Klonuoti balsą
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Kalbos: en, zh
Klonuoti balsąProgramuotojas- pirmasis API
Suderinamas REST API. Vienas rezultatas, 22+ modeliai. Srauto palaikymas realiu laiku taikomosios programos.
- Su atvirais raštais suderinamas formatas
- Realaus laiko programėlių transliavimas TTS
- Partijos tvarkymas dideliems darbams
- Pranešimai apie žiniatinklio kabiną
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Paprastas, skaidrus kainų nustatymas
Pradėti nemokamai. Mastelis, kai jūs augate.
Neapmuitinama
15 kreditų
- Kokoro, Piper, VITS, MeloTTS
- 500 ženklų riba
- 3 gen/val. (sąskaitos nėra)
Pradžia
500 kreditų per mėnesį
- Visi 22+ modeliai
- 100 000 chars vienai kartai
- Balso klonavimas
Pro
2 000 kreditų per mėnesį
- Viskas pradžioje
- API prieiga
- Prioritetinis tvarkymas
Dažnai užduodami klausimai
Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.
Pradėti AIS balso naudojimą šiandien
Prisijunkite kūrėjai, kūrėjai, ir verslo naudojant TTS.ai