Laisva AI Tekstas į kalbą
33+ atvirojo kodo modeliai, 273+ balsai, 33+ kalbos. Sąskaitos nereikia.
Viskas, ko jums reikia balso AI
30+ įrankių, varomų atvirojo šaltinio AI modeliais
33+ AI balso modeliai
Išsamiausias atvirojo kodo TTS modelių rinkinys vienoje platformoje
Kokoro Neapmuitinama
Kokoro yra 82 milijonų parametrų teksto-į-speech modelis, kuris perforuoja gerokai virš savo svorio klasės. Nepaisant jo mažyčių dydis, jis gamina nepaprastai natūralus ir išraiškingas kalba. Kokoro palaiko kelias kalbas, įskaitant anglų, japonų, kinų ir korėjiečių išraiškingų balsų įvairovė. Jis veikia neįtikėtinai greitai – generuoti garso beveik 100x greičiau nei realiu laiku GPU.
Geriausias už: Aukštos kokybės TTS su minimalia latentine, srautinės programos
Bandyti nemokamai
Piper Neapmuitinama
Piper yra lengvas tekstas-į-speech variklis, sukurtas Rhasspy, kuris naudoja VITS ir gerklx architektūrų. Jis veikia visiškai CPU, todėl idealiai tinka kraštutinių įrenginių, namų automatizavimo, ir taikomosios programos reikalauja belaidis TTS. Su daugiau nei 100 balsų 30+ kalbomis, Piper pristato natūralų garsą kalba realiu laiku net Aviečių Pi 4.
Geriausias už: Greita peržiūra, prieinamumas ir įterptosios programos
Bandyti nemokamai
VITS Neapmuitinama
VITS (Variational Inclusion with conversarial learning for end-to-end Text-to-Speech) yra lygiagretus „nuo galo iki galo“ TTS metodas, kuris generuoja daugiau natūralių garso skambesių nei dabartiniai dviejų pakopų modeliai. Jis priima įvairų interferenciją, sustiprintą normalizuojant srautus ir atliekant priešpriešinio mokymo procesą, užtikrinantį reikšmingą natūralios aplinkos pagerėjimą.
Geriausias už: Bendrosios paskirties tekstas-į-speech su natūralia prozodija
Bandyti nemokamai
MeloTTS Neapmuitinama
MeloTTS by MyShell.ai yra daugiakalbė TTS biblioteka, remianti anglų (American, British, Indian, Australia), ispanų, prancūzų, kinų, japonų, ir korėjiečių. Tai yra labai greitai, apdoroti tekstą beveik realiu laiku vien procesoriaus. MeloTTS yra skirtas gamybos naudojimui ir palaiko tiek procesoriaus ir GPU inferencija.
Geriausias už: Gamybos programos, kurioms reikia greitų, daugiakalbių TTS
Bandyti nemokamai
Kani TTS 2 Neapmuitinama
Kani-TTS-2 by NineNineSix yra itin lengvas 400M parametras modelis, sukurtas ant skysto AI LFM2 stuburo su NVIDIA NanoCodec. Jis veikia tik 3GB VRAM ir sukuria ~10 sekundžių kalbos apie A100 (RTF 0.2). Dabartinis viešas išleidimo laivai tik anglų-kani-tts-2-en" kontrolinį tašką ir neatskleidžia garsiakalbio integravimo kabliuko, reikalingo balso klonavimui - naudokite Chatterbox / IndexTTS2 / F5-TTS klonavimui, arba Kokoro / MeloTTS ne anglų kalba.
Geriausias už: Greita anglų karta žemo VRAM aparatūros, greita peržiūra
Bandyti nemokamai
OuteTTS Neapmuitinama
OuteTTS palaiko didelius kalbų modelius su teksto-įspėjimu išlaikant originalią architektūrą. Ji palaiko kelias programines sąsajas, įskaitant llama.cpp (CPU/GPU), Hagging Face Transformers, ExLlamaV2, VLLM, ir net naršyklę, trukdančią per Transformers.js. Funkcijos nulinės fotografijos balso klonavimas per garsiakalbio profilius, išsaugotus kaip JSON.
Geriausias už: Įdiegimas iš briaunos, naršykle pagrįsti TTS, mažo išteklių kiekio aplinka
Bandyti nemokamai
Pocket TTS Neapmuitinama
Pocket TTS by Kyutai (Moshi kūrėjai) yra kompaktiškas 100M parametro teksto-į-speech modelis, kuris perforuoja daug daugiau nei jo svoris. Jis veikia efektyviai naudojant CPU, palaiko nulinio smogtuvo balso klonavimą iš vieno garso mėginio ir gamina natūralų garsą. Dėl mažo modelio dydžio jis yra idealus briaunos ir mažo šaltinio aplinkai.
Geriausias už: Lengvas įdiegimas, tik procesorių veikiančios aplinkos, greitas balso klonavimas
Bandyti nemokamai
Kitten TTS Neapmuitinama
Kitten TTS "KittenML" yra itin lengvo teksto į speech modelį sukurtas ONNX. Su variantais nuo 15M iki 80M parametrų (25-80 MB diske) jis užtikrina aukštos kokybės balso sintezę procesoriuje, nereikalaujant GPU. 8 savybės įmontuoti balsai, reguliuojamas kalbos greitis ir įmontuotas teksto paruošimas numeriams, valiutoms ir blokams. Idealiai tinka naudoti briaunose ir žemo latentiškumo programose.
Geriausias už: Greiti lengvi TTS, briaunų diegimas, žemos latentiškumo programos
Bandyti nemokamai
Ming-Omni TTS Neapmuitinama
Ming-omni-tts-0.5B pagal įtrauktiesAI yra kompaktiškas omni-modal kalbos modelis, sudarytas iš BailingMM tankaus pagrindo su Patch-by-Patch srauto derinimo garso dekoderis. Pristato 44,1kHz išvesties (beveik CD kokybė), palaiko nulinės fotografijos balso klonavimo iš 3+ antrosios nuorodos, ir apima įmontuotą emocijų / dialektu / BGM valdymas per JSON instrukcijas. Puikus stabilumas — 0,83% WER Kinijos lyginamųjų indeksų.
Geriausias už: Aukšto patikimumo dvikalbis pasakojimas, emocijomis valdomas balsas veikia, kinų garso knygos turinys
Bandyti nemokamai
MOSS-TTS Nano Neapmuitinama
MOSS-TTS-Nano-100M yra OpenMOSS kompaktiškas 100M-parametro MOSS-TTS šeimos variantas, turintis bendrą vėlinimo-transformatoriaus architektūrą. Prekyba 8B modelio maksimalia kokybe ~80x mažesniems svoriams ir žymiai mažesnėms pagal pageidavimą VRAM, todėl tinka laisvai ir labai pralaidiai diegti.
Geriausias už: Laisvojo lygio TTS, didelio tūrio gamyba, nedidelio latentiškumo interaktyvus naudojimas
Bandyti nemokamai
Bark Standartinis
Transformatorių paremtas tekstų-audio modelis, kuris sukuria realų kalbos, muzikos ir garso efektai.
Programuotojas: Suno · Licencija: MIT
Pabandyk
Bark Small Standartinis
Lengvesnė versija bark su greičiau indo ir mažesnio atminties naudojimo.
Programuotojas: Suno · Licencija: MIT
Pabandyk
CosyVoice 2 Standartinis
Alibaba masyviai transliuojama TTS su žmogaus pariteto natūralumo ir beveik nulinės latentiškumo.
Programuotojas: Alibaba (Tongyi Lab) · Licencija: Apache 2.0
Pabandyk
Dia TTS Standartinis
Kelių garsiakalbių dialogo generavimo modelis, kuris sukuria natūralius pokalbius tarp garsiakalbių.
Programuotojas: Nari Labs · Licencija: Apache 2.0
Pabandyk
Parler TTS Standartinis
Apibūdinkite norimą balsą natūralia kalba, o Parler generuoja atitinkamą kalbą.
Programuotojas: Hugging Face · Licencija: Apache 2.0
Pabandyk
IndexTTS-2 Standartinis
Zero-shot TTS su plono grūdo emocijų kontrolė ir didelis išraiškingumas.
Programuotojas: Index Team · Licencija: Bilibili Model License
Pabandyk
Spark TTS Standartinis
Balso klonavimas TTS su reguliuojamas emocijų ir kalbėjimo stilius per paspaudimus.
Programuotojas: SparkAudio · Licencija: CC BY-NC-SA 4.0
Pabandyk
GPT-SoVITS Standartinis
Nedaug fotografinio balso klonavimo TTS, kuris kartoja bet kokį balsą vos iš 5 sekundžių garso.
Programuotojas: RVC-Boss · Licencija: MIT
Pabandyk
Orpheus Standartinis
Žmogaus lygio emocinių TTS modelis apmokytas 100K kalbos valandų duomenimis.
Programuotojas: Canopy Labs · Licencija: Llama 3.2 Community
Pabandyk
Qwen3 TTS Standartinis
Alibaba daugiakalbė TTS su iš anksto nustatytų balsų ir balso dizainas iš teksto.
Programuotojas: Alibaba (Qwen) · Licencija: Apache 2.0
Pabandyk
VieNeu-TTS-v2 Standartinis
Vietnamiečių + anglų kodas-switching TTS su 7 iš anksto nustatyti balsai ir nulinės fotografijos balso klonavimas. CPU tik, nereikia GPU.
Programuotojas: Phạm Nguyễn Ngọc Bảo · Licencija: Apache 2.0
Pabandyk
Chatterbox Turbo Standartinis
Greičiau Chatterbox su sub-200m latentiškumo ir paralingvistinės žymės juokams, kosulys, ir daugiau.
Programuotojas: Resemble AI · Licencija: MIT
Pabandyk
VoxCPM Standartinis
TTS be tokenaizerio gamyba 44.1kHz garso su kontekste išmaniosios dalies konsistencija.
Programuotojas: OpenBMB · Licencija: Apache 2.0
Pabandyk
VibeVoice Standartinis
Microsoft modelis ilgai formuojamo daugiakalbio turinio, pavyzdžiui, podcast ir garso knygų.
Programuotojas: Microsoft · Licencija: MIT
Pabandyk
CosyVoice3 Standartinis
Naujos kartos daugiakalbiai TTS su dvipusiu srautu, emocijų valdymu ir nuliniu balso klonavimu.
Programuotojas: Alibaba (FunAudioLLM) · Licencija: Apache 2.0
Pabandyk
NAMAA Saudi TTS Standartinis
Pirmas atviras Saudo Arabijos TTS. Native Saudo Arabijos dialektu su Chatterbox kokybės balso klonavimas.
Programuotojas: NAMAA Space · Licencija: MIT
Pabandyk
Darwin TTS Standartinis
Kryžminis Qwen3-TTS variantas su FFN svoriais, sumaišytais iš Qwen3-1.7B kalbos modelio aštresniam daugiakalbiam klonavimui.
Programuotojas: FINAL-Bench · Licencija: Apache 2.0
Pabandyk
MOSS-TTSD Standartinis
Daugiakalbio dialogo tęsinio modelis – generuoti podcast tipo pokalbius su iki 5 garsiakalbiais ir 60 minučių nuoseklaus garso.
Programuotojas: OpenMOSS · Licencija: Apache 2.0
Pabandyk
CosyVoice 2
Alibaba masyviai transliuojama TTS su žmogaus pariteto natūralumo ir beveik nulinės latentiškumo.
Kalbos: en, zh, ja, ko, fr, de, it, es
Klonuoti balsą
IndexTTS-2
Zero-shot TTS su plono grūdo emocijų kontrolė ir didelis išraiškingumas.
Kalbos: en, zh
Klonuoti balsą
Spark TTS
Balso klonavimas TTS su reguliuojamas emocijų ir kalbėjimo stilius per paspaudimus.
Kalbos: en, zh
Klonuoti balsą
GPT-SoVITS
Nedaug fotografinio balso klonavimo TTS, kuris kartoja bet kokį balsą vos iš 5 sekundžių garso.
Kalbos: en, zh, ja, ko
Klonuoti balsą
Chatterbox
Šiuolaikinės nulinės fotografijos balso klonavimas su emocijų reguliavimu iš Reemble AI.
Kalbos: en
Klonuoti balsą
Tortoise TTS
Daugiabalsis tekstas-to-speech sutelktas į kokybę su autoregesyvios architektūros.
Kalbos: en
Klonuoti balsą
OpenVoice
Momentinis balso klonavimas su granuliuotu reguliavimu per stilių, emocijas, ir akcentą.
Kalbos: en, zh, ja, ko, fr, es
Klonuoti balsą
VieNeu-TTS-v2
Vietnamiečių + anglų kodas-switching TTS su 7 iš anksto nustatyti balsai ir nulinės fotografijos balso klonavimas. CPU tik, nereikia GPU.
Kalbos: vi, en
Klonuoti balsą
Chatterbox Turbo
Greičiau Chatterbox su sub-200m latentiškumo ir paralingvistinės žymės juokams, kosulys, ir daugiau.
Kalbos: en
Klonuoti balsą
VoxCPM
TTS be tokenaizerio gamyba 44.1kHz garso su kontekste išmaniosios dalies konsistencija.
Kalbos: en, zh
Klonuoti balsą
OuteTTS
LLM pagrindu TTS, kurie veikia CPU, GPU, arba naršyklė per llama.cpp ir Transformers.js.
Kalbos: en
Klonuoti balsą
Pocket TTS
Mažo svorio 100M parametro modelis Kyutai su balso klonavimu iš vieno mėginio.
Kalbos: en, fr
Klonuoti balsą
CosyVoice3
Naujos kartos daugiakalbiai TTS su dvipusiu srautu, emocijų valdymu ir nuliniu balso klonavimu.
Kalbos: en, zh, ja, ko, de, es, fr, it, ru
Klonuoti balsą
NAMAA Saudi TTS
Pirmas atviras Saudo Arabijos TTS. Native Saudo Arabijos dialektu su Chatterbox kokybės balso klonavimas.
Kalbos: ar
Klonuoti balsą
Darwin TTS
Kryžminis Qwen3-TTS variantas su FFN svoriais, sumaišytais iš Qwen3-1.7B kalbos modelio aštresniam daugiakalbiam klonavimui.
Kalbos: en, ko, ja, zh
Klonuoti balsą
MOSS-TTSD
Daugiakalbio dialogo tęsinio modelis – generuoti podcast tipo pokalbius su iki 5 garsiakalbiais ir 60 minučių nuoseklaus garso.
Kalbos: en, zh
Klonuoti balsą
Ming-Omni TTS
Kompaktiškas 0.5B omni-modal kalbos modelis nuo inclusionAI su aukšto patikimumo 44.1kHz išvestimi ir nulinio atšvaito balso klonavimu.
Kalbos: en, zh
Klonuoti balsą
MOSS-TTS Nano
Mažas 100M MOSS-TTS variantas - ta pati architektūra, 80x mažesnė, nemokama latentiškumas.
Kalbos: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Klonuoti balsąProgramuotojas- pirmasis API
Suderinamas REST API. Vienas rezultatas, 22+ modeliai. Srauto palaikymas realiu laiku taikomosios programos.
- Su atvirais raštais suderinamas formatas
- Realaus laiko programėlių transliavimas TTS
- Partijos tvarkymas dideliems darbams
- Pranešimai apie žiniatinklio kabiną
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Paprastas, skaidrus kainų nustatymas
Pradėti nemokamai. Mastelis, kai jūs augate.
Neapmuitinama
15 000 ženklų + 5 000 ženklų per dieną
- 7 nemokami modeliai, įskaitant Kokoro
- 5 000 chars vienai kartai
- API prieiga
Pradžia
500 kreditų per mėnesį
- Visi 22+ modeliai
- 100 000 chars vienai kartai
- Balso klonavimas
Pro
2 000 kreditų per mėnesį
- Viskas pradžioje
- API prieiga
- Prioritetinis tvarkymas
Dažnai užduodami klausimai
Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.
Pradėti AIS balso naudojimą šiandien
Prisijunkite kūrėjai, kūrėjai, ir verslo naudojant TTS.ai