Laisva AI Tekstas į kalbą

33+ atvirojo kodo modeliai, 273+ balsai, 33+ kalbos. Sąskaitos nereikia.

17K+
kūrėjai
70K+
Kartos
33+
AI modeliai
273+
balsai
0/500 simboliai · Užsiregistruoti 5000 vienai kartai → Neapmuitinama
Mėgstu TTS.ai? Papasakok draugams!

Viskas, ko jums reikia balso AI

30+ įrankių, varomų atvirojo šaltinio AI modeliais

33+ AI balso modeliai

Išsamiausias atvirojo kodo TTS modelių rinkinys vienoje platformoje

KokoroKokoro Neapmuitinama

Kokoro yra 82 milijonų parametrų teksto-į-speech modelis, kuris perforuoja gerokai virš savo svorio klasės. Nepaisant jo mažyčių dydis, jis gamina nepaprastai natūralus ir išraiškingas kalba. Kokoro palaiko kelias kalbas, įskaitant anglų, japonų, kinų ir korėjiečių išraiškingų balsų įvairovė. Jis veikia neįtikėtinai greitai – generuoti garso beveik 100x greičiau nei realiu laiku GPU.

Geriausias už: Aukštos kokybės TTS su minimalia latentine, srautinės programos

Bandyti nemokamai

PiperPiper Neapmuitinama

Piper yra lengvas tekstas-į-speech variklis, sukurtas Rhasspy, kuris naudoja VITS ir gerklx architektūrų. Jis veikia visiškai CPU, todėl idealiai tinka kraštutinių įrenginių, namų automatizavimo, ir taikomosios programos reikalauja belaidis TTS. Su daugiau nei 100 balsų 30+ kalbomis, Piper pristato natūralų garsą kalba realiu laiku net Aviečių Pi 4.

Geriausias už: Greita peržiūra, prieinamumas ir įterptosios programos

Bandyti nemokamai

VITSVITS Neapmuitinama

VITS (Variational Inclusion with conversarial learning for end-to-end Text-to-Speech) yra lygiagretus „nuo galo iki galo“ TTS metodas, kuris generuoja daugiau natūralių garso skambesių nei dabartiniai dviejų pakopų modeliai. Jis priima įvairų interferenciją, sustiprintą normalizuojant srautus ir atliekant priešpriešinio mokymo procesą, užtikrinantį reikšmingą natūralios aplinkos pagerėjimą.

Geriausias už: Bendrosios paskirties tekstas-į-speech su natūralia prozodija

Bandyti nemokamai

MeloTTSMeloTTS Neapmuitinama

MeloTTS by MyShell.ai yra daugiakalbė TTS biblioteka, remianti anglų (American, British, Indian, Australia), ispanų, prancūzų, kinų, japonų, ir korėjiečių. Tai yra labai greitai, apdoroti tekstą beveik realiu laiku vien procesoriaus. MeloTTS yra skirtas gamybos naudojimui ir palaiko tiek procesoriaus ir GPU inferencija.

Geriausias už: Gamybos programos, kurioms reikia greitų, daugiakalbių TTS

Bandyti nemokamai

Kani TTS 2Kani TTS 2 Neapmuitinama

Kani-TTS-2 by NineNineSix yra itin lengvas 400M parametras modelis, sukurtas ant skysto AI LFM2 stuburo su NVIDIA NanoCodec. Jis veikia tik 3GB VRAM ir sukuria ~10 sekundžių kalbos apie A100 (RTF 0.2). Dabartinis viešas išleidimo laivai tik anglų-kani-tts-2-en" kontrolinį tašką ir neatskleidžia garsiakalbio integravimo kabliuko, reikalingo balso klonavimui - naudokite Chatterbox / IndexTTS2 / F5-TTS klonavimui, arba Kokoro / MeloTTS ne anglų kalba.

Geriausias už: Greita anglų karta žemo VRAM aparatūros, greita peržiūra

Bandyti nemokamai

OuteTTSOuteTTS Neapmuitinama

OuteTTS palaiko didelius kalbų modelius su teksto-įspėjimu išlaikant originalią architektūrą. Ji palaiko kelias programines sąsajas, įskaitant llama.cpp (CPU/GPU), Hagging Face Transformers, ExLlamaV2, VLLM, ir net naršyklę, trukdančią per Transformers.js. Funkcijos nulinės fotografijos balso klonavimas per garsiakalbio profilius, išsaugotus kaip JSON.

Geriausias už: Įdiegimas iš briaunos, naršykle pagrįsti TTS, mažo išteklių kiekio aplinka

Bandyti nemokamai

Pocket TTSPocket TTS Neapmuitinama

Pocket TTS by Kyutai (Moshi kūrėjai) yra kompaktiškas 100M parametro teksto-į-speech modelis, kuris perforuoja daug daugiau nei jo svoris. Jis veikia efektyviai naudojant CPU, palaiko nulinio smogtuvo balso klonavimą iš vieno garso mėginio ir gamina natūralų garsą. Dėl mažo modelio dydžio jis yra idealus briaunos ir mažo šaltinio aplinkai.

Geriausias už: Lengvas įdiegimas, tik procesorių veikiančios aplinkos, greitas balso klonavimas

Bandyti nemokamai

Kitten TTSKitten TTS Neapmuitinama

Kitten TTS "KittenML" yra itin lengvo teksto į speech modelį sukurtas ONNX. Su variantais nuo 15M iki 80M parametrų (25-80 MB diske) jis užtikrina aukštos kokybės balso sintezę procesoriuje, nereikalaujant GPU. 8 savybės įmontuoti balsai, reguliuojamas kalbos greitis ir įmontuotas teksto paruošimas numeriams, valiutoms ir blokams. Idealiai tinka naudoti briaunose ir žemo latentiškumo programose.

Geriausias už: Greiti lengvi TTS, briaunų diegimas, žemos latentiškumo programos

Bandyti nemokamai

Ming-Omni TTSMing-Omni TTS Neapmuitinama

Ming-omni-tts-0.5B pagal įtrauktiesAI yra kompaktiškas omni-modal kalbos modelis, sudarytas iš BailingMM tankaus pagrindo su Patch-by-Patch srauto derinimo garso dekoderis. Pristato 44,1kHz išvesties (beveik CD kokybė), palaiko nulinės fotografijos balso klonavimo iš 3+ antrosios nuorodos, ir apima įmontuotą emocijų / dialektu / BGM valdymas per JSON instrukcijas. Puikus stabilumas — 0,83% WER Kinijos lyginamųjų indeksų.

Geriausias už: Aukšto patikimumo dvikalbis pasakojimas, emocijomis valdomas balsas veikia, kinų garso knygos turinys

Bandyti nemokamai

MOSS-TTS NanoMOSS-TTS Nano Neapmuitinama

MOSS-TTS-Nano-100M yra OpenMOSS kompaktiškas 100M-parametro MOSS-TTS šeimos variantas, turintis bendrą vėlinimo-transformatoriaus architektūrą. Prekyba 8B modelio maksimalia kokybe ~80x mažesniems svoriams ir žymiai mažesnėms pagal pageidavimą VRAM, todėl tinka laisvai ir labai pralaidiai diegti.

Geriausias už: Laisvojo lygio TTS, didelio tūrio gamyba, nedidelio latentiškumo interaktyvus naudojimas

Bandyti nemokamai

BarkBark Standartinis

Transformatorių paremtas tekstų-audio modelis, kuris sukuria realų kalbos, muzikos ir garso efektai.

Programuotojas: Suno · Licencija: MIT

Pabandyk

Bark SmallBark Small Standartinis

Lengvesnė versija bark su greičiau indo ir mažesnio atminties naudojimo.

Programuotojas: Suno · Licencija: MIT

Pabandyk

CosyVoice 2CosyVoice 2 Standartinis

Alibaba masyviai transliuojama TTS su žmogaus pariteto natūralumo ir beveik nulinės latentiškumo.

Programuotojas: Alibaba (Tongyi Lab) · Licencija: Apache 2.0

Pabandyk

Dia TTSDia TTS Standartinis

Kelių garsiakalbių dialogo generavimo modelis, kuris sukuria natūralius pokalbius tarp garsiakalbių.

Programuotojas: Nari Labs · Licencija: Apache 2.0

Pabandyk

Parler TTSParler TTS Standartinis

Apibūdinkite norimą balsą natūralia kalba, o Parler generuoja atitinkamą kalbą.

Programuotojas: Hugging Face · Licencija: Apache 2.0

Pabandyk

IndexTTS-2IndexTTS-2 Standartinis

Zero-shot TTS su plono grūdo emocijų kontrolė ir didelis išraiškingumas.

Programuotojas: Index Team · Licencija: Bilibili Model License

Pabandyk

Spark TTSSpark TTS Standartinis

Balso klonavimas TTS su reguliuojamas emocijų ir kalbėjimo stilius per paspaudimus.

Programuotojas: SparkAudio · Licencija: CC BY-NC-SA 4.0

Pabandyk

GPT-SoVITSGPT-SoVITS Standartinis

Nedaug fotografinio balso klonavimo TTS, kuris kartoja bet kokį balsą vos iš 5 sekundžių garso.

Programuotojas: RVC-Boss · Licencija: MIT

Pabandyk

OrpheusOrpheus Standartinis

Žmogaus lygio emocinių TTS modelis apmokytas 100K kalbos valandų duomenimis.

Programuotojas: Canopy Labs · Licencija: Llama 3.2 Community

Pabandyk

Qwen3 TTSQwen3 TTS Standartinis

Alibaba daugiakalbė TTS su iš anksto nustatytų balsų ir balso dizainas iš teksto.

Programuotojas: Alibaba (Qwen) · Licencija: Apache 2.0

Pabandyk

VieNeu-TTS-v2VieNeu-TTS-v2 Standartinis

Vietnamiečių + anglų kodas-switching TTS su 7 iš anksto nustatyti balsai ir nulinės fotografijos balso klonavimas. CPU tik, nereikia GPU.

Programuotojas: Phạm Nguyễn Ngọc Bảo · Licencija: Apache 2.0

Pabandyk

Chatterbox TurboChatterbox Turbo Standartinis

Greičiau Chatterbox su sub-200m latentiškumo ir paralingvistinės žymės juokams, kosulys, ir daugiau.

Programuotojas: Resemble AI · Licencija: MIT

Pabandyk

VoxCPMVoxCPM Standartinis

TTS be tokenaizerio gamyba 44.1kHz garso su kontekste išmaniosios dalies konsistencija.

Programuotojas: OpenBMB · Licencija: Apache 2.0

Pabandyk

VibeVoiceVibeVoice Standartinis

Microsoft modelis ilgai formuojamo daugiakalbio turinio, pavyzdžiui, podcast ir garso knygų.

Programuotojas: Microsoft · Licencija: MIT

Pabandyk

CosyVoice3CosyVoice3 Standartinis

Naujos kartos daugiakalbiai TTS su dvipusiu srautu, emocijų valdymu ir nuliniu balso klonavimu.

Programuotojas: Alibaba (FunAudioLLM) · Licencija: Apache 2.0

Pabandyk

NAMAA Saudi TTSNAMAA Saudi TTS Standartinis

Pirmas atviras Saudo Arabijos TTS. Native Saudo Arabijos dialektu su Chatterbox kokybės balso klonavimas.

Programuotojas: NAMAA Space · Licencija: MIT

Pabandyk

Darwin TTSDarwin TTS Standartinis

Kryžminis Qwen3-TTS variantas su FFN svoriais, sumaišytais iš Qwen3-1.7B kalbos modelio aštresniam daugiakalbiam klonavimui.

Programuotojas: FINAL-Bench · Licencija: Apache 2.0

Pabandyk

MOSS-TTSDMOSS-TTSD Standartinis

Daugiakalbio dialogo tęsinio modelis – generuoti podcast tipo pokalbius su iki 5 garsiakalbiais ir 60 minučių nuoseklaus garso.

Programuotojas: OpenMOSS · Licencija: Apache 2.0

Pabandyk

ChatterboxChatterbox Priemoka

Šiuolaikinės nulinės fotografijos balso klonavimas su emocijų reguliavimu iš Reemble AI.

Kokybė:

Pabandyk

Tortoise TTSTortoise TTS Priemoka

Daugiabalsis tekstas-to-speech sutelktas į kokybę su autoregesyvios architektūros.

Kokybė:

Pabandyk

StyleTTS 2StyleTTS 2 Priemoka

Žmogaus lygio tekstas-į-speech per stiliaus difuzijos ir priešpriešinio mokymo.

Kokybė:

Pabandyk

OpenVoiceOpenVoice Priemoka

Momentinis balso klonavimas su granuliuotu reguliavimu per stilių, emocijas, ir akcentą.

Kokybė:

Pabandyk

Sesame CSMSesame CSM Priemoka

Pokalbio kalbos modelis generuoja natūralų dialogą su tinkamu laiku ir emocijomis.

Kokybė:

Pabandyk

CosyVoice 2CosyVoice 2

Alibaba masyviai transliuojama TTS su žmogaus pariteto natūralumo ir beveik nulinės latentiškumo.

Kalbos: en, zh, ja, ko, fr, de, it, es

Klonuoti balsą

IndexTTS-2IndexTTS-2

Zero-shot TTS su plono grūdo emocijų kontrolė ir didelis išraiškingumas.

Kalbos: en, zh

Klonuoti balsą

Spark TTSSpark TTS

Balso klonavimas TTS su reguliuojamas emocijų ir kalbėjimo stilius per paspaudimus.

Kalbos: en, zh

Klonuoti balsą

GPT-SoVITSGPT-SoVITS

Nedaug fotografinio balso klonavimo TTS, kuris kartoja bet kokį balsą vos iš 5 sekundžių garso.

Kalbos: en, zh, ja, ko

Klonuoti balsą

ChatterboxChatterbox

Šiuolaikinės nulinės fotografijos balso klonavimas su emocijų reguliavimu iš Reemble AI.

Kalbos: en

Klonuoti balsą

Tortoise TTSTortoise TTS

Daugiabalsis tekstas-to-speech sutelktas į kokybę su autoregesyvios architektūros.

Kalbos: en

Klonuoti balsą

OpenVoiceOpenVoice

Momentinis balso klonavimas su granuliuotu reguliavimu per stilių, emocijas, ir akcentą.

Kalbos: en, zh, ja, ko, fr, es

Klonuoti balsą

VieNeu-TTS-v2VieNeu-TTS-v2

Vietnamiečių + anglų kodas-switching TTS su 7 iš anksto nustatyti balsai ir nulinės fotografijos balso klonavimas. CPU tik, nereikia GPU.

Kalbos: vi, en

Klonuoti balsą

Chatterbox TurboChatterbox Turbo

Greičiau Chatterbox su sub-200m latentiškumo ir paralingvistinės žymės juokams, kosulys, ir daugiau.

Kalbos: en

Klonuoti balsą

VoxCPMVoxCPM

TTS be tokenaizerio gamyba 44.1kHz garso su kontekste išmaniosios dalies konsistencija.

Kalbos: en, zh

Klonuoti balsą

OuteTTSOuteTTS

LLM pagrindu TTS, kurie veikia CPU, GPU, arba naršyklė per llama.cpp ir Transformers.js.

Kalbos: en

Klonuoti balsą

Pocket TTSPocket TTS

Mažo svorio 100M parametro modelis Kyutai su balso klonavimu iš vieno mėginio.

Kalbos: en, fr

Klonuoti balsą

CosyVoice3CosyVoice3

Naujos kartos daugiakalbiai TTS su dvipusiu srautu, emocijų valdymu ir nuliniu balso klonavimu.

Kalbos: en, zh, ja, ko, de, es, fr, it, ru

Klonuoti balsą

NAMAA Saudi TTSNAMAA Saudi TTS

Pirmas atviras Saudo Arabijos TTS. Native Saudo Arabijos dialektu su Chatterbox kokybės balso klonavimas.

Kalbos: ar

Klonuoti balsą

Darwin TTSDarwin TTS

Kryžminis Qwen3-TTS variantas su FFN svoriais, sumaišytais iš Qwen3-1.7B kalbos modelio aštresniam daugiakalbiam klonavimui.

Kalbos: en, ko, ja, zh

Klonuoti balsą

MOSS-TTSDMOSS-TTSD

Daugiakalbio dialogo tęsinio modelis – generuoti podcast tipo pokalbius su iki 5 garsiakalbiais ir 60 minučių nuoseklaus garso.

Kalbos: en, zh

Klonuoti balsą

Ming-Omni TTSMing-Omni TTS

Kompaktiškas 0.5B omni-modal kalbos modelis nuo inclusionAI su aukšto patikimumo 44.1kHz išvestimi ir nulinio atšvaito balso klonavimu.

Kalbos: en, zh

Klonuoti balsą

MOSS-TTS NanoMOSS-TTS Nano

Mažas 100M MOSS-TTS variantas - ta pati architektūra, 80x mažesnė, nemokama latentiškumas.

Kalbos: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Klonuoti balsą

Programuotojas- pirmasis API

Suderinamas REST API. Vienas rezultatas, 22+ modeliai. Srauto palaikymas realiu laiku taikomosios programos.

  • Su atvirais raštais suderinamas formatas
  • Realaus laiko programėlių transliavimas TTS
  • Partijos tvarkymas dideliems darbams
  • Pranešimai apie žiniatinklio kabiną
Rodyti API dokumentus
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Paprastas, skaidrus kainų nustatymas

Pradėti nemokamai. Mastelis, kai jūs augate.

Neapmuitinama

$0

15 000 ženklų + 5 000 ženklų per dieną

  • 7 nemokami modeliai, įskaitant Kokoro
  • 5 000 chars vienai kartai
  • API prieiga
Užsiregistruoti nemokamai

Pradžia

$9/s. c.

500 kreditų per mėnesį

  • Visi 22+ modeliai
  • 100 000 chars vienai kartai
  • Balso klonavimas
Paleisti
Populiariausi

Pro

$29/s. c.

2 000 kreditų per mėnesį

  • Viskas pradžioje
  • API prieiga
  • Prioritetinis tvarkymas
Gauti Pro

Verslas

$99/s. c.

10 000 kreditų per mėnesį

  • Viskas Pro
  • Bulkinė API
  • Prioritetinė eilutė
Gauti verslą

Peržiūrėti visus planus, įskaitant simbolių paketus →

Dažnai užduodami klausimai

TTS.ai yra išsamiausia AI balso platforma, siūlanti 22+ teksto-į-speech modelius, balso klonavimą, kalbos-teksto ir garso įrankius. Visi modeliai yra atvirasis šaltinis be pardavėjo užrakinimo.

Taip! TTS.ai siūlo nemokamą tekstą į žymeklį su Kokoro, Piper, VITS ir MeloTTTS modeliais. Sąskaitos nereikia. Užsiregistruoti gauti 15,000 nemokamai simbolių ir pasiekti visus modelius. Mokami planai prasideda $9 mėnesį.

Dėl greičio, naudoti Kokoro arba Piper. Kokybės, pabandykite CosyVoice 2 arba StyleTTS 2. Balso klonavimui, naudokite Chatterbox arba GPT-SoVITS. Dialogui, naudokite Dia TTS. Pabandykite kelis modelius tame pačiame tekste palyginti.

Taip. OpenAI suderinamas REST API TTS, STT, balso klonavimas, ir garso įrankiai. Įtraukti į kiekvieną planą, įskaitant nemokamai, su normos ribas, kad skalė pagal pakopą (Nemokamas: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Verslo: 300). Peržiūrėti dokumentus ne tts.ai/api/.

Balso kokybė skiriasi pagal modelį.Premium modeliai kaip CosyVoice 2, StyleTTS 2 ir Chatterbox gamina beveik žmogaus kokybės kalbą su natūralia intonacija ir emocijomis. Nemokami modeliai, tokie kaip Kokoro siūlo puikią kokybę daugumai naudojimo atvejų.

TTS.ai palaiko 30+ kalbų per savo pavyzdinę biblioteką. Anglų turi plačiausią modelio paramą, bet modeliai kaip CosyVoice 2 apima kinų, japonų, ir korėjiečių; GPT-SoVITS tvarko kinų, japonų, korėjiečių, ir anglų; ir MeloTTTS palaiko anglų, ispanų, prancūzų, kinų, japonų, ir korėjiečių.

Taip. Visi procesai vyksta mūsų skirtuose GPU serveriuose. Mes nesaugome jūsų teksto įvesties ar nesukuriame garso po pristatymo. Įkeliami balso mėginiai klonavimui naudojami tik esamai sesijai ir nėra saugomi. Mes niekada nesidaliname jūsų duomenimis su trečiosiomis šalimis ir nenaudojame jų modeliams treniruoti.

Taip. Visi garso generuojami TTS.ai yra jūsų naudoti komerciniais tikslais, įskaitant "YouTube" vaizdo įrašus, podcast, garso knygas, programas, reklamą ir produktus. Mūsų modeliai yra atviras šaltinis pagal leidžiamąsias licencijas (MIT, Apache 2.0). Jokių autorinių atlyginimų ar priskyrimo nereikia.

TTS.ai generuoja garso WAV formatu pagal nutylėjimą maksimaliai kokybei. Galite konvertuoti į MP3, FLAC, OGG, arba M4A naudojant mūsų nemokamai Audio Converter įrankis. API palaiko nurodyti savo pageidaujamą išvesties formatą tiesiogiai prašymu.

Įkelkite trumpą balso, kurį norite klonuoti, garso mėginį (ne mažiau kaip 5 sekundes), tada įrašykite bet kokį tekstą tam balsui generuoti. Modeliai, pavyzdžiui, Chatterbox, GPT-SoVITS ir CosyVoice 2 palaiko balso klonavimą. Klonuotas balsas fiksuoja toną, akcentą ir kalbėjimo stilių.

Nemokami modeliai (Kokoro, Piper, VITS, MeloTTS) nereikalauja jokių paskyros ir kainuoja nulinius simbolius. Standartiniai modeliai (2 000 simbolių/1K įėjimai) apima barką, cosyVoice 2, F5-TTS ir Dia. Premium modeliai (4,000 simbolių/1K įėjimai) apima OpenVoice, Chatterbox, StyleTTS 2 ir Tortoise. Mokami modeliai paprastai siūlo aukštesnę kokybę, daugiau balsų ir papildomų funkcijų, pvz., balso klonavimas.

Taip. API palaiko partijos apdorojimo konvertuoti didelius kiekius teksto į kalbą. Pateikti keletą užklausų ir gauti rezultatus asinchroniškai naudojant darbą UUID. Verslo planas ($99/mo) ir didesnis apima prioritetinę eilę prieiga greičiau partijos apdorojimo. Idealiai tinka garso knygų gamybai, žinoma turinys, ir didelio masto balso perėmimo projektai.
4.1/5 (42)

Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.

Pradėti AIS balso naudojimą šiandien

Prisijunkite kūrėjai, kūrėjai, ir verslo naudojant TTS.ai