Laisva AI Tekstas į kalbą

31+ atvirojo kodo modeliai, 231+ balsai, 34+ kalbos. Sąskaitos nereikia.

8K+
kūrėjai
30K+
Kartos
31+
AI modeliai
231+
balsai
0/500 simboliai · Sign up for 5,000 per generation → Neapmuitinama
Mėgstu TTS.ai? Papasakok draugams!

Viskas, ko jums reikia balso AI

30+ įrankių, varomų atvirojo šaltinio AI modeliais

31+ AI balso modeliai

Išsamiausias atvirojo kodo TTS modelių rinkinys vienoje platformoje

KokoroKokoro Free

Kokoro yra 82 milijonų parametrų teksto-į-speech modelis, kuris perforuoja gerokai virš savo svorio klasės. Nepaisant jo mažyčių dydis, jis gamina nepaprastai natūralus ir išraiškingas kalba. Kokoro palaiko kelias kalbas, įskaitant anglų, japonų, kinų ir korėjiečių išraiškingų balsų įvairovė. Jis veikia neįtikėtinai greitai – generuoti garso beveik 100x greičiau nei realiu laiku GPU.

Geriausias už: Aukštos kokybės TTS su minimalia latentine, srautinės programos

Bandyti nemokamai

PiperPiper Free

Piper yra lengvas tekstas-į-speech variklis, sukurtas Rhasspy, kuris naudoja VITS ir gerklx architektūrų. Jis veikia visiškai CPU, todėl idealiai tinka kraštutinių įrenginių, namų automatizavimo, ir taikomosios programos reikalauja belaidis TTS. Su daugiau nei 100 balsų 30+ kalbomis, Piper pristato natūralų garsą kalba realiu laiku net Aviečių Pi 4.

Geriausias už: Greita peržiūra, prieinamumas ir įterptosios programos

Bandyti nemokamai

VITSVITS Free

VITS (Variational Inclusion with conversarial learning for end-to-end Text-to-Speech) yra lygiagretus „nuo galo iki galo“ TTS metodas, kuris generuoja daugiau natūralių garso skambesių nei dabartiniai dviejų pakopų modeliai. Jis priima įvairų interferenciją, sustiprintą normalizuojant srautus ir atliekant priešpriešinio mokymo procesą, užtikrinantį reikšmingą natūralios aplinkos pagerėjimą.

Geriausias už: Bendrosios paskirties tekstas-į-speech su natūralia prozodija

Bandyti nemokamai

MeloTTSMeloTTS Free

MeloTTS by MyShell.ai yra daugiakalbė TTS biblioteka, remianti anglų (American, British, Indian, Australia), ispanų, prancūzų, kinų, japonų, ir korėjiečių. Tai yra labai greitai, apdoroti tekstą beveik realiu laiku vien procesoriaus. MeloTTS yra skirtas gamybos naudojimui ir palaiko tiek procesoriaus ir GPU inferencija.

Geriausias už: Gamybos programos, kurioms reikia greitų, daugiakalbių TTS

Bandyti nemokamai

OuteTTSOuteTTS Free

OuteTTS palaiko didelius kalbų modelius su teksto-įspėjimu išlaikant originalią architektūrą. Ji palaiko kelias programines sąsajas, įskaitant llama.cpp (CPU/GPU), Hagging Face Transformers, ExLlamaV2, VLLM, ir net naršyklę, trukdančią per Transformers.js. Funkcijos nulinės fotografijos balso klonavimas per garsiakalbio profilius, išsaugotus kaip JSON.

Geriausias už: Įdiegimas iš briaunos, naršykle pagrįsti TTS, mažo išteklių kiekio aplinka

Bandyti nemokamai

Pocket TTSPocket TTS Free

Pocket TTS by Kyutai (Moshi kūrėjai) yra kompaktiškas 100M parametro teksto-į-speech modelis, kuris perforuoja daug daugiau nei jo svoris. Jis veikia efektyviai naudojant CPU, palaiko nulinio smogtuvo balso klonavimą iš vieno garso mėginio ir gamina natūralų garsą. Dėl mažo modelio dydžio jis yra idealus briaunos ir mažo šaltinio aplinkai.

Geriausias už: Lengvas įdiegimas, tik procesorių veikiančios aplinkos, greitas balso klonavimas

Bandyti nemokamai

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Geriausias už: Fast lightweight TTS, edge deployment, low-latency applications

Bandyti nemokamai

BarkBark Standard

Transformatorių paremtas tekstų-audio modelis, kuris sukuria realų kalbos, muzikos ir garso efektai.

Programuotojas: Suno · Licencija: MIT

Pabandyk

Bark SmallBark Small Standard

Lengvesnė versija bark su greičiau indo ir mažesnio atminties naudojimo.

Programuotojas: Suno · Licencija: MIT

Pabandyk

CosyVoice 2CosyVoice 2 Standard

Alibaba masyviai transliuojama TTS su žmogaus pariteto natūralumo ir beveik nulinės latentiškumo.

Programuotojas: Alibaba (Tongyi Lab) · Licencija: Apache 2.0

Pabandyk

Dia TTSDia TTS Standard

Kelių garsiakalbių dialogo generavimo modelis, kuris sukuria natūralius pokalbius tarp garsiakalbių.

Programuotojas: Nari Labs · Licencija: Apache 2.0

Pabandyk

Parler TTSParler TTS Standard

Apibūdinkite norimą balsą natūralia kalba, o Parler generuoja atitinkamą kalbą.

Programuotojas: Hugging Face · Licencija: Apache 2.0

Pabandyk

GLM-TTSGLM-TTS Standard

Pasiekti mažiausią simbolių klaidų lygį tarp atvirojo šaltinio TTS modelių.

Programuotojas: Zhipu AI · Licencija: GLM-4 License

Pabandyk

IndexTTS-2IndexTTS-2 Standard

Zero-shot TTS su plono grūdo emocijų kontrolė ir didelis išraiškingumas.

Programuotojas: Index Team · Licencija: Bilibili Model License

Pabandyk

Spark TTSSpark TTS Standard

Balso klonavimas TTS su reguliuojamas emocijų ir kalbėjimo stilius per paspaudimus.

Programuotojas: SparkAudio · Licencija: CC BY-NC-SA 4.0

Pabandyk

GPT-SoVITSGPT-SoVITS Standard

Nedaug fotografinio balso klonavimo TTS, kuris kartoja bet kokį balsą vos iš 5 sekundžių garso.

Programuotojas: RVC-Boss · Licencija: MIT

Pabandyk

OrpheusOrpheus Standard

Žmogaus lygio emocinių TTS modelis apmokytas 100K kalbos valandų duomenimis.

Programuotojas: Canopy Labs · Licencija: Llama 3.2 Community

Pabandyk

Qwen3 TTSQwen3 TTS Standard

Alibaba daugiakalbė TTS su balso klonavimu, iš anksto nustatytais balsais ir balso dizainu iš teksto.

Programuotojas: Alibaba (Qwen) · Licencija: Apache 2.0

Pabandyk

Chatterbox TurboChatterbox Turbo Standard

Greičiau Chatterbox su sub-200m latentiškumo ir paralingvistinės žymės juokams, kosulys, ir daugiau.

Programuotojas: Resemble AI · Licencija: MIT

Pabandyk

Dia 2Dia 2 Standard

Pirmieji pokalbių TTS su kelių garsiakalbių dialogu ir paralingvistiniais cues.

Programuotojas: Nari Labs · Licencija: Apache 2.0

Pabandyk

VoxCPMVoxCPM Standard

TTS be tokenaizerio gamyba 44.1kHz garso su kontekste išmaniosios dalies konsistencija.

Programuotojas: OpenBMB · Licencija: Apache 2.0

Pabandyk

TADATADA Standard

Nulinės haliucinacijos TTS su teksto akustiniu dvigubu suderinimu, 5x greitesnis nei palyginamas LLM TTS.

Programuotojas: Hume AI · Licencija: MIT

Pabandyk

VibeVoiceVibeVoice Standard

Microsoft modelis ilgai formuojamo daugiakalbio turinio, pavyzdžiui, podcast ir garso knygų.

Programuotojas: Microsoft · Licencija: MIT

Pabandyk

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Programuotojas: Alibaba (FunAudioLLM) · Licencija: Apache 2.0

Pabandyk

ChatterboxChatterbox Premium

Šiuolaikinės nulinės fotografijos balso klonavimas su emocijų reguliavimu iš Reemble AI.

Kokybė:

Pabandyk

Tortoise TTSTortoise TTS Premium

Daugiabalsis tekstas-to-speech sutelktas į kokybę su autoregesyvios architektūros.

Kokybė:

Pabandyk

StyleTTS 2StyleTTS 2 Premium

Žmogaus lygio tekstas-į-speech per stiliaus difuzijos ir priešpriešinio mokymo.

Kokybė:

Pabandyk

OpenVoiceOpenVoice Premium

Momentinis balso klonavimas su granuliuotu reguliavimu per stilių, emocijas, ir akcentą.

Kokybė:

Pabandyk

Sesame CSMSesame CSM Premium

Pokalbio kalbos modelis generuoja natūralų dialogą su tinkamu laiku ir emocijomis.

Kokybė:

Pabandyk

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Kokybė:

Pabandyk

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Kokybė:

Pabandyk

CosyVoice 2CosyVoice 2

Alibaba masyviai transliuojama TTS su žmogaus pariteto natūralumo ir beveik nulinės latentiškumo.

Kalbos: en, zh, ja, ko, fr, de, it, es

Klonuoti balsą

GLM-TTSGLM-TTS

Pasiekti mažiausią simbolių klaidų lygį tarp atvirojo šaltinio TTS modelių.

Kalbos: en, zh

Klonuoti balsą

IndexTTS-2IndexTTS-2

Zero-shot TTS su plono grūdo emocijų kontrolė ir didelis išraiškingumas.

Kalbos: en, zh

Klonuoti balsą

Spark TTSSpark TTS

Balso klonavimas TTS su reguliuojamas emocijų ir kalbėjimo stilius per paspaudimus.

Kalbos: en, zh

Klonuoti balsą

GPT-SoVITSGPT-SoVITS

Nedaug fotografinio balso klonavimo TTS, kuris kartoja bet kokį balsą vos iš 5 sekundžių garso.

Kalbos: en, zh, ja, ko

Klonuoti balsą

ChatterboxChatterbox

Šiuolaikinės nulinės fotografijos balso klonavimas su emocijų reguliavimu iš Reemble AI.

Kalbos: en

Klonuoti balsą

Tortoise TTSTortoise TTS

Daugiabalsis tekstas-to-speech sutelktas į kokybę su autoregesyvios architektūros.

Kalbos: en

Klonuoti balsą

OpenVoiceOpenVoice

Momentinis balso klonavimas su granuliuotu reguliavimu per stilių, emocijas, ir akcentą.

Kalbos: en, zh, ja, ko, fr, de, es, it

Klonuoti balsą

Qwen3 TTSQwen3 TTS

Alibaba daugiakalbė TTS su balso klonavimu, iš anksto nustatytais balsais ir balso dizainu iš teksto.

Kalbos: en, zh, ja, ko, de, fr, ru, pt, es, it

Klonuoti balsą

Chatterbox TurboChatterbox Turbo

Greičiau Chatterbox su sub-200m latentiškumo ir paralingvistinės žymės juokams, kosulys, ir daugiau.

Kalbos: en

Klonuoti balsą

VoxCPMVoxCPM

TTS be tokenaizerio gamyba 44.1kHz garso su kontekste išmaniosios dalies konsistencija.

Kalbos: en, zh

Klonuoti balsą

OuteTTSOuteTTS

LLM pagrindu TTS, kurie veikia CPU, GPU, arba naršyklė per llama.cpp ir Transformers.js.

Kalbos: en

Klonuoti balsą

Pocket TTSPocket TTS

Mažo svorio 100M parametro modelis Kyutai su balso klonavimu iš vieno mėginio.

Kalbos: en, fr

Klonuoti balsą

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Kalbos: en, zh, ja, ko, de, es, fr, it, ru

Klonuoti balsą

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Kalbos: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Klonuoti balsą

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Kalbos: en, zh

Klonuoti balsą

Programuotojas- pirmasis API

Suderinamas REST API. Vienas rezultatas, 22+ modeliai. Srauto palaikymas realiu laiku taikomosios programos.

  • Su atvirais raštais suderinamas formatas
  • Realaus laiko programėlių transliavimas TTS
  • Partijos tvarkymas dideliems darbams
  • Pranešimai apie žiniatinklio kabiną
Rodyti API dokumentus
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Paprastas, skaidrus kainų nustatymas

Pradėti nemokamai. Mastelis, kai jūs augate.

Neapmuitinama

$0

15 kreditų

  • Kokoro, Piper, VITS, MeloTTS
  • 500 ženklų riba
  • 3 gen/val. (sąskaitos nėra)
Užsiregistruoti nemokamai

Pradžia

$9/s. c.

500 kreditų per mėnesį

  • Visi 22+ modeliai
  • 100 000 chars vienai kartai
  • Balso klonavimas
Paleisti
Populiariausi

Pro

$29/s. c.

2 000 kreditų per mėnesį

  • Viskas pradžioje
  • API prieiga
  • Prioritetinis tvarkymas
Gauti Pro

Verslas

$99/s. c.

10 000 kreditų per mėnesį

  • Viskas Pro
  • Bulkinė API
  • Prioritetinė eilutė
Gauti verslą

Peržiūrėti visus planus, įskaitant simbolių paketus →

Dažnai užduodami klausimai

TTS.ai yra išsamiausia AI balso platforma, siūlanti 22+ teksto-į-speech modelius, balso klonavimą, kalbos-teksto ir garso įrankius. Visi modeliai yra atvirasis šaltinis be pardavėjo užrakinimo.

Taip! TTS.ai siūlo nemokamą tekstą į žymeklį su Kokoro, Piper, VITS ir MeloTTTS modeliais. Sąskaitos nereikia. Užsiregistruoti gauti 15,000 nemokamai simbolių ir pasiekti visus modelius. Mokami planai prasideda $9 mėnesį.

Dėl greičio, naudoti Kokoro arba Piper. Kokybės, pabandykite CosyVoice 2 arba StyleTTS 2. Balso klonavimui, naudokite Chatterbox arba GPT-SoVITS. Dialogui, naudokite Dia TTS. Pabandykite kelis modelius tame pačiame tekste palyginti.

Taip. OpenAI suderinama REST API TTS, STT, balso klonavimo, ir garso įrankiai. pasiekiama Pro ($29/mo) ir Enterprise ($99/mo) planuose. Peržiūrėti dokumentus ne tts.ai/api/.

Balso kokybė skiriasi pagal modelį.Premium modeliai kaip CosyVoice 2, StyleTTS 2 ir Chatterbox gamina beveik žmogaus kokybės kalbą su natūralia intonacija ir emocijomis. Nemokami modeliai, tokie kaip Kokoro siūlo puikią kokybę daugumai naudojimo atvejų.

TTS.ai palaiko 30+ kalbų per savo pavyzdinę biblioteką. Anglų turi plačiausią modelio paramą, bet modeliai kaip CosyVoice 2 apima kinų, japonų, ir korėjiečių; GPT-SoVITS tvarko kinų, japonų, korėjiečių, ir anglų; ir MeloTTTS palaiko anglų, ispanų, prancūzų, kinų, japonų, ir korėjiečių.

Taip. Visi procesai vyksta mūsų skirtuose GPU serveriuose. Mes nesaugome jūsų teksto įvesties ar nesukuriame garso po pristatymo. Įkeliami balso mėginiai klonavimui naudojami tik esamai sesijai ir nėra saugomi. Mes niekada nesidaliname jūsų duomenimis su trečiosiomis šalimis ir nenaudojame jų modeliams treniruoti.

Taip. Visi garso generuojami TTS.ai yra jūsų naudoti komerciniais tikslais, įskaitant "YouTube" vaizdo įrašus, podcast, garso knygas, programas, reklamą ir produktus. Mūsų modeliai yra atviras šaltinis pagal leidžiamąsias licencijas (MIT, Apache 2.0). Jokių autorinių atlyginimų ar priskyrimo nereikia.

TTS.ai generuoja garso WAV formatu pagal nutylėjimą maksimaliai kokybei. Galite konvertuoti į MP3, FLAC, OGG, arba M4A naudojant mūsų nemokamai Audio Converter įrankis. API palaiko nurodyti savo pageidaujamą išvesties formatą tiesiogiai prašymu.

Įkelkite trumpą balso, kurį norite klonuoti, garso mėginį (ne mažiau kaip 5 sekundes), tada įrašykite bet kokį tekstą tam balsui generuoti. Modeliai, pavyzdžiui, Chatterbox, GPT-SoVITS ir CosyVoice 2 palaiko balso klonavimą. Klonuotas balsas fiksuoja toną, akcentą ir kalbėjimo stilių.

Nemokami modeliai (Kokoro, Piper, VITS, MeloTTS) nereikalauja jokių paskyros ir kainuoja nulinius simbolius. Standartiniai modeliai (2 000 simbolių/1K įėjimai) apima barką, cosyVoice 2, F5-TTS ir Dia. Premium modeliai (4,000 simbolių/1K įėjimai) apima OpenVoice, Chatterbox, StyleTTS 2 ir Tortoise. Mokami modeliai paprastai siūlo aukštesnę kokybę, daugiau balsų ir papildomų funkcijų, pvz., balso klonavimas.

Taip. API palaiko partijos apdorojimo konvertuoti didelius kiekius teksto į kalbą. Pateikti keletą užklausų ir gauti rezultatus asinchroniškai naudojant darbą UUID. Įmonės planai ($99/mo) apima prioritetinę eilę prieigą greitesniam serijos apdorojimui. Idealiai tinka garso knygų gamybai, žinoma turinys, ir didelio masto balso perėmimo projektai.
4.1/5 (21)

Ką mes galėtume pagerinti? Jūsų atsiliepimai padeda mums išspręsti problemas.

Pradėti AIS balso naudojimą šiandien

Prisijunkite kūrėjai, kūrėjai, ir verslo naudojant TTS.ai