Free AI Testun i LeferyddComment

31+ modelau ffynhonnell agored, 231+ llais, 34+ ieithoedd. Nid oes angen cyfrif.

8K+
creuwyr
31K+
generations
31+
Modelau AI
231+
llais( au)
Hoffwch TTS.ai? Meddwl am eich ffrindiau!

Popeth sydd ei angen arnoch ar gyfer AI LleferyddName

30+ offer wedi'u pweru gan ffynonellau agored modelau AI

31+ Modelau Lleferydd AI

Y casgliad mwyaf eang o fathau TTS ffynhonnell agored ar un platfform

KokoroKokoro Rhydd

Model testun-i-leferydd 82 miliwn o baramedrau yw Kokoro sy'n gwneud yn well na'i ddosbarth pwysau. Er gwaethaf ei faint bach, mae'n cynhyrchu siarad naturiol a chryno. Cynhelir nifer o ieithoedd gan gynnwys Saesneg, Japaneg, Tsieineeg a Corea gydag amrywiaeth o lais cryf. Mae'n rhedeg yn gyflym iawn - yn creu sain bron 100 gwaith yn gyflymach na real-time ar GPU.

Gorau ar gyfer: TTS o ansawdd uchel gyda chynnydd lleiaf, rhaglenni llifogydd

Ceisiwch Am Ddim

PiperPiper Rhydd

Peiriant testun-i-leferydd ysgafn yw Piper a ddatblygwyd gan Rhasspy sy'n defnyddio strwythurau VITS a laryncs. Mae'n rhedeg yn llwyr ar CPU, gan ei wneud yn berffaith ar gyfer dyfeisiau ymylon, awtomeiddio cartref, a rhaglenni sy'n gofyn am TTS all-lein. Gyda dros 100 o lais dros 30+ o ieithoedd, mae Piper yn darparu lleferydd sy'n swnio'n naturiol ar gyflymderau gwirioneddol hyd yn oed ar Raspberry Pi 4.

Gorau ar gyfer: Rhagolygon cyflym, hygyrchedd, a rhaglenni mewnadeiladedig

Ceisiwch Am Ddim

VITSVITS Rhydd

VITS (Dealltwriaeth Amrywiol gyda dysgu gwrthwynebol ar gyfer Testun-i-Leferydd diwedd-i-ddiwedd) yw dull TTS diwedd-i-ddiwedd paralel sy'n creu sain sy'n swnio'n fwy naturiol na'r modelau cyfredol o ddau gam. Mae'n mabwysiadu dealltwriaeth amrywiol wedi'i wella gyda llifoedd normaleiddio a phrosesu hyfforddi gwrthwynebol, gan gyflawni gwelliannau sylweddol mewn naturioldeb.

Gorau ar gyfer: Testun-i-leferydd pwrpas-cyffredinol gyda phrosodi naturiolName

Ceisiwch Am Ddim

MeloTTSMeloTTS Rhydd

Llyfrgell TTS aml-iaith yw MeloTTS gan MyShell.ai sy'n cynnal Saesneg (Americanaidd, Prydeinig, Indiaidd, Awstralaidd), Sbaeneg, Ffrangeg, Tsieineaidd, Japaneaidd a Corea. Mae'n hynod o gyflym, yn prosesu testun ar gyflymder sy'n debyg i gyflymder amser real ar y CPU yn unig. Mae MeloTTS wedi ei ddylunio ar gyfer defnydd cynhyrchu ac yn cynnal dehongliad CPU a GPU.

Gorau ar gyfer: Rhaglenni cynhyrchu sydd angen TTS cyflym, aml-ieithog

Ceisiwch Am Ddim

OuteTTSOuteTTS Rhydd

Mae OuteTTS yn ehangu modelau iaith mawr gyda galluoedd testun-i-ganu tra'n cadw'r adeiladwaith gwreiddiol. Mae'n cynnal amryw o ochr gefn gan gynnwys llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, a hyd yn oed dehongliad porwr drwy Transformers.js. Mae'n cynnwys clonio llais zero-shot drwy broffiliau siaradwyr wedi'u cadw fel JSON.

Gorau ar gyfer: Datblygu Edge, TTS seiliedig ar borwr, amgylcheddau adnoddau isel

Ceisiwch Am Ddim

Pocket TTSPocket TTS Rhydd

Model testun-i-leferydd cymhleth 100M o paramedrau yw Pocket TTS gan Kyutai (crewyr Moshi) sy'n torri'r ffiniau. Mae'n rhedeg yn effeithlon ar CPU, yn cynnal clonio llais zero-shot o sampl sain sengl, ac yn cynhyrchu llais sy'n swnio'n naturiol. Mae maint bach y model yn ei wneud yn berffaith ar gyfer datblygiadau ar y ffin a chyfleusterau sydd â llai o adnoddau.

Gorau ar gyfer: Gosod ysgafn, amgylcheddau CPU yn unig, clonio llais cyflym

Ceisiwch Am Ddim

Kitten TTSKitten TTS Rhydd

Model testun-i-leferydd ultra-ysgafn yw Kitten TTS gan KittenML, wedi'i adeiladu ar ONNX. Gyda gwahanol fathau o 15M i 80M o baramedrau (25-80 MB ar y ddisg), mae'n darparu cyfansoddiad llais o ansawdd uchel ar y CPU heb angen GPU. Mae ganddo 8 llais mewnol, cyflymder llais addasadwy, a rhag-brosesu testun mewnol ar gyfer rhifau, arian, ac unedau. Mae'n berffaith ar gyfer rhaglenni eithaf a chynnydd isel.

Gorau ar gyfer: TTS ysgafn a gyflym, datblygiadau ymylon, rhaglenni â chynnydd isel

Ceisiwch Am Ddim

BarkBark & Gwaredu Iaith

Model testun-i-sain seiliedig ar drawsnewidydd sy'n creu siarad, cerddoriaeth ac effeithiau sain realistig.

Datblygwr: Suno · Trwydded: MIT

Ceisiwch hi

Bark SmallBark Small & Gwaredu Iaith

Fersiwn ysgafnach o Bark gyda dehongli cyflymach a defnydd cof is. Name

Datblygwr: Suno · Trwydded: MIT

Ceisiwch hi

CosyVoice 2CosyVoice 2 & Gwaredu Iaith

Alibaba's scalable streaming TTS with human-parity naturalness and nearly-zero latency.

Datblygwr: Alibaba (Tongyi Lab) · Trwydded: Apache 2.0

Ceisiwch hi

Dia TTSDia TTS & Gwaredu Iaith

Model creu ymgom aml-seinydd sy'n creu sgyrsiau naturiol rhwng siaradwyr.

Datblygwr: Nari Labs · Trwydded: Apache 2.0

Ceisiwch hi

Parler TTSParler TTS & Gwaredu Iaith

Disgrifiwch y llais rydych ei eisiau mewn iaith naturiol a bydd Parler yn creu llais sy'n cydweddu.

Datblygwr: Hugging Face · Trwydded: Apache 2.0

Ceisiwch hi

GLM-TTSGLM-TTS & Gwaredu Iaith

Cyrraedd y gyfradd gwall nodau isaf ymhlith modelau TTS ffynhonnell agored.

Datblygwr: Zhipu AI · Trwydded: GLM-4 License

Ceisiwch hi

IndexTTS-2IndexTTS-2 & Gwaredu Iaith

TTS zero-shot gyda rheoli emosiynau grawn-fin a mynegiant uchel.

Datblygwr: Index Team · Trwydded: Bilibili Model License

Ceisiwch hi

Spark TTSSpark TTS & Gwaredu Iaith

Clonio llais TTS gydag arddull emosiynau a siarad rheoliadwy drwy alwadau.

Datblygwr: SparkAudio · Trwydded: CC BY-NC-SA 4.0

Ceisiwch hi

GPT-SoVITSGPT-SoVITS & Gwaredu Iaith

Clonio llais TTS ychydig-sgyrsiau sy'n ail-greu unrhyw lais o 5 eiliad o sain yn unig.

Datblygwr: RVC-Boss · Trwydded: MIT

Ceisiwch hi

OrpheusOrpheus & Gwaredu Iaith

Model TTS emosiynol lefel dynol wedi ei hyfforddi ar 100K o oriau o ddata siarad.

Datblygwr: Canopy Labs · Trwydded: Llama 3.2 Community

Ceisiwch hi

Qwen3 TTSQwen3 TTS & Gwaredu Iaith

TTS aml-ieithog Alibaba gyda chlonio llais, lleisiau rhagosodedig, a dylunio llais o destun.

Datblygwr: Alibaba (Qwen) · Trwydded: Apache 2.0

Ceisiwch hi

Chatterbox TurboChatterbox Turbo & Gwaredu Iaith

Chatterbox cyflymach gydag oedi o dan 200ms a thagiau para- ieithyddol ar gyfer chwerthin, sychder, a mwy.

Datblygwr: Resemble AI · Trwydded: MIT

Ceisiwch hi

Dia 2Dia 2 & Gwaredu Iaith

TTS cyfathrebu sy'n seiliedig ar ffrydio yn gyntaf gydag ymgom aml-seinydd ac awgrymiadau para-ieithog.

Datblygwr: Nari Labs · Trwydded: Apache 2.0

Ceisiwch hi

VoxCPMVoxCPM & Gwaredu Iaith

TTS di-tokenizer yn cynhyrchu sain 44.1kHz gyda chysondeb paragraff cyd-destun.

Datblygwr: OpenBMB · Trwydded: Apache 2.0

Ceisiwch hi

TADATADA & Gwaredu Iaith

TTS di-hallucination gydag alinio testun-acoustic duo, 5x cyflymach na TTS LLM cymharol.

Datblygwr: Hume AI · Trwydded: MIT

Ceisiwch hi

VibeVoiceVibeVoice & Gwaredu Iaith

Model Microsoft ar gyfer cynnwys aml-seinydd ar ffurf hir fel podlediadau a llyfr sain.

Datblygwr: Microsoft · Trwydded: MIT

Ceisiwch hi

CosyVoice3CosyVoice3 & Gwaredu Iaith

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Datblygwr: Alibaba (FunAudioLLM) · Trwydded: Apache 2.0

Ceisiwch hi

ChatterboxChatterbox Premium

Clonio llais zero-shot o'r radd flaenaf gyda rheoli teimladau o Resemble AI.

Ansawdd:

Ceisiwch hi

Tortoise TTSTortoise TTS Premium

Testun-i-leferydd aml-lais wedi'i ganolbwyntio ar ansawdd gydag adeiladwaith awto-adferol.

Ansawdd:

Ceisiwch hi

StyleTTS 2StyleTTS 2 Premium

Testun-i-ganu ar lefel dynol drwy ddargludiad arddull a hyfforddiant gwrthwynebiad.

Ansawdd:

Ceisiwch hi

OpenVoiceOpenVoice Premium

Clonio llais yn syth gyda rheoli graenus dros arddull, teimlad, a chaneuon.

Ansawdd:

Ceisiwch hi

Sesame CSMSesame CSM Premium

Model lleferydd cyfathrebu sy'n creu cyfathrebu naturiol gydag amseru ac emosiynau addas.

Ansawdd:

Ceisiwch hi

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Ansawdd:

Ceisiwch hi

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Ansawdd:

Ceisiwch hi

CosyVoice 2CosyVoice 2

Alibaba's scalable streaming TTS with human-parity naturalness and nearly-zero latency.

Ieithoedd: en, zh, ja, ko, fr, de, it, es

Cloi Llythyren

GLM-TTSGLM-TTS

Cyrraedd y gyfradd gwall nodau isaf ymhlith modelau TTS ffynhonnell agored.

Ieithoedd: en, zh

Cloi Llythyren

IndexTTS-2IndexTTS-2

TTS zero-shot gyda rheoli emosiynau grawn-fin a mynegiant uchel.

Ieithoedd: en, zh

Cloi Llythyren

Spark TTSSpark TTS

Clonio llais TTS gydag arddull emosiynau a siarad rheoliadwy drwy alwadau.

Ieithoedd: en, zh

Cloi Llythyren

GPT-SoVITSGPT-SoVITS

Clonio llais TTS ychydig-sgyrsiau sy'n ail-greu unrhyw lais o 5 eiliad o sain yn unig.

Ieithoedd: en, zh, ja, ko

Cloi Llythyren

ChatterboxChatterbox

Clonio llais zero-shot o'r radd flaenaf gyda rheoli teimladau o Resemble AI.

Ieithoedd: en

Cloi Llythyren

Tortoise TTSTortoise TTS

Testun-i-leferydd aml-lais wedi'i ganolbwyntio ar ansawdd gydag adeiladwaith awto-adferol.

Ieithoedd: en

Cloi Llythyren

OpenVoiceOpenVoice

Clonio llais yn syth gyda rheoli graenus dros arddull, teimlad, a chaneuon.

Ieithoedd: en, zh, ja, ko, fr, de, es, it

Cloi Llythyren

Qwen3 TTSQwen3 TTS

TTS aml-ieithog Alibaba gyda chlonio llais, lleisiau rhagosodedig, a dylunio llais o destun.

Ieithoedd: en, zh, ja, ko, de, fr, ru, pt, es, it

Cloi Llythyren

Chatterbox TurboChatterbox Turbo

Chatterbox cyflymach gydag oedi o dan 200ms a thagiau para- ieithyddol ar gyfer chwerthin, sychder, a mwy.

Ieithoedd: en

Cloi Llythyren

VoxCPMVoxCPM

TTS di-tokenizer yn cynhyrchu sain 44.1kHz gyda chysondeb paragraff cyd-destun.

Ieithoedd: en, zh

Cloi Llythyren

OuteTTSOuteTTS

TTS wedi'i seilio ar LLM sy'n rhedeg ar CPU, GPU, neu borwr drwy llama.cpp a Transformers.js.

Ieithoedd: en

Cloi Llythyren

Pocket TTSPocket TTS

Model paramedr ysgafn 100M gan Kyutai gyda chlonio llais o sampl sengl. Name

Ieithoedd: en, fr

Cloi Llythyren

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Ieithoedd: en, zh, ja, ko, de, es, fr, it, ru

Cloi Llythyren

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Ieithoedd: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Cloi Llythyren

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Ieithoedd: en, zh

Cloi Llythyren

API Datblygwr-Arwain

API REST sy'n gydnaws â OpenAI. Un diwedd-bwynt, 22+ model. Cynhaliaeth llif ar gyfer cymwysiadau amser real.

  • Fformat cydnaws â OpenAI
  • Llif TTS ar gyfer rhaglenni amser real
  • Prosesu batch ar gyfer swyddi mawr
  • Hysbysiadau Webhook
Gweld Dogfennaeth API
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Prisio Syml, Tryloyw

Dechreuwch yn rhydd. Graddio wrth i chi dyfu.

Rhydd

$0

50 credyd

  • Kokoro, Piper, VITS, MeloTTS
  • Terfyn 500 nod
  • 3 gen/awr (dim cyfrif)
Cofrestru

Cychwynydd

$9/% 1 mis

500 credyd/mis

  • Pob 22+ model
  • 100,000 o nodau y genhedlaeth
  • Clonio Llywio
Cychwyn
Poblogaf

Pro

$29/% 1 mis

2,000 credyd/mis

  • Popeth yn y Cychwynydd
  • Cyrchiad API
  • Prosesu blaenoriaeth
Cael Proffesiynol

Busnes

$99/% 1 mis

10,000 credyd/mis

  • Popeth mewn Pro
  • API Bulk
  • Ciw blaenoriaeth
Nôl Busnes

Gweld pob cynllun gan gynnwys pecynnau credyd →

Cwestiynau a Ofynnir yn Aml

TTS.ai yw'r platfform llais AI mwyaf cwmpasu, yn cynnig 22+ modelau testun-i-ganu, clonio llais, llais-i-testun, ac offer sain. Mae pob model yn ffynhonnell agored heb gloi mewn gwerthwr.

Ie! Mae TTS.ai yn cynnig testun-i-ganu am ddim gyda modelau Kokoro, Piper, VITS, a MeloTTS. Nid oes angen cyfrif. Cofrestru i gael 15,000 o nodau am ddim a mynediad i bob model. Mae cynlluniau talu yn dechrau ar $9/mis.

Ar gyfer cyflymder, defnyddiwch Kokoro neu Piper. Ar gyfer ansawdd, ceisiwch CosyVoice 2 neu StyleTTS 2. Ar gyfer clonio llais, defnyddiwch Chatterbox neu GPT-SoVITS. Ar gyfer cyfathrebu, defnyddiwch Dia TTS. Ceisiwch sawl model ar yr un testun i'w gymharu.

Ydy. API REST sy'n gydnaws â OpenAI ar gyfer TTS, STT, clonio llais, ac offer sain. Ar gael ar gynlluniau Pro ($29/mis) ac Enterprise ($99/mis). Gweler dogfennaeth ar tts.ai/api/.

Mae ansawdd y llais yn amrywio yn ôl y model. Mae modelau premiwm fel CosyVoice 2, StyleTTS 2, a Chatterbox yn cynhyrchu llais o ansawdd sy'n debyg i'r un dynol, gydag arddull naturiol ac emosiynau. Mae modelau am ddim fel Kokoro yn cynnig ansawdd rhagorol ar gyfer y rhan fwyaf o achosion defnydd.

Mae TTS.ai yn cynnal mwy na 30 o ieithoedd drwy ei llyfrgell modelau. Mae gan Saesneg y gynhaliaeth modelau ehangaf, ond mae modelau fel CosyVoice 2 yn cwmpasu Tsieinëeg, Japaneg a Corea; mae GPT-SoVITS yn trin Tsieinëeg, Japaneg, Corea a Saesneg; ac mae MeloTTS yn cynnal Saesneg, Sbaeneg, Ffrangeg, Tsieinëeg, Japaneg a Corea.

Ydy. Mae pob prosesu'n digwydd ar ein gweinyddion GPU arbenigol. Nid ydym yn cadw eich mewnbwn testun na'r sain a gynhyrchir ar ôl ei anfon. Defnyddir samplau llais a lwythwyd i fyny ar gyfer clonio ar gyfer y sesiwn cyfredol yn unig ac nid ydynt yn cael eu cadw. Ni ydym byth yn rhannu eich data â thrydydd partïon na'u defnyddio i hyfforddi modelau.

Ydy. Mae pob sain a gynhyrchir ar TTS.ai yn eich eiddo i'w ddefnyddio'n fasnachol, gan gynnwys ar gyfer fideos YouTube, newyddion, llyfr sain, rhaglenni, hysbysebion, a chynhyrchion. Mae ein modelau yn ffynhonnell agored o dan drwyddedau caniataol (MIT, Apache 2.0). Nid oes angen unrhyw hawlfraint na dynodi.

Mae TTS.ai yn creu sain yn y fformat WAV yn rhagosodedig ar gyfer ansawdd uchaf. Gallwch drosi i MP3, FLAC, OGG, neu M4A gan ddefnyddio ein hidlydd sain am ddim. Mae'r API yn cefnogi penodi eich fformat allbwn hoffus yn uniongyrchol yn y cais.

Lawrlwythwch sampl sain byr (hyd at 5 eiliad) o'r llais yr ydych am ei cloni, ac yna teipiwch unrhyw destun i greu siarad yn y llais hwn. Mae modelau fel Chatterbox, GPT-SoVITS, a CosyVoice 2 yn cynnal cloni llais. Mae'r llais wedi'i cloni yn dal y ton, y geiriau, a'r arddull siarad.

Nid oes angen cyfrif ar y modelau am ddim (Kokoro, Piper, VITS, MeloTTS) ac maent yn costio dim credydau. Mae'r modelau safonol (2 credyd/1K o nodau) yn cynnwys Bark, CosyVoice 2, F5-TTS, a Dia. Mae'r modelau premiwm (4 credyd/1K o nodau) yn cynnwys OpenVoice, Chatterbox, StyleTTS 2, a Tortoise. Mae'r modelau a dalwyd yn aml yn cynnig ansawdd uwch, mwy o lais, a nodweddion ychwanegol fel clonio llais.

Ie. Mae'r API yn cynnal prosesu batch er mwyn trosi niferoedd mawr o destun i lais. Anfonwch nifer o geisiadau ac adferwch ganlyniadau'n anghydnaws gan ddefnyddio UUIDs swyddi. Mae cynlluniau busnes ($99/mis) yn cynnwys cyrchu ciw blaenoriaeth ar gyfer prosesu batch cyflymach. Mae'n ddelfrydol ar gyfer cynhyrchu llyfr sain, cynnwys cwrs, a phrosiectau diddanu ar raddfa fawr.
4.1/5 (21)

Beth allwn ni ei wella? Mae eich adborth yn ein helpu i ddatrys problemau.

Dechrau Defnyddio Lleferydd AI Heddiw

Ymuno â chrewyr, datblygwyr a busnesau sy'n defnyddio TTS.ai