Testun i LeferyddComment
Trosi testun i siarad sy'n swnio'n naturiol gyda mwy na 24 model AI ffynhonnell agored. Am ddim i'w ddefnyddio, nid oes angen cyfrif.
Amlapio' ch testun mewn tagiau SSML er mwyn cael rheoli cywir:
<speak><prosody rate="slow">Slow speech</prosody></speak>
Ychwanegu marciau teimlad i ddylanwadu ar y dosbarthiad (mae cynhaliaeth model yn amrywio):
Diffinio ynganiad addasiedig (gair = ynganiad):
Manylion Model
GPT-SoVITS
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
| Datblygwr: | RVC-Boss |
| Trwydded: | MIT |
| Cyflymder | Slow |
| Ansawdd: | |
| ieithoedd | 4 ieithoedd |
| VRAM | 6GB |
| Clonio Llywio | Cynhelir |
Awgrymiadau ar gyfer Canlyniadau Mwy Da
- Defnyddio atalnodi cywir ar gyfer seibiau naturiol a chysgodion
- Sillafu rhifau a byrddau ar gyfer ynganiad mwy clir
- Ychwanegu comiau i greu seibiau byr rhwng ymadroddion
- Defnyddio ellipses (...) am seibiau dramatig hirach
- Ceisiwch Kokoro neu CosyVoice 2 am y canlyniadau mwyaf naturiol
- Defnyddio Dia ar gyfer deialog aml-seinydd a chynnwys newyddion
Costiau Credyd
| o Fawrth | Cost y nod 1K |
|---|---|
| Rhydd | 0 credyd (dim terfyn) |
| Arferol | 2 credyd / 1K nod |
| Cyntaf | 4 credyd / 1K nod |
Sut mae Testun i Leferydd AI yn GweithioName
Creu disgrifiadau llais o ansawdd proffesiynol mewn tri cham syml. Does dim angen gwybodaeth dechnegol.
Rhowch eich testun
Teipiwch, gludwch neu lanlwythwch y testun yr hoffech ei drosi i lais. Cynhelir hyd at 5,000 o nodau y genhedlaeth ar gyfer defnyddwyr wedi mewngofnodi. Defnyddiwch destun plaen neu ychwanegwch dagiau SSML am reolaeth uwch dros ynganiad, seibio, a phwyslais.
Dewis Model a Lleferydd
Dewiswch o 24+ modelau AI dros dri lefel. Dewiswch lais sy'n cydweddu â'ch cynnwys, dewiswch eich iaith targed, addaswch gyflymder chwarae o 0.5x i 2.0x, a dewiswch eich fformat allbwn hoff (MP3, WAV, OGG, neu FLAC).
Lawrlwytho
Cliciwch Creu a bydd eich sain yn barod mewn eiliad. Rhagolwgwch gyda'r chwaraewr mewnol, lawrlwythwch yn y fformat a ddewisoch, neu copïwch gyswllt rhannadwy. Defnyddiwch yr API ar gyfer prosesu batch a chyfuno â'ch llif gwaith.
Testun i LeferyddComment
Mae testun-i-farn wedi'i bweru gan AI yn trawsnewid sut mae pobl yn creu, yn defnyddio, ac yn rhyngweithio â chynnwys sain ar draws dosbarthiadau o ddiwydiannau.
Modelau Testun- i- Leferydd
Manylebau manwl ar gyfer pob model AI sydd ar gael ar TTS.ai. Cymharu ansawdd, cyflymder, cefnogaeth iaith, a nodweddion i ddod o hyd i'r model perffaith ar gyfer eich prosiect.
Kokoro
Free
Model testun-i-leferydd 82 miliwn o baramedrau yw Kokoro sy'n gwneud yn well na'i ddosbarth pwysau. Er gwaethaf ei faint bach, mae'n cynhyrchu siarad naturiol a chryno. Cynhelir nifer o ieithoedd gan gynnwys Saesneg, Japaneg, Tsieineeg a Corea gydag amrywiaeth o lais cryf. Mae'n rhedeg yn gyflym iawn - yn creu sain bron 100 gwaith yn gyflymach na real-time ar GPU.
Hexgrad
Apache 2.0
Fast
en, ja, zh, ko, fr, de, it, pt, es, hi, ru
1.5GB
_Na
Rhydd
Piper
Free
Peiriant testun-i-leferydd ysgafn yw Piper a ddatblygwyd gan Rhasspy sy'n defnyddio strwythurau VITS a laryncs. Mae'n rhedeg yn llwyr ar CPU, gan ei wneud yn berffaith ar gyfer dyfeisiau ymylon, awtomeiddio cartref, a rhaglenni sy'n gofyn am TTS all-lein. Gyda dros 100 o lais dros 30+ o ieithoedd, mae Piper yn darparu lleferydd sy'n swnio'n naturiol ar gyflymderau gwirioneddol hyd yn oed ar Raspberry Pi 4.
Rhasspy
MIT
Fast
en, de, fr, es, it, pt, nl, pl, ru, zh, ja, ko, ar, cs, da, fi, el, hu, is, ka, kk, ne, no, ro, sk, sr, sv, sw, tr, uk, vi
0 (CPU only)
_Na
Rhydd
VITS
Free
VITS (Dealltwriaeth Amrywiol gyda dysgu gwrthwynebol ar gyfer Testun-i-Leferydd diwedd-i-ddiwedd) yw dull TTS diwedd-i-ddiwedd paralel sy'n creu sain sy'n swnio'n fwy naturiol na'r modelau cyfredol o ddau gam. Mae'n mabwysiadu dealltwriaeth amrywiol wedi'i wella gyda llifoedd normaleiddio a phrosesu hyfforddi gwrthwynebol, gan gyflawni gwelliannau sylweddol mewn naturioldeb.
Jaehyeon Kim et al.
MIT
Fast
en, zh, ja, ko
1GB
_Na
Rhydd
MeloTTS
Free
Llyfrgell TTS aml-iaith yw MeloTTS gan MyShell.ai sy'n cynnal Saesneg (Americanaidd, Prydeinig, Indiaidd, Awstralaidd), Sbaeneg, Ffrangeg, Tsieineaidd, Japaneaidd a Corea. Mae'n hynod o gyflym, yn prosesu testun ar gyflymder sy'n debyg i gyflymder amser real ar y CPU yn unig. Mae MeloTTS wedi ei ddylunio ar gyfer defnydd cynhyrchu ac yn cynnal dehongliad CPU a GPU.
MyShell.ai
MIT
Fast
en, es, fr, zh, ja, ko
0.5GB (GPU optional)
_Na
Rhydd
Bark
Standard
Model testun-i-sain wedi'i seilio ar drawsnewidydd yw Bark gan Suno, sy'n gallu creu siarad amhrisiadwy, aml-ieithog, yn ogystal â sain fel cerddoriaeth, sŵn cefndir, ac effeithiau sain eraill. Gall gynhyrchu cyfathrebu di-eiriau fel chwerthin, syrthio, a crynu. Cynhelir mwy na 100 o ragosodiadau siaradwr a mwy na 13 iaith gan Bark.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
5GB
_Na
2
Bark Small
Standard
Fersiwn distyll o'r model Bark yw Bark Small sy'n trosglwyddo rhywfaint o ansawdd sain am gyflymderau dehongli llawer cyflymach a gofynion cof llai. Mae'n cadw gallu Bark i greu siarad gydag emosiynau, chwerthin, ac ieithoedd lluosol.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
2GB
_Na
2
CosyVoice 2
Standard
Mae CosyVoice 2 gan Labordy Tongyi Alibaba yn cyflawni ansawdd lleferydd tebyg i'r dynol gydag arafwch isel iawn, gan ei wneud yn berffaith ar gyfer cymhwysiadau amser real. Mae'n defnyddio dull canfod sgwâr terfynedig ar gyfer cyfansoddiad llifogydd a chynhelir clonio llais zero-shot, cyfansoddiad rhwng ieithoedd, a rheoli teimladau graenus. Mae'n rhagori ar lawer o systemau TTS masnachol mewn gwerthusiad personol.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
4GB
_Yw
2
Dia TTS
Standard
Dia gan Nari Labs yw model testun-i-leferydd 1.6B paramedr wedi'i ddylunio'n benodol ar gyfer creu cyfathrebu aml-seinydd. Gall gynhyrchu sgyrsiau sy'n swnio'n naturiol rhwng dau siaradwr gyda chylchdroi addas, prosody, a mynegiant emosiynol. Mae Dia yn berffaith ar gyfer creu cynnwys arddull pod, cyfathrebu llyfr sain, a AI cyfathrebu rhyngweithiol.
Nari Labs
Apache 2.0
Medium
en
4GB
_Na
2
Parler TTS
Standard
Parler TTS yw model testun-i-lafar sy'n defnyddio disgrifiadau llais iaith naturiol i reoli'r siarad a gynhyrchir. Yn hytrach na dewis o bleidleisiau rhagosodedig, chi sy'n disgrifio'r llais rydych chi ei eisiau (e.e., "llais menyw oer gydag arwyddair Prydeinig bach, yn siarad yn araf ac yn glir") a Parler sy'n creu siarad sy'n cydweddu â'r disgrifiad hwn. Mae hyn yn ei wneud yn arbennig o hyblyg ar gyfer cymwysiadau creadigol.
Hugging Face
Apache 2.0
Medium
en
4GB
_Na
2
IndexTTS-2
Standard
IndexTTS-2 yw system testun-i-leferydd uwch sy'n rhagori mewn cyfansoddiad llais zero-shot gyda rheoli teimladau grawn-fin. Gall greu siarad gyda tonau teimladau penodol fel hapus, trist, ofnadwy, neu ofnus heb angen data hyfforddi teimladau penodol. Defnyddia'r model fectorau teimladau i reoli'n uniongyrchol mynegiant teimladau'r siarad a gynhyrchir.
Index Team
Apache 2.0
Medium
en, zh
4GB
_Yw
2
Spark TTS
Standard
Spark TTS gan SparkAudio yw model testun-i-leferydd sy'n cyfuno clonio llais gydag arddull siarad a teimlad rheoliadwy. Gan ddefnyddio dim ond 5 eiliad o sain cyfeirio, gall clonio llais ac yna greu siarad gyda teimladau, cyflymderau, ac arddull gwahanol tra'n cadw'r dynodiad llais cloniedig. Defnyddia Spark TTS system reoli seiliedig ar alw.
SparkAudio
Apache 2.0
Medium
en, zh
4GB
_Yw
2
GPT-SoVITS
Standard
Mae GPT-SoVITS yn cyfuno modelu iaith arddull GPT gyda SoVITS (Singing Voice Inference via Translation and Synthesis) ar gyfer clonio llais pwerus mewn ychydig o saethu. Gyda dim ond 5 eiliad o sain cyfeirio, mae'n gallu clonio llais yn gywir a chreu llais newydd tra'n cadw nodweddion unigryw'r siaradwr. Mae'n rhagori ar gyfansoddi llais siarad a chanu.
RVC-Boss
MIT
Slow
en, zh, ja, ko
6GB
_Yw
2
Orpheus
Standard
Model testun-i-leferydd ar raddfa fawr yw Orpheus sy'n cyflawni mynegiant emosiynol ar lefel dynol. Wedi'i hyfforddi ar fwy na 100,000 o oriau o ddata lleferydd amrywiol, mae'n rhagori wrth greu lleferydd gydag emosiynau naturiol, pwyslais, ac arddull siarad. Gall Orpheus gynhyrchu lleferydd sy'n amhosib ei wahanu o recordiadau dynol.
Canopy Labs
Llama 3.2 Community
Medium
en
4GB
_Na
2
Chatterbox
Premium
Mae Chatterbox gan Resemble AI yn fodel clonio llais zero-shot o'r radd flaenaf. Mae'n gallu ail-greu unrhyw lais o sampl sain sengl â chywirdeb anhygoel, gan ddal nid yn unig y timbre ond hefyd yr arddull siarad a'r lliwiau emosiynol. Mae gan Chatterbox hefyd reolaeth emosiwn grawn-fin, sy'n caniatáu i chi addasu ton emosiynol yr iaith a gynhyrchir yn annibynnol o'r dynodiad llais.
Resemble AI
MIT
Medium
en
4GB
_Yw
4
Tortoise TTS
Premium
Tortoise TTS yw'r system testun-i-leferydd aml-lais awto-adferol sy'n rhoi blaenoriaeth i ansawdd sain dros gyflymder. Mae'n defnyddio pensaernïaeth wedi'i harwain gan DALL-E i gynhyrchu lleferydd mor naturiol â phosiod rhagorol a thebygrwydd siaradwr. Er ei fod yn arafach na llawer o ddewisiadau eraill, mae Tortoise yn cynhyrchu rhai o'r lleferydd cyfansawdd mwyaf realistig sydd ar gael yn yr ecosystem ffynhonnell agored.
James Betker
Apache 2.0
Slow
en
8GB
_Yw
4
StyleTTS 2
Premium
Mae StyleTTS 2 yn cyflawni cyfansoddiad TTS ar lefel dynol drwy gyfuno lledaeniad arddull â hyfforddiant gwrthwynebiad gan ddefnyddio modelau iaith siarad mawr. Mae' n creu' r siarad sy' n swnio' n naturiol fwyaf o blith modelau siaradwr sengl, yn cystadlu â recordiadau dynol. Mae StyleTTS 2 yn defnyddio modelu arddull seiliedig ar ledaeniad i adnabod yr ystod lawn o newidiadau mewn siarad dynol.
Columbia University
MIT
Medium
en
4GB
_Na
4
OpenVoice
Premium
Mae OpenVoice gan MyShell.ai yn galluogi clonio llais ar unwaith gydag arweiniad manwl ar arddull llais, teimlad, cystrawen, rhythm, seibiau, ac arwyddair. Mae'n gallu clonio llais o clip sain byr a chreu siarad mewn nifer o ieithoedd tra'n cadw'r dynodiad siaradwr. Mae OpenVoice hefyd yn gweithio fel trawsnewidydd llais, gan ganiatáu trawsnewid llais mewn amser real.
MyShell.ai / MIT
MIT
Medium
en, zh, ja, ko, fr, de, es, it
4GB
_Yw
4
Qwen3 TTS
Standard
Qwen3-TTS yw model testun-i-leferydd 1.7 biliwn o baramedrau o dîm Qwen Alibaba. Mae'n cynnal tri modd: lleisiau rhagosodedig gyda rheoli teimladau (9 siaradwr), clôn llais o 3 eiliad o sain yn unig, a modd dylunio llais unigryw lle gallwch ddisgrifio'r llais rydych ei eisiau mewn iaith naturiol. Mae'n cwmpasu 10 iaith gyda mynegiant uchel a phrosodi naturiol.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
7GB
_Yw
2
Sesame CSM
Premium
Sesame CSM (Conversational Speech Model) yw model 1 biliwn o baramedrau wedi' i ddylunio' n benodol ar gyfer creu siarad cyfathrebu. Mae' n modelu' r patrwm naturiol o gyfathrebu dynol gan gynnwys amseru cymryd tro, ymatebion ôl-sianel, ymatebion emosiynol, a llif cyfathrebu. CSM yn creu sain sy' n swnio fel sgwrsio dynol naturiol yn hytrach na chyfathrebu cyfansawdd.
Sesame
Apache 2.0
Slow
en
8GB
_Na
4
Kokoro
Rhydd
Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.
Hexgrad
Apache 2.0
Fast
Piper
Rhydd
Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.
Rhasspy
MIT
Fast
VITS
Rhydd
VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.
Jaehyeon Kim et al.
MIT
Fast
MeloTTS
Rhydd
MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.
MyShell.ai
MIT
Fast
Bark
Arferol
Bark by Suno is a transformer-based text-to-audio model that can generate highly realistic, multilingual speech as well as other audio like music, background noise, and sound effects. It can produce nonverbal communications like laughing, sighing, and crying. Bark supports over 100 speaker presets and 13+ languages.
Suno
MIT
Slow
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
_Na
Bark Small
Arferol
Bark Small is a distilled version of the Bark model that trades some audio quality for significantly faster inference speeds and lower memory requirements. It retains Bark's ability to generate speech with emotions, laughter, and multiple languages.
Suno
MIT
Medium
en, zh, fr, de, hi, it, ja, ko, pl, pt, ru, es, tr
_Na
CosyVoice 2
Arferol
CosyVoice 2 by Alibaba's Tongyi Lab achieves human-comparable speech quality with extremely low latency, making it ideal for real-time applications. It uses a finite scalar quantization approach for streaming synthesis and supports zero-shot voice cloning, cross-lingual synthesis, and fine-grained emotion control. It outperforms many commercial TTS systems in subjective evaluations.
Alibaba (Tongyi Lab)
Apache 2.0
Medium
en, zh, ja, ko, fr, de, it, es
_Yw
Dia TTS
Arferol
Dia by Nari Labs is a 1.6B parameter text-to-speech model designed specifically for generating multi-speaker dialogue. It can produce natural-sounding conversations between two speakers with appropriate turn-taking, prosody, and emotional expression. Dia is perfect for creating podcast-style content, audiobook dialogues, and interactive conversational AI.
Nari Labs
Apache 2.0
Medium
en
_Na
Parler TTS
Arferol
Parler TTS is a text-to-speech model that uses natural language voice descriptions to control the generated speech. Instead of selecting from preset voices, you describe the voice you want (e.g., "a warm female voice with a slight British accent, speaking slowly and clearly") and Parler generates speech matching that description. This makes it uniquely flexible for creative applications.
Hugging Face
Apache 2.0
Medium
en
_Na
IndexTTS-2
Arferol
IndexTTS-2 is an advanced text-to-speech system that excels at zero-shot voice synthesis with fine-grained emotion control. It can generate speech with specific emotional tones like happy, sad, angry, or fearful without requiring emotion-specific training data. The model uses emotion vectors to precisely control the emotional expression of generated speech.
Index Team
Apache 2.0
Medium
en, zh
_Yw
Spark TTS
Arferol
Spark TTS by SparkAudio is a text-to-speech model that combines voice cloning with controllable emotion and speaking style. Using just 5 seconds of reference audio, it can clone a voice and then generate speech with different emotions, speeds, and styles while maintaining the cloned voice identity. Spark TTS uses a prompt-based control system.
SparkAudio
Apache 2.0
Medium
en, zh
_Yw
GPT-SoVITS
Arferol
GPT-SoVITS combines GPT-style language modeling with SoVITS (Singing Voice Inference via Translation and Synthesis) for powerful few-shot voice cloning. With as little as 5 seconds of reference audio, it can accurately clone a voice and generate new speech while preserving the speaker's unique characteristics. It excels at both speaking and singing voice synthesis.
RVC-Boss
MIT
Slow
en, zh, ja, ko
_Yw
Orpheus
Arferol
Orpheus is a large-scale text-to-speech model that achieves human-level emotional expression. Trained on over 100,000 hours of diverse speech data, it excels at generating speech with natural emotions, emphasis, and speaking styles. Orpheus can produce speech that is virtually indistinguishable from human recordings.
Canopy Labs
Llama 3.2 Community
Medium
en
_Na
Qwen3 TTS
Arferol
Qwen3-TTS is a 1.7 billion parameter text-to-speech model from Alibaba's Qwen team. It supports three modes: preset voices with emotion control (9 speakers), voice cloning from just 3 seconds of audio, and a unique voice design mode where you describe the voice you want in natural language. It covers 10 languages with high expressiveness and natural prosody.
Alibaba (Qwen)
Apache 2.0
Medium
en, zh, ja, ko, de, fr, ru, pt, es, it
_Yw
Tabl Cymharu Modelau
| Model | Datblygwr: | o Fawrth | Ansawdd: | Cyflymder | ieithoedd | Clonio Llywio | VRAM | Trwydded: | credydau | |
|---|---|---|---|---|---|---|---|---|---|---|
| Kokoro | Hexgrad | Free | Fast | 11 | 1.5GB | Apache 2.0 | Rhydd | Defnyddio | ||
| Piper | Rhasspy | Free | Fast | 31 | 0 (CPU only) | MIT | Rhydd | Defnyddio | ||
| VITS | Jaehyeon Kim et al. | Free | Fast | 4 | 1GB | MIT | Rhydd | Defnyddio | ||
| MeloTTS | MyShell.ai | Free | Fast | 6 | 0.5GB (GPU optional) | MIT | Rhydd | Defnyddio | ||
| Bark | Suno | Standard | Slow | 13 | 5GB | MIT | 2 | Defnyddio | ||
| Bark Small | Suno | Standard | Medium | 13 | 2GB | MIT | 2 | Defnyddio | ||
| CosyVoice 2 | Alibaba (Tongyi Lab) | Standard | Medium | 8 | 4GB | Apache 2.0 | 2 | Defnyddio | ||
| Dia TTS | Nari Labs | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Defnyddio | ||
| Parler TTS | Hugging Face | Standard | Medium | 1 | 4GB | Apache 2.0 | 2 | Defnyddio | ||
| IndexTTS-2 | Index Team | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | Defnyddio | ||
| Spark TTS | SparkAudio | Standard | Medium | 2 | 4GB | Apache 2.0 | 2 | Defnyddio | ||
| GPT-SoVITS | RVC-Boss | Standard | Slow | 4 | 6GB | MIT | 2 | Defnyddio | ||
| Orpheus | Canopy Labs | Standard | Medium | 1 | 4GB | Llama 3.2 Community | 2 | Defnyddio | ||
| Chatterbox | Resemble AI | Premium | Medium | 1 | 4GB | MIT | 4 | Defnyddio | ||
| Tortoise TTS | James Betker | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Defnyddio | ||
| StyleTTS 2 | Columbia University | Premium | Medium | 1 | 4GB | MIT | 4 | Defnyddio | ||
| OpenVoice | MyShell.ai / MIT | Premium | Medium | 8 | 4GB | MIT | 4 | Defnyddio | ||
| Qwen3 TTS | Alibaba (Qwen) | Standard | Medium | 10 | 7GB | Apache 2.0 | 2 | Defnyddio | ||
| Sesame CSM | Sesame | Premium | Slow | 1 | 8GB | Apache 2.0 | 4 | Defnyddio |
Y platfform Testun-i-Leferydd AI mwyaf cymhwysolName
Pam Dewis TTS.ai ar gyfer Testun i Leferydd?
TTS.ai yn dod â'r byd ynghyd
Mae pob model yn ffynhonnell agored o dan MIT, Apache 2.0, neu drwyddedau caniatáu tebyg, gan sicrhau bod gennych chi hawliau masnachol llawn i ddefnyddio'r sain a gynhyrchir yn eich prosiectau. P'un a oes angen cyfansoddiad cyflym ac ysgafn arnoch ar gyfer cymwysiadau gwir-amser neu allbwn ansawdd stiwdio rhagorol ar gyfer llyfrau sain a podcasts, mae gan TTS.ai y model cywir ar gyfer pob achos defnydd.
Modelau Am Ddim, Dim Angen Cyfrif
Dechreuwch yn syth gyda thri model TTS am ddim: Piper (yn gyflym iawn, yn ysgafn), VITS (cymysgu nerfol o ansawdd uchel), a MeloTTS (cynhaliaeth aml-iaith). Dim cofrestru, dim cerdyn credyd, dim cyfyngiadau ar genhedloedd. Mae modelau am ddim yn cynnal Saesneg a nifer o ieithoedd eraill gydag allbwn sain naturiol sy'n addas i'r rhan fwyaf o gymwysiadau.
Prosesu Gyflymedig-GPU
Mae pob model TTS yn rhedeg ar GPU NVIDIA arbenigol ar gyfer amserau cynhyrchu cyflym a chyson. Mae modelau am ddim yn cynhyrchu sain mewn llai na 2 eiliad fel arfer. Mae modelau safonol fel Kokoro, CosyVoice 2, a Bark yn cymryd 3-5 eiliad ar gyfartaledd. Mae modelau premiwm gyda'r ansawdd uchaf, fel Tortoise a Chatterbox, yn prosesu mewn 5-15 eiliad yn dibynnu ar hyd y testun.
Cynhelir 30+ iaith
Creu siarad mewn mwy na 30 o ieithoedd gan gynnwys Saesneg, Sbaeneg, Ffrangeg, Almaeneg, Eidaleg, Portiwgaleg, Tsieinëeg, Japaneg, Corea, Arabeg, Hindi, Rwsieg, a llawer mwy. Mae rhai modelau yn cynnal cyfansoddiad rhwng ieithoedd, sy'n golygu y gallwch greu siarad mewn iaith nad oedd y llais gwreiddiol erioed wedi ei hyfforddi arni. CosyVoice 2 a GPT-SoVITS sy'n rhagorol mewn clonio llais rhwng ieithoedd.
API ar gyfer datblygwyr
Cyfuno TTS.ai â'ch rhaglenni gyda'n API REST sy'n gydnaws â OpenAI. Un diweddbwyntiau ar gyfer pob model 24+. Python, JavaScript, cURL, a Go SDKs. Cynhaliaeth llif ar gyfer rhaglenni amser real. Prosesu batch ar gyfer creu cynnwys ar raddfa fawr. Webhooks ar gyfer hysbysiadau async. Ar gael ar gynlluniau Pro a Enterprise.
Cwestiynau a Ofynnir yn Aml
Dechrau Trosi Testun i Leferydd Nawr
Ymuno â miloedd o gynhyrchwyr sy'n defnyddio TTS.ai. Cael 50 credyd am ddim gyda chyfrif newydd. Modelau am ddim ar gael heb gofrestru.