Libera AI Teksto- al- ParoloComment
31+ malfermkodaj modeloj, 231+ voĉoj, 34+ Lingvoj. Neniu konto necesas.
Ĉio, kion vi bezonas por voĉa AIName
Pli ol 30 iloj funkciigitaj per malfermkodaj AI-modeloj
31+ AI- voĉaj modeloj
La plej ampleksa kolekto de malfermkodaj TTS-modeloj en unu platformo
Kokoro Free
Kokoro estas 82-miliona parametra teksto-al-parolo-modelo kiu bone superas sian pezan klason. Spite sian malgrandan grandecon, ĝi produktas rimarkinde naturan kaj esprimplenan paroladon. Kokoro subtenas plurajn lingvojn inkluzive de la angla, japana, ĉina, kaj korea kun vario de esprimplenaj voĉoj. Ĝi funkcias nekredeble rapide — generante sonon preskaŭ 100-oble pli rapide ol realtempa sur GPU.
Plej bona por: Altkvalita TTS kun minimuma prokrasto, fluantaj aplikaĵoj
Provu senpage
Piper Free
Piper estas malpeza teksto-al-vorta motoro evoluigita de Rhasspy kiu uzas VITS kaj larynx arkitekturojn. Ĝi ruliĝas tute sur CPU, kio faras ĝin ideala por periferiaj aparatoj, hejma aŭtomatigo, kaj aplikaĵoj kiuj bezonas senretan TTS. Kun pli ol 100 voĉoj en pli ol 30 lingvoj, Piper liveras nature sonantan paroladon je realtempa rapideco eĉ sur Raspberry Pi 4.
Plej bona por: Rapidaj antaŭrigardoj, alirebleco, kaj enkorpigitaj aplikaĵoj
Provu senpage
VITS Free
VITS (Variaciona Inferigo kun Kontraŭstara Lernado por Fina Fina Tekst- al- Parola Metodo) estas paralela fin- al- fina TTS- metodo kiu generas pli nature sonantan sonon ol nunaj du- paŝaj modeloj. Ĝi adoptas variacionan inferigon plifortigitan per normaligaj fluoj kaj kontraŭstara trejna procezo, atingante signifan plibonigon en natureco.
Plej bona por: Ĝeneraluzebla teksto-al-vorto kun natura prozodioName
Provu senpage
MeloTTS Free
MeloTTS de MyShell. ai estas multlingva TTS- biblioteko subtenanta la anglan (usonan, britan, hindan, aŭstralian), la hispanan, la francan, la ĉinan, la japanan, kaj la korean. Ĝi estas ekstreme rapida, traktante tekston je preskaŭ realtempa rapideco nur per CPU. MeloTTS estas desegnita por produkta uzo kaj subtenas kaj CPU kaj GPU- dedukton.
Plej bona por: Produktivaj aplikaĵoj kiuj bezonas rapidan, multlingvan TTS
Provu senpage
OuteTTS Free
OuteTTS etendas grandajn lingvajn modelojn per tekst-al-parolaj kapabloj dum konservado de la origina arkitekturo. Ĝi subtenas plurajn internajn partojn inkluzive llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, kaj eĉ retumilan inferecon per Transformers.js. Ĝi havas nulan voĉan klonadon per parolantoj konservitaj kiel JSON.
Plej bona por: Edge-disvastigo, retumilo-bazita TTS, malalt-risurcaj medioj
Provu senpage
Pocket TTS Free
Pocket TTS de Kyutai (kreintoj de Moshi) estas kompakta 100M parametra teksto-al-vorta modelo kiu estas multe pli potenca ol ĝia pezo. Ĝi funkcias efike sur CPU, subtenas nulan voĉan klonadon el ununura aŭd-ekzemplo, kaj produktas nature sonantan paroladon. La malgranda modelo faras ĝin ideala por rando-disvastigo kaj malriĉaj rimedoj.
Plej bona por: Malpeza disvastigo, nur CPU-aj medioj, rapida voĉ-klonado
Provu senpage
Kitten TTS Free
Kitten TTS de KittenML estas ultra- malpeza teksto- al- parola modelo konstruita sur ONNX. Kun variantoj de 15M ĝis 80M parametroj (25- 80 MB sur disko), ĝi liveras altkvalitan voĉan sintezon sur CPU sen bezonado de GPU. Ĝi havas 8 enkonstruitajn voĉojn, agordeblan parolrapidecon, kaj enkonstruitan tekstan antaŭtraktadon por nombroj, valutoj, kaj unuoj. Ideala por rando- disvastigo kaj malalt- latentaj aplikaĵoj. Name
Plej bona por: Rapida malpeza TTS, rando- disvastigo, malalt-latenca aplikaĵo
Provu senpage
Bark Standard
Transform-bazita teksto-al-aŭda modelo kiu generas realisman paroladon, muzikon, kaj sonajn efektojn.
Programisto: Suno · Licenco: MIT
Provu ĝin
Bark Small Standard
Malpeza versio de Bark kun pli rapida deduktado kaj pli malalta memoro-uzo.
Programisto: Suno · Licenco: MIT
Provu ĝin
CosyVoice 2 Standard
Alibaba's skalebla streaming TTS kun homa-pareco natureco kaj preskaŭ nula latenteco.
Programisto: Alibaba (Tongyi Lab) · Licenco: Apache 2.0
Provu ĝin
Dia TTS Standard
Multi-parolanto dialogo generacio modelo kiu kreas naturajn konversaciojn inter parolantoj.
Programisto: Nari Labs · Licenco: Apache 2.0
Provu ĝin
Parler TTS Standard
Priskribu la voĉon kiun vi volas en natura lingvo kaj Parler kreos kongruan paroladon.
Programisto: Hugging Face · Licenco: Apache 2.0
Provu ĝin
GLM-TTS Standard
Ĝi atingas la plej malaltan karakteran eraroprocenton inter malferm-fontaj TTS-modeloj.
Programisto: Zhipu AI · Licenco: GLM-4 License
Provu ĝin
IndexTTS-2 Standard
Ĝenerale oni parolas pri TTT-legilo, kiu havas bonan grafikan interfacon kaj altan rapidecon.
Programisto: Index Team · Licenco: Bilibili Model License
Provu ĝin
Spark TTS Standard
Voĉo klonado TTS kun kontrolata emocio kaj parola stilo tra alvokoj.
Programisto: SparkAudio · Licenco: CC BY-NC-SA 4.0
Provu ĝin
GPT-SoVITS Standard
Kelkaj voĉoj klonado TTS kiu replikas ajnan voĉon de nur 5 sekundoj de aŭdo.
Programisto: RVC-Boss · Licenco: MIT
Provu ĝin
Orpheus Standard
100.000 horoj da parolaj datumoj.
Programisto: Canopy Labs · Licenco: Llama 3.2 Community
Provu ĝin
Qwen3 TTS Standard
Alibaba's multlingva TTS kun voĉo klonado, antaŭdifinitaj voĉoj, kaj voĉo dezajno de teksto.
Programisto: Alibaba (Qwen) · Licenco: Apache 2.0
Provu ĝin
Chatterbox Turbo Standard
Pli rapida Chatterbox kun sub-200ms latenteco kaj paralingvaj etikedoj por ridoj, tuso, kaj pli.
Programisto: Resemble AI · Licenco: MIT
Provu ĝin
Dia 2 Standard
Ĝi estas la unua TTS kun multi-parolanta dialogo kaj paralingvistikaj indikoj.
Programisto: Nari Labs · Licenco: Apache 2.0
Provu ĝin
VoxCPM Standard
La 44.1 kHz-a frekvenco estas uzata por la elsendoj de la radiostacio.
Programisto: OpenBMB · Licenco: Apache 2.0
Provu ĝin
TADA Standard
La 5-a linio estas pli mallonga ol la 2-a linio, sed pli longa ol la 1-a linio.
Programisto: Hume AI · Licenco: MIT
Provu ĝin
VibeVoice Standard
Microsoft-modelo por longforma multparolanta enhavo kiel podkastoj kaj aŭdlibroj.
Programisto: Microsoft · Licenco: MIT
Provu ĝin
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Programisto: Alibaba (FunAudioLLM) · Licenco: Apache 2.0
Provu ĝin
CosyVoice 2
Alibaba's skalebla streaming TTS kun homa-pareco natureco kaj preskaŭ nula latenteco.
Lingvoj: en, zh, ja, ko, fr, de, it, es
Kloni voĉon
GLM-TTS
Ĝi atingas la plej malaltan karakteran eraroprocenton inter malferm-fontaj TTS-modeloj.
Lingvoj: en, zh
Kloni voĉon
IndexTTS-2
Ĝenerale oni parolas pri TTT-legilo, kiu havas bonan grafikan interfacon kaj altan rapidecon.
Lingvoj: en, zh
Kloni voĉon
Spark TTS
Voĉo klonado TTS kun kontrolata emocio kaj parola stilo tra alvokoj.
Lingvoj: en, zh
Kloni voĉon
GPT-SoVITS
Kelkaj voĉoj klonado TTS kiu replikas ajnan voĉon de nur 5 sekundoj de aŭdo.
Lingvoj: en, zh, ja, ko
Kloni voĉon
Chatterbox
Ŝtata-de-la-arto zero-shot voĉo klonado kun emocia kontrolo de Resemble AI.
Lingvoj: en
Kloni voĉon
Tortoise TTS
Plurvoĉa teksto-al-parolo fokusiĝas je kvalito kun aŭtoregresiva arkitekturo.
Lingvoj: en
Kloni voĉon
OpenVoice
Tuja voĉo klonado kun granulara kontrolo super stilo, emocio, kaj akcento.
Lingvoj: en, zh, ja, ko, fr, de, es, it
Kloni voĉon
Qwen3 TTS
Alibaba's multlingva TTS kun voĉo klonado, antaŭdifinitaj voĉoj, kaj voĉo dezajno de teksto.
Lingvoj: en, zh, ja, ko, de, fr, ru, pt, es, it
Kloni voĉon
Chatterbox Turbo
Pli rapida Chatterbox kun sub-200ms latenteco kaj paralingvaj etikedoj por ridoj, tuso, kaj pli.
Lingvoj: en
Kloni voĉon
VoxCPM
La 44.1 kHz-a frekvenco estas uzata por la elsendoj de la radiostacio.
Lingvoj: en, zh
Kloni voĉon
OuteTTS
LLM-bazita TTS kiu ruliĝas sur CPU, GPU, aŭ retumilo tra llama.cpp kaj Transformers.js.
Lingvoj: en
Kloni voĉon
Pocket TTS
100 mm-a diametro de la ĉasio, kun 100 mm-a diametro de la ĉasio.
Lingvoj: en, fr
Kloni voĉon
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Lingvoj: en, zh, ja, ko, de, es, fr, it, ru
Kloni voĉon
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Lingvoj: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Kloni voĉon
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Lingvoj: en, zh
Kloni voĉonProgramisto-unua API
OpenAI-kongrua REST API. Unu finpunkto, pli ol 22 modeloj. Subteno de fluado por realtempaj aplikaĵoj.
- OpenAI-kongrua formato
- Flua TTS por realtempaj aplikaĵoj
- Batch- prilaborado por grandaj taskoj
- Webhook-atentigoj
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Simpla, Travidebla Prezigo
Komencu libera. Skaliĝu dum vi kreskas.
Libera
15, 000 signoj
- Kokoro, Piper, VITS, MeloTTS
- Limito de 500 signoj
- 3 gen/ horo (sen konto)
Lanĉilo
500 kreditoj/monato
- Ĉiuj 22+ modeloj
- 100, 000 signoj po generacio
- Voĉa klonado
Pro
2,000 kreditoj/monato
- Ĉio en Startilo
- API- aliro
- Prioritata prilaborado
Oftaj demandoj
What could we improve? Your feedback helps us fix issues.
Komenci uzi AI-voĉon hodiaŭ
Aliĝi al kreintoj, programistoj kaj entreprenoj uzantaj TTS.ai