Àwọn àwòrán àkọlé ìṣàmúlò-ètò

Gbogbo àwọn módèlè̀ TTS nínú àwọn pálẹ́ẹ̀lì wa ní afẹ́fẹ́ pẹ̀lú́ àwọn lísínsì tí a fẹ́. MIT, Apache 2.0 — kò ní ìjádé, kò ní ìgbàyélú, kò ní owó lísínsì tí a kò lè fi hàn. Lò nípá API wà, tàbí lójútó wọn nípá ińfráẹ́ẹ̀kì rẹ̀.

Àwọn Ìṣàmúlò-ètò Mìíràn Àwọn Àwọn Àwọn Àwọn Apache Àwọn Ààyè-iṣẹ́ GitHub

_Yanju

Free pẹlu Kokoro, Piper, VITS, MeloTTS
Àwọn àwòrán tí o ti ṣẹ̀dà tí o bá han níbẹ̀
Tí a Fi Ṣẹ̀dà
_Ṣàfikún
O fẹ́ TTS.ai? Fì sọ̀kalẹ̀ fún àwọn ọrẹ̀ rẹ̀!

Àwọn Ìfànẹ́ Ìṣàmúlò-ètò TTS

Kini idi ti àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn àwọn

Gbogbo àwọn ààyè-iṣẹ́ àìfilọ́lẹ̀

Every model on TTS.ai uses a permissive open-source license. No proprietary black boxes, no vendor lock-in, no unexpected licensing fees.

Apache

Àwọn àwọn àwòrán ní ìṣẹ̀dà láti inú MIT tàbí Apache 2.0, àwọn ìṣẹ̀dà àìṣiró-ìṣàfilọ́lẹ̀ tí o jú. Lò nípa ìṣowo, ìṣàfarawe, ìṣàfilọ́lẹ̀ padà— kò ní àwọn ìgbàjójú.

Àwọn Ààyè-iṣẹ́

Ṣàfihàn àwọn módè́lì àti ìṣàmúlò-ètò fún ọ̀rọ̀rọ̀ rẹ̀. Ìdáràn fún àwọn ààyè-iṣẹ́ rẹ̀, àwọn ìṣàfihàn, àti àwọn àgbègbè. Kò ní ìgbà tí a fẹ́.

GPU tí a fi pamọ́

Àwọn móòdù ní pàtó fún NVIDIA GPÙ̀ àti ìrànwọ́ CUDA. Piper̀ láàmúlò nípa CPÙ lọ́wọ́lọ́wọ́. Móòdù àwọn púpọ̀ ní niló 2-8GB VRAM fún ìṣàfarawé.

Àwọn Àwọn Àwọn Àwọn Àwọn

Active open-source communities maintain and improve these models. Contributions welcome — submit bugs, improvements, and new voices on GitHub.

Àwọn Ìṣàmúlò-ètò

Gbogbo àwọn ìṣàmúlò-ètò náà náà gba ìlò-ètò fún iṣẹ́ nínú àwọn lísínsì wọn. Ṣẹ̀dà àwọn nǹkan, tá àwọn iṣẹ́, àti ìṣàmúlò-ètò fún iṣẹ́ tí kò ní ẹ̀yàn àwọn ẹ̀yàn ìlò-ètò.

Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn

Àwọn ìṣàmúlò-ètò, àwọn ìṣẹ́dá rẹ̀, àti ohun tí o ṣè

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Ó dara jù fún: Apache 2.0 — ìṣàmúlò-ètò ọ̀fẹ̀ tí o dara jú, 82M àwọn ìṣàmúlò-ètò, rọ́ọ̀nù fún alábòójútó

Àwọn ààyè-iṣẹ́ Kokoro

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Ó dara jù fún: MIT — CPU-kan, to dara fún àwọn àpá-irinṣẹ́ ìsàlẹ̀-ilà àti àwọn ààyè-iṣẹ́ ìṣàfarawe-ẹni-ní

Àwọn ààyè-iṣẹ́ Piper

VITSVITS

Free

Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech.

Fast 3/5

Ó dara jù fún: MIT — ààyè ìdájọ́ tí a lò láti mú àwọn móòdù ìsàlẹ̀-ilà láti sà

Àwọn ààyè-iṣẹ́ VITS

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Ó dara jù fún: MIT — àwọn ìṣàfilọ́lẹ̀ ìṣàfilọ́lẹ̀ àwòrán tí a kò lè gbọ́ nínú TTS ìṣàfarawé

Àwọn ààyè-iṣẹ́ Bark

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 Àwọn Àmì-ìwé

Ó dara jù fún: Apache 2.0 — ìṣàmúlò-ètò ìṣàfihàn ìṣàfihàn tí a kọ̀ nípa ìṣàfihàn

Àwọn ààyè-iṣẹ́ Tortoise TTS

OpenVoiceOpenVoice

Premium

Instant voice cloning with granular control over style, emotion, and accent.

Medium 4/5 Àwọn Àmì-ìwé

Ó dara jù fún: MIT — ìṣàfarawé àwọn ìròyìn àwọn ìsàlẹ̀-ilà àti ìpéwọ̀n ìṣàfarawé àwọn ìṣàmúlò-ilà

Àwọn ààyè-iṣẹ́ OpenVoice

Bii o ṣe le lo TTS orisun-aṣiṣii

Ló àwọn API ààyè-iṣẹ́ wà tàbí láti ló àwọn àwọn ìṣàmúlò-ètò rẹ̀

1

Wá Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn Àwọn

Browse our catalog of 20+ open-source TTS models. Each model page shows the license, architecture, capabilities, and self-hosting requirements.

2

Wá nínú Awáròyìn Rẹ̀

Ṣayẹwo àwọn módè́ẹ̀lì fún TTS.ai nípa ìṣàfihàn ohunkohun. Àwọn sáà GPU wa nípa ìṣàfarawé ìṣàfarawé láti jẹ́ pé o lè ṣàyẹwo ìgúnrégé nípa ìṣàfihàn ara-ẹni.

3

Àwọn Ìṣàfilọ́lẹ̀ Àwọn Àwọn Ìṣàfilọ́lẹ̀

Clone model repos from GitHub and run locally, or use our hosted API for production. Self-hosting gives full control; our API provides managed infrastructure.

4

Ṣẹ̀dá Àtòjọ-ètò Rẹ̀

Ṣàfikún TTS nínú ohun-iní rẹ̀ nípa lórí àwọn àwọn àwòrán tí a fi pamọ́ fún ara wa tàbí REST API wa. Àwọn àwòrán gbogbo ní a lè lò nípa ìmọ̀ràn àti àwọn ẹ̀yàn.

Àwọn ìṣàfarawé ìṣẹ̀dà

Gbogbo àwọn módè́lì lórí TTS.ai lo àwọn ìwé-aládàrọ̀ àìfilọ́lẹ̀ tí a ṣí

Àwọn ìṣàmúlò-ètò Àwọn Ààyè-iṣẹ́ Lórúkọ́ Àwọn ìkúndùǹ Àwọn Ààyè-iṣẹ́ Àwọn Àkọ́gbègbè
Kokoro Apache 2.0 Tí a fẹ́
Piper MIT Àwọn ìkúndùǹ
VITS MIT Àwọn ìkúndùǹ
MeloTTS MIT Àwọn ìkúndùǹ
Chatterbox MIT Àwọn ìkúndùǹ
Tortoise TTS Apache 2.0 Tí a fẹ́
StyleTTS 2 MIT Àwọn ìkúndùǹ
OpenVoice MIT Àwọn ìkúndùǹ
Sesame CSM Apache 2.0 Tí a fẹ́
Orpheus Llama 3.2 "Built with Llama"

Àwọn Ìṣàfilọ́lẹ̀ Rẹ́

Rọ́ọ̀nù àwọn àwòrán fún ara rẹ̀ tàbí fi wà lórí àwọn ààyè-iṣẹ́

Ààyè-iṣẹ́ Fún Rẹ̀ Rẹ̀

Àwọn móòdù gbogbo nípa TTS.ai ní àwọn tí a lè lò nípa ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀ nípa GitHub tàbí Hugging Face. Ṣàfihàn àwọn ìṣàfilọ́lẹ̀, àwọn ìpàrárà, àtí ìṣàfilọ́lẹ̀ àwọn ìṣàfilọ́lẹ̀ nípa GPUs rẹ̀. Ò ní ìdáràn nípa ìṣàfilọ́lẹ̀, ìdáràn, àtí ìṣàfilọ́lẹ̀.

  • Àwọn ààyè-iṣẹ́ ìdáràn - àwòrán kò fi àwọn sáà rẹ̀ kù
  • Kò ní àwọn owó nípa àgbékalẹ̀ ìṣàmúlò-ètò
  • Àwọn ìṣàmúlò-ètò ìṣàfarawé fún àwọn ààyè-iṣẹ́ rẹ̀
  • Ní ìṣàmúlò-ètò GPU (NVIDIA tí a fọwọ́sì)
  • O lè ṣakoso àwọn ìṣàmúlò-ètò, ìṣàmúlò-ètò, àti àwọn ìpéwọ̀n

Lo TTS.ai Hosted API

Gbaawọn ìwọlé nígbà kan sí gbogbo àwọn àwọn àwọn ààyè-iṣẹ́ 20+ nípa API REST kan. A tí n ṣakosó ìṣàfilọ́lẹ̀ GPU, àwọn ìṣàfilọ́lẹ̀ àwọn ààyè-iṣẹ́, àwọn ìṣàfilọ́lẹ̀ àwọn àwọn àwọn àwọn àwọn àwọn. Bọ́tìnì API kan náà ǹfí ọ̀kan lọ́wọ́ lọ́wọ́ lọ́wọ́ lọ́wọ́.

  • Kò ní àwọn ìrísí-lẹ́tà GPU tí a fẹ́
  • Gbogbo 20+ awọn awoṣe nipasẹ API kan
  • Àwọn ìṣàmúlò-ètò àti àwọn ìdárànṣe àwọn ìṣàmúlò-ètò
  • 99.9% uptime pẹlu infrastructura redundant
  • Fi owò lọ́wọ́lọ́wọ́ fun ohun tí o lò

Ìṣàfilọ́lẹ̀ Àìpẹ̀: API tàbí Òjútó Rẹ́

Ló àwọn API ààyè-iṣẹ́ wà, tàbí fi Kokoro hàn nínú àwọn àkókò

Option 1: TTS.ai Hosted API Ójútó
import requests

response = requests.post("https://api.tts.ai/v1/tts", json={
    "text": "Open source TTS with a simple API.",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "wav"
}, headers={"Authorization": "Bearer YOUR_API_KEY"})

with open("output.wav", "wb") as f:
    f.write(response.content)
Àwọn Àtòjọ-ẹ̀yàn 2: Ìdáràn
# Install Kokoro locally
pip install kokoro

# Generate speech on your own GPU
import kokoro

pipeline = kokoro.KPipeline(lang_code="a")
generator = pipeline("Hello from your own server!", voice="af_heart")
for i, (gs, ps, audio) in enumerate(generator):
    kokoro.save(audio, f"output_{i}.wav")

Open Source, Agbara-iṣe

API wa ti a fi pamọ́ jẹ́ ki TTS-ọ̀fẹ̀-ọ̀fẹ̀ gbàwọlé látì kò ní ìṣakoso GPUs.

Àwọn Ìjánu-ìsún

$0

15,000 àwọn àmì-àṣírí nínú ìṣàfilọ́lẹ̀

  • 4 open-source módèlè̀ ọ̀fẹ̀
  • Kò ní ìṣàmúlò-ètò fún ìlòòrò
  • Àwọn ìṣàmúlò-ètò tí a fọwọ́sì

Àwọn Ìṣàmúlò-ètò

$9

500,000 àwọn àmì-ìwé/oṣu

  • Gbogbo àwọn módè́lì 20+ tí a ṣí
  • Ìṣàfarawé àwọn àmì-ìwé
  • Àwọn Ìṣàmúlò-ètò

Àwọn Àwọn Àwọn

$29

2,000,000 àwọn àmì-ìwé/oṣu

  • Àwọn ìṣàmúlò-ètò GPU ìṣàfarawé
  • Àwọn ìṣàmúlò-ètò ìpele-òkè
  • Àwọn ìṣàfilọ́lẹ̀ àwọn ìṣẹ̀dá
Wó Àwọn Ìtàn

Àwọn Àtòjọ-ẹ̀yàn

Àwọn ibeere àwọn ìṣàmúlò-ètò àwọn àkọlé àwọn ìṣàmúlò-ètò àìṣiró

Yes. Every model on TTS.ai uses a permissive open-source license — either MIT or Apache 2.0. We specifically exclude models with restrictive licenses (like Coqui's CPML or non-commercial CC-BY-NC). You can verify each model's license on its GitHub repository.

Àwọn àwọn ìṣẹ̀dá àìfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣàfilọ́lẹ̀-ìṣa

Òyà. Módélù fún gbogbó àwọn lè jẹ́ ààyè fún ara wọn. Klọ́ọ̀nì àwọn àwọn àwọn àwọn ààyè fún ara wọn láti inú GitHub, fi àwọn ìpèwọ̀n hàn, gba àwọn ìṣàmúlò-ètò àwọn módélù láti inú, àti láti rọ́ọ̀nù ìṣàmúlò-ètò. À tì fi àwọn àkọsílẹ̀ fún àwọn ìṣàmúlò-ètò fún ara wọn fún módélù fún ara wọn pamọ́, àti GPU, RAM, àti ìṣàfihàn Python.

Àwọn ìṣàmúlò-ètò yatọ láti inú àwọn ìṣàmúlò-ètò. Piper kò niló GPU (CPU nikan). Kokoro àti MeloTTS niló 1-2GB VRAM. Àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò ìṣàmúlò-ètò ìṣàmúlò-ètò 4GB VRAM. Tortoise àti Sesame CSM niló 8GB. A NVIDIA RTX 3060 (12GB) lè rọ́ọ̀nù àwọn ìṣàmúlò-ètò ìṣàmúlò-ètò kíì.

Ya. Ààyè ìṣàmúlò-ètò tí a ṣí gbá ìṣàmúlò-ètò láti inú àwọn ìṣàmúlò-ètò ìṣàfarawé. Àwọn ìṣàmúlò-ètò bíi GPT-SoVITS àti Bark ń fi àwọn ìsàmúlò-ètò ìṣàmúlò-ètò ìṣàmúlò-ètò pamọ́. O lè kọ́ àwọn ìṣàmúlò-ètò ní pàtó àwọn ààtò ìsàlẹ̀-ètò rẹ̀ láti ṣẹ̀dá àwọn ìsàlẹ̀-ètò ìṣàfihàn tàbí lágbára ìṣàfihàn fún àwọn ètò kan.

Top open-source models (Kokoro, StyleTTS 2, Chatterbox) now match or exceed commercial services like ElevenLabs and Google TTS in quality benchmarks. The main advantage of commercial services is managed infrastructure and support, not audio quality.

A ti yọ wọn kuro. XTTS/XTTS-v2 (Coqui's CPML — kò ní ìṣowó), F5-TTS (CC-BY-NC — kò ní ìṣowó), àti Higgs-v2 (Boson License — tí a fi hàn) tí a ti yọ gbogbo wọn kuro. Módè́ẹ̀lì fún TTS.ai ní a tì ṣàyẹwo pé ò jẹ́ ìlò ní ìṣowó.

Yes. Most models accept community contributions via GitHub. You can submit bug reports, voice recordings for new languages, code improvements, and documentation. Check each model's GitHub repository for contribution guidelines and active issues.

Fi àwọn àwọn àwòrán paṣẹ àti paṣẹ nígbà tí a kò bá ṣè nípa ìrànwọ́ GPU. Àwọn àwọn ààtò GPU wà n ṣiṣẹ́ àwọn àwòrán 20+ nípa 4x Tesla P40 (96GB VRAM tó kùnà) nípa ìṣàfilọ́lẹ̀ dínámì. Fun àwọn àwọn ayẹyẹ-ara, GPU 24GB kan lè fi àwọn àwòrán 3-5 hàn nípa ìdára.

Àwọn móòdù fún àwọn àwòrán Docker àti àwọn fáìlì Docker. Fún ìṣàmúlò-ètò àwọn móòdù àwọn, o lè kọ́ àwọn ìṣàfihàn Docker ààyè-iṣẹ́ láti lò láti gba ìṣàfihàn GPU. Àwọn ààyè-iṣẹ́ àwọn sáà API wa lè lò láti fi àwọn ìṣàfihàn àwọn ìṣàfihàn pamọ́.

Most models require Python 3.10-3.12. Coqui TTS (VITS) specifically needs Python 3.11. We recommend Python 3.12 for most models. Check each model's requirements.txt for exact version compatibility.

Ya. Àwọn ìṣẹ̀dá MIT ati Apache 2.0 gba ìlòjónú ìṣowo. O lè kọ̀ àwọn àwọn ohun-ini SaaS, àwọn ìṣàmúlò-ètò móbílì, àwọn ere, àti àwọn iṣẹ́ láti ló àwọn módè́lì yìí láti mú àwọn àwọn owó ìṣẹ̀dá, àwọn ẹ̀yàn, àti àwọn ìṣàfilọ́lẹ̀ (nípá tí ìṣàfilọ́lẹ̀ jẹ́ ayọ̀).
5.0/5 (1)

Àwọn àwọn àgbéwọlé rẹ̀ lè jẹ́ ìrànwọ́ fún wa.

Wá Open Source TTS ní ọjọ́ yìí

20+ awọn awoṣe orisun-iṣilọ, gbogbo wọn ni iwe-aṣẹ iṣowo. Lo API wa tabi olori-ararẹ - yiyan jẹ rẹ.