Libreng AI > Teksto sa Pagsasalita

31+ > open-source modelo, 231+ mga tinig, 34+ Hindi kinakailangan ang account.

8K+
Mga manunulat
32K+
> henerasyon
31+
Mga modelo ng AI
231+
Mga boses
0/500 Mga character · Sign up for 5,000 per generation → Libre
I-love TTS.ai? Ibahagi sa iyong mga kaibigan!

> Lahat ng kailangan mo para sa Voice AI

> 30+ mga tool na pinalakas ng mga modelo ng open-source AI

31+ Mga modelo ng boses ng AI

> Ang pinaka-komprehensibong koleksyon ng mga modelo ng open-source TTS sa isang platform

KokoroKokoro Free

Ang Kokoro ay isang 82 milyong parameter na modelo ng text-to-speech na may mga punch na mas mataas sa timbang nito. Sa kabila ng maliit na sukat nito, ito ay lumilikha ng kapansin-pansin na natural at masining na pagsasalita. Sinusuportahan ng Kokoro ang maraming wika kabilang ang Ingles, Hapon, Intsik, at Koreano na may iba't ibang mga masining na boses.

Pinakamahusay para sa: > Mataas na kalidad na TTS na may minimum na latency, streaming application

Subukan ito para sa libreng

PiperPiper Free

Ang Piper ay isang lightweight text-to-speech engine na binuo ng Rhasspy na gumagamit ng VITS at larynx architectures. Ito ay tumatakbo ng buo sa CPU, na ginagawang perpekto para sa mga aparatong gilid, home automation, at mga application na nangangailangan ng offline TTS. Sa higit sa 100 mga boses sa 30+ wika, ang Piper ay naghahatid ng natural na tunog na pagsasalita sa real-time na bilis kahit na sa isang Raspberry Pi4.

Pinakamahusay para sa: > Mabilis na preview, accessibility, at naka-embed na mga application

Subukan ito para sa libreng

VITSVITS Free

Ang VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) ay isang parallel end-to-end na paraan ng TTS na bumubuo ng mas natural na tunog na audio kaysa sa kasalukuyang dalawang-stage na modelo. Ito ay gumagamit ng variation inference na pinahusay ng normalisasyon ng daloy at isang adversarial na proseso ng pagsasanay, na nakamit ang isang makabuluhang pagpapabuti sa naturalness.

Pinakamahusay para sa: > Pangkalahatang-layunin na teksto-sa-pagsasalita na may natural na prosody

Subukan ito para sa libreng

MeloTTSMeloTTS Free

Ang MeloTTS ay isang multilingual na TTS library na sumusuporta sa Ingles (Amerikano, Briton, Indian, Australian), Espanyol, Pranses, Intsik, Hapon, at Koreano. Ito ay lubhang mabilis, pagpoproseso ng teksto sa malapit na real-time na bilis sa CPU lamang. MeloTTS ay dinisenyo para sa paggamit ng produksyon at sumusuporta sa parehong CPU at GPU pagbubuod.

Pinakamahusay para sa: > Production application na nangangailangan ng mabilis, multilingual TTS

Subukan ito para sa libreng

OuteTTSOuteTTS Free

Ang OuteTTS ay nagpapalawak ng mga malalaking modelo ng wika na may kakayahang text-to-speech habang pinapanatili ang orihinal na arkitektura. Sinusuportahan nito ang maraming mga backend kabilang ang llama.cpp (CPU / GPU), Hugging Face Transformers, ExLlamaV2, VLLM, at kahit na browser inference sa pamamagitan ng Transformers.js.

Pinakamahusay para sa: > Edge pagpapatupad, browser-based TTS, mababang-resource kapaligiran

Subukan ito para sa libreng

Pocket TTSPocket TTS Free

Ang Pocket TTS ni Kyutai (mga tagapaglikha ng Moshi) ay isang compact na 100M parameter na modelo ng text-to-speech na may kakayahang mag-punch ng mas mataas kaysa sa timbang nito. Mahusay itong gumagana sa CPU, sumusuporta sa zero-shot na cloning ng boses mula sa isang solong sample ng audio, at gumagawa ng natural na tunog na pagsasalita.

Pinakamahusay para sa: > Magaan pag-deploy, CPU-lamang kapaligiran, mabilis na boses cloning

Subukan ito para sa libreng

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Pinakamahusay para sa: Fast lightweight TTS, edge deployment, low-latency applications

Subukan ito para sa libreng

BarkBark Standard

Ang mga ito ay mga modelong text-to-audio na may basehan sa transformer na bumubuo ng mga realistikong pananalita, musika, at mga epekto ng tunog.

Tagabuo: Suno · Lisensya: MIT

Subukan ito

Bark SmallBark Small Standard

Ang mga ito ay may mas mababang presyon ng dugo at mas mababang presyon ng dugo.

Tagabuo: Suno · Lisensya: MIT

Subukan ito

CosyVoice 2CosyVoice 2 Standard

Ang mga ito ay ang mga sumusunod: Ang mga natural na bilang ay mga natural na bilang na may hangganan.

Tagabuo: Alibaba (Tongyi Lab) · Lisensya: Apache 2.0

Subukan ito

Dia TTSDia TTS Standard

Ang mga modelong multi-speaker na dialog generation ay lumilikha ng mga natural na pag-uusap sa pagitan ng mga nagsasalita.

Tagabuo: Nari Labs · Lisensya: Apache 2.0

Subukan ito

Parler TTSParler TTS Standard

> Ipaliwanag ang boses na gusto mo sa natural na wika at Parler bumubuo ng tumutugma na pananalita.

Tagabuo: Hugging Face · Lisensya: Apache 2.0

Subukan ito

GLM-TTSGLM-TTS Standard

Ang mga ito ay ang mga pinaka-karaniwang mga uri ng mga modelong TTS.

Tagabuo: Zhipu AI · Lisensya: GLM-4 License

Subukan ito

IndexTTS-2IndexTTS-2 Standard

Ang mga ito ay may mataas na lebel ng kontrol sa emosyon at pag-iisip.

Tagabuo: Index Team · Lisensya: Bilibili Model License

Subukan ito

Spark TTSSpark TTS Standard

> Voice cloning TTS na may kontroladong damdamin at pagsasalita estilo sa pamamagitan ng mga prompt.

Tagabuo: SparkAudio · Lisensya: CC BY-NC-SA 4.0

Subukan ito

GPT-SoVITSGPT-SoVITS Standard

Ang mga ito ay mga karaniwang mga halimbawa ng mga selula na may5mga kromosoma.

Tagabuo: RVC-Boss · Lisensya: MIT

Subukan ito

OrpheusOrpheus Standard

Ang mga 100,000 mga tao ay namatay sa 100,000 mga araw ng digmaan.

Tagabuo: Canopy Labs · Lisensya: Llama 3.2 Community

Subukan ito

Qwen3 TTSQwen3 TTS Standard

Ang mga wikang Awstronesyo ay isang pangkat ng mga wikang Austronesyo, isang pangkat ng mga wikang Austronesyo na sinasalita sa Pilipinas.

Tagabuo: Alibaba (Qwen) · Lisensya: Apache 2.0

Subukan ito

Chatterbox TurboChatterbox Turbo Standard

Ang mga ito ay kinabibilangan ng mga 200 mga uri ng mga halaman, mga 200 mga uri ng mga hayop, at mga 200 mga uri ng mga halaman.

Tagabuo: Resemble AI · Lisensya: MIT

Subukan ito

Dia 2Dia 2 Standard

Ang mga ito ay kinabibilangan ng mga multi-lingual na mga wika at mga wikang paralinguistiko.

Tagabuo: Nari Labs · Lisensya: Apache 2.0

Subukan ito

VoxCPMVoxCPM Standard

Ang 1444 Electra ay isang planetang hindi pangunahin.

Tagabuo: OpenBMB · Lisensya: Apache 2.0

Subukan ito

TADATADA Standard

Ang mga ito ay may karaniwang mga katangian ng mga selula ng T. elegans, ngunit may mga pagkakaiba sa mga selula ng T. lymphoides.

Tagabuo: Hume AI · Lisensya: MIT

Subukan ito

VibeVoiceVibeVoice Standard

Ang modelo ng Microsoft para sa mahabang anyo ng multi-speaker na nilalaman tulad ng mga podcast at audiobooks.

Tagabuo: Microsoft · Lisensya: MIT

Subukan ito

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Tagabuo: Alibaba (FunAudioLLM) · Lisensya: Apache 2.0

Subukan ito

ChatterboxChatterbox Premium

Ang mga ito ay tinatawag na mga "zero-shot" na mga clone na may kakayahang kontrolin ang mga emosyon.

Kalidad:

Subukan ito

Tortoise TTSTortoise TTS Premium

Ang mga salitang ito ay karaniwang ginagamit sa mga tekstong relihiyoso.

Kalidad:

Subukan ito

StyleTTS 2StyleTTS 2 Premium

Ang mga ito ay kinabibilangan ng mga salitang-ugat, mga salitang-ugat na pang-estilistika at mga salitang-ugat na pang-estilistika.

Kalidad:

Subukan ito

OpenVoiceOpenVoice Premium

> Instant boses cloning na may granular kontrol sa estilo, damdamin, at accent.

Kalidad:

Subukan ito

Sesame CSMSesame CSM Premium

Ang mga ito ay mga natural na mga proseso na may kaugnayan sa mga emosyon at mga damdamin.

Kalidad:

Subukan ito

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Kalidad:

Subukan ito

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Kalidad:

Subukan ito

CosyVoice 2CosyVoice 2

Ang mga ito ay ang mga sumusunod: Ang mga natural na bilang ay mga natural na bilang na may hangganan.

Wika: en, zh, ja, ko, fr, de, it, es

Clone Voice

GLM-TTSGLM-TTS

Ang mga ito ay ang mga pinaka-karaniwang mga uri ng mga modelong TTS.

Wika: en, zh

Clone Voice

IndexTTS-2IndexTTS-2

Ang mga ito ay may mataas na lebel ng kontrol sa emosyon at pag-iisip.

Wika: en, zh

Clone Voice

Spark TTSSpark TTS

> Voice cloning TTS na may kontroladong damdamin at pagsasalita estilo sa pamamagitan ng mga prompt.

Wika: en, zh

Clone Voice

GPT-SoVITSGPT-SoVITS

Ang mga ito ay mga karaniwang mga halimbawa ng mga selula na may5mga kromosoma.

Wika: en, zh, ja, ko

Clone Voice

ChatterboxChatterbox

Ang mga ito ay tinatawag na mga "zero-shot" na mga clone na may kakayahang kontrolin ang mga emosyon.

Wika: en

Clone Voice

Tortoise TTSTortoise TTS

Ang mga salitang ito ay karaniwang ginagamit sa mga tekstong relihiyoso.

Wika: en

Clone Voice

OpenVoiceOpenVoice

> Instant boses cloning na may granular kontrol sa estilo, damdamin, at accent.

Wika: en, zh, ja, ko, fr, de, es, it

Clone Voice

Qwen3 TTSQwen3 TTS

Ang mga wikang Awstronesyo ay isang pangkat ng mga wikang Austronesyo, isang pangkat ng mga wikang Austronesyo na sinasalita sa Pilipinas.

Wika: en, zh, ja, ko, de, fr, ru, pt, es, it

Clone Voice

Chatterbox TurboChatterbox Turbo

Ang mga ito ay kinabibilangan ng mga 200 mga uri ng mga halaman, mga 200 mga uri ng mga hayop, at mga 200 mga uri ng mga halaman.

Wika: en

Clone Voice

VoxCPMVoxCPM

Ang 1444 Electra ay isang planetang hindi pangunahin.

Wika: en, zh

Clone Voice

OuteTTSOuteTTS

Ang mga ito ay kinabibilangan ng mga karaniwang mga uri ng mga CPU, GPU, at mga processor.

Wika: en

Clone Voice

Pocket TTSPocket TTS

Ang 1000000000000000000♠100 M ay isang likas na bilang na pagkatapos ng 100 at bago ng 109.

Wika: en, fr

Clone Voice

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Wika: en, zh, ja, ko, de, es, fr, it, ru

Clone Voice

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Wika: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Clone Voice

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Wika: en, zh

Clone Voice

Developer-una API

> OpenAI-kapareho REST API. Isang endpoint, 22+ modelo. Streaming suporta para sa mga real-time na mga application.

  • tl> OpenAI-compatible format
  • > Streaming TTS para sa real-time apps
  • > Batch pagpoproseso para sa malaking trabaho
  • > Webhook mga notification
Tingnan ang API Docs
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

> Simple, transparent na pagpepresyo

> Magsimula nang libre. Scale habang lumalaki ka.

Libre

$0

> 15,000 mga character

  • Kokoro, Piper, VITS, MeloTTS
  • > 500 character na limitasyon
  • >3gen/oras (walang account)
Mag-sign up para sa libreng

Pasimula

$9/ML

> 500,000 mga character / buwan

  • Lahat ng 22+ modelo
  • > 100,000 mga character sa bawat henerasyon
  • > Voice pag-clone
Magsisimula
Pinakatanyag

Pro

$29/ML

> 2,000,000 mga character / buwan

  • Lahat ng bagay sa Starter
  • API pag-access
  • > Priority pagpoproseso
Kumuha ng Pro

Negosyo

$99/ML

> 10,000,000 mga character / buwan

  • Lahat ng bagay sa Pro
  • Bulk API
  • > Priority queue
> Kumuha ng Negosyo

> Tingnan ang lahat ng mga plano kabilang ang mga pack ng character →

Mga Madalas Itanong

Ang TTS.ai ay ang pinaka-komprehensibong AI voice platform, na nag-aalok ng 22+ na modelo ng text-to-speech, voice cloning, speech-to-text, at mga tool sa audio. Ang lahat ng mga modelo ay open source na walang vendor lock-in.

> Oo! Nag-aalok ang TTS.ai ng libreng text-to-speech sa mga modelong Kokoro, Piper, VITS, at MeloTTS. Walang account ang kinakailangan. Mag-sign up para makakuha ng 15,000 libreng character at ma-access ang lahat ng mga modelo. Ang bayad na plano ay nagsisimula sa $9/buwan.

Para sa bilis, gamitin ang Kokoro o Piper. Para sa kalidad, subukan ang CosyVoice2o StyleTTS 2. Para sa cloning ng boses, gamitin ang Chatterbox o GPT-SoVITS. Para sa mga dialogue, gamitin ang Dia TTS. Subukan ang maraming mga modelo sa parehong teksto upang ihambing.

> Oo. OpenAI-kapareho REST API para sa TTS, STT, boses cloning, at audio mga tool. Available sa Pro ($ 29 / buwan) at Enterprise ($ 99 / buwan) plano. Tingnan ang dokumentasyon sa tts.ai / api /.

> Ang kalidad ng boses ay nag-iiba ayon sa modelo. Ang mga premium na modelo tulad ng CosyVoice 2, StyleTTS 2, at Chatterbox ay gumagawa ng malapit sa kalidad ng tao na pagsasalita na may natural na intonasyon at emosyon. Ang mga libreng modelo tulad ng Kokoro ay nag-aalok ng mahusay na kalidad para sa karamihan ng mga kaso ng paggamit.

TTS.ai supports 30+ languages across its model library. English has the widest model support, but models like CosyVoice 2 cover Chinese, Japanese, and Korean; GPT-SoVITS handles Chinese, Japanese, Korean, and English; and MeloTTS supports English, Spanish, French, Chinese, Japanese, and Korean.

> Oo. Ang lahat ng pagpoproseso ay nangyayari sa aming mga dedikadong GPU server. Hindi namin i-save ang iyong mga input ng teksto o nabuo audio pagkatapos ng paghahatid. Upload na sample ng boses para sa cloning ay ginagamit lamang para sa kasalukuyang session at hindi napanatili. Hindi namin ibahagi ang iyong data sa mga third party o gamitin ito upang tren modelo.

Ang lahat ng audio na nabuo sa TTS.ai ay iyong gamitin sa komersyal, kabilang ang mga video sa YouTube, podcast, audiobooks, apps, advertisement, at mga produkto. Ang aming mga modelo ay open source sa ilalim ng permissive na lisensya (MIT, Apache 2.0). Walang royalties o pagbibigay ng kredito ang kinakailangan.

> TTS.ai bumubuo ng audio sa WAV format sa pamamagitan ng default para sa pinakamataas na kalidad. Maaari mong i-convert sa MP3, FLAC, OGG, o M4A gamit ang aming libreng Audio Converter tool. Ang API ay sumusuporta sa pagtukoy ng iyong mga ginustong output format nang direkta sa kahilingan.

> I-upload ang isang maikling audio sample (kahit5segundo) ng boses na gusto mong i-clone, pagkatapos ay i-type ang anumang teksto upang makabuo ng pagsasalita sa boses na iyon. Mga modelo tulad ng Chatterbox, GPT-SoVITS, at CosyVoice2suporta sa boses cloning. Ang cloned boses captures tono, accent, at pagsasalita estilo.

Ang mga libreng modelo (Kokoro, Piper, VITS, MeloTTS) ay hindi nangangailangan ng account at walang gastos na mga character. Ang mga standard na modelo (2,000 character/1K input) ay kinabibilangan ng Bark, CosyVoice 2, F5-TTS, at Dia. Ang mga premium na modelo (4,000 character/1K input) ay kinabibilangan ng OpenVoice, Chatterbox, StyleTTS 2, at Tortoise. Ang mga bayad na modelo ay karaniwang nag-aalok ng mas mataas na kalidad, higit pang mga boses, at karagdagang mga tampok tulad ng pag-clone ng boses.

> Oo. Ang API ay sumusuporta sa batch processing para sa pag-convert ng malaking dami ng teksto sa pagsasalita. Mag-submit ng maraming mga kahilingan at makuha ang mga resulta asynchronously gamit ang trabaho UUIDs. Enterprise plano ($ 99 / buwan) kasama ang priyoridad queue access para sa mas mabilis na batch processing. Ideal para sa audiobook produksyon, kurso ng nilalaman, at malaking-scale voiceover proyekto.
4.0/5 (22)

> Ano ang maaari naming mapabuti? Tutulong sa amin ang iyong feedback na ayusin ang mga isyu.

> Magsimula sa Paggamit ng AI Voice Ngayon

> Sumali sa mga tagalikha, developer, at mga negosyo na gumagamit ng TTS.ai