Libreng AI > Teksto sa Pagsasalita

20+ > open-source modelo, 107+ mga tinig, 32+ tl> wika. Walang account kinakailangan.

1K+
Mga manunulat
2K+
> henerasyon
20+
Mga modelo ng AI
107+
Mga boses
0/500 Mga character Libre
Tulad ng TTS.ai? Sabihin sa iyong mga kaibigan!

> Lahat ng kailangan mo para sa Voice AI

> 30+ mga tool na pinalakas ng mga modelo ng open-source AI

20+ Mga modelo ng boses ng AI

> Ang pinaka-komprehensibong koleksyon ng mga modelo ng open-source TTS sa isang platform

KokoroKokoro Free

Ang Kokoro ay isang 82 milyong parameter na modelo ng text-to-speech na may mga punch na mas mataas sa timbang nito. Sa kabila ng maliit na sukat nito, ito ay lumilikha ng kapansin-pansin na natural at masining na pagsasalita. Sinusuportahan ng Kokoro ang maraming wika kabilang ang Ingles, Hapon, Intsik, at Koreano na may iba't ibang mga masining na boses.

Pinakamahusay para sa: > Mataas na kalidad na TTS na may minimum na latency, streaming application

> Subukan ang Libre

PiperPiper Free

Ang Piper ay isang lightweight text-to-speech engine na binuo ng Rhasspy na gumagamit ng VITS at larynx architectures. Ito ay tumatakbo ng buo sa CPU, na ginagawang perpekto para sa mga aparatong gilid, home automation, at mga application na nangangailangan ng offline TTS. Sa higit sa 100 mga boses sa 30+ wika, ang Piper ay naghahatid ng natural na tunog na pagsasalita sa real-time na bilis kahit na sa isang Raspberry Pi4.

Pinakamahusay para sa: > Mabilis na preview, accessibility, at naka-embed na mga application

> Subukan ang Libre

VITSVITS Free

Ang VITS (Variation Inference with adversarial learning for end-to-end Text-to-Speech) ay isang parallel end-to-end na paraan ng TTS na bumubuo ng mas natural na tunog na audio kaysa sa kasalukuyang dalawang-stage na modelo. Ito ay gumagamit ng variation inference na pinahusay ng normalisasyon ng daloy at isang adversarial na proseso ng pagsasanay, na nakamit ang isang makabuluhang pagpapabuti sa naturalness.

Pinakamahusay para sa: > Pangkalahatang-layunin na teksto-sa-pagsasalita na may natural na prosody

> Subukan ang Libre

MeloTTSMeloTTS Free

Ang MeloTTS ay isang multilingual na TTS library na sumusuporta sa Ingles (Amerikano, Briton, Indian, Australian), Espanyol, Pranses, Intsik, Hapon, at Koreano. Ito ay lubhang mabilis, pagpoproseso ng teksto sa malapit na real-time na bilis sa CPU lamang. MeloTTS ay dinisenyo para sa paggamit ng produksyon at sumusuporta sa parehong CPU at GPU pagbubuod.

Pinakamahusay para sa: > Production application na nangangailangan ng mabilis, multilingual TTS

> Subukan ang Libre

BarkBark Standard

Ang mga ito ay mga modelong text-to-audio na may basehan sa transformer na bumubuo ng mga realistikong pananalita, musika, at mga epekto ng tunog.

Tagabuo: Suno · Lisensya: MIT

Subukan ito

Bark SmallBark Small Standard

Ang mga ito ay may mas mababang presyon ng dugo at mas mababang presyon ng dugo.

Tagabuo: Suno · Lisensya: MIT

Subukan ito

CosyVoice 2CosyVoice 2 Standard

Ang mga ito ay ang mga sumusunod: Ang mga natural na bilang ay mga natural na bilang na may hangganan.

Tagabuo: Alibaba (Tongyi Lab) · Lisensya: Apache 2.0

Subukan ito

Dia TTSDia TTS Standard

Multi-speaker dialog generation model na lumilikha ng mga natural na pag-uusap sa pagitan ng mga nagsasalita.

Tagabuo: Nari Labs · Lisensya: Apache 2.0

Subukan ito

Parler TTSParler TTS Standard

> Ipaliwanag ang boses na gusto mo sa natural na wika at Parler bumubuo ng tumutugma na pananalita.

Tagabuo: Hugging Face · Lisensya: Apache 2.0

Subukan ito

GLM-TTSGLM-TTS Standard

Ang mga ito ay ang mga pinaka-karaniwang mga uri ng mga modelong TTS.

Tagabuo: Zhipu AI · Lisensya: GLM-4 License

Subukan ito

IndexTTS-2IndexTTS-2 Standard

Ang mga ito ay may mataas na lebel ng kontrol sa emosyon at pag-iisip.

Tagabuo: Index Team · Lisensya: Bilibili Model License

Subukan ito

Spark TTSSpark TTS Standard

> Voice cloning TTS na may kontroladong damdamin at pagsasalita estilo sa pamamagitan ng mga prompt.

Tagabuo: SparkAudio · Lisensya: CC BY-NC-SA 4.0

Subukan ito

GPT-SoVITSGPT-SoVITS Standard

Ang mga ito ay mga karaniwang mga halimbawa ng mga selula na may5mga kromosoma.

Tagabuo: RVC-Boss · Lisensya: MIT

Subukan ito

OrpheusOrpheus Standard

Ang mga 100,000 mga tao ay namatay sa 100,000 mga araw ng digmaan.

Tagabuo: Canopy Labs · Lisensya: Llama 3.2 Community

Subukan ito

Qwen3 TTSQwen3 TTS Standard

Ang mga wikang Awstronesyo ay isang pangkat ng mga wikang Austronesyo, isang pangkat ng mga wikang Austronesyo na sinasalita sa Pilipinas.

Tagabuo: Alibaba (Qwen) · Lisensya: Apache 2.0

Subukan ito

ChatterboxChatterbox Premium

Ang mga ito ay tinatawag na mga "zero-shot" na mga clone na may kakayahang kontrolin ang mga emosyon.

Kalidad:

Subukan ito

Tortoise TTSTortoise TTS Premium

Ang mga salitang ito ay karaniwang ginagamit sa mga tekstong relihiyoso.

Kalidad:

Subukan ito

StyleTTS 2StyleTTS 2 Premium

Ang mga ito ay kinabibilangan ng mga salitang-ugat, mga salitang-ugat na pang-estilistika at mga salitang-ugat na pang-estilistika.

Kalidad:

Subukan ito

OpenVoiceOpenVoice Premium

> Instant boses cloning na may granular kontrol sa estilo, damdamin, at accent.

Kalidad:

Subukan ito

Sesame CSMSesame CSM Premium

Ang mga ito ay mga natural na mga proseso na may kaugnayan sa mga emosyon at mga damdamin.

Kalidad:

Subukan ito

CosyVoice 2CosyVoice 2

Ang mga ito ay ang mga sumusunod: Ang mga natural na bilang ay mga natural na bilang na may hangganan.

Wika: en, zh, ja, ko, fr, de, it, es

Clone Voice

GLM-TTSGLM-TTS

Ang mga ito ay ang mga pinaka-karaniwang mga uri ng mga modelong TTS.

Wika: en, zh

Clone Voice

IndexTTS-2IndexTTS-2

Ang mga ito ay may mataas na lebel ng kontrol sa emosyon at pag-iisip.

Wika: en, zh

Clone Voice

Spark TTSSpark TTS

> Voice cloning TTS na may kontroladong damdamin at pagsasalita estilo sa pamamagitan ng mga prompt.

Wika: en, zh

Clone Voice

GPT-SoVITSGPT-SoVITS

Ang mga ito ay mga karaniwang mga halimbawa ng mga selula na may5mga kromosoma.

Wika: en, zh, ja, ko

Clone Voice

ChatterboxChatterbox

Ang mga ito ay tinatawag na mga "zero-shot" na mga clone na may kakayahang kontrolin ang mga emosyon.

Wika: en

Clone Voice

Tortoise TTSTortoise TTS

Ang mga salitang ito ay karaniwang ginagamit sa mga tekstong relihiyoso.

Wika: en

Clone Voice

OpenVoiceOpenVoice

> Instant boses cloning na may granular kontrol sa estilo, damdamin, at accent.

Wika: en, zh, ja, ko, fr, de, es, it

Clone Voice

Qwen3 TTSQwen3 TTS

Ang mga wikang Awstronesyo ay isang pangkat ng mga wikang Austronesyo, isang pangkat ng mga wikang Austronesyo na sinasalita sa Pilipinas.

Wika: en, zh, ja, ko, de, fr, ru, pt, es, it

Clone Voice

Developer-unang API

> OpenAI-kapareho REST API. Isang endpoint, 22+ modelo. Streaming suporta para sa mga real-time na mga application.

  • tl> OpenAI-compatible format
  • > Streaming TTS para sa real-time apps
  • > Batch pagpoproseso para sa malaking trabaho
  • > Webhook mga notification
Tingnan ang API Docs
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

> Simple, transparent na pagpepresyo

> Magsimula nang libre. Scale habang lumalaki ka.

Libre

$0

15,000 characters

  • Kokoro, Piper, VITS, MeloTTS
  • > 500 character na limitasyon
  • >3gen/oras (walang account)
Mag-sign up para sa libreng

Pasimula

$9/ML

500,000 characters/month

  • Lahat ng 22+ modelo
  • 100,000 chars per generation
  • > Voice pag-clone
Magsisimula
Karamihan Popular

Pro

$29/ML

2,000,000 characters/month

  • Lahat ng bagay sa Starter
  • API pag-access
  • > Priority pagpoproseso
Kumuha ng Pro

Negosyo

$99/ML

10,000,000 characters/month

  • Lahat ng bagay sa Pro
  • Bulk API
  • > Priority queue
> Kumuha ng Negosyo

> Tingnan ang lahat ng mga plano kabilang ang mga pack ng character →

Mga Madalas Itanong

Ang TTS.ai ay ang pinaka-komprehensibong AI voice platform, na nag-aalok ng 22+ na modelo ng text-to-speech, voice cloning, speech-to-text, at mga tool sa audio. Lahat ng mga modelo ay open source na walang vendor lock-in.

> Oo! Nag-aalok ang TTS.ai ng libreng text-to-speech sa mga modelong Kokoro, Piper, VITS, at MeloTTS. Walang account ang kinakailangan. Mag-sign up para makakuha ng 15,000 libreng character at ma-access ang lahat ng mga modelo. Ang bayad na plano ay nagsisimula sa $9/buwan.

Para sa bilis, gamitin ang Kokoro o Piper. Para sa kalidad, subukan ang CosyVoice2o StyleTTS 2. Para sa cloning ng boses, gamitin ang Chatterbox o GPT-SoVITS. Para sa mga dialogue, gamitin ang Dia TTS. Subukan ang maraming mga modelo sa parehong teksto upang ihambing.

> Oo. OpenAI-compatible REST API para sa TTS, STT, boses cloning, at audio tools. Available sa Pro ($ 29 / buwan) at Enterprise ($ 99 / buwan) plano. Tingnan ang dokumentasyon sa tts.ai / api /.

> Ang kalidad ng boses ay nag-iiba ayon sa modelo. Ang mga premium na modelo tulad ng CosyVoice 2, StyleTTS 2, at Chatterbox ay gumagawa ng malapit sa kalidad ng tao na pagsasalita na may natural na intonasyon at emosyon. Ang mga libreng modelo tulad ng Kokoro ay nag-aalok ng mahusay na kalidad para sa karamihan ng mga kaso ng paggamit.

TTS.ai supports 30+ languages across its model library. English has the widest model support, but models like CosyVoice 2 cover Chinese, Japanese, and Korean; GPT-SoVITS handles Chinese, Japanese, Korean, and English; and MeloTTS supports English, Spanish, French, Chinese, Japanese, and Korean.

> Oo. Ang lahat ng pagpoproseso ay nangyayari sa aming mga dedikadong GPU server. Hindi namin i-save ang iyong mga input ng teksto o nabuo audio pagkatapos ng paghahatid. Upload na sample ng boses para sa cloning ay ginagamit lamang para sa kasalukuyang session at hindi napanatili. Hindi namin ibahagi ang iyong data sa mga third party o gamitin ito upang tren modelo.

Ang lahat ng audio na nabuo sa TTS.ai ay iyong gamitin sa komersyal, kabilang ang mga video sa YouTube, podcast, audiobooks, apps, advertisement, at mga produkto. Ang aming mga modelo ay open source sa ilalim ng permissive na lisensya (MIT, Apache 2.0). Walang royalties o pagbibigay ng kredito ang kinakailangan.

> TTS.ai bumubuo ng audio sa WAV format sa pamamagitan ng default para sa pinakamataas na kalidad. Maaari mong i-convert sa MP3, FLAC, OGG, o M4A gamit ang aming libreng Audio Converter tool. Ang API ay sumusuporta sa pagtukoy ng iyong ginustong output format nang direkta sa kahilingan.

> I-upload ang isang maikling audio sample (kahit5segundo) ng boses na gusto mong i-clone, pagkatapos ay i-type ang anumang teksto upang makabuo ng pagsasalita sa boses na iyon. Mga modelo tulad ng Chatterbox, GPT-SoVITS, at CosyVoice2suporta sa boses cloning. Ang cloned boses captures tono, accent, at pagsasalita estilo.

Ang mga libreng modelo (Kokoro, Piper, VITS, MeloTTS) ay hindi nangangailangan ng account at walang gastos na mga character. Ang mga standard na modelo (2,000 character/1K input) ay kinabibilangan ng Bark, CosyVoice 2, F5-TTS, at Dia. Ang mga premium na modelo (4,000 character/1K input) ay kinabibilangan ng OpenVoice, Chatterbox, StyleTTS 2, at Tortoise. Ang mga bayad na modelo ay karaniwang nag-aalok ng mas mataas na kalidad, higit pang mga boses, at karagdagang mga tampok tulad ng pag-clone ng boses.

> Oo. Ang API ay sumusuporta sa batch processing para sa pag-convert ng malaking dami ng teksto sa pagsasalita. Mag-submit ng maraming mga kahilingan at makuha ang mga resulta asynchronously gamit ang trabaho UUIDs. Enterprise plano ($ 99 / buwan) kasama ang priyoridad queue access para sa mas mabilis na batch processing. Ideal para sa audiobook produksyon, kurso ng nilalaman, at malaking-scale voiceover proyekto.
4.0/5 (8)

> Magsimula sa Paggamit ng AI Voice Ngayon

> Sumali sa mga tagalikha, developer, at mga negosyo na gumagamit ng TTS.ai