Libreng AI Teksto sa Pagsasalita

82M parameter Mabilis Expressive boses Maraming wika Suporta sa streaming

Ang 2000 M82 ay isang planetang hindi pangunahin.

Mabilis · 1.5GB VRAM Subukan ito

Piper

CPU-friendly Offline kakayahan 100+ boses 35+ wika Suporta sa SSML

Ang mga ito ay mga sistemang neural na may kakayahang mag-translate ng mga salita sa mga tunog at mga simbolo.

Mabilis · 0 (CPU only) VRAM Subukan ito

VITS

End-to-end sintesis Natural prosody Mabilis na pagbubuod Maraming tagapagsalita

Ang mga ito ay mga karaniwang uri ng mga algoritmong paghahanap na gumagamit ng mga terminong teksto.

Mabilis · 1GB VRAM Subukan ito

MeloTTS

CPU-optimize Multilingual Maraming mga accents Production-handa Mababang latency

Ang mga ito ay mga karaniwang mga sistemang multi-processor na may mga CPU na may mataas na kapasidad.

Mabilis · 0.5GB (GPU optional) VRAM Subukan ito

Bark

Epekto ng tunog Pagtatawa/pagsisigaw Musika henerasyon 100+ speaker Maraming wika

Ang mga ito ay mga modelong text-to-audio na may basehan sa transformer na bumubuo ng mga realistikong pananalita, musika, at mga epekto ng tunog.

Mabilis · 5GB VRAM Subukan ito

Bark Small

Magaan Mas mabilis kaysa sa buong bark Emotional pagsasalita Multilingual

Ang mga ito ay may mas mababang presyon ng dugo at mas mababang presyon ng dugo.

Medium · 2GB VRAM Subukan ito

CosyVoice 2

Streaming Ang Zero-shot cloning Cross-lingguwistika Emosyonal na kontrol Pag-aari ng tao

Ang mga ito ay ang mga sumusunod: Ang mga natural na bilang ay mga natural na bilang na may hangganan.

Dia TTS

Multi-speaker Dialog henerasyon Natural na turn-pagkuha Emotional ekspresyon 1.6B parameter

Ang mga modelong multi-speaker na dialog generation ay lumilikha ng mga natural na pag-uusap sa pagitan ng mga nagsasalita.

Parler TTS

Paglalarawan ng boses Natural na kontrol ng wika Flexible boses paglikha Walang preset na boses na kailangan

Ipaliwanag ang boses na gusto mo sa natural na wika at Parler bumubuo ng tumutugma na pananalita.

Indic Parler TTS

11 Indian wika Paglalarawan ng boses Natural na kontrol ng wika Ang lathalaing ito na tungkol sa Indya ay isang usbong.

Ang wikang Ainu ay isang wikang sinasalita sa Hapon ng mahigit 8 milyong katao.

Mabilis · 8GB VRAM Subukan ito

KhanomTan TTS

Talaan ng mga lungsod sa Thailand Maraming tagapagsalita Ang arkitektura ng YourTTS Commercial-ligtas na lisensya

Ang unang tekstong isinulat sa wikang ito ay isang aklat na tinatawag na Aklat ni Jeremias.

IndexTTS-2

Emosyonal na kontrol Mga Zero-shot Emosyonal na vectors Expressive pagsasalita Fine-grained kontrol

Ang mga ito ay may mataas na lebel ng kontrol sa emosyon at pag-iisip.

Spark TTS

Pag-clone ng boses Emotion kontrol Estilo ng kontrol Prompt-based 5segundo cloning

Voice cloning TTS na may kontroladong damdamin at pagsasalita estilo sa pamamagitan ng mga prompt.

GPT-SoVITS

5segundo cloning Pagsasalita ng boses Ilang-shot pag-aaral Mataas na katapatan Cross-lingguwistika

Ang mga ito ay mga karaniwang mga halimbawa ng mga selula na may5mga kromosoma.

Mabilis · 6GB VRAM Subukan ito

Orpheus

Human-level emosyon 100K oras ng pagsasanay Natural emphasis Mapang-uyam na pananalita

Ang mga 100,000 mga tao ay namatay sa 100,000 mga araw ng digmaan.

Chatterbox

Ang Zero-shot cloning Emosyonal na kontrol Mataas na katapatan Estilo ng transfer Iisang sample cloning

Ang mga ito ay tinatawag na mga "zero-shot" na mga clone na may kakayahang kontrolin ang mga emosyon.

Tortoise TTS

Pinakamataas na kalidad Multi-voice Arkitektura ng DALL-E Pag-clone ng boses Pag-aaksaya ng oras

Ang mga salitang ito ay karaniwang ginagamit sa mga tekstong relihiyoso.

Mabilis · 8GB VRAM Subukan ito

StyleTTS 2

Human-level Estilo ng pagkalat Adversarial pagsasanay Natural pagkakaiba-iba Mataas na katapatan

Ang mga ito ay kinabibilangan ng mga salitang-ugat, mga salitang-ugat na pang-estilistika at mga salitang-ugat na pang-estilistika.

OpenVoice

Instant pag-clone Voice conversion Emosyonal na kontrol Pagkontrol ng accent Maraming wika

Instant boses cloning na may granular kontrol sa estilo, damdamin, at accent.

Qwen3 TTS

9preset na boses Voice disenyo mula sa teksto Emosyonal na kontrol 10 wika

Ang mga wikang Awstronesyo ay isang pangkat ng mga wikang Austronesyo na sinasalita sa Indonesia.

Medium · 7GB VRAM Subukan ito

VieNeu-TTS-v2

7preset boses (North + South accents) En-Vi code-switching Voice cloning (3-5s reference) Podcast / multi-pagsasalita suporta CPU-lamang — walang GPU kinakailangan

Vietnamese + Ingles code-switching TTS na may7preset boses at zero-shot boses cloning. CPU-lamang, walang GPU kinakailangan.

Mabilis · CPU VRAM Subukan ito

Sesame CSM

Konversation Natural na takbo Pag-ikot Ang Backchannel 1B parameter

Ang mga ito ay mga natural na mga proseso na may kaugnayan sa mga emosyon at mga damdamin.

Mabilis · 8GB VRAM Subukan ito

Chatterbox Turbo

Sub-200ms latency Mga Paralinggwistang tags 6x real-time Pag-clone ng boses Pag-iingat ng tubig

Ang mga ito ay kinabibilangan ng mga 200 mga uri ng mga halaman, mga 200 mga uri ng mga hayop, at mga 200 mga uri ng mga halaman.

VoxCPM

44.1kHz audio Libreng Tokenizer Cross-lingguwistika Konteksto-alam Talaan ng mga lansangan sa Maynila

Ang 1444 Electra ay isang planetang hindi pangunahin.

Mabilis · 4GB VRAM Subukan ito

Kani TTS 2

3GB ng VRAM Ultra-mabilis Magaan Mga codex Libre

Ang 400 nm ay isang fraction ng 300 nm na ginagamit sa mga laser.

Mabilis · 3GB VRAM Subukan ito

OuteTTS

CPU pagbubuod Browser pagbubuod Maraming mga backends Mga profile ng tagapagsalita

Ang mga ito ay kinabibilangan ng mga karaniwang mga uri ng mga CPU, GPU, at mga processor.

VibeVoice

Multi-speaker Hanggang sa 90 minuto Podcast henerasyon Speaker pagkakapareho 200ms streaming

Ang modelo ng Microsoft para sa mahabang anyo ng multi-speaker na nilalaman tulad ng mga podcast at audiobooks.

Mabilis · 4GB VRAM Subukan ito

Pocket TTS

100M parameter CPU pagbubuod Pag-clone ng boses Single-sample cloning Edge-handa

Ang 100♠100 M ay isang likas na bilang na pagkatapos ng 100 at bago ng 109.

Mabilis · 1GB VRAM Subukan ito

Kitten TTS

CPU-lamang pagbubuod Sa ilalim ng 80MB laki ng modelo 8 built-in na boses Kontrol ng bilis Ang Onyx ay isang seryeng manga. 24kHz output

Ultra-lightweight TTS sa ilalim ng 80MB. Tumatakbo sa CPU nang walang GPU.

Mabilis · 0GB VRAM Subukan ito

CosyVoice3

Bi-streaming Emosyonal na kontrol Pag-clone ng boses Speed / kontrol ng dami Instruksyon sumusunod

Ang mga pangunahing mga layunin ng mga algoritmong ito ay ang pag-iwas sa mga error, kontrol ng mga transaksyon, at pag-iwas sa mga pag-atake.

Mabilis · 4GB VRAM Subukan ito

NAMAA Saudi TTS

Talaan ng mga lungsod sa Saudi Arabia Modernong Pamantayang Arabo Zero-shot boses cloning Emosyonal na kontrol Native pagpapahayag

Unang buksan Saudi-Arabic TTS. Native Saudi diyalekto na may Chatterbox-kalidad ng boses cloning.

Medium · 6GB VRAM Subukan ito

Darwin TTS

Pag-clone ng boses Cross-lingguwistika Mga karaniwang 4core wika 3.3 Pag-aari ng lupa

Ang mga karaniwang uri ng mga selula ay kinabibilangan ng mga selula ng plasma, mga selula ng plasma na may bigat na 1.7 kDa, at mga selula ng plasma na may bigat na 1.3 kDa.

Medium · 7GB VRAM Subukan ito

MOSS-TTSD

Multi-pagsasalita dialogue Hanggang5mga tagapagsalita 60min na magkatugma audio Pag-clone ng boses Mga Podcast

Ang mga palabas na ito ay may mga episode na may 10 minutong haba at may 60 minutong haba.

Medium · 12GB VRAM Subukan ito

Ming-Omni TTS

44.1kHz output Pag-clone ng boses Emosyonal na kontrol Dialect kontrol Pamilyang BGM Compact 0.5B

Ang 105444 Aethelred ay isang planetang hindi pangunahin. ang 105444 Aethelred ay isang planetang hindi pangunahin.

Medium · 3GB VRAM Subukan ito

MOSS-TTS Nano

Kompakt na 100M Mabilis na pagbubuod Multilingual Pag-clone ng boses Parehong pamilya MOSS

Ang 1000♠100 M Moss-TTS ay isang planetang hindi pangunahin.