Free AI Text to SpeechGenericName

Paramèt 82M Ultra- vit Vokal ekspresif Multilang Streaming sipò

82M modèl paramèt limyè bay diskisyon kalite-estudyo ak inférence blazing-rapid.

Rapid · 1.5GB VRAM Tcheke li

Piper

CPU- amizan Kapab travay san koneksyon 100+ vwa 30+ lang Sipò SSML

Yon rapid, lokal neural tèks-a-parole sistèm optimisé pou Raspberry Pi ak aparèy embedded.

Rapid · 0 (CPU only) VRAM Tcheke li

VITS

Sintez bout-a-bòt Prosodi natirèl Inferans rapid Divès oratè

Autoencoder varyasyon kondisyonèl ak lekòl konfli pou tèks-a-parole bout-a-bòt.

Rapid · 1GB VRAM Tcheke li

MeloTTS

Optimized-CPU Multilang Aksan Multiple Prèt pou pwodiksyon Low latency

Tèks-a-parole multilenguage de bon jan kalite ki kouri sou CPU ak latency minimòm.

Rapid · 0.5GB (GPU optional) VRAM Tcheke li

Bark

Efè son Ri/souf Kreyasyon mizik 100+ pale Multilang

Modèl tèks-nan-son ki baze sou transformateur ki jenere pale, mizik, ak efè son realist.

Lento · 5GB VRAM Tcheke li

Bark Small

Lightweight Pi vit pase kòt plen Diskou emosyonèl Multilang

Versiyon ki pi limyè nan Bark ak inférence pi vit ak itilize nan memwa ki pi ba.

Media · 2GB VRAM Tcheke li

CosyVoice 2

Difizyon Klonaj Zero-Shot Kreyolizasyon Kontwòl emosyonèl Parite-moun

Alibaba's scalable streaming TTS ak natiralizasyon parite imen ak latency prèske zewo.

Dia TTS

Multi- oratè Kreyasyon bwat dyalòg Tournage natirèl Ekspresyon emosyonèl Paramèt 1.6B

Modèl jenerasyon dyalòg multi-pale ki kreye konvèsasyon natirèl ant pale yo.

Parler TTS

Deskripsyon vwa Kontwòl lang natirèl Kreyasyon vwa fleksib Pa gen vwa presegondè ki nesesè

Descrivez la voix que vous voulez dans la langue naturelle et Parler génère la parole correspondante.

Indic Parler TTS

11 lang endijèn Dekriman vwa Kontwòl lang natirèl Prononciation otantik

Diskou bon jan kalite segondè pou 8 + lang endijèn ak kontwòl vwa lang natirèl.

Lento · 8GB VRAM Tcheke li

KhanomTan TTS

Thai TTS Divès oratè YourTTS architecture Lisans Commercial-safe

Thai-prime tèks-a-parole ak yon chwa de vwa pale.

Rapid · 2GB VRAM Tcheke li

IndexTTS-2

Kontwòl emosyonèl Zero-shot Vektè Emosyon Diskou ekspresif Fine-grained control

Zero-shot TTS ak kontwòl emosyon fine-grained ak ekspresyon segondè.

Spark TTS

Klonaj vwa Kontwòl emosyonèl Style control Prompt-based Klonaj 5-segondè

Voye klonaj TTS ak emosyon kontwole ak style pale via pwompts.

GPT-SoVITS

Klonaj 5-segondè Voyeurs Aprann nan ti bout tan High fidelity Kreyolizasyon

Few-shot klonaj vwa TTS ki replike nenpòt vwa soti nan jis 5 segonn nan son.

Lento · 6GB VRAM Tcheke li

Orpheus

Emosyon nivo imen 100K èdtan fòmasyon Enfatize natirèl Diskou ekspresif

100,000 èdtan nan done pale yo te itilize pou fòme yon modèl TTS emosyonèl nivo imen.

Chatterbox

Klonaj Zero-Shot Kontwòl emosyonèl High fidelity Estil transfè Klonaj echantiyon sèl

Pwogram sa a gen ladan tou yon sistèm klonaj vwa ak kontwòl emosyonèl ki rele Resemble AI.

Tortoise TTS

Kalite ki pi wo Multi-voix DALL-E achitekti Klonaj vwa Regresif otomatik

Atik sa a se yon atik ki gen anpil valè ki gen rapò ak arkeoloji.

Lento · 8GB VRAM Tcheke li

StyleTTS 2

Nivo moun Style diffusion Adversarial antrenman Variasyon natirèl High fidelity

Edikasyon nan lang kreyòl se yon edikasyon ki baze sou divèsite ak konpreyansyon.

OpenVoice

Klonaj instantane Konvèsyon vwa Kontwòl emosyonèl Kontwòl aksan Multilang

Instant klonaj vwa ak kontwòl granulaire sou style, emosyon, ak aksan.

Qwen3 TTS

Klonaj vwa 9 preset vwa Konsepsyon vwa soti nan tèks Kontwòl emosyonèl

Alibaba's multilingual TTS ak klonaj vwa, preset vwa, ak konsepsyon vwa soti nan tèks.

Media · 7GB VRAM Tcheke li

VieNeu-TTS-v2

7 preset vwa (Nò + aksan Sud) En-Vi code-switching Voye klonaj (3-5s rekòmandasyon) Podcast / multi- pale CPU-only — no GPU required

Vyèj + angle TTS code-switching ak 7 preset vwa ak zero-shot klonaj vwa. CPU-se sèlman, pa gen GPU mande.

Rapid · CPU VRAM Tcheke li

Sesame CSM

Konvèsatif Tan natirèl Turn-taking Backchannel Paramèt 1B

Modèl pale konvèsatif ki kreye yon dyalòg natirèl ak tan ak emosyon ki apwopriye.

Lento · 8GB VRAM Tcheke li

Chatterbox Turbo

Sub-200ms latency Baliz paralengwistik 6x tan reyèl Klonaj vwa Watermarking

Chatterbox pi vit ak sub-200ms latency ak tags paralinguistik pou ri, touse, ak plis ankò.

Rapid · 2GB VRAM Tcheke li

VoxCPM

44.1kHz son Tokenizer-free Klonaj ant lang Kontèks-sensitif LoRA fine-tuning

Tokenizer-gratis TTS ki pwodwi 44.1kHz odyo ak konstan paragraf kontexte-konsyan.

Rapid · 4GB VRAM Tcheke li

Kani TTS 2

3GB VRAM Ultra- vit Klonaj vwa Lightweight NanoCodec

Modèl 400M ultra-lightweight ki kouri nan jis 3GB VRAM ak sipò klonaj vwa.

Rapid · 3GB VRAM Tcheke li

OuteTTS

CPU infèrans Inferans navigatè Multiple backends Profils de haut-parleurs

LLM-ki baze sou TTS ki kouri sou CPU, GPU, oswa navigatè via llama.cpp ak Transformers.js.

Lento · 2GB VRAM Tcheke li

VibeVoice

Multi- oratè jiska 90 min Podcast jenerasyon Konsistens oratè 200ms streaming

Microsoft modèl pou fòm long multi-pale kontni tankou podcasts ak audiobooks.

Rapid · 4GB VRAM Tcheke li

Pocket TTS

Paramèt 100M CPU infèrans Klonaj vwa Klonaj echantiyon sèl Edge- Ready

100M modèl paramèt limyè pa Kyutai ak klonaj vwa soti nan yon sèl echantiyon.

Rapid · 1GB VRAM Tcheke li

Kitten TTS

CPU-only inference Pi piti pase 80MB gwosè modèl 8 vwa enkòpore Kontablite vitès Baz ONNX 24kHz deyò

TTS ultra- limyè anba 80MB. Genyen sou CPU san GPU.

Rapid · 0GB VRAM Tcheke li

CosyVoice3

Bi-flux Kontwòl emosyon Klonaj vwa Vitès / kontwòl volim Enstriksyon ki swiv

TTS multi-lang jenerasyon kap vini an ak bi-streaming, kontwòl efè, ak klonaj vwa zero-shot.

Rapid · 4GB VRAM Tcheke li

NAMAA Saudi TTS

Arab sawoudit Arab modèn entènasyonal Klonaj vwa san pèdi tan Kontwòl emosyon Prononciation natif natal

Premye TTS Arabi Saoudit louvri. Dialekt natif natal Arabi Saoudit ak klonaj vwa kalite Chatterbox.

Media · 6GB VRAM Tcheke li

Darwin TTS

Klonaj vwa Kreyòl FFN-blend 4 lang prensipal Qwen3 backbone

Qwen3-TTS varyasyon cross-modal ak FFN pwa melanje soti nan Qwen3-1.7B modèl lang pou klonaj multilenguage pi byen.

Media · 7GB VRAM Tcheke li

MOSS-TTSD

Dialog multi- pale jiska 5 oratè 60min coherent audio Klonaj vwa Podcast-optimised

Modèl pou kontinye yon dyalòg ak anpil paleur — kreye konvèsasyon style podcast ak jiska 5 paleur ak 60 minit odyo koherent.

Media · 12GB VRAM Tcheke li

Ming-Omni TTS

44. 1kHz sortie Klonaj vwa Kontwòl emosyon Dialect control BGM jenerasyon Compact 0. 5B

Modèl pale omni-modal 0.5B ki konpaye soti nan inclusionAI ak yon pwodiksyon 44.1kHz ak klonaj vwa zero-shot.

Media · 3GB VRAM Tcheke li

MOSS-TTS Nano