Özgür Yapay Zeka Metinden KonuşmayaName

82M parametreleri Çok hızlı İfadeli sesler Çok Dilli Akış desteği

Hafif 82M parametre modeli, stüdyo kaliteli konuşmayı çok hızlı çıkarımlarla sağlar.

Hızlı · 1.5GB VRAM Dene.

Piper

CPU- dostu Çevrimiçi olabiliyor 100+ ses 35+ dil SSML desteği

Raspberry Pi ve gömülü cihazlar için optimize edilmiş hızlı, yerel sinirsel metin-söz sistemi.

Hızlı · 0 (CPU only) VRAM Dene.

VITS

Son-son sentez Doğal dil Hızlı çıkarım Çoklu hoparlörler

Son-sonuç metin-sözleşme için karşıt öğrenme ile koşullu değişkenlikli otokodlayıcı.

Hızlı · 1GB VRAM Dene.

MeloTTS

CPU- optimize edilmiş Çok Dilli Çoklu Aksentler Üretime hazır Düşük gecikme

CPU üzerinde minimum gecikme ile çalışan yüksek kaliteli çoklu dilli metin-sözlüğe.

Hızlı · 0.5GB (GPU optional) VRAM Dene.

Bark

Ses efektleri Gülüyor/inliyor Müzik üretimi 100+ konuşan Çok Dilli

Gerçekçi konuşma, müzik ve ses efektleri üreten transformatör tabanlı metin-sesine model.

Yavaş · 5GB VRAM Dene.

Bark Small

Hafif Tam bir kuyruktan daha hızlı Duygusal konuşma Çok Dilli

Bark'ın daha hızlı çıkarımlar ve daha düşük bellek kullanımı ile hafif bir sürümü.

Orta · 2GB VRAM Dene.

CosyVoice 2

Akış Zero-shot klonlama Diller arası Duygu kontrolü İnsan-paritesi

Alibaba'nın ölçeklenebilir akış TTS insan-parite doğallık ve sıfıra yakın gecikme ile.

Dia TTS

Çok Sesli Diyalog üretimi Doğal sıralama Duygusal ifade 1.6B parametreleri

Konuşanlar arasında doğal konuşmalar yaratan çoklu-konuşan diyalog üretim modeli.

Parler TTS

Ses tanımlaması Doğal dil kontrolü Esnek ses oluşturma Önden ayarlanmış seslere ihtiyaç yok

İstediğiniz sesi doğal dil ile tanımlayın ve Parler eşleşen konuşmayı oluşturur.

Indic Parler TTS

11. Türk Dil Kurumu. Ses tanımlaması Doğal dil kontrolü Otantik Hint telaffuz

Doğal dil ses kontrolü ile 8+ Hint dili için yüksek kaliteli konuşma.

Yavaş · 8GB VRAM Dene.

KhanomTan TTS

Tay TTS Çoklu hoparlörler YourTTS mimarisi Ticari güvenli lisans

Thai-ilk metin-söz-seçimi ile bir dizi konuşma sesleri.

Hızlı · 2GB VRAM Dene.

IndexTTS-2

Duygu kontrolü Sıfır-atış Duygu vektörleri İfadeli konuşma İnce taneli kontrol

Sıfır-atış TTS ince taneli duygu kontrolü ve yüksek ifade kabiliyeti ile.

Spark TTS

Ses klonlama Duygusal kontrol Stil kontrolü Soru-tabanlı 5 saniyelik klonlama

Ses klonlama TTS kontrol edilebilir duygu ve konuşma tarzıyla uyarılar aracılığıyla.

GPT-SoVITS

5 saniyelik klonlama Şarkı söyleyen ses Az-şoş öğrenme Yüksek kalite Diller arası

Sadece 5 saniye sesten herhangi bir ses kopyalayan birkaç atış ses klonlama TTS.

Yavaş · 6GB VRAM Dene.

Orpheus

İnsan düzeyinde duygular 100 bin saatlik eğitim Doğal vurgu İfadeli konuşma

İnsan düzeyindeki duygusal TTS modeli 100K saatlik konuşma verileri üzerine eğitildi.

Chatterbox

Zero-shot klonlama Duygu kontrolü Yüksek kalite Stil transferi Tek örnek klonlama

En son teknoloji, sıfır atış ses klonlama, duygu kontrolü, Resemble AI'den.

Tortoise TTS

En yüksek kalite Çok Sesli DALL-E mimarisi Ses klonlama Otomatik gerileme

Çok sesli metin-sözde kaliteye odaklanan autoregressive mimari.

Yavaş · 8GB VRAM Dene.

StyleTTS 2

İnsan düzeyinde Stil yayılması Karşılıklı eğitim Doğal değişkenlik Yüksek kalite

İnsan düzeyinde metin-söz-ediş, stil yayımı ve karşılıklı eğitim yoluyla.

OpenVoice

Anında klonlama Ses dönüşümü Duygu kontrolü Aksan kontrolü Çok Dilli

Anında ses klonlama, stil, duygu ve aksan üzerinde ince kontrol.

Qwen3 TTS

9 önayar ses Metinde ses tasarımı Duygu kontrolü 10 dil

Alibaba'nın çok dilli TTS önceden ayarlanmış seslerle ve metinden ses tasarımı.

Orta · 7GB VRAM Dene.

VieNeu-TTS-v2

7 önayar ses (Kuzey + Güney aksanları) En-Vi kod değiştirme Ses klonlama (3-5s referans) Podcast / çoklu hoparlör desteği Sadece CPU — GPU gerekmiyor

Vietnamca + İngilizce kod değiştirme TTS 7 ön ayar ses ve sıfır-atış ses klonlama. Sadece CPU, GPU gerekmiyor.

Hızlı · CPU VRAM Dene.

Sesame CSM

Konuşma Doğal zamanlama Tur-taking Arka kanal 1B parametreleri

Konuşma modeli uygun zamanlama ve duygu ile doğal diyalog yaratıyor.

Yavaş · 8GB VRAM Dene.

Chatterbox Turbo

200ms'in altında gecikme Paralinguistic etiketler 6x gerçek zamanlı Ses klonlama Su işareti

Sub-200ms gecikme ve gülüşmeler, öksürükler ve daha fazlası için paralinguistic etiketlerle daha hızlı Chatterbox.

Hızlı · 2GB VRAM Dene.

VoxCPM

44.1kHz ses Tokenizer-free Dillerin klonlanması Kontekste duyarlı LoRA iyileştirme

Tokenizer-free TTS, bağlam bilinçli paragraf tutarlılığı ile 44.1kHz ses üretir.

Hızlı · 4GB VRAM Dene.

Kani TTS 2

3GB VRAM Ultra- hızlı Hafif NanoCodec Özgür

Ultra-hafif 400M İngilizce TTS modeli sadece 3GB VRAM'de çalışır.

Hızlı · 3GB VRAM Dene.

OuteTTS

CPU çıkarımı Tarayıcının çıkarımı Çoklu arka planlar Konuşmacı profilleri

LLM tabanlı TTS, CPU, GPU veya tarayıcı üzerinden llama.cpp ve Transformers.js üzerinden çalışır.

Yavaş · 2GB VRAM Dene.

VibeVoice

Çok Sesli 90 dakikaya kadar Podcast üretimi Konuşmacı tutarlılığı 200ms akışı

Microsoft modeli, podcastler ve sesli kitaplar gibi uzun biçimli çoklu konuşmacı içeriği için.

Hızlı · 4GB VRAM Dene.

Pocket TTS

100M parametreleri CPU çıkarımı Ses klonlama Tek örnek klonlama Kenar hazır

Kyutai tarafından tek bir örnekten ses klonlama ile hafif 100M parametre modeli.

Hızlı · 1GB VRAM Dene.

Kitten TTS

CPU-only çıkarım 80MB' nin altında model boyutu 8 iç ses Hız kontrolü ONNX tabanlı 24kHz çıkış

80MB'nin altında ultra hafif TTS. CPU'da GPU olmadan çalışır.

Hızlı · 0GB VRAM Dene.

CosyVoice3

İki Akım Duygu kontrolü Ses klonlama Hız/ses kontrolü İzleme talimatı

Bi-streaming, duygu kontrolü ve sıfır-atış ses klonlama ile gelecek nesil çok dilli TTS.

Hızlı · 4GB VRAM Dene.

NAMAA Saudi TTS

Suudi Arabistan dilleri Modern Standart Arapça Ses klonlama Duygu kontrolü Yerli telaffuz

İlk açık kaynaklı Suudi Arapça TTS. Chatterbox kaliteli ses klonlama ile yerli Suudi lehçesi.

Orta · 6GB VRAM Dene.

Darwin TTS

Ses klonlama Diller arası FFN-karıştırılmış 4 ana dil Qwen3 arka planı

Cross-modal Qwen3-TTS varyantı, FFN ağırlıklarıyla Qwen3-1.7B dil modelinden daha keskin çok dilli klonlama için karıştırılmıştır.

Orta · 7GB VRAM Dene.

MOSS-TTSD

Çok konuşmacı diyalog 5 hoparlöre kadar 60 dakikalık uyumlu ses Ses klonlama Podcast iyileştirmeleri

Çok sesli diyalog devam modeli - 5 hoparlöre ve 60 dakika tutarlı sesle podcast tarzında konuşmalar oluşturun.

Orta · 12GB VRAM Dene.

Ming-Omni TTS

44.1kHz çıkış Ses klonlama Duygu kontrolü Dialect kontrolü BGM jenerasyonu Kompakt 0. 5B

InclusionAI'den kompakt 0.5B omni-modal konuşma modeli yüksek-dürüstlük 44.1kHz çıkış ve sıfır-atış ses klonlama ile.

Orta · 3GB VRAM Dene.

MOSS-TTS Nano