Özgür Yapay Zeka Metinden KonuşmayaName
33+ açık kaynak modelleri, 273+ Sesler, 33+ Hesap gerekmez.
Sesli Yapay Zeka için İhtiyaç Duyduğunuz Her Şey
Açık kaynaklı yapay zeka modelleri tarafından desteklenen 30+ araç
33+ Yapay Zeka Ses Modelleri
Tek bir platformda açık kaynaklı TTS modellerinin en kapsamlı koleksiyonu
Kokoro Özgür
Kokoro, ağırlık sınıfının çok üstünde bir performans gösteren 82 milyon parametreli bir metin-sözlü modeldir. Küçük boyutuna rağmen, dikkate değer derecede doğal ve ifade edici bir konuşma üretir. Kokoro, İngilizce, Japonca, Çince ve Korece gibi çoklu dilleri çeşitli ifade edici seslerle destekler. İnanılmaz derecede hızlı çalışır — GPU üzerinde gerçek zamanlı ses üretmekten neredeyse 100 kat daha hızlı.
En iyi: En az gecikme ile yüksek kaliteli TTS, akış uygulamaları
Bedava Dene
Piper Özgür
Piper, Rhasspy tarafından geliştirilen ve VITS ve larynx mimarilerini kullanan hafif bir metin-söz motorudur. Tümüyle CPU üzerinde çalışır, bu da onu kenar cihazları, ev otomasyonu ve çevrimdışı TTS gerektiren uygulamalar için ideal hale getirir. 30'dan fazla dilde 100'den fazla sesle, Piper Raspberry Pi 4'te bile gerçek zamanlı hızlarda doğal sesli konuşma sağlar.
En iyi: Hızlı önizlemeler, erişilebilirlik ve gömülü uygulamalar
Bedava Dene
VITS Özgür
VITS (sondan sona Metin-Konuşmaya karşılık gelen öğrenme ile Varyasyonel İnceleme), mevcut iki aşamalı modellerden daha doğal ses çıkaran bir paralel sondan sona TTS yöntemidir. Normalleştirme akışlarıyla ve karşılıklı eğitim süreciyle artırılmış varyasyonel çıkarımı kabul ederek, doğallıkta önemli bir iyileşme sağlar.
En iyi: Doğal prozodi ile genel amaçlı metin-sözleşmeName
Bedava Dene
MeloTTS Özgür
MyShell.ai tarafından geliştirilen MeloTTS, İngilizce (Amerikan, İngiliz, Hint, Avustralya), İspanyolca, Fransızca, Çince, Japonca ve Korece'yi destekleyen çok dilli bir TTS kütüphanesidir. Aşırı hızlıdır, tek başına CPU'da neredeyse gerçek zamanlı bir hızla metin işleme yapabilir. MeloTTS üretim kullanımı için tasarlanmış ve hem CPU hem de GPU çıkarımlarını destekler.
En iyi: Hızlı, çok dilli TTS gerektiren üretim uygulamaları
Bedava Dene
Kani TTS 2 Özgür
NineNineSix tarafından geliştirilen Kani-TTS-2, NVIDIA NanoCodec ile Liquid AI LFM2 arka planında inşa edilmiş ultra hafif 400M parametreli bir modeldir. Sadece 3GB VRAM ile çalışır ve A100 (RTF 0.2) üzerinde ~2 saniye içinde ~10 saniye konuşma üretir. Mevcut kamusal sürüm sadece İngilizce `kani-tts-2-en` kontrol noktası gönderir ve ses klonlaması için gereken hoparlör entegre kancasını ortaya çıkarmaz — klonlamak için Chatterbox / IndexTTS2 / F5-TTS, İngilizce olmayanlar için Kokoro / MeloTTS kullanın.
En iyi: Düşük VRAM donanımlı hızlı İngilizce üretimi, hızlı önizlemeler
Bedava Dene
OuteTTS Özgür
OuteTTS, orijinal mimariyi korurken büyük dil modellerini metin-söz-ediş yetenekleriyle genişletir. llama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM ve hatta Transformers.js aracılığıyla tarayıcı çıkarımı da dahil olmak üzere çoklu arka planları destekler. JSON olarak kaydedilmiş hoparlör profilleri aracılığıyla sıfır-atış ses klonlama özellikleri.
En iyi: Edge dağıtımı, tarayıcı tabanlı TTS, düşük kaynaklı ortamlar
Bedava Dene
Pocket TTS Özgür
Kyutai tarafından (Moshi'nin yaratıcıları) geliştirilen Pocket TTS, ağırlığının çok üzerinde bir performans gösteren kompakt 100M parametreli bir metin-söz dönüştürücü modelidir. CPU üzerinde verimli bir şekilde çalışır, tek bir ses örneğinden sıfır-atış ses klonlamasını destekler ve doğal sesli konuşma üretir. Küçük model boyutu onu kenar dağıtımı ve düşük kaynaklı ortamlar için ideal hale getirir.
En iyi: Hafif dağıtım, sadece CPU ortamları, hızlı ses klonlama
Bedava Dene
Kitten TTS Özgür
Kitten TTS by KittenML, ONNX üzerinde inşa edilmiş ultra hafif bir metin-sözlü modeldir. 15M ile 80M parametre arasında değişkenlikle (25-80 MB diskte), GPU gerektirmeden CPU üzerinde yüksek kaliteli ses sentezi sağlar. 8 iç ses, ayarlanabilir konuşma hızı ve sayılar, para birimleri ve birimler için iç metin ön işleme özellikleri vardır. Kenar dağıtımı ve düşük gecikmeli uygulamalar için idealdir.
En iyi: Hızlı hafif TTS, uç uygulamaları, düşük gecikmeli uygulamalar
Bedava Dene
Ming-Omni TTS Özgür
InclusionAI tarafından geliştirilen Ming-omni-tts-0.5B, BailingMM yoğun bir arka plan üzerine yapılmış, Patch-by-Patch akış eşleyici ses dekoderiyle donatılmış kompakt bir omni-modal konuşma modelidir. 44.1kHz çıkış sağlar (CD kalitesine yakın), 3+ saniyelik referanstan sıfır-atış ses klonlamasını destekler ve JSON talimatları aracılığıyla içsel duygu / lehçe / BGM kontrolünü içerir. Mükemmel istikrar — Çin referanslarında %0.83 WER.
En iyi: Yüksek kaliteli iki dilde anlatım, duygu kontrollü seslendirme, Çince sesli kitap içeriği
Bedava Dene
MOSS-TTS Nano Özgür
MOSS-TTS-Nano-100M, MOSS-TTS ailesinin OpenMOSS'un kompakt 100M-parametre varyantı, gecikme-transformatör mimarisini paylaşır. 8B modelinin zirve kalitesini ~80x daha küçük ağırlıklar ve dramatik olarak daha düşük talep başına VRAM için değiştirir, bu da onu ücretsiz katman ve yüksek verimlilik dağıtımlarına uygun hale getirir. Aynı 20 dil ulaşılabilirliği.
En iyi: Free-layer TTS, yüksek hacimli üretim, düşük gecikmeli etkileşimli kullanım
Bedava Dene
Bark Standart
Gerçekçi konuşma, müzik ve ses efektleri üreten transformatör tabanlı metin-sesine model.
Geliştirici: Suno · Lisans: MIT
Dene.
Bark Small Standart
Bark'ın daha hızlı çıkarımlar ve daha düşük bellek kullanımı ile hafif bir sürümü.
Geliştirici: Suno · Lisans: MIT
Dene.
CosyVoice 2 Standart
Alibaba'nın ölçeklenebilir akış TTS insan-parite doğallık ve sıfıra yakın gecikme ile.
Geliştirici: Alibaba (Tongyi Lab) · Lisans: Apache 2.0
Dene.
Dia TTS Standart
Konuşanlar arasında doğal konuşmalar yaratan çoklu-konuşan diyalog üretim modeli.
Geliştirici: Nari Labs · Lisans: Apache 2.0
Dene.
Parler TTS Standart
İstediğiniz sesi doğal dil ile tanımlayın ve Parler eşleşen konuşmayı oluşturur.
Geliştirici: Hugging Face · Lisans: Apache 2.0
Dene.
IndexTTS-2 Standart
Sıfır-atış TTS ince taneli duygu kontrolü ve yüksek ifade kabiliyeti ile.
Geliştirici: Index Team · Lisans: Bilibili Model License
Dene.
Spark TTS Standart
Ses klonlama TTS kontrol edilebilir duygu ve konuşma tarzıyla uyarılar aracılığıyla.
Geliştirici: SparkAudio · Lisans: CC BY-NC-SA 4.0
Dene.
GPT-SoVITS Standart
Sadece 5 saniye sesten herhangi bir ses kopyalayan birkaç atış ses klonlama TTS.
Geliştirici: RVC-Boss · Lisans: MIT
Dene.
Orpheus Standart
İnsan düzeyindeki duygusal TTS modeli 100K saatlik konuşma verileri üzerine eğitildi.
Geliştirici: Canopy Labs · Lisans: Llama 3.2 Community
Dene.
Qwen3 TTS Standart
Alibaba'nın çok dilli TTS önceden ayarlanmış seslerle ve metinden ses tasarımı.
Geliştirici: Alibaba (Qwen) · Lisans: Apache 2.0
Dene.
VieNeu-TTS-v2 Standart
Vietnamca + İngilizce kod değiştirme TTS 7 ön ayar ses ve sıfır-atış ses klonlama. Sadece CPU, GPU gerekmiyor.
Geliştirici: Phạm Nguyễn Ngọc Bảo · Lisans: Apache 2.0
Dene.
Chatterbox Turbo Standart
Sub-200ms gecikme ve gülüşmeler, öksürükler ve daha fazlası için paralinguistic etiketlerle daha hızlı Chatterbox.
Geliştirici: Resemble AI · Lisans: MIT
Dene.
VoxCPM Standart
Tokenizer-free TTS, bağlam bilinçli paragraf tutarlılığı ile 44.1kHz ses üretir.
Geliştirici: OpenBMB · Lisans: Apache 2.0
Dene.
VibeVoice Standart
Microsoft modeli, podcastler ve sesli kitaplar gibi uzun biçimli çoklu konuşmacı içeriği için.
Geliştirici: Microsoft · Lisans: MIT
Dene.
CosyVoice3 Standart
Bi-streaming, duygu kontrolü ve sıfır-atış ses klonlama ile gelecek nesil çok dilli TTS.
Geliştirici: Alibaba (FunAudioLLM) · Lisans: Apache 2.0
Dene.
NAMAA Saudi TTS Standart
İlk açık kaynaklı Suudi Arapça TTS. Chatterbox kaliteli ses klonlama ile yerli Suudi lehçesi.
Geliştirici: NAMAA Space · Lisans: MIT
Dene.
Darwin TTS Standart
Cross-modal Qwen3-TTS varyantı, FFN ağırlıklarıyla Qwen3-1.7B dil modelinden daha keskin çok dilli klonlama için karıştırılmıştır.
Geliştirici: FINAL-Bench · Lisans: Apache 2.0
Dene.
MOSS-TTSD Standart
Çok sesli diyalog devam modeli - 5 hoparlöre ve 60 dakika tutarlı sesle podcast tarzında konuşmalar oluşturun.
Geliştirici: OpenMOSS · Lisans: Apache 2.0
Dene.
CosyVoice 2
Alibaba'nın ölçeklenebilir akış TTS insan-parite doğallık ve sıfıra yakın gecikme ile.
Dilleri: en, zh, ja, ko, fr, de, it, es
Ses Klonlama
IndexTTS-2
Sıfır-atış TTS ince taneli duygu kontrolü ve yüksek ifade kabiliyeti ile.
Dilleri: en, zh
Ses Klonlama
Spark TTS
Ses klonlama TTS kontrol edilebilir duygu ve konuşma tarzıyla uyarılar aracılığıyla.
Dilleri: en, zh
Ses Klonlama
GPT-SoVITS
Sadece 5 saniye sesten herhangi bir ses kopyalayan birkaç atış ses klonlama TTS.
Dilleri: en, zh, ja, ko
Ses Klonlama
Chatterbox
En son teknoloji, sıfır atış ses klonlama, duygu kontrolü, Resemble AI'den.
Dilleri: en
Ses Klonlama
Tortoise TTS
Çok sesli metin-sözde kaliteye odaklanan autoregressive mimari.
Dilleri: en
Ses Klonlama
OpenVoice
Anında ses klonlama, stil, duygu ve aksan üzerinde ince kontrol.
Dilleri: en, zh, ja, ko, fr, es
Ses Klonlama
VieNeu-TTS-v2
Vietnamca + İngilizce kod değiştirme TTS 7 ön ayar ses ve sıfır-atış ses klonlama. Sadece CPU, GPU gerekmiyor.
Dilleri: vi, en
Ses Klonlama
Chatterbox Turbo
Sub-200ms gecikme ve gülüşmeler, öksürükler ve daha fazlası için paralinguistic etiketlerle daha hızlı Chatterbox.
Dilleri: en
Ses Klonlama
VoxCPM
Tokenizer-free TTS, bağlam bilinçli paragraf tutarlılığı ile 44.1kHz ses üretir.
Dilleri: en, zh
Ses Klonlama
OuteTTS
LLM tabanlı TTS, CPU, GPU veya tarayıcı üzerinden llama.cpp ve Transformers.js üzerinden çalışır.
Dilleri: en
Ses Klonlama
Pocket TTS
Kyutai tarafından tek bir örnekten ses klonlama ile hafif 100M parametre modeli.
Dilleri: en, fr
Ses Klonlama
CosyVoice3
Bi-streaming, duygu kontrolü ve sıfır-atış ses klonlama ile gelecek nesil çok dilli TTS.
Dilleri: en, zh, ja, ko, de, es, fr, it, ru
Ses Klonlama
NAMAA Saudi TTS
İlk açık kaynaklı Suudi Arapça TTS. Chatterbox kaliteli ses klonlama ile yerli Suudi lehçesi.
Dilleri: ar
Ses Klonlama
Darwin TTS
Cross-modal Qwen3-TTS varyantı, FFN ağırlıklarıyla Qwen3-1.7B dil modelinden daha keskin çok dilli klonlama için karıştırılmıştır.
Dilleri: en, ko, ja, zh
Ses Klonlama
MOSS-TTSD
Çok sesli diyalog devam modeli - 5 hoparlöre ve 60 dakika tutarlı sesle podcast tarzında konuşmalar oluşturun.
Dilleri: en, zh
Ses Klonlama
Ming-Omni TTS
InclusionAI'den kompakt 0.5B omni-modal konuşma modeli yüksek-dürüstlük 44.1kHz çıkış ve sıfır-atış ses klonlama ile.
Dilleri: en, zh
Ses Klonlama
MOSS-TTS Nano
Tiny 100M MOSS-TTS varyantı — aynı mimari, 80x daha küçük, ücretsiz katman gecikmesi.
Dilleri: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Ses KlonlamaGeliştirici Öncesi API
OpenAI uyumlu REST API. Tek son nokta, 22+ model. Gerçek zamanlı uygulamalar için akış desteği.
- OpenAI uyumlu biçim
- Gerçek zamanlı uygulamalar için TTS akışı
- Büyük işler için grup işlemi
- Webhook bildirimleri
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Basit, Şeffaf Fiyatlar
Bedava başla, büyüdükçe ölçeklen.
Özgür
15,000 karakter + 5,000/gün
- Kokoro da dahil olmak üzere 7 ücretsiz model
- Nesil başına 5000 karakter
- API erişimi dahil
Pro
2,000 kredi/ay
- Başlatıcıdaki her şey
- API erişimi
- Öncelik işlemi
Sıkça Sorulan Sorular
Neyi geliştirebiliriz?
Yapay Zeka Sesini Bugün Kullanmaya Başla
TTS.ai kullanan yaratıcılara, geliştiricilere ve işletmelere katılın