Wolny AI Tekst do mowy
31+ modele otwartego źródła, 231+ głosy, 34+ języki. Nie wymagane konto.
Wszystko, czego potrzebujesz do AI głosu
30+ narzędzi zasilanych przez modele open-source AI
31+ Modele AI Głosowe
Najbardziej kompleksowa kolekcja modeli TTS otwartego źródła w jednej platformie
Kokoro Free
Kokoro jest 82 miliony parametrów tekst-na-speech model, który uderza znacznie powyżej klasy wagi. Pomimo jego malutkich rozmiarów, produkuje niezwykle naturalne i wyrażające mowy. Kokoro obsługuje wiele języków, w tym angielski, japoński, chiński i koreański z różnymi wyrażającymi się głosami. Działa niesamowicie szybko — generuje audio prawie 100x szybciej niż w czasie rzeczywistym w GPU.
Najlepsze dla: Wysokiej jakości TTS z minimalną latencją, przepływem aplikacji
Spróbuj wolno
Piper Free
Piper jest lekkim silnikiem tekst-to-speech opracowanym przez Rhaspy, który używa architektury VITS i gardła. Jest w pełni działa na procesorze, co sprawia, że jest idealny dla urządzeń krawędziowych, automatyzacji domowej i aplikacji wymagających offline TTS. Z ponad 100 głosów w 30+ językach, Piper dostarcza naturalnie dźwiękowe mowy przy prędkościach w czasie rzeczywistym, nawet na Raspberry Pi 4.
Najlepsze dla: Szybkie podglądy, dostępność i wbudowane aplikacje
Spróbuj wolno
VITS Free
VITS (Wariacyjne wyrażenie z uczeniem się wzajemnie do końca słowa tekstu) jest równoległą metodą TTS od końca do końca, która generuje bardziej naturalne dźwięki dźwiękowe niż obecne dwustopniowe modele. Przyjmuje variacyjne wynik wzmacniany wraz z przepływami normalizacyjnymi i procesem szkolenia sprzecznego, osiągając znaczącą poprawę naturalności.
Najlepsze dla: Ogólnie-celowy tekst-na-speech z naturalną prozodią
Spróbuj wolno
MeloTTS Free
MeloTTS by MyShell.ai – wielojęzyczna biblioteka TTS obsługująca angielski (amerykański, brytyjski, indyjski, australijski), hiszpański, francuski, chiński, japoński i koreański. Jest to niezwykle szybkie, przetwarzając tekst przy niemal szybkości w czasie rzeczywistym tylko na CPU. MeloTTS jest zaprojektowany do produkcji i obsługuje zarówno procesor i GPU inference.
Najlepsze dla: Wnioski o produkcję wymagające szybkiego, wielojęzycznego TTS
Spróbuj wolno
OuteTTS Free
OutetTS rozszerza duże modele językowe o możliwości tekst-na-speech przy zachowaniu oryginalnej architektury. Obsługuje wiele programów, w tym lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, a nawet wynik przeglądarki za pomocą Transformers.js. Funkcje zerowe klonowanie głosu poprzez profile głośników zapisane jako JSON.
Najlepsze dla: Wykorzystanie krawędzi, TTS oparty na przeglądarce, środowiska o niskich źródłach
Spróbuj wolno
Pocket TTS Free
Pocket TTS przez Kyutai (kreatory Moshi) to kompaktowy model 100M parametrów tekst- do-speech, który uderza znacznie powyżej jego wagi. Działa efektywnie na procesorze, obsługuje klonowanie głosu zerowego z pojedynczej próbki audio i wytwarza naturalnie dźwiękową mówkę. Mały rozmiar modelu sprawia, że jest idealny dla rozmieszczenia krawędzi i środowiska niskiego źródła.
Najlepsze dla: Łatwe wdrożenie, tylko systemy procesorowe, szybkie klonowanie głosu
Spróbuj wolno
Kitten TTS Free
Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.
Najlepsze dla: Fast lightweight TTS, edge deployment, low-latency applications
Spróbuj wolno
Bark Standard
Model transformer-to-audio, który generuje realistyczne mowy, muzyki i efekty dźwiękowe.
Rozwijacz: Suno · Licencja: MIT
Spróbuj.
Bark Small Standard
Leksza wersja Barka z szybszym wynikiem i mniejszym użyciem pamięci.
Rozwijacz: Suno · Licencja: MIT
Spróbuj.
CosyVoice 2 Standard
Alibaba przepływa TTS z naturalnością ludzkiej paryty i niemal zerową latencją.
Rozwijacz: Alibaba (Tongyi Lab) · Licencja: Apache 2.0
Spróbuj.
Dia TTS Standard
Model tworzenia dialogu wielogłośnika, który tworzy naturalne rozmowy między głośnikami.
Rozwijacz: Nari Labs · Licencja: Apache 2.0
Spróbuj.
Parler TTS Standard
Opisz głos, który chcesz w języku naturalnym, a Parler generuje odpowiednie mowy.
Rozwijacz: Hugging Face · Licencja: Apache 2.0
Spróbuj.
GLM-TTS Standard
Osiąga najniższy wskaźnik błędów znaków w modelach TTS otwartego źródła.
Rozwijacz: Zhipu AI · Licencja: GLM-4 License
Spróbuj.
IndexTTS-2 Standard
Zero-postrzałowy TTS z wybitną kontrolą emocji i wysoką ekspresywnością.
Rozwijacz: Index Team · Licencja: Bilibili Model License
Spróbuj.
Spark TTS Standard
Głosowe klonowanie TTS z kontrolowanym uczuciem i stylem mowy poprzez pytania.
Rozwijacz: SparkAudio · Licencja: CC BY-NC-SA 4.0
Spróbuj.
GPT-SoVITS Standard
Niewiele klonowania głosu TTS, które replikuje każdy głos z zaledwie 5 sekund dźwięku.
Rozwijacz: RVC-Boss · Licencja: MIT
Spróbuj.
Orpheus Standard
Model emocjonalny TTS na poziomie ludzkim wyszkolony na 100K godzinach mowy.
Rozwijacz: Canopy Labs · Licencja: Llama 3.2 Community
Spróbuj.
Qwen3 TTS Standard
Wielojęzyczny TTS Alibaby z klonowaniem głosu, ustawieniem głosów i projektem głosu z tekstu.
Rozwijacz: Alibaba (Qwen) · Licencja: Apache 2.0
Spróbuj.
Chatterbox Turbo Standard
Szybciej Chatterbox z sub-200ms latencji i paralinguistycznych tagów dla śmiechu, kaszelów i innych.
Rozwijacz: Resemble AI · Licencja: MIT
Spróbuj.
Dia 2 Standard
Streaming-pierwsza rozmowa TTS z dialogiem wielogłośników i paralinguistycznymi znakami.
Rozwijacz: Nari Labs · Licencja: Apache 2.0
Spróbuj.
VoxCPM Standard
Bez tokenizeru TTS produkuje dźwięk 44.1kHz z konsystencją punktu świadomego kontekstu.
Rozwijacz: OpenBMB · Licencja: Apache 2.0
Spróbuj.
TADA Standard
Zero-halucynacja TTS z tekst-akustyczne podwójne dopasowanie, 5x szybciej niż porównywalne LLM TTS.
Rozwijacz: Hume AI · Licencja: MIT
Spróbuj.
VibeVoice Standard
Model Microsoft dla zawartości wielogłośników długoformowych, takich jak podcasty i książki audio.
Rozwijacz: Microsoft · Licencja: MIT
Spróbuj.
CosyVoice3 Standard
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Rozwijacz: Alibaba (FunAudioLLM) · Licencja: Apache 2.0
Spróbuj.
CosyVoice 2
Alibaba przepływa TTS z naturalnością ludzkiej paryty i niemal zerową latencją.
Języki: en, zh, ja, ko, fr, de, it, es
Głos klonowy
GLM-TTS
Osiąga najniższy wskaźnik błędów znaków w modelach TTS otwartego źródła.
Języki: en, zh
Głos klonowy
IndexTTS-2
Zero-postrzałowy TTS z wybitną kontrolą emocji i wysoką ekspresywnością.
Języki: en, zh
Głos klonowy
Spark TTS
Głosowe klonowanie TTS z kontrolowanym uczuciem i stylem mowy poprzez pytania.
Języki: en, zh
Głos klonowy
GPT-SoVITS
Niewiele klonowania głosu TTS, które replikuje każdy głos z zaledwie 5 sekund dźwięku.
Języki: en, zh, ja, ko
Głos klonowy
Chatterbox
Najnowocześniejsze klonowanie głosu zerowego z kontrolą emocji z Resemble AI.
Języki: en
Głos klonowy
Tortoise TTS
Wielogłosowy tekst-to-speech skupiony na jakości z architekturą autoregresywną.
Języki: en
Głos klonowy
OpenVoice
Natychmiastowe klonowanie głosu z granulową kontrolą stylu, emocji i akcentu.
Języki: en, zh, ja, ko, fr, de, es, it
Głos klonowy
Qwen3 TTS
Wielojęzyczny TTS Alibaby z klonowaniem głosu, ustawieniem głosów i projektem głosu z tekstu.
Języki: en, zh, ja, ko, de, fr, ru, pt, es, it
Głos klonowy
Chatterbox Turbo
Szybciej Chatterbox z sub-200ms latencji i paralinguistycznych tagów dla śmiechu, kaszelów i innych.
Języki: en
Głos klonowy
VoxCPM
Bez tokenizeru TTS produkuje dźwięk 44.1kHz z konsystencją punktu świadomego kontekstu.
Języki: en, zh
Głos klonowy
OuteTTS
TTS oparty na LLM, który działa na procesorze, GPU lub przeglądarce przez lama.cpp i Transformers.js.
Języki: en
Głos klonowy
Pocket TTS
Łatwy model parametrów 100M przez Kyutai z klonowaniem głosu z jednej próbki.
Języki: en, fr
Głos klonowy
CosyVoice3
Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.
Języki: en, zh, ja, ko, de, es, fr, it, ru
Głos klonowy
MOSS-TTS
Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.
Języki: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr
Głos klonowy
MegaTTS3
ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.
Języki: en, zh
Głos klonowyDeveloper- Pierwszy API
Kompatybilny z OpenAI REST API. Jeden punkt końcowy, modele 22+. Uciekanie wsparcia dla aplikacji w czasie rzeczywistym.
- Format kompatybilny z OpenAI
- Streaming TTS dla aplikacji w czasie rzeczywistym
- Przetwarzanie serii dla dużych zadań
- Powiadomienia Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Proste, przejrzyste ceny
Zacznij wolno.
Darmowe
15 kredytów
- Kokoro, Piper, VITS, MeloTTS
- Ograniczenie 500 znaków
- 3 gen/godz. (brak konta)
Rozpoczynacz
500 kredytów/miesiąc
- Wszystkie modele 22+
- 100 000 znaków na pokolenie
- Klonowanie głosu
Prof.
2000 kredytów/miesiąc
- Wszystko w Starter
- Dostęp API
- Przetwarzanie priorytetowe
Biznes
10 000 kredytów/miesiąc
- Wszystko w pro
- Masowy API
- Przyorytetowa kolejka
Często zadawane pytania
Co moglibyśmy ulepszyć? Twoje zwroty zwrotne pomagają nam rozwiązać problemy.
Zacznij używać AI Voice Dzisiaj
Dołącz do twórców, deweloperów i firm korzystających z TTS.ai