Wolny AI Tekst do mowy

Parametry 82M Ultra-szybka Głosy ekspresyjne Wielojęzyczny Uproszczenie wsparcia

Łatwy model parametrów 82M zapewniający jakość studiów mowy z szybko plamienie.

Szybko · 1.5GB VRAM Spróbuj.

Piper

Przyjazny dla procesora Zdolność offline 100+ głosów 35+ języków Wsparcie SSML

Szybki, lokalny tekst neurologiczny do systemu mowy zoptymalizowany dla Malina Pi i wbudowanych urządzeń.

Szybko · 0 (CPU only) VRAM Spróbuj.

VITS

Synteza końcowa Prozodia naturalna Szybka ocena Wiele głośników

Wariantowy automatyczny koder z uczeniem się wspomagającym do końca tekst-to-speech.

Szybko · 1GB VRAM Spróbuj.

MeloTTS

Optymalizowany procesorem Wielojęzyczny Wiele akcentów Gotowe do produkcji Niskie latencje

Wysokiej jakości wielojęzyczny tekst-to-speech, który działa na procesorze z minimalną latencją.

Szybko · 0.5GB (GPU optional) VRAM Spróbuj.

Bark

Efekty dźwiękowe Śmiech/wzdychanie Wytwarzanie muzyki 100+ głośników Wielojęzyczny

Model transformer-to-audio, który generuje realistyczne mowy, muzyki i efekty dźwiękowe.

Powoli · 5GB VRAM Spróbuj.

Bark Small

Łatwy Szybciej niż pełny Bark Przemowa emocjonalna Wielojęzyczny

Leksza wersja Barka z szybszym wynikiem i mniejszym użyciem pamięci.

Średni · 2GB VRAM Spróbuj.

CosyVoice 2

Strumienie Klonowanie zero strzałów Krzyżowy Kontrola uczuć Różnorodność ludzka

Alibaba przepływa TTS z naturalnością ludzkiej paryty i niemal zerową latencją.

Dia TTS

Wielogłośnik Tworzenie okna dialogowego Naturalny obrót Wyrażenie emocjonalne Parametry 1.6B

Model tworzenia dialogu wielogłośnika, który tworzy naturalne rozmowy między głośnikami.

Parler TTS

Opis głosu Kontrola języka naturalnego Elastyczne tworzenie głosu Brak ustawionych głosów

Opisz głos, który chcesz w języku naturalnym, a Parler generuje odpowiednie mowy.

Indic Parler TTS

11 języków indyjskich Opis głosu Kontrola języka naturalnego Uwierzytelniona wymowa indyjska

Wysokiej jakości przemówienie dla 8+ języków indyjskich z naturalną kontrolą głosu.

Powoli · 8GB VRAM Spróbuj.

KhanomTan TTS

Tajlandzkie TTS Wiele głośników Architektura YourTTS Pozwolenie na ochronę handlową

Tajsko-pierwszy tekst-na-speech z wyborem głośników.

Szybko · 2GB VRAM Spróbuj.

IndexTTS-2

Kontrola uczuć Zero-postrzał Wektory emocji Wyraźne przemówienie Fine-ziarna kontrola

Zero-postrzałowy TTS z wybitną kontrolą emocji i wysoką ekspresywnością.

Spark TTS

Klonowanie głosu Kontrola uczuć Kontrola stylu Oparte na proście 5-sekundowe klonowanie

Głosowe klonowanie TTS z kontrolowanym uczuciem i stylem mowy poprzez pytania.

GPT-SoVITS

5-sekundowe klonowanie Głos śpiewający Kilkakrotne uczenie się Wysoka wierność Krzyżowy

Niewiele klonowania głosu TTS, które replikuje każdy głos z zaledwie 5 sekund dźwięku.

Powoli · 6GB VRAM Spróbuj.

Orpheus

Emocje na poziomie ludzkim Szkolenie 100K godzin Nacisk naturalny Wyraźne przemówienie

Model emocjonalny TTS na poziomie ludzkim wyszkolony na 100K godzinach mowy.

Chatterbox

Klonowanie zero strzałów Kontrola uczuć Wysoka wierność Przeniesienie stylu Klonowanie pojedynczej próbki

Najnowocześniejsze klonowanie głosu zerowego z kontrolą emocji z Resemble AI.

Tortoise TTS

Najwyższa jakość Wielogłosowy Architektura DALL-E Klonowanie głosu Automatycznie regresywnie

Wielogłosowy tekst-to-speech skupiony na jakości z architekturą autoregresywną.

Powoli · 8GB VRAM Spróbuj.

StyleTTS 2

Poziom ludzki Rozpowszechnianie stylu Szkolenie przeciwne Różnice naturalne Wysoka wierność

Na poziomie ludzkim tekst-to-speech poprzez dyfuzję stylową i szkolenie przeciwne.

OpenVoice

Klonowanie natychmiastowe Konwersja głosu Kontrola uczuć Kontrola akcentów Wielojęzyczny

Natychmiastowe klonowanie głosu z granulową kontrolą stylu, emocji i akcentu.

Qwen3 TTS

9 ustawionych głosów Projekt głosu z tekstu Kontrola uczuć 10 języków

Wielojęzyczny TTS Alibaby z ustawionym głosem i projektem głosu z tekstu.

Średni · 7GB VRAM Spróbuj.

VieNeu-TTS-v2

7 ustawionych głosów (północ + Południowy akcent) Przełączanie kodu en-Vi Klonowanie głosu (3-5s odniesienie) Obsługa podcastu / wielogłośnika Tylko procesor – nie jest wymagany GPU

Wietnamski + angielski kod przełączający TTS z 7 ustawionych głosów i klonowanie zero głosu. Tylko procesor, nie wymaga się GPU.

Szybko · CPU VRAM Spróbuj.

Sesame CSM

Konwersacyjne Zwyczajne wyczucie czasu Obrót obrotowy Tylny kanał Parametry 1B

Konwersacyjnego modelu mowy generującego naturalny dialog z odpowiednim czasem i emocjami.

Powoli · 8GB VRAM Spróbuj.

Chatterbox Turbo

Pod-200ms latencyjność Paralinguistyczne tagi 6x czasu rzeczywistego Klonowanie głosu Wodospad

Szybciej Chatterbox z sub-200ms latencji i paralinguistycznych tagów dla śmiechu, kaszelów i innych.

Szybko · 2GB VRAM Spróbuj.

VoxCPM

44.1kHz audio Bez tokenizerów Klonowanie krzyżowe Uświadomienie kontekstu Dostosowywanie się do LoRA

Bez tokenizeru TTS produkuje dźwięk 44.1kHz z konsystencją punktu świadomego kontekstu.

Szybko · 4GB VRAM Spróbuj.

Kani TTS 2

3GB VRAM Ultra-szybka Łatwy Nanokodek Darmowe

Ultra-lekki model 400M angielski TTS działa w zaledwie 3GB VRAM.

Szybko · 3GB VRAM Spróbuj.

OuteTTS

Wynik procesora Wynik przeglądarki Wielokrotne oprogramowanie Profile głośników

TTS oparty na LLM, który działa na procesorze, GPU lub przeglądarce przez lama.cpp i Transformers.js.

Powoli · 2GB VRAM Spróbuj.

VibeVoice

Wielogłośnik Do 90 min Wytwarzanie podcastu Spójność głośnika 200ms strumienie

Model Microsoft dla zawartości wielogłośników długoformowych, takich jak podcasty i książki audio.

Szybko · 4GB VRAM Spróbuj.

Pocket TTS

Parametry 100M Wynik procesora Klonowanie głosu Klonowanie pojedynczego próbki Przygotowanie do krawędzi

Łatwy model parametrów 100M przez Kyutai z klonowaniem głosu z jednej próbki.

Szybko · 1GB VRAM Spróbuj.

Kitten TTS

Wynik wyłącznie z procesora Rozmiar modelu poniżej 80MB 8 wbudowanych głosów Kontrola prędkości Na podstawie ONNX Wyjście 24kHz

Ultra-lekkie TTS poniżej 80MB. Uruchomiono w procesorze bez GPU.

Szybko · 0GB VRAM Spróbuj.

CosyVoice3

Dwustronne przepływy Kontrola uczuć Klonowanie głosu Szybkość/objętość sterowania Instrukcja następująca

Kolejna generacja wielojęzyczny TTS z dwustremowym, kontrolą emocji i zerowym klonowaniem głosu.

Szybko · 4GB VRAM Spróbuj.

NAMAA Saudi TTS

Dialekt arabski saudyjski Nowoczesny standard arabski Klonowanie głosu zerowego Kontrola uczuć Wymówka rentowna

Pierwszy otwarty saudyjski-arabski TTS. Native saudyjski dialekt z Chatterbox jakości klonowania głosu.

Średni · 6GB VRAM Spróbuj.

Darwin TTS

Klonowanie głosu Krzyżowy FFN-pierdolony 4 języki podstawowe kręgosłup Qwen3

Wariant cross-modal Qwen3-TTS z wagami FFN mieszane z modelu językowego Qwen3-1,7B dla ostriejszego wielojęzycznego klonowania.

Średni · 7GB VRAM Spróbuj.

MOSS-TTSD

Okno wielogłośnikowe Do 5 głośników 60min spójnego dźwięku Klonowanie głosu Optymalizacja podcastu

Model kontynuacji dialogu wielogłośników – generowanie rozmów w stylu podcastu z maksymalnie 5 głośnikami i 60 minutami spójnego dźwięku.

Średni · 12GB VRAM Spróbuj.

Ming-Omni TTS

44.1kHz wyjście Klonowanie głosu Kontrola uczuć Kontrola dialektów Wytwarzanie BGM Kompaktny 0,5B

Kompakt 0.5B wszechmodalny model mowy z inclusionAI z wysoką wiarygodnością wyjścia 44.1kHz i zerowym klonowaniem głosu.

Średni · 3GB VRAM Spróbuj.

MOSS-TTS Nano