Wolny AI Tekst do mowy
33+ modele otwartego źródła, 273+ głosy, 33+ języki. Nie wymagane konto.
Wszystko, czego potrzebujesz do AI głosu
30+ narzędzi zasilanych przez modele open-source AI
33+ Modele AI Głosowe
Najbardziej kompleksowa kolekcja modeli TTS otwartego źródła w jednej platformie
Kokoro Darmowe
Kokoro jest 82 miliony parametrów tekst-na-speech model, który uderza znacznie powyżej klasy wagi. Pomimo jego malutkich rozmiarów, produkuje niezwykle naturalne i wyrażające mowy. Kokoro obsługuje wiele języków, w tym angielski, japoński, chiński i koreański z różnymi wyrażającymi się głosami. Działa niesamowicie szybko — generuje audio prawie 100x szybciej niż w czasie rzeczywistym w GPU.
Najlepsze dla: Wysokiej jakości TTS z minimalną latencją, przepływem aplikacji
Spróbuj wolno
Piper Darmowe
Piper jest lekkim silnikiem tekst-to-speech opracowanym przez Rhaspy, który używa architektury VITS i gardła. Jest w pełni działa na procesorze, co sprawia, że jest idealny dla urządzeń krawędziowych, automatyzacji domowej i aplikacji wymagających offline TTS. Z ponad 100 głosów w 30+ językach, Piper dostarcza naturalnie dźwiękowe mowy przy prędkościach w czasie rzeczywistym, nawet na Raspberry Pi 4.
Najlepsze dla: Szybkie podglądy, dostępność i wbudowane aplikacje
Spróbuj wolno
VITS Darmowe
VITS (Wariacyjne wyrażenie z uczeniem się wzajemnie do końca słowa tekstu) jest równoległą metodą TTS od końca do końca, która generuje bardziej naturalne dźwięki dźwiękowe niż obecne dwustopniowe modele. Przyjmuje variacyjne wynik wzmacniany wraz z przepływami normalizacyjnymi i procesem szkolenia sprzecznego, osiągając znaczącą poprawę naturalności.
Najlepsze dla: Ogólnie-celowy tekst-na-speech z naturalną prozodią
Spróbuj wolno
MeloTTS Darmowe
MeloTTS by MyShell.ai – wielojęzyczna biblioteka TTS obsługująca angielski (amerykański, brytyjski, indyjski, australijski), hiszpański, francuski, chiński, japoński i koreański. Jest to niezwykle szybkie, przetwarzając tekst przy niemal szybkości w czasie rzeczywistym tylko na CPU. MeloTTS jest zaprojektowany do produkcji i obsługuje zarówno procesor i GPU inference.
Najlepsze dla: Wnioski o produkcję wymagające szybkiego, wielojęzycznego TTS
Spróbuj wolno
Kani TTS 2 Darmowe
Kani-TTS-2 przez NineNineSix jest ultra lekkim modelem parametrów 400M zbudowanym na kręgosłupie płynnym AI LFM2 z NVIDIA NanoCodec. Wykonuje on zaledwie 3GB VRAM i wytwarza ~10 sekund mowy w ~2 sekundach na klonowaniu A100 (RTF 0.2). Obecny system publicznego wydania statkuje tylko angielski punkt kontrolny `kani-tts-2-en' i nie ujawnia haka głośnika potrzebnego do klonowania głosu — używać Chatterbox / IndexTTS2 / F5-TTS do klonowania, lub Kokoro / MeloTTS dla nieangielskiego.
Najlepsze dla: Szybka generacja angielska na nisko-VRAM sprzętu, szybkie podglądy
Spróbuj wolno
OuteTTS Darmowe
OutetTS rozszerza duże modele językowe o możliwości tekst-na-speech przy zachowaniu oryginalnej architektury. Obsługuje wiele programów, w tym lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, a nawet wynik przeglądarki za pomocą Transformers.js. Funkcje zerowe klonowanie głosu poprzez profile głośników zapisane jako JSON.
Najlepsze dla: Wykorzystanie krawędzi, TTS oparty na przeglądarce, środowiska o niskich źródłach
Spróbuj wolno
Pocket TTS Darmowe
Pocket TTS przez Kyutai (kreatory Moshi) to kompaktowy model 100M parametrów tekst- do-speech, który uderza znacznie powyżej jego wagi. Działa efektywnie na procesorze, obsługuje klonowanie głosu zerowego z pojedynczej próbki audio i wytwarza naturalnie dźwiękową mówkę. Mały rozmiar modelu sprawia, że jest idealny dla rozmieszczenia krawędzi i środowiska niskiego źródła.
Najlepsze dla: Łatwe wdrożenie, tylko systemy procesorowe, szybkie klonowanie głosu
Spróbuj wolno
Kitten TTS Darmowe
Kitten TTS by KittenML jest ultra-lekkim modelem tekst- do-speech zbudowanym na ONNX. Z wariantami od 15M do 80M parametrów (25-80 MB na dysku), dostarcza wysokiej jakości syntezy głosu na procesorze bez wymagania GPU. Funkcje 8 wbudowanych głosów, regulowana prędkość mowy i wbudowane wstępne przetwarzanie tekstów dla liczb, walut i jednostek. Idealny do rozmieszczania krawędzi i niskich terminów.
Najlepsze dla: Szybkie lekkie TTS, wdrożenie krawędzi, niskie terminy
Spróbuj wolno
Ming-Omni TTS Darmowe
Ming-omni-tts-0.5B poprzez włączenieAI jest kompaktowym modelem mowy wszechmodalnej zbudowanym na gęstej kręgosłupce BailingMM z dekoderem audiopasującym Patch-by-Patch. Dostarcza 44.1kHz wyjście (bliska jakość CD), obsługuje klonowanie głosu zerowego z 3+ drugiego odniesienia, a także obejmuje wbudowane emocje / dialekt / kontrola BGM za pośrednictwem instrukcji JSON. Doskonała stabilność — 0,83% WER na chińskich poziomach odniesienia.
Najlepsze dla: Wysoka wierność dwujęzyczna narracja, emocjonalnie kontrolowane głos aktywowanie, chińska zawartość audiobook
Spróbuj wolno
MOSS-TTS Nano Darmowe
MOSS-TTS-Nano-100M jest kompaktowym wariantem 100M-parametrowym rodziny MOSS-TTS, dzielącym się opóźnieniem-transformer architektury. Wymiana najwyższej jakości modelu 8B dla ~80x mniejszych wag i dramatycznie niższych na żądanie VRAM, co sprawia, że nadaje się do rozmieszczenia wolnego i wysokiego wkładu. Ten sam 20-języczny zasięg.
Najlepsze dla: Wolne cierowe TTS, duża produkcja, niskookresowe interaktywne wykorzystanie
Spróbuj wolno
Bark Standardowe
Model transformer-to-audio, który generuje realistyczne mowy, muzyki i efekty dźwiękowe.
Rozwijacz: Suno · Licencja: MIT
Spróbuj.
Bark Small Standardowe
Leksza wersja Barka z szybszym wynikiem i mniejszym użyciem pamięci.
Rozwijacz: Suno · Licencja: MIT
Spróbuj.
CosyVoice 2 Standardowe
Alibaba przepływa TTS z naturalnością ludzkiej paryty i niemal zerową latencją.
Rozwijacz: Alibaba (Tongyi Lab) · Licencja: Apache 2.0
Spróbuj.
Dia TTS Standardowe
Model tworzenia dialogu wielogłośnika, który tworzy naturalne rozmowy między głośnikami.
Rozwijacz: Nari Labs · Licencja: Apache 2.0
Spróbuj.
Parler TTS Standardowe
Opisz głos, który chcesz w języku naturalnym, a Parler generuje odpowiednie mowy.
Rozwijacz: Hugging Face · Licencja: Apache 2.0
Spróbuj.
IndexTTS-2 Standardowe
Zero-postrzałowy TTS z wybitną kontrolą emocji i wysoką ekspresywnością.
Rozwijacz: Index Team · Licencja: Bilibili Model License
Spróbuj.
Spark TTS Standardowe
Głosowe klonowanie TTS z kontrolowanym uczuciem i stylem mowy poprzez pytania.
Rozwijacz: SparkAudio · Licencja: CC BY-NC-SA 4.0
Spróbuj.
GPT-SoVITS Standardowe
Niewiele klonowania głosu TTS, które replikuje każdy głos z zaledwie 5 sekund dźwięku.
Rozwijacz: RVC-Boss · Licencja: MIT
Spróbuj.
Orpheus Standardowe
Model emocjonalny TTS na poziomie ludzkim wyszkolony na 100K godzinach mowy.
Rozwijacz: Canopy Labs · Licencja: Llama 3.2 Community
Spróbuj.
Qwen3 TTS Standardowe
Wielojęzyczny TTS Alibaby z ustawionym głosem i projektem głosu z tekstu.
Rozwijacz: Alibaba (Qwen) · Licencja: Apache 2.0
Spróbuj.
VieNeu-TTS-v2 Standardowe
Wietnamski + angielski kod przełączający TTS z 7 ustawionych głosów i klonowanie zero głosu. Tylko procesor, nie wymaga się GPU.
Rozwijacz: Phạm Nguyễn Ngọc Bảo · Licencja: Apache 2.0
Spróbuj.
Chatterbox Turbo Standardowe
Szybciej Chatterbox z sub-200ms latencji i paralinguistycznych tagów dla śmiechu, kaszelów i innych.
Rozwijacz: Resemble AI · Licencja: MIT
Spróbuj.
VoxCPM Standardowe
Bez tokenizeru TTS produkuje dźwięk 44.1kHz z konsystencją punktu świadomego kontekstu.
Rozwijacz: OpenBMB · Licencja: Apache 2.0
Spróbuj.
VibeVoice Standardowe
Model Microsoft dla zawartości wielogłośników długoformowych, takich jak podcasty i książki audio.
Rozwijacz: Microsoft · Licencja: MIT
Spróbuj.
CosyVoice3 Standardowe
Kolejna generacja wielojęzyczny TTS z dwustremowym, kontrolą emocji i zerowym klonowaniem głosu.
Rozwijacz: Alibaba (FunAudioLLM) · Licencja: Apache 2.0
Spróbuj.
NAMAA Saudi TTS Standardowe
Pierwszy otwarty saudyjski-arabski TTS. Native saudyjski dialekt z Chatterbox jakości klonowania głosu.
Rozwijacz: NAMAA Space · Licencja: MIT
Spróbuj.
Darwin TTS Standardowe
Wariant cross-modal Qwen3-TTS z wagami FFN mieszane z modelu językowego Qwen3-1,7B dla ostriejszego wielojęzycznego klonowania.
Rozwijacz: FINAL-Bench · Licencja: Apache 2.0
Spróbuj.
MOSS-TTSD Standardowe
Model kontynuacji dialogu wielogłośników – generowanie rozmów w stylu podcastu z maksymalnie 5 głośnikami i 60 minutami spójnego dźwięku.
Rozwijacz: OpenMOSS · Licencja: Apache 2.0
Spróbuj.
CosyVoice 2
Alibaba przepływa TTS z naturalnością ludzkiej paryty i niemal zerową latencją.
Języki: en, zh, ja, ko, fr, de, it, es
Głos klonowy
IndexTTS-2
Zero-postrzałowy TTS z wybitną kontrolą emocji i wysoką ekspresywnością.
Języki: en, zh
Głos klonowy
Spark TTS
Głosowe klonowanie TTS z kontrolowanym uczuciem i stylem mowy poprzez pytania.
Języki: en, zh
Głos klonowy
GPT-SoVITS
Niewiele klonowania głosu TTS, które replikuje każdy głos z zaledwie 5 sekund dźwięku.
Języki: en, zh, ja, ko
Głos klonowy
Chatterbox
Najnowocześniejsze klonowanie głosu zerowego z kontrolą emocji z Resemble AI.
Języki: en
Głos klonowy
Tortoise TTS
Wielogłosowy tekst-to-speech skupiony na jakości z architekturą autoregresywną.
Języki: en
Głos klonowy
OpenVoice
Natychmiastowe klonowanie głosu z granulową kontrolą stylu, emocji i akcentu.
Języki: en, zh, ja, ko, fr, es
Głos klonowy
VieNeu-TTS-v2
Wietnamski + angielski kod przełączający TTS z 7 ustawionych głosów i klonowanie zero głosu. Tylko procesor, nie wymaga się GPU.
Języki: vi, en
Głos klonowy
Chatterbox Turbo
Szybciej Chatterbox z sub-200ms latencji i paralinguistycznych tagów dla śmiechu, kaszelów i innych.
Języki: en
Głos klonowy
VoxCPM
Bez tokenizeru TTS produkuje dźwięk 44.1kHz z konsystencją punktu świadomego kontekstu.
Języki: en, zh
Głos klonowy
OuteTTS
TTS oparty na LLM, który działa na procesorze, GPU lub przeglądarce przez lama.cpp i Transformers.js.
Języki: en
Głos klonowy
Pocket TTS
Łatwy model parametrów 100M przez Kyutai z klonowaniem głosu z jednej próbki.
Języki: en, fr
Głos klonowy
CosyVoice3
Kolejna generacja wielojęzyczny TTS z dwustremowym, kontrolą emocji i zerowym klonowaniem głosu.
Języki: en, zh, ja, ko, de, es, fr, it, ru
Głos klonowy
NAMAA Saudi TTS
Pierwszy otwarty saudyjski-arabski TTS. Native saudyjski dialekt z Chatterbox jakości klonowania głosu.
Języki: ar
Głos klonowy
Darwin TTS
Wariant cross-modal Qwen3-TTS z wagami FFN mieszane z modelu językowego Qwen3-1,7B dla ostriejszego wielojęzycznego klonowania.
Języki: en, ko, ja, zh
Głos klonowy
MOSS-TTSD
Model kontynuacji dialogu wielogłośników – generowanie rozmów w stylu podcastu z maksymalnie 5 głośnikami i 60 minutami spójnego dźwięku.
Języki: en, zh
Głos klonowy
Ming-Omni TTS
Kompakt 0.5B wszechmodalny model mowy z inclusionAI z wysoką wiarygodnością wyjścia 44.1kHz i zerowym klonowaniem głosu.
Języki: en, zh
Głos klonowy
MOSS-TTS Nano
Miniaturowy wariant 100M MOSS-TTS – ta sama architektura, 80x mniejsza, darmowa latencja.
Języki: en, zh, de, es, fr, ja, it, ko, ru, ar, pt
Głos klonowyDeveloper- Pierwszy API
Kompatybilny z OpenAI REST API. Jeden punkt końcowy, modele 22+. Uciekanie wsparcia dla aplikacji w czasie rzeczywistym.
- Format kompatybilny z OpenAI
- Streaming TTS dla aplikacji w czasie rzeczywistym
- Przetwarzanie serii dla dużych zadań
- Powiadomienia Webhook
pip install ttsai
npm install @ttsainpm/ttsai
from tts_ai import TTSClient
client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
text="Hello from TTS.ai!",
model="kokoro",
voice="af_bella",
)
client.save(audio, "output.mp3")
Proste, przejrzyste ceny
Zacznij wolno.
Darmowe
15 000 znaków + 5000/dzień
- 7 darmowych modeli, w tym Kokoro
- 5000 znaków na pokolenie
- Dostęp API
Rozpoczynacz
500 kredytów/miesiąc
- Wszystkie modele 22+
- 100 000 znaków na pokolenie
- Klonowanie głosu
Prof.
2000 kredytów/miesiąc
- Wszystko w Starter
- Dostęp API
- Przetwarzanie priorytetowe
Biznes
10 000 kredytów/miesiąc
- Wszystko w pro
- Masowy API
- Przyorytetowa kolejka
Często zadawane pytania
Co moglibyśmy ulepszyć? Twoje zwroty zwrotne pomagają nam rozwiązać problemy.
Zacznij używać AI Voice Dzisiaj
Dołącz do twórców, deweloperów i firm korzystających z TTS.ai