Wolny AI Tekst do mowy

33+ modele otwartego źródła, 273+ głosy, 33+ języki. Nie wymagane konto.

17K+
twórcy
70K+
pokolenia
33+
Modele AI
273+
głosy
Powiedz znajomym!

Wszystko, czego potrzebujesz do AI głosu

30+ narzędzi zasilanych przez modele open-source AI

33+ Modele AI Głosowe

Najbardziej kompleksowa kolekcja modeli TTS otwartego źródła w jednej platformie

KokoroKokoro Darmowe

Kokoro jest 82 miliony parametrów tekst-na-speech model, który uderza znacznie powyżej klasy wagi. Pomimo jego malutkich rozmiarów, produkuje niezwykle naturalne i wyrażające mowy. Kokoro obsługuje wiele języków, w tym angielski, japoński, chiński i koreański z różnymi wyrażającymi się głosami. Działa niesamowicie szybko — generuje audio prawie 100x szybciej niż w czasie rzeczywistym w GPU.

Najlepsze dla: Wysokiej jakości TTS z minimalną latencją, przepływem aplikacji

Spróbuj wolno

PiperPiper Darmowe

Piper jest lekkim silnikiem tekst-to-speech opracowanym przez Rhaspy, który używa architektury VITS i gardła. Jest w pełni działa na procesorze, co sprawia, że jest idealny dla urządzeń krawędziowych, automatyzacji domowej i aplikacji wymagających offline TTS. Z ponad 100 głosów w 30+ językach, Piper dostarcza naturalnie dźwiękowe mowy przy prędkościach w czasie rzeczywistym, nawet na Raspberry Pi 4.

Najlepsze dla: Szybkie podglądy, dostępność i wbudowane aplikacje

Spróbuj wolno

VITSVITS Darmowe

VITS (Wariacyjne wyrażenie z uczeniem się wzajemnie do końca słowa tekstu) jest równoległą metodą TTS od końca do końca, która generuje bardziej naturalne dźwięki dźwiękowe niż obecne dwustopniowe modele. Przyjmuje variacyjne wynik wzmacniany wraz z przepływami normalizacyjnymi i procesem szkolenia sprzecznego, osiągając znaczącą poprawę naturalności.

Najlepsze dla: Ogólnie-celowy tekst-na-speech z naturalną prozodią

Spróbuj wolno

MeloTTSMeloTTS Darmowe

MeloTTS by MyShell.ai – wielojęzyczna biblioteka TTS obsługująca angielski (amerykański, brytyjski, indyjski, australijski), hiszpański, francuski, chiński, japoński i koreański. Jest to niezwykle szybkie, przetwarzając tekst przy niemal szybkości w czasie rzeczywistym tylko na CPU. MeloTTS jest zaprojektowany do produkcji i obsługuje zarówno procesor i GPU inference.

Najlepsze dla: Wnioski o produkcję wymagające szybkiego, wielojęzycznego TTS

Spróbuj wolno

Kani TTS 2Kani TTS 2 Darmowe

Kani-TTS-2 przez NineNineSix jest ultra lekkim modelem parametrów 400M zbudowanym na kręgosłupie płynnym AI LFM2 z NVIDIA NanoCodec. Wykonuje on zaledwie 3GB VRAM i wytwarza ~10 sekund mowy w ~2 sekundach na klonowaniu A100 (RTF 0.2). Obecny system publicznego wydania statkuje tylko angielski punkt kontrolny `kani-tts-2-en' i nie ujawnia haka głośnika potrzebnego do klonowania głosu — używać Chatterbox / IndexTTS2 / F5-TTS do klonowania, lub Kokoro / MeloTTS dla nieangielskiego.

Najlepsze dla: Szybka generacja angielska na nisko-VRAM sprzętu, szybkie podglądy

Spróbuj wolno

OuteTTSOuteTTS Darmowe

OutetTS rozszerza duże modele językowe o możliwości tekst-na-speech przy zachowaniu oryginalnej architektury. Obsługuje wiele programów, w tym lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, a nawet wynik przeglądarki za pomocą Transformers.js. Funkcje zerowe klonowanie głosu poprzez profile głośników zapisane jako JSON.

Najlepsze dla: Wykorzystanie krawędzi, TTS oparty na przeglądarce, środowiska o niskich źródłach

Spróbuj wolno

Pocket TTSPocket TTS Darmowe

Pocket TTS przez Kyutai (kreatory Moshi) to kompaktowy model 100M parametrów tekst- do-speech, który uderza znacznie powyżej jego wagi. Działa efektywnie na procesorze, obsługuje klonowanie głosu zerowego z pojedynczej próbki audio i wytwarza naturalnie dźwiękową mówkę. Mały rozmiar modelu sprawia, że jest idealny dla rozmieszczenia krawędzi i środowiska niskiego źródła.

Najlepsze dla: Łatwe wdrożenie, tylko systemy procesorowe, szybkie klonowanie głosu

Spróbuj wolno

Kitten TTSKitten TTS Darmowe

Kitten TTS by KittenML jest ultra-lekkim modelem tekst- do-speech zbudowanym na ONNX. Z wariantami od 15M do 80M parametrów (25-80 MB na dysku), dostarcza wysokiej jakości syntezy głosu na procesorze bez wymagania GPU. Funkcje 8 wbudowanych głosów, regulowana prędkość mowy i wbudowane wstępne przetwarzanie tekstów dla liczb, walut i jednostek. Idealny do rozmieszczania krawędzi i niskich terminów.

Najlepsze dla: Szybkie lekkie TTS, wdrożenie krawędzi, niskie terminy

Spróbuj wolno

Ming-Omni TTSMing-Omni TTS Darmowe

Ming-omni-tts-0.5B poprzez włączenieAI jest kompaktowym modelem mowy wszechmodalnej zbudowanym na gęstej kręgosłupce BailingMM z dekoderem audiopasującym Patch-by-Patch. Dostarcza 44.1kHz wyjście (bliska jakość CD), obsługuje klonowanie głosu zerowego z 3+ drugiego odniesienia, a także obejmuje wbudowane emocje / dialekt / kontrola BGM za pośrednictwem instrukcji JSON. Doskonała stabilność — 0,83% WER na chińskich poziomach odniesienia.

Najlepsze dla: Wysoka wierność dwujęzyczna narracja, emocjonalnie kontrolowane głos aktywowanie, chińska zawartość audiobook

Spróbuj wolno

MOSS-TTS NanoMOSS-TTS Nano Darmowe

MOSS-TTS-Nano-100M jest kompaktowym wariantem 100M-parametrowym rodziny MOSS-TTS, dzielącym się opóźnieniem-transformer architektury. Wymiana najwyższej jakości modelu 8B dla ~80x mniejszych wag i dramatycznie niższych na żądanie VRAM, co sprawia, że nadaje się do rozmieszczenia wolnego i wysokiego wkładu. Ten sam 20-języczny zasięg.

Najlepsze dla: Wolne cierowe TTS, duża produkcja, niskookresowe interaktywne wykorzystanie

Spróbuj wolno

BarkBark Standardowe

Model transformer-to-audio, który generuje realistyczne mowy, muzyki i efekty dźwiękowe.

Rozwijacz: Suno · Licencja: MIT

Spróbuj.

Bark SmallBark Small Standardowe

Leksza wersja Barka z szybszym wynikiem i mniejszym użyciem pamięci.

Rozwijacz: Suno · Licencja: MIT

Spróbuj.

CosyVoice 2CosyVoice 2 Standardowe

Alibaba przepływa TTS z naturalnością ludzkiej paryty i niemal zerową latencją.

Rozwijacz: Alibaba (Tongyi Lab) · Licencja: Apache 2.0

Spróbuj.

Dia TTSDia TTS Standardowe

Model tworzenia dialogu wielogłośnika, który tworzy naturalne rozmowy między głośnikami.

Rozwijacz: Nari Labs · Licencja: Apache 2.0

Spróbuj.

Parler TTSParler TTS Standardowe

Opisz głos, który chcesz w języku naturalnym, a Parler generuje odpowiednie mowy.

Rozwijacz: Hugging Face · Licencja: Apache 2.0

Spróbuj.

IndexTTS-2IndexTTS-2 Standardowe

Zero-postrzałowy TTS z wybitną kontrolą emocji i wysoką ekspresywnością.

Rozwijacz: Index Team · Licencja: Bilibili Model License

Spróbuj.

Spark TTSSpark TTS Standardowe

Głosowe klonowanie TTS z kontrolowanym uczuciem i stylem mowy poprzez pytania.

Rozwijacz: SparkAudio · Licencja: CC BY-NC-SA 4.0

Spróbuj.

GPT-SoVITSGPT-SoVITS Standardowe

Niewiele klonowania głosu TTS, które replikuje każdy głos z zaledwie 5 sekund dźwięku.

Rozwijacz: RVC-Boss · Licencja: MIT

Spróbuj.

OrpheusOrpheus Standardowe

Model emocjonalny TTS na poziomie ludzkim wyszkolony na 100K godzinach mowy.

Rozwijacz: Canopy Labs · Licencja: Llama 3.2 Community

Spróbuj.

Qwen3 TTSQwen3 TTS Standardowe

Wielojęzyczny TTS Alibaby z ustawionym głosem i projektem głosu z tekstu.

Rozwijacz: Alibaba (Qwen) · Licencja: Apache 2.0

Spróbuj.

VieNeu-TTS-v2VieNeu-TTS-v2 Standardowe

Wietnamski + angielski kod przełączający TTS z 7 ustawionych głosów i klonowanie zero głosu. Tylko procesor, nie wymaga się GPU.

Rozwijacz: Phạm Nguyễn Ngọc Bảo · Licencja: Apache 2.0

Spróbuj.

Chatterbox TurboChatterbox Turbo Standardowe

Szybciej Chatterbox z sub-200ms latencji i paralinguistycznych tagów dla śmiechu, kaszelów i innych.

Rozwijacz: Resemble AI · Licencja: MIT

Spróbuj.

VoxCPMVoxCPM Standardowe

Bez tokenizeru TTS produkuje dźwięk 44.1kHz z konsystencją punktu świadomego kontekstu.

Rozwijacz: OpenBMB · Licencja: Apache 2.0

Spróbuj.

VibeVoiceVibeVoice Standardowe

Model Microsoft dla zawartości wielogłośników długoformowych, takich jak podcasty i książki audio.

Rozwijacz: Microsoft · Licencja: MIT

Spróbuj.

CosyVoice3CosyVoice3 Standardowe

Kolejna generacja wielojęzyczny TTS z dwustremowym, kontrolą emocji i zerowym klonowaniem głosu.

Rozwijacz: Alibaba (FunAudioLLM) · Licencja: Apache 2.0

Spróbuj.

NAMAA Saudi TTSNAMAA Saudi TTS Standardowe

Pierwszy otwarty saudyjski-arabski TTS. Native saudyjski dialekt z Chatterbox jakości klonowania głosu.

Rozwijacz: NAMAA Space · Licencja: MIT

Spróbuj.

Darwin TTSDarwin TTS Standardowe

Wariant cross-modal Qwen3-TTS z wagami FFN mieszane z modelu językowego Qwen3-1,7B dla ostriejszego wielojęzycznego klonowania.

Rozwijacz: FINAL-Bench · Licencja: Apache 2.0

Spróbuj.

MOSS-TTSDMOSS-TTSD Standardowe

Model kontynuacji dialogu wielogłośników – generowanie rozmów w stylu podcastu z maksymalnie 5 głośnikami i 60 minutami spójnego dźwięku.

Rozwijacz: OpenMOSS · Licencja: Apache 2.0

Spróbuj.

ChatterboxChatterbox Premia

Najnowocześniejsze klonowanie głosu zerowego z kontrolą emocji z Resemble AI.

Jakość:

Spróbuj.

Tortoise TTSTortoise TTS Premia

Wielogłosowy tekst-to-speech skupiony na jakości z architekturą autoregresywną.

Jakość:

Spróbuj.

StyleTTS 2StyleTTS 2 Premia

Na poziomie ludzkim tekst-to-speech poprzez dyfuzję stylową i szkolenie przeciwne.

Jakość:

Spróbuj.

OpenVoiceOpenVoice Premia

Natychmiastowe klonowanie głosu z granulową kontrolą stylu, emocji i akcentu.

Jakość:

Spróbuj.

Sesame CSMSesame CSM Premia

Konwersacyjnego modelu mowy generującego naturalny dialog z odpowiednim czasem i emocjami.

Jakość:

Spróbuj.

CosyVoice 2CosyVoice 2

Alibaba przepływa TTS z naturalnością ludzkiej paryty i niemal zerową latencją.

Języki: en, zh, ja, ko, fr, de, it, es

Głos klonowy

IndexTTS-2IndexTTS-2

Zero-postrzałowy TTS z wybitną kontrolą emocji i wysoką ekspresywnością.

Języki: en, zh

Głos klonowy

Spark TTSSpark TTS

Głosowe klonowanie TTS z kontrolowanym uczuciem i stylem mowy poprzez pytania.

Języki: en, zh

Głos klonowy

GPT-SoVITSGPT-SoVITS

Niewiele klonowania głosu TTS, które replikuje każdy głos z zaledwie 5 sekund dźwięku.

Języki: en, zh, ja, ko

Głos klonowy

ChatterboxChatterbox

Najnowocześniejsze klonowanie głosu zerowego z kontrolą emocji z Resemble AI.

Języki: en

Głos klonowy

Tortoise TTSTortoise TTS

Wielogłosowy tekst-to-speech skupiony na jakości z architekturą autoregresywną.

Języki: en

Głos klonowy

OpenVoiceOpenVoice

Natychmiastowe klonowanie głosu z granulową kontrolą stylu, emocji i akcentu.

Języki: en, zh, ja, ko, fr, es

Głos klonowy

VieNeu-TTS-v2VieNeu-TTS-v2

Wietnamski + angielski kod przełączający TTS z 7 ustawionych głosów i klonowanie zero głosu. Tylko procesor, nie wymaga się GPU.

Języki: vi, en

Głos klonowy

Chatterbox TurboChatterbox Turbo

Szybciej Chatterbox z sub-200ms latencji i paralinguistycznych tagów dla śmiechu, kaszelów i innych.

Języki: en

Głos klonowy

VoxCPMVoxCPM

Bez tokenizeru TTS produkuje dźwięk 44.1kHz z konsystencją punktu świadomego kontekstu.

Języki: en, zh

Głos klonowy

OuteTTSOuteTTS

TTS oparty na LLM, który działa na procesorze, GPU lub przeglądarce przez lama.cpp i Transformers.js.

Języki: en

Głos klonowy

Pocket TTSPocket TTS

Łatwy model parametrów 100M przez Kyutai z klonowaniem głosu z jednej próbki.

Języki: en, fr

Głos klonowy

CosyVoice3CosyVoice3

Kolejna generacja wielojęzyczny TTS z dwustremowym, kontrolą emocji i zerowym klonowaniem głosu.

Języki: en, zh, ja, ko, de, es, fr, it, ru

Głos klonowy

NAMAA Saudi TTSNAMAA Saudi TTS

Pierwszy otwarty saudyjski-arabski TTS. Native saudyjski dialekt z Chatterbox jakości klonowania głosu.

Języki: ar

Głos klonowy

Darwin TTSDarwin TTS

Wariant cross-modal Qwen3-TTS z wagami FFN mieszane z modelu językowego Qwen3-1,7B dla ostriejszego wielojęzycznego klonowania.

Języki: en, ko, ja, zh

Głos klonowy

MOSS-TTSDMOSS-TTSD

Model kontynuacji dialogu wielogłośników – generowanie rozmów w stylu podcastu z maksymalnie 5 głośnikami i 60 minutami spójnego dźwięku.

Języki: en, zh

Głos klonowy

Ming-Omni TTSMing-Omni TTS

Kompakt 0.5B wszechmodalny model mowy z inclusionAI z wysoką wiarygodnością wyjścia 44.1kHz i zerowym klonowaniem głosu.

Języki: en, zh

Głos klonowy

MOSS-TTS NanoMOSS-TTS Nano

Miniaturowy wariant 100M MOSS-TTS – ta sama architektura, 80x mniejsza, darmowa latencja.

Języki: en, zh, de, es, fr, ja, it, ko, ru, ar, pt

Głos klonowy

Developer- Pierwszy API

Kompatybilny z OpenAI REST API. Jeden punkt końcowy, modele 22+. Uciekanie wsparcia dla aplikacji w czasie rzeczywistym.

  • Format kompatybilny z OpenAI
  • Streaming TTS dla aplikacji w czasie rzeczywistym
  • Przetwarzanie serii dla dużych zadań
  • Powiadomienia Webhook
Zobacz API Docs
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Proste, przejrzyste ceny

Zacznij wolno.

Darmowe

$0

15 000 znaków + 5000/dzień

  • 7 darmowych modeli, w tym Kokoro
  • 5000 znaków na pokolenie
  • Dostęp API
Zarejestruj się za darmo

Rozpoczynacz

$9/Mo

500 kredytów/miesiąc

  • Wszystkie modele 22+
  • 100 000 znaków na pokolenie
  • Klonowanie głosu
Rozpocznij
Najpopularniejsze

Prof.

$29/Mo

2000 kredytów/miesiąc

  • Wszystko w Starter
  • Dostęp API
  • Przetwarzanie priorytetowe
Dostać pro

Biznes

$99/Mo

10 000 kredytów/miesiąc

  • Wszystko w pro
  • Masowy API
  • Przyorytetowa kolejka
Zdobądź interesy

Zobacz wszystkie plany włącznie z opakowaniami znaków →

Często zadawane pytania

TTS.ai to najbardziej kompleksowa platforma głosowa AI oferująca 22+ modele tekst-do-speech, klonowanie głosu, mów-do-tekstu i narzędzia audio. Wszystkie modele są otwarte źródło bez zamykania sprzedawcy.

Tak! TTS.ai oferuje bezpłatny tekst-to-speech z modelami Kokoro, Piper, VITS i MeloTTS. Nie wymaga się konta. Zarejestruj się, aby uzyskać 15 000 bezpłatnych znaków i dostęp do wszystkich modeli. Płacone plany zaczynają się od 9 dolarów/miesiąc.

Dla prędkości użyj Kokoro lub Piper. Do jakości spróbuj CosyVoice 2 lub StyleTTS 2. Do klonowania głosu, użyj Chatterbox lub GPT-SoviTS. Do dialogu użyj Dia TTS. Spróbuj kilka modeli na tym samym tekście, aby porównać.

Tak. Kompatybilny z OpenAI REST API dla TTS, STT, klonowania głosu i narzędzi audio. Włączony do każdego planu, w tym bezpłatny, z ograniczeniami stawek, które skala według poziomu (Free: 10 req/min, Lite: 20, Starter: 30, Pro: 60, Business: 300). Zobacz dokumentację w tts.ai/api /.

Jakość głosu różni się w zależności od modelu. Modele premium, takie jak CosyVoice 2, StyleTTS 2 i Chatterbox produkują niemal ludzką jakość mowy z naturalnym intonacją i emocjami. Darmowe modele takie jak Kokoro oferują doskonałą jakość dla większości przypadków użytkowania.

TTS.ai obsługuje 30+ języków w bibliotece modelu. Angielski ma największą obsługę modelu, ale modele jak CosyVoice 2 okładki chińskie, japońskie i koreańskie; GPT-SoviTS obsługuje chiński, japoński, koreański i angielski; a MelotTS obsługuje angielski, hiszpański, francuski, chiński, japoński i koreański.

Tak. Wszystkie przetwarzanie zdarza się na naszych dedykowanych serwerach GPU. Nie przechowywamy wejścia tekstu ani generujemy dźwięk po dostawie. Wysłane próbki głosu do klonowania są używane tylko do bieżącej sesji i nie są przechowywane. Nigdy nie dzielimy się Państwa danymi z osobami trzecimi ani nie używamy ich do szkolenia modeli.

Tak. Wszystkie dźwięki wytwarzane na TTS.ai są twoje do użytku komercyjnego, w tym dla YouTube wideo, podcastów, audiobooków, aplikacji, reklam i produktów. Nasze modele są otwarte źródło licencji (MIT, Apache 2.0). Nie wymaga się rola rola rocznych ani przypisywania.

TTS.ai generuje dźwięk w formacie WAV domyślnie dla maksymalnej jakości. Możesz konwertować do MP3, FLAC, OGG, lub M4A za pomocą naszego darmowego narzędzia konwerter audio. API obsługuje określanie Twojego preferowanego formatu wyjściowego bezpośrednio w zapytaniu.

Wyślij krótką próbkę dźwiękową (co najmniej 5 sekund) głosu, który chcesz klonować, następnie wpisz dowolny tekst do generowania mowy w tym głosie. Modele takie jak Chatterbox, GPT-SoviTS i CosyVoice 2 obsługują klonowanie głosu. Klonowany głos uchwyca ton, akcent i styl mowy.

Bezpłatne modele (Kokoro, Piper, VITS, MeloTTS) nie wymagają znaków kontowych i zero kosztów. Standardowe modele (2 000 znaków/1K wejściowych) obejmują Bark, CosyVoice 2, F5-TTS i Dia. Modele premium (4 000 znaków/1K wejścia) obejmują OpenVoice, Chatterbox, StyleTTS 2 i Tortoise. Modele płacone zazwyczaj oferują wyższej jakości, więcej głosów i dodatkowe cechy, takie jak klonowanie głosu.

Tak. API obsługuje przetwarzanie partii dla przetwarzania dużych ilości tekstu do mowy. Przesyłanie wielu zapytań i odbieranie wyników asyncjonalnie przy użyciu pracy UUID. Plan biznesowy (99$/mo) i wyższy obejmują priorytetowy dostęp kolejki dla szybszego przetwarzania partii. Idealny dla produkcji audiobooków, treści kursu i dużych projektów głosowych.
4.1/5 (42)

Co moglibyśmy ulepszyć? Twoje zwroty zwrotne pomagają nam rozwiązać problemy.

Zacznij używać AI Voice Dzisiaj

Dołącz do twórców, deweloperów i firm korzystających z TTS.ai