Wolny AI Tekst do mowy

31+ modele otwartego źródła, 231+ głosy, 34+ języki. Nie wymagane konto.

8K+
twórcy
31K+
pokolenia
31+
Modele AI
231+
głosy
0/500 znaki · Sign up for 5,000 per generation → Darmowe
Powiedz znajomym!

Wszystko, czego potrzebujesz do AI głosu

30+ narzędzi zasilanych przez modele open-source AI

31+ Modele AI Głosowe

Najbardziej kompleksowa kolekcja modeli TTS otwartego źródła w jednej platformie

KokoroKokoro Free

Kokoro jest 82 miliony parametrów tekst-na-speech model, który uderza znacznie powyżej klasy wagi. Pomimo jego malutkich rozmiarów, produkuje niezwykle naturalne i wyrażające mowy. Kokoro obsługuje wiele języków, w tym angielski, japoński, chiński i koreański z różnymi wyrażającymi się głosami. Działa niesamowicie szybko — generuje audio prawie 100x szybciej niż w czasie rzeczywistym w GPU.

Najlepsze dla: Wysokiej jakości TTS z minimalną latencją, przepływem aplikacji

Spróbuj wolno

PiperPiper Free

Piper jest lekkim silnikiem tekst-to-speech opracowanym przez Rhaspy, który używa architektury VITS i gardła. Jest w pełni działa na procesorze, co sprawia, że jest idealny dla urządzeń krawędziowych, automatyzacji domowej i aplikacji wymagających offline TTS. Z ponad 100 głosów w 30+ językach, Piper dostarcza naturalnie dźwiękowe mowy przy prędkościach w czasie rzeczywistym, nawet na Raspberry Pi 4.

Najlepsze dla: Szybkie podglądy, dostępność i wbudowane aplikacje

Spróbuj wolno

VITSVITS Free

VITS (Wariacyjne wyrażenie z uczeniem się wzajemnie do końca słowa tekstu) jest równoległą metodą TTS od końca do końca, która generuje bardziej naturalne dźwięki dźwiękowe niż obecne dwustopniowe modele. Przyjmuje variacyjne wynik wzmacniany wraz z przepływami normalizacyjnymi i procesem szkolenia sprzecznego, osiągając znaczącą poprawę naturalności.

Najlepsze dla: Ogólnie-celowy tekst-na-speech z naturalną prozodią

Spróbuj wolno

MeloTTSMeloTTS Free

MeloTTS by MyShell.ai – wielojęzyczna biblioteka TTS obsługująca angielski (amerykański, brytyjski, indyjski, australijski), hiszpański, francuski, chiński, japoński i koreański. Jest to niezwykle szybkie, przetwarzając tekst przy niemal szybkości w czasie rzeczywistym tylko na CPU. MeloTTS jest zaprojektowany do produkcji i obsługuje zarówno procesor i GPU inference.

Najlepsze dla: Wnioski o produkcję wymagające szybkiego, wielojęzycznego TTS

Spróbuj wolno

OuteTTSOuteTTS Free

OutetTS rozszerza duże modele językowe o możliwości tekst-na-speech przy zachowaniu oryginalnej architektury. Obsługuje wiele programów, w tym lama.cpp (CPU/GPU), Hugging Face Transformers, ExLlamaV2, VLLM, a nawet wynik przeglądarki za pomocą Transformers.js. Funkcje zerowe klonowanie głosu poprzez profile głośników zapisane jako JSON.

Najlepsze dla: Wykorzystanie krawędzi, TTS oparty na przeglądarce, środowiska o niskich źródłach

Spróbuj wolno

Pocket TTSPocket TTS Free

Pocket TTS przez Kyutai (kreatory Moshi) to kompaktowy model 100M parametrów tekst- do-speech, który uderza znacznie powyżej jego wagi. Działa efektywnie na procesorze, obsługuje klonowanie głosu zerowego z pojedynczej próbki audio i wytwarza naturalnie dźwiękową mówkę. Mały rozmiar modelu sprawia, że jest idealny dla rozmieszczenia krawędzi i środowiska niskiego źródła.

Najlepsze dla: Łatwe wdrożenie, tylko systemy procesorowe, szybkie klonowanie głosu

Spróbuj wolno

Kitten TTSKitten TTS Free

Kitten TTS by KittenML is an ultra-lightweight text-to-speech model built on ONNX. With variants from 15M to 80M parameters (25-80 MB on disk), it delivers high-quality voice synthesis on CPU without requiring a GPU. Features 8 built-in voices, adjustable speech speed, and built-in text preprocessing for numbers, currencies, and units. Ideal for edge deployment and low-latency applications.

Najlepsze dla: Fast lightweight TTS, edge deployment, low-latency applications

Spróbuj wolno

BarkBark Standard

Model transformer-to-audio, który generuje realistyczne mowy, muzyki i efekty dźwiękowe.

Rozwijacz: Suno · Licencja: MIT

Spróbuj.

Bark SmallBark Small Standard

Leksza wersja Barka z szybszym wynikiem i mniejszym użyciem pamięci.

Rozwijacz: Suno · Licencja: MIT

Spróbuj.

CosyVoice 2CosyVoice 2 Standard

Alibaba przepływa TTS z naturalnością ludzkiej paryty i niemal zerową latencją.

Rozwijacz: Alibaba (Tongyi Lab) · Licencja: Apache 2.0

Spróbuj.

Dia TTSDia TTS Standard

Model tworzenia dialogu wielogłośnika, który tworzy naturalne rozmowy między głośnikami.

Rozwijacz: Nari Labs · Licencja: Apache 2.0

Spróbuj.

Parler TTSParler TTS Standard

Opisz głos, który chcesz w języku naturalnym, a Parler generuje odpowiednie mowy.

Rozwijacz: Hugging Face · Licencja: Apache 2.0

Spróbuj.

GLM-TTSGLM-TTS Standard

Osiąga najniższy wskaźnik błędów znaków w modelach TTS otwartego źródła.

Rozwijacz: Zhipu AI · Licencja: GLM-4 License

Spróbuj.

IndexTTS-2IndexTTS-2 Standard

Zero-postrzałowy TTS z wybitną kontrolą emocji i wysoką ekspresywnością.

Rozwijacz: Index Team · Licencja: Bilibili Model License

Spróbuj.

Spark TTSSpark TTS Standard

Głosowe klonowanie TTS z kontrolowanym uczuciem i stylem mowy poprzez pytania.

Rozwijacz: SparkAudio · Licencja: CC BY-NC-SA 4.0

Spróbuj.

GPT-SoVITSGPT-SoVITS Standard

Niewiele klonowania głosu TTS, które replikuje każdy głos z zaledwie 5 sekund dźwięku.

Rozwijacz: RVC-Boss · Licencja: MIT

Spróbuj.

OrpheusOrpheus Standard

Model emocjonalny TTS na poziomie ludzkim wyszkolony na 100K godzinach mowy.

Rozwijacz: Canopy Labs · Licencja: Llama 3.2 Community

Spróbuj.

Qwen3 TTSQwen3 TTS Standard

Wielojęzyczny TTS Alibaby z klonowaniem głosu, ustawieniem głosów i projektem głosu z tekstu.

Rozwijacz: Alibaba (Qwen) · Licencja: Apache 2.0

Spróbuj.

Chatterbox TurboChatterbox Turbo Standard

Szybciej Chatterbox z sub-200ms latencji i paralinguistycznych tagów dla śmiechu, kaszelów i innych.

Rozwijacz: Resemble AI · Licencja: MIT

Spróbuj.

Dia 2Dia 2 Standard

Streaming-pierwsza rozmowa TTS z dialogiem wielogłośników i paralinguistycznymi znakami.

Rozwijacz: Nari Labs · Licencja: Apache 2.0

Spróbuj.

VoxCPMVoxCPM Standard

Bez tokenizeru TTS produkuje dźwięk 44.1kHz z konsystencją punktu świadomego kontekstu.

Rozwijacz: OpenBMB · Licencja: Apache 2.0

Spróbuj.

TADATADA Standard

Zero-halucynacja TTS z tekst-akustyczne podwójne dopasowanie, 5x szybciej niż porównywalne LLM TTS.

Rozwijacz: Hume AI · Licencja: MIT

Spróbuj.

VibeVoiceVibeVoice Standard

Model Microsoft dla zawartości wielogłośników długoformowych, takich jak podcasty i książki audio.

Rozwijacz: Microsoft · Licencja: MIT

Spróbuj.

CosyVoice3CosyVoice3 Standard

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Rozwijacz: Alibaba (FunAudioLLM) · Licencja: Apache 2.0

Spróbuj.

ChatterboxChatterbox Premium

Najnowocześniejsze klonowanie głosu zerowego z kontrolą emocji z Resemble AI.

Jakość:

Spróbuj.

Tortoise TTSTortoise TTS Premium

Wielogłosowy tekst-to-speech skupiony na jakości z architekturą autoregresywną.

Jakość:

Spróbuj.

StyleTTS 2StyleTTS 2 Premium

Na poziomie ludzkim tekst-to-speech poprzez dyfuzję stylową i szkolenie przeciwne.

Jakość:

Spróbuj.

OpenVoiceOpenVoice Premium

Natychmiastowe klonowanie głosu z granulową kontrolą stylu, emocji i akcentu.

Jakość:

Spróbuj.

Sesame CSMSesame CSM Premium

Konwersacyjnego modelu mowy generującego naturalny dialog z odpowiednim czasem i emocjami.

Jakość:

Spróbuj.

MOSS-TTSMOSS-TTS Premium

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Jakość:

Spróbuj.

MegaTTS3MegaTTS3 Premium

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Jakość:

Spróbuj.

CosyVoice 2CosyVoice 2

Alibaba przepływa TTS z naturalnością ludzkiej paryty i niemal zerową latencją.

Języki: en, zh, ja, ko, fr, de, it, es

Głos klonowy

GLM-TTSGLM-TTS

Osiąga najniższy wskaźnik błędów znaków w modelach TTS otwartego źródła.

Języki: en, zh

Głos klonowy

IndexTTS-2IndexTTS-2

Zero-postrzałowy TTS z wybitną kontrolą emocji i wysoką ekspresywnością.

Języki: en, zh

Głos klonowy

Spark TTSSpark TTS

Głosowe klonowanie TTS z kontrolowanym uczuciem i stylem mowy poprzez pytania.

Języki: en, zh

Głos klonowy

GPT-SoVITSGPT-SoVITS

Niewiele klonowania głosu TTS, które replikuje każdy głos z zaledwie 5 sekund dźwięku.

Języki: en, zh, ja, ko

Głos klonowy

ChatterboxChatterbox

Najnowocześniejsze klonowanie głosu zerowego z kontrolą emocji z Resemble AI.

Języki: en

Głos klonowy

Tortoise TTSTortoise TTS

Wielogłosowy tekst-to-speech skupiony na jakości z architekturą autoregresywną.

Języki: en

Głos klonowy

OpenVoiceOpenVoice

Natychmiastowe klonowanie głosu z granulową kontrolą stylu, emocji i akcentu.

Języki: en, zh, ja, ko, fr, de, es, it

Głos klonowy

Qwen3 TTSQwen3 TTS

Wielojęzyczny TTS Alibaby z klonowaniem głosu, ustawieniem głosów i projektem głosu z tekstu.

Języki: en, zh, ja, ko, de, fr, ru, pt, es, it

Głos klonowy

Chatterbox TurboChatterbox Turbo

Szybciej Chatterbox z sub-200ms latencji i paralinguistycznych tagów dla śmiechu, kaszelów i innych.

Języki: en

Głos klonowy

VoxCPMVoxCPM

Bez tokenizeru TTS produkuje dźwięk 44.1kHz z konsystencją punktu świadomego kontekstu.

Języki: en, zh

Głos klonowy

OuteTTSOuteTTS

TTS oparty na LLM, który działa na procesorze, GPU lub przeglądarce przez lama.cpp i Transformers.js.

Języki: en

Głos klonowy

Pocket TTSPocket TTS

Łatwy model parametrów 100M przez Kyutai z klonowaniem głosu z jednej próbki.

Języki: en, fr

Głos klonowy

CosyVoice3CosyVoice3

Next-generation multilingual TTS with bi-streaming, emotion control, and zero-shot voice cloning.

Języki: en, zh, ja, ko, de, es, fr, it, ru

Głos klonowy

MOSS-TTSMOSS-TTS

Ultra-long 20-language TTS supporting up to 1 hour of continuous generation with phoneme-level control.

Języki: en, zh, de, es, fr, ja, it, hu, ko, ru, fa, ar, pl, pt, cs, da, sv, el, tr

Głos klonowy

MegaTTS3MegaTTS3

ByteDance's sparse alignment TTS with adjustable intelligibility vs. speaker similarity.

Języki: en, zh

Głos klonowy

Developer- Pierwszy API

Kompatybilny z OpenAI REST API. Jeden punkt końcowy, modele 22+. Uciekanie wsparcia dla aplikacji w czasie rzeczywistym.

  • Format kompatybilny z OpenAI
  • Streaming TTS dla aplikacji w czasie rzeczywistym
  • Przetwarzanie serii dla dużych zadań
  • Powiadomienia Webhook
Zobacz API Docs
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Proste, przejrzyste ceny

Zacznij wolno.

Darmowe

$0

15 kredytów

  • Kokoro, Piper, VITS, MeloTTS
  • Ograniczenie 500 znaków
  • 3 gen/godz. (brak konta)
Zarejestruj się za darmo

Rozpoczynacz

$9/Mo

500 kredytów/miesiąc

  • Wszystkie modele 22+
  • 100 000 znaków na pokolenie
  • Klonowanie głosu
Rozpocznij
Najpopularniejsze

Prof.

$29/Mo

2000 kredytów/miesiąc

  • Wszystko w Starter
  • Dostęp API
  • Przetwarzanie priorytetowe
Dostać pro

Biznes

$99/Mo

10 000 kredytów/miesiąc

  • Wszystko w pro
  • Masowy API
  • Przyorytetowa kolejka
Zdobądź interesy

Zobacz wszystkie plany włącznie z opakowaniami znaków →

Często zadawane pytania

TTS.ai to najbardziej kompleksowa platforma głosowa AI oferująca 22+ modele tekst-do-speech, klonowanie głosu, mów-do-tekstu i narzędzia audio. Wszystkie modele są otwarte źródło bez zamykania sprzedawcy.

Tak! TTS.ai oferuje bezpłatny tekst-to-speech z modelami Kokoro, Piper, VITS i MeloTTS. Nie wymaga się konta. Zarejestruj się, aby uzyskać 15 000 bezpłatnych znaków i dostęp do wszystkich modeli. Płacone plany zaczynają się od 9 dolarów/miesiąc.

Dla prędkości użyj Kokoro lub Piper. Do jakości spróbuj CosyVoice 2 lub StyleTTS 2. Do klonowania głosu, użyj Chatterbox lub GPT-SoviTS. Do dialogu użyj Dia TTS. Spróbuj kilka modeli na tym samym tekście, aby porównać.

Tak. Kompatybilny z OpenAI REST API dla TTS, STT, klonowania głosu i narzędzi audio. Dostępny w planach Pro (29/mo) i Enterprise ($99/mo). Zobacz dokumentację w tts.ai/api /.

Jakość głosu różni się w zależności od modelu. Modele premium, takie jak CosyVoice 2, StyleTTS 2 i Chatterbox produkują niemal ludzką jakość mowy z naturalnym intonacją i emocjami. Darmowe modele takie jak Kokoro oferują doskonałą jakość dla większości przypadków użytkowania.

TTS.ai obsługuje 30+ języków w bibliotece modelu. Angielski ma największą obsługę modelu, ale modele jak CosyVoice 2 okładki chińskie, japońskie i koreańskie; GPT-SoviTS obsługuje chiński, japoński, koreański i angielski; a MelotTS obsługuje angielski, hiszpański, francuski, chiński, japoński i koreański.

Tak. Wszystkie przetwarzanie zdarza się na naszych dedykowanych serwerach GPU. Nie przechowywamy wejścia tekstu ani generujemy dźwięk po dostawie. Wysłane próbki głosu do klonowania są używane tylko do bieżącej sesji i nie są przechowywane. Nigdy nie dzielimy się Państwa danymi z osobami trzecimi ani nie używamy ich do szkolenia modeli.

Tak. Wszystkie dźwięki wytwarzane na TTS.ai są twoje do użytku komercyjnego, w tym dla YouTube wideo, podcastów, audiobooków, aplikacji, reklam i produktów. Nasze modele są otwarte źródło licencji (MIT, Apache 2.0). Nie wymaga się rola rola rocznych ani przypisywania.

TTS.ai generuje dźwięk w formacie WAV domyślnie dla maksymalnej jakości. Możesz konwertować do MP3, FLAC, OGG, lub M4A za pomocą naszego darmowego narzędzia konwerter audio. API obsługuje określanie Twojego preferowanego formatu wyjściowego bezpośrednio w zapytaniu.

Wyślij krótką próbkę dźwiękową (co najmniej 5 sekund) głosu, który chcesz klonować, następnie wpisz dowolny tekst do generowania mowy w tym głosie. Modele takie jak Chatterbox, GPT-SoviTS i CosyVoice 2 obsługują klonowanie głosu. Klonowany głos uchwyca ton, akcent i styl mowy.

Bezpłatne modele (Kokoro, Piper, VITS, MeloTTS) nie wymagają znaków kontowych i zero kosztów. Standardowe modele (2 000 znaków/1K wejściowych) obejmują Bark, CosyVoice 2, F5-TTS i Dia. Modele premium (4 000 znaków/1K wejścia) obejmują OpenVoice, Chatterbox, StyleTTS 2 i Tortoise. Modele płacone zazwyczaj oferują wyższej jakości, więcej głosów i dodatkowe cechy, takie jak klonowanie głosu.

Tak. API obsługuje przetwarzanie partii dla przetwarzania dużych ilości tekstu do mowy. Przekazywanie wielu zapytań i odbieranie wyników asyncjonalnie przy użyciu pracy UUID. Plany przedsiębiorstw (99$/mo) obejmują priorytetowy dostęp kolejki dla szybszego przetwarzania partii. Idealny dla produkcji audiobook, treści kursu i dużych projektów głosowych.
4.1/5 (21)

Co moglibyśmy ulepszyć? Twoje zwroty zwrotne pomagają nam rozwiązać problemy.

Zacznij używać AI Voice Dzisiaj

Dołącz do twórców, deweloperów i firm korzystających z TTS.ai