Wolny AI Tekst do mowy

20+ modele otwartego źródła, 107+ głosy, 32+ języki. Nie wymagane konto.

1K+
twórcy
2K+
pokolenia
20+
Modele AI
107+
głosy
0/500 znaki Darmowe
Like TTS.ai? Tell your friends!

Wszystko, czego potrzebujesz do AI głosu

30+ narzędzi zasilanych przez modele open-source AI

20+ Modele AI Głosowe

Najbardziej kompleksowa kolekcja modeli TTS otwartego źródła w jednej platformie

KokoroKokoro Free

Kokoro jest 82 miliony parametrów tekst-na-speech model, który uderza znacznie powyżej klasy wagi. Pomimo jego malutkich rozmiarów, produkuje niezwykle naturalne i wyrażające mowy. Kokoro obsługuje wiele języków, w tym angielski, japoński, chiński i koreański z różnymi wyrażającymi się głosami. Działa niesamowicie szybko — generuje audio prawie 100x szybciej niż w czasie rzeczywistym w GPU.

Najlepsze dla: Wysokiej jakości TTS z minimalną latencją, przepływem aplikacji

Spróbuj wolno

PiperPiper Free

Piper jest lekkim silnikiem tekst-to-speech opracowanym przez Rhaspy, który używa architektury VITS i gardła. Jest w pełni działa na procesorze, co sprawia, że jest idealny dla urządzeń krawędziowych, automatyzacji domowej i aplikacji wymagających offline TTS. Z ponad 100 głosów w 30+ językach, Piper dostarcza naturalnie dźwiękowe mowy przy prędkościach w czasie rzeczywistym, nawet na Raspberry Pi 4.

Najlepsze dla: Szybkie podglądy, dostępność i wbudowane aplikacje

Spróbuj wolno

VITSVITS Free

VITS (Wariacyjne wyrażenie z uczeniem się wzajemnie do końca słowa tekstu) jest równoległą metodą TTS od końca do końca, która generuje bardziej naturalne dźwięki dźwiękowe niż obecne dwustopniowe modele. Przyjmuje variacyjne wynik wzmacniany wraz z przepływami normalizacyjnymi i procesem szkolenia sprzecznego, osiągając znaczącą poprawę naturalności.

Najlepsze dla: Ogólnie-celowy tekst-na-speech z naturalną prozodią

Spróbuj wolno

MeloTTSMeloTTS Free

MeloTTS by MyShell.ai – wielojęzyczna biblioteka TTS obsługująca angielski (amerykański, brytyjski, indyjski, australijski), hiszpański, francuski, chiński, japoński i koreański. Jest to niezwykle szybkie, przetwarzając tekst przy niemal szybkości w czasie rzeczywistym tylko na CPU. MeloTTS jest zaprojektowany do produkcji i obsługuje zarówno procesor i GPU inference.

Najlepsze dla: Wnioski o produkcję wymagające szybkiego, wielojęzycznego TTS

Spróbuj wolno

BarkBark Standard

Model transformer-to-audio, który generuje realistyczne mowy, muzyki i efekty dźwiękowe.

Rozwijacz: Suno · Licencja: MIT

Spróbuj.

Bark SmallBark Small Standard

Leksza wersja Barka z szybszym wynikiem i mniejszym użyciem pamięci.

Rozwijacz: Suno · Licencja: MIT

Spróbuj.

CosyVoice 2CosyVoice 2 Standard

Alibaba przepływa TTS z naturalnością ludzkiej paryty i niemal zerową latencją.

Rozwijacz: Alibaba (Tongyi Lab) · Licencja: Apache 2.0

Spróbuj.

Dia TTSDia TTS Standard

Model tworzenia dialogu wielogłośnika, który tworzy naturalne rozmowy między głośnikami.

Rozwijacz: Nari Labs · Licencja: Apache 2.0

Spróbuj.

Parler TTSParler TTS Standard

Opisz głos, który chcesz w języku naturalnym, a Parler generuje odpowiednie mowy.

Rozwijacz: Hugging Face · Licencja: Apache 2.0

Spróbuj.

GLM-TTSGLM-TTS Standard

Osiąga najniższy wskaźnik błędów znaków w modelach TTS otwartego źródła.

Rozwijacz: Zhipu AI · Licencja: GLM-4 License

Spróbuj.

IndexTTS-2IndexTTS-2 Standard

Zero-postrzałowy TTS z wybitną kontrolą emocji i wysoką ekspresywnością.

Rozwijacz: Index Team · Licencja: Bilibili Model License

Spróbuj.

Spark TTSSpark TTS Standard

Głosowe klonowanie TTS z kontrolowanym uczuciem i stylem mowy poprzez pytania.

Rozwijacz: SparkAudio · Licencja: CC BY-NC-SA 4.0

Spróbuj.

GPT-SoVITSGPT-SoVITS Standard

Niewiele klonowania głosu TTS, które replikuje każdy głos z zaledwie 5 sekund dźwięku.

Rozwijacz: RVC-Boss · Licencja: MIT

Spróbuj.

OrpheusOrpheus Standard

Model emocjonalny TTS na poziomie ludzkim wyszkolony na 100K godzinach mowy.

Rozwijacz: Canopy Labs · Licencja: Llama 3.2 Community

Spróbuj.

Qwen3 TTSQwen3 TTS Standard

Wielojęzyczny TTS Alibaby z klonowaniem głosu, ustawieniem głosów i projektem głosu z tekstu.

Rozwijacz: Alibaba (Qwen) · Licencja: Apache 2.0

Spróbuj.

ChatterboxChatterbox Premium

Najnowocześniejsze klonowanie głosu zerowego z kontrolą emocji z Resemble AI.

Jakość:

Spróbuj.

Tortoise TTSTortoise TTS Premium

Wielogłosowy tekst-to-speech skupiony na jakości z architekturą autoregresywną.

Jakość:

Spróbuj.

StyleTTS 2StyleTTS 2 Premium

Na poziomie ludzkim tekst-to-speech poprzez dyfuzję stylową i szkolenie przeciwne.

Jakość:

Spróbuj.

OpenVoiceOpenVoice Premium

Natychmiastowe klonowanie głosu z granulową kontrolą stylu, emocji i akcentu.

Jakość:

Spróbuj.

Sesame CSMSesame CSM Premium

Konwersacyjnego modelu mowy generującego naturalny dialog z odpowiednim czasem i emocjami.

Jakość:

Spróbuj.

CosyVoice 2CosyVoice 2

Alibaba przepływa TTS z naturalnością ludzkiej paryty i niemal zerową latencją.

Języki: en, zh, ja, ko, fr, de, it, es

Głos klonowy

GLM-TTSGLM-TTS

Osiąga najniższy wskaźnik błędów znaków w modelach TTS otwartego źródła.

Języki: en, zh

Głos klonowy

IndexTTS-2IndexTTS-2

Zero-postrzałowy TTS z wybitną kontrolą emocji i wysoką ekspresywnością.

Języki: en, zh

Głos klonowy

Spark TTSSpark TTS

Głosowe klonowanie TTS z kontrolowanym uczuciem i stylem mowy poprzez pytania.

Języki: en, zh

Głos klonowy

GPT-SoVITSGPT-SoVITS

Niewiele klonowania głosu TTS, które replikuje każdy głos z zaledwie 5 sekund dźwięku.

Języki: en, zh, ja, ko

Głos klonowy

ChatterboxChatterbox

Najnowocześniejsze klonowanie głosu zerowego z kontrolą emocji z Resemble AI.

Języki: en

Głos klonowy

Tortoise TTSTortoise TTS

Wielogłosowy tekst-to-speech skupiony na jakości z architekturą autoregresywną.

Języki: en

Głos klonowy

OpenVoiceOpenVoice

Natychmiastowe klonowanie głosu z granulową kontrolą stylu, emocji i akcentu.

Języki: en, zh, ja, ko, fr, de, es, it

Głos klonowy

Qwen3 TTSQwen3 TTS

Wielojęzyczny TTS Alibaby z klonowaniem głosu, ustawieniem głosów i projektem głosu z tekstu.

Języki: en, zh, ja, ko, de, fr, ru, pt, es, it

Głos klonowy

Developer- Pierwszy API

Kompatybilny z OpenAI REST API. Jeden punkt końcowy, modele 22+. Uciekanie wsparcia dla aplikacji w czasie rzeczywistym.

  • Format kompatybilny z OpenAI
  • Streaming TTS dla aplikacji w czasie rzeczywistym
  • Przetwarzanie serii dla dużych zadań
  • Powiadomienia Webhook
Zobacz API Docs
pip install ttsai npm install @ttsainpm/ttsai
Python
from tts_ai import TTSClient

client = TTSClient(api_key="sk-tts-xxx")
audio = client.generate(
    text="Hello from TTS.ai!",
    model="kokoro",
    voice="af_bella",
)
client.save(audio, "output.mp3")

Proste, przejrzyste ceny

Zacznij wolno.

Darmowe

$0

15 kredytów

  • Kokoro, Piper, VITS, MeloTTS
  • Ograniczenie 500 znaków
  • 3 gen/godz. (brak konta)
Zarejestruj się za darmo

Rozpoczynacz

$9/Mo

500 kredytów/miesiąc

  • Wszystkie modele 22+
  • 100,000 chars per generation
  • Klonowanie głosu
Rozpocznij
Najpopularniejsze

Prof.

$29/Mo

2000 kredytów/miesiąc

  • Wszystko w Starter
  • Dostęp API
  • Przetwarzanie priorytetowe
Dostać pro

Biznes

$99/Mo

10 000 kredytów/miesiąc

  • Wszystko w pro
  • Masowy API
  • Przyorytetowa kolejka
Zdobądź interesy

Zobacz wszystkie plany włącznie z opakowaniami znaków →

Często zadawane pytania

TTS.ai jest najbardziej kompleksową platformą głosową AI, oferującą 22+ modele tekstu do języka, klonowanie głosu, narzędzia mowy do tekstu i audio. Wszystkie modele są otwarte źródło bez zamykania sprzedawcy.

Tak! TTS.ai oferuje bezpłatny tekst-to-speech z modelami Kokoro, Piper, VITS i MeloTTS. Nie wymaga się konta. Zarejestruj się, aby uzyskać 15 000 bezpłatnych znaków i dostęp do wszystkich modeli. Płacone plany zaczynają się od 9 dolarów/miesiąc.

Dla prędkości użyj Kokoro lub Piper. Do jakości spróbuj CosyVoice 2 lub StyleTTS 2. Do klonowania głosu, użyj Chatterbox lub GPT-SoviTS. Do dialogu użyj Dia TTS. Spróbuj kilka modeli na tym samym tekście, aby porównać.

Tak. Kompatybilny z OpenAI REST API dla TTS, STT, klonowania głosu i narzędzi audio. Dostępny w planach Pro (29/mo) i Enterprise ($99/mo). Zobacz dokumentację w tts.ai/api /.

Jakość głosu różni się w zależności od modelu. Modele premium, takie jak CosyVoice 2, StyleTTS 2 i Chatterbox produkują niemal ludzką jakość mowy z naturalnym intonacją i emocjami. Darmowe modele takie jak Kokoro oferują doskonałą jakość dla większości przypadków użytkowania.

TTS.ai obsługuje 30+ języków w swojej biblioteki modelu. Angielski ma najszerzejszą obsługę modelu, ale modele jak CosyVoice 2 okładki chińskie, japońskie i koreańskie; GPT-SoviTS obsługuje chiński, japoński, koreański i angielski; a MelotTS obsługuje angielski, hiszpański, francuski, chiński, japoński i koreański.

Tak. Wszystkie przetwarzanie zdarza się na naszych dedykowanych serwerach GPU. Nie przechowywamy wejścia tekstu ani generujemy dźwięk po dostawie. Wysłane próbki głosu do klonowania są używane tylko do bieżącej sesji i nie są przechowywane. Nigdy nie dzielimy się Państwa danymi z osobami trzecimi ani nie używamy ich do szkolenia modeli.

Tak. Wszystkie dźwięki wytwarzane na TTS.ai są twoje do użytku komercyjnego, w tym dla YouTube wideo, podcastów, audiobooków, aplikacji, reklam i produktów. Nasze modele są otwarte źródło licencji (MIT, Apache 2.0). Nie wymaga się rola rola rocznych ani przypisywania.

TTS.ai generuje dźwięk w formacie WAV domyślnie dla maksymalnej jakości. Można konwertować do MP3, FLAC, OGG lub M4A za pomocą naszego bezpłatnego narzędzia konwerter audio. API obsługuje określanie preferowanego formatu wyjściowego bezpośrednio w zapytaniu.

Wyślij krótką próbkę dźwiękową (co najmniej 5 sekund) głosu, który chcesz klonować, następnie wpisz dowolny tekst do generowania mowy w tym głosie. Modele takie jak Chatterbox, GPT-SoviTS i CosyVoice 2 obsługują klonowanie głosu. Klonowany głos uchwyca ton, akcent i styl mowy.

Bezpłatne modele (Kokoro, Piper, VITS, MeloTTS) nie wymagają znaków kontowych i zero kosztów. Standardowe modele (2 000 znaków/1K wejściowych) obejmują Bark, CosyVoice 2, F5-TTS i Dia. Modele premium (4 000 znaków/1K wejścia) obejmują OpenVoice, Chatterbox, StyleTTS 2 i Tortoise. Modele płacone zazwyczaj oferują wyższej jakości, więcej głosów i dodatkowe cechy, takie jak klonowanie głosu.

Tak. API obsługuje przetwarzanie partii dla przetwarzania dużych ilości tekstu do mowy. Przekazywanie wielu zapytań i odbieranie wyników asyncjonalnie przy użyciu pracy UUID. Plany przedsiębiorstw (99$/mo) obejmują priorytetowy dostęp kolejki dla szybszego przetwarzania partii. Idealny dla produkcji audiobook, treści kursu i dużych projektów głosowych.
4.0/5 (8)

Zacznij używać AI Voice Dzisiaj

Dołącz do twórców, deweloperów i firm korzystających z TTS.ai