Wolny AI Tekst do mowy

22+ modele otwartego źródła, 100+ głosów, 32+ języki. Nie wymagane konto.

0/500 znaki Darmowe
Brak karty kredytowej 50 bezpłatnych kredytów 32+ języki Wykorzystanie handlowe OK
0:00 / 0:00
Pobierz audio Łączność wygasa w 24h
Powiedz znajomym!

Wszystko, czego potrzebujesz do AI głosu

26 narzędzi zasilanych przez 24+ modele open-source AI

22+ Modele głosu AI

Najbardziej kompleksowa kolekcja modeli TTS otwartego źródła w jednej platformie

Kokoro Free

Kokoro is an 82 million parameter text-to-speech model that punches well above its weight class. Despite its tiny size, it produces remarkably natural and expressive speech. Kokoro supports multiple languages including English, Japanese, Chinese, and Korean with a variety of expressive voices. It runs incredibly fast — generating audio nearly 100x faster than real-time on a GPU.

Najlepsze dla: High-quality TTS with minimal latency, streaming applications

Spróbuj wolno

Piper Free

Piper is a lightweight text-to-speech engine developed by Rhasspy that uses VITS and larynx architectures. It runs entirely on CPU, making it ideal for edge devices, home automation, and applications requiring offline TTS. With over 100 voices across 30+ languages, Piper delivers natural-sounding speech at real-time speeds even on a Raspberry Pi 4.

Najlepsze dla: Quick previews, accessibility, and embedded applications

Spróbuj wolno

VITS Free

VITS (Variational Inference with adversarial learning for end-to-end Text-to-Speech) is a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. It adopts variational inference augmented with normalizing flows and an adversarial training process, achieving a significant improvement in naturalness.

Najlepsze dla: General-purpose text-to-speech with natural prosody

Spróbuj wolno

MeloTTS Free

MeloTTS by MyShell.ai is a multilingual TTS library supporting English (American, British, Indian, Australian), Spanish, French, Chinese, Japanese, and Korean. It is extremely fast, processing text at near real-time speed on CPU alone. MeloTTS is designed for production use and supports both CPU and GPU inference.

Najlepsze dla: Wnioski o produkcję wymagające szybkiego, wielojęzycznego TTS

Spróbuj wolno

Bark Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Rozwijacz: Suno · Licencja: MIT

Spróbuj.

Bark Small Standard

Lighter version of Bark with faster inference and lower memory usage.

Rozwijacz: Suno · Licencja: MIT

Spróbuj.

CosyVoice 2 Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Rozwijacz: Alibaba (Tongyi Lab) · Licencja: Apache 2.0

Spróbuj.

Dia TTS Standard

Model tworzenia dialogu wielogłośnika, który tworzy naturalne rozmowy między głośnikami.

Rozwijacz: Nari Labs · Licencja: Apache 2.0

Spróbuj.

Parler TTS Standard

Describe the voice you want in natural language and Parler generates matching speech.

Rozwijacz: Hugging Face · Licencja: Apache 2.0

Spróbuj.

IndexTTS-2 Standard

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Rozwijacz: Index Team · Licencja: Apache 2.0

Spróbuj.

Spark TTS Standard

Voice cloning TTS with controllable emotion and speaking style via prompts.

Rozwijacz: SparkAudio · Licencja: Apache 2.0

Spróbuj.

GPT-SoVITS Standard

Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.

Rozwijacz: RVC-Boss · Licencja: MIT

Spróbuj.

Orpheus Standard

Human-level emotional TTS model trained on 100K hours of speech data.

Rozwijacz: Canopy Labs · Licencja: Llama 3.2 Community

Spróbuj.

Qwen3 TTS Standard

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.

Rozwijacz: Alibaba (Qwen) · Licencja: Apache 2.0

Spróbuj.

Chatterbox Premium

Najnowocześniejsze klonowanie głosu zerowego z kontrolą emocji z Resemble AI.

Jakość:

Spróbuj.

Tortoise TTS Premium

Wielogłosowy tekst-to-speech skupiony na jakości z architekturą autoregresywną.

Jakość:

Spróbuj.

StyleTTS 2 Premium

Human-level text-to-speech through style diffusion and adversarial training.

Jakość:

Spróbuj.

OpenVoice Premium

Natychmiastowe klonowanie głosu z granulową kontrolą stylu, emocji i akcentu.

Jakość:

Spróbuj.

CosyVoice 2

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Języki: en, zh, ja, ko, fr, de, it, es

Głos klonowy

IndexTTS-2

Zero-shot TTS with fine-grained emotion control and high expressiveness.

Języki: en, zh

Głos klonowy

Spark TTS

Voice cloning TTS with controllable emotion and speaking style via prompts.

Języki: en, zh

Głos klonowy

GPT-SoVITS

Few-shot voice cloning TTS that replicates any voice from just 5 seconds of audio.

Języki: en, zh, ja, ko

Głos klonowy

Chatterbox

Najnowocześniejsze klonowanie głosu zerowego z kontrolą emocji z Resemble AI.

Języki: en

Głos klonowy

Tortoise TTS

Wielogłosowy tekst-to-speech skupiony na jakości z architekturą autoregresywną.

Języki: en

Głos klonowy

OpenVoice

Natychmiastowe klonowanie głosu z granulową kontrolą stylu, emocji i akcentu.

Języki: en, zh, ja, ko, fr, de, es, it

Głos klonowy

Qwen3 TTS

Alibaba's multilingual TTS with voice cloning, preset voices, and voice design from text.

Języki: en, zh, ja, ko, de, fr, ru, pt, es, it

Głos klonowy

Developer- Pierwszy API

Kompatybilny z OpenAI REST API. Jeden punkt końcowy, modele 22+. Uciekanie wsparcia dla aplikacji w czasie rzeczywistym.

  • Format kompatybilny z OpenAI
  • Streaming TTS dla aplikacji w czasie rzeczywistym
  • Przetwarzanie serii dla dużych zadań
  • Powiadomienia Webhook
Zobacz API Docs
Python
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts/",
    headers={"Authorization": "Bearer sk-tts-xxx"},
    json={
        "model": "kokoro",
        "text": "Hello from TTS.ai!",
        "voice": "af_bella",
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

Proste, przejrzyste ceny

Zacznij wolno.

Darmowe

$0

50 kredytów

  • Kokoro, Piper, VITS, MeloTTS
  • Ograniczenie 500 znaków
  • 3 gen/godz. (brak konta)
Zarejestruj się za darmo

Rozpoczynacz

$9/Mo

500 kredytów/miesiąc

  • Wszystkie modele 22+
  • Ograniczenie liczby 5000 znaków
  • Klonowanie głosu
Rozpocznij
Najpopularniejsze

Prof.

$29/Mo

2000 kredytów/miesiąc

  • Wszystko w Starter
  • Dostęp API
  • Przetwarzanie priorytetowe
Dostać pro

Przedsiębiorstwo

$99/Mo

10 000 kredytów/miesiąc

  • Wszystko w pro
  • Masowy API
  • Przyorytetowa kolejka
Sprzedaż kontaktowa

View all plans including credit packs →

Często zadawane pytania

TTS.ai jest najbardziej kompleksową platformą głosową AI, oferującą 22+ modele tekstu do języka, klonowanie głosu, narzędzia mowy do tekstu i audio. Wszystkie modele są otwarte źródło bez zamykania sprzedawcy.

Tak! TTS.ai oferuje bezpłatny tekst-to-speech z modelami Kokoro, Piper, VITS i MeloTTS. Nie wymaga się konta. Zarejestruj się, aby uzyskać 50 bezpłatnych kredytów i dostęp do wszystkich modeli. Płacone plany zaczynają się od 9 dolarów/miesiąc.

Dla prędkości użyj Kokoro lub Piper. Do jakości spróbuj CosyVoice 2 lub StyleTTS 2. Do klonowania głosu, użyj Chatterbox lub GPT-SoviTS. Do dialogu użyj Dia TTS. Spróbuj kilka modeli na tym samym tekście, aby porównać.

Tak. Kompatybilny z OpenAI REST API dla TTS, STT, klonowania głosu i narzędzi audio. Dostępny w planach Pro (29/mo) i Enterprise ($99/mo). Zobacz dokumentację w tts.ai/api /.

Jakość głosu różni się w zależności od modelu. Modele premium, takie jak CosyVoice 2, StyleTTS 2 i Chatterbox produkują niemal ludzką jakość mowy z naturalnym intonacją i emocjami. Darmowe modele takie jak Kokoro oferują doskonałą jakość dla większości przypadków użytkowania.

TTS.ai obsługuje 30+ języków w swojej biblioteki modelu. Angielski ma najszerzejszą obsługę modelu, ale modele jak CosyVoice 2 okładki chińskie, japońskie i koreańskie; GPT-SoviTS obsługuje chiński, japoński, koreański i angielski; a MelotTS obsługuje angielski, hiszpański, francuski, chiński, japoński i koreański.

Tak. Wszystkie przetwarzanie zdarza się na naszych dedykowanych serwerach GPU. Nie przechowywamy wejścia tekstu ani generujemy dźwięk po dostawie. Wysłane próbki głosu do klonowania są używane tylko do bieżącej sesji i nie są przechowywane. Nigdy nie dzielimy się Państwa danymi z osobami trzecimi ani nie używamy ich do szkolenia modeli.

Yes. All audio generated on TTS.ai is yours to use commercially, including for YouTube videos, podcasts, audiobooks, apps, advertisements, and products. Our models are open source under permissive licenses (MIT, Apache 2.0). No royalties or attribution required.

TTS.ai generuje dźwięk w formacie WAV domyślnie dla maksymalnej jakości. Można konwertować do MP3, FLAC, OGG lub M4A za pomocą naszego bezpłatnego narzędzia konwerter audio. API obsługuje określanie preferowanego formatu wyjściowego bezpośrednio w zapytaniu.

Upload a short audio sample (as little as 5 seconds) of the voice you want to clone, then type any text to generate speech in that voice. Models like Chatterbox, GPT-SoVITS, and CosyVoice 2 support voice cloning. The cloned voice captures tone, accent, and speaking style.

Darmowe modele (Kokoro, Piper, VITS, Melotts) nie wymagają kredytów zerowych i zerowych. Standardowe modele (2 kredyty/1K znaków) obejmują Bark, CosyVoice 2, F5-TTS i Dia. Modele premium (4 kredyty/1K znaków) obejmują OpenVoice, Chatterbox, StyleTTS 2 i Tortoise. Modele płacone zazwyczaj oferują wyższej jakości, więcej głosów i dodatkowe cechy, takie jak klonowanie głosu.

Tak. API obsługuje przetwarzanie partii dla przetwarzania dużych ilości tekstu do mowy. Przekazywanie wielu zapytań i odbieranie wyników asyncjonalnie przy użyciu pracy UUID. Plany przedsiębiorstw (99$/mo) obejmują priorytetowy dostęp kolejki dla szybszego przetwarzania partii. Idealny dla produkcji audiobook, treści kursu i dużych projektów głosowych.
5.0/5 (1)

Zacznij używać AI Voice Dzisiaj

Dołącz do twórców, deweloperów i firm korzystających z TTS.ai