About TTS.ai
Najbardziej kompleksowa platforma open-source AI. 24+ modele, 100+ głosy, wszystkie w jednym miejscu.
Nasza misja
TTS.ai został zbudowany na prostej wiary: Najlepsza technologia głosowa AI powinna być dostępna dla wszystkich. Wprawdzie zastrzeżone usługi pobierają premię za podstawowe tekst-to-speech, społeczność open-source stworzyła modele, które pasują lub przekraczają jakość handlową.
Dołączamy do siebie najlepsze modele głosu otwartego AI w jedną, łatwą w użyciu platformę. Żadnego zamykania sprzedawców. Brak zbiorów danych. Tylko potężna technologia głosowa po uczciwych cenach.
Co oferujemy
Tekst do mowy
24+ modele, w tym Kokoro, Chatterbox, Bark i więcej. Od szybkiej syntezy lekkiej po jakość studiów.
Przemówienie do tekstu
Powered by Whisper, Faster-Whisper, i SenseVoice. Napisz audio w 100+ językach z czasami i wykrywanie głośnika.
Klonowanie głosu
Klonuj dowolny głos z 5-sekundowej próbki. Chatterbox, GPT-SoviTS, CosyVoice 2, i więcej. Tworzenie własnych głosów dla swoich projektów.
Przetwarzanie dźwięku
Powiększenie dźwięku, usunięcie wokałów, rozdzielenie stebr, usunięcie echo/reverb, wykrywanie klucza/BPM i konwertowanie formatów. Wszystkie zasilane przez AI.
Rozmowa głosowa
Rozmowy głosowe w czasie rzeczywistym z AI. Wybierz swój model i głos dla interaktywnego doświadczenia czatu.
Rozwijacz API
Kompatybilny z OpenAI REST API. Python SDK, przykłady kodów i kompleksowa dokumentacja. Zbuduj funkcje głosowe w aplikacjach.
Pierwsze otwarte źródło
Każdy model na TTS.ai jest otwarty, licencjonowany pod MIT lub Apache 2.0. Wierzymy w przejrzystość i innowacje prowadzone przez społeczność.
My to robimy.
Wszystkie wagi modelu są pobierane z ich oficjalnych repozytoriów. Nie dodajemy żadnych zastrzeżonych modyfikacji.
Infrastruktura
TTS.ai działa na dedykowanych serwerach GPU z NVIDIA Tesla P40 GPUs (w sumie 96GB VRAM). Nasza infrastruktura jest przeznaczona do niskiego latency i wysokiego przepustu:
- Dedykowane klastry GPU dla wyników - brak dzielonych zasobów
- Dynamiczny przydział GPU na podstawie wymogów modelu VRAM
- 5-ekwiwalentowy system priorytetowy dla optymalnego przepustu
- Modele wstępnie załadowane w VRAM w odniesieniu do wyników natychmiastowych
- Dostawa dźwięku opartego na CDN do szybkich pobierań
Prywatność i bezpieczeństwo
- Brak szkolenia danych: Nigdy nie używamy twojego audio lub tekstu do szkolenia modeli
- Auto-delekcja: Wygenerowany dźwięk jest automatycznie usuwany po 24 godzinach
- Zaszyfrowanie: Wszystkie dane są zaszyfrowane w tranzycie (TLS 1,2+) i w spoczynku
- < strong> Brak śledzenia:
- GDPR zgodny: Zapytaj o dane lub usunięcie w dowolnym momencie