Zgłosić błąd / żądanie funkcji

Tekst do wypowiedzi API dla deweloperów

Zbuduj aplikacje uprawnione do głosu z naszym REST API. Dodaj naturalny format tekst-to-speech, klonowanie głosu, mów-to-text, i przetwarzanie dźwięku do aplikacji, chatbotów, asystentów głosowych i produktów SaaS. OpenAI-kompatybilny format, 20+ modeli, prosta integracja.

REST API Czatboty Aplikacje głosowe Produkty SaaS Automatyzacja

Pełny edytor TTS API Docs

Spróbuj teraz

Tekst
Pliki

0/500

Darmowe z Kokoro, Piper, VITS, Melotts

Wygenerowany dźwięk pojawi się tutaj

Otwórz pełny edytor TTS

Funkcje API dla programistów

Wszystko, czego potrzebujesz do budowy aplikacji uprawnionych do głosu

Prosty REST API

Jeden wniosek POST do generowania mowy. JSON żądanie, odpowiedź audio. Pracuje z językiem programowania, który obsługuje HTTP.

OpenAI-Kompatybilny

Drop-in wymiana dla OpenAi TTS API. Przełącz base_url i klucz API — istniejący kod działa natychmiast.

24+ Dostępne modele

Dostęp do każdego modelu poprzez jeden API. Przełącz modele poprzez zmianę jednego parametru. Porównaj jakość, prędkość i koszt.

Poddruga latencja

Kokoro generuje audio w mniej niż 1 sekundę. Idealnie dla czatbotów w czasie rzeczywistym, asystentów głosowych i aplikacji interaktywnych.

API klonowania głosu

Klonuj dowolny głos z krótkiej próbki audio za pośrednictwem API. Użyj klonowanych głosów przez wszystkie następne pokolenia.

Wiele formatów

Wyjście jako WAV, MP3, OGG lub FLAC. Wybierz szybkość próbki i głębokość bitu. Uciekanie obsługi audio dla aplikacji w czasie rzeczywistym.

Najlepsze modele integracji programistów

Wybierz odpowiedni model dla wymagań dotyczących prędkości, jakości i kosztów aplikacji

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Szybko 5/5

Najlepsze dla: Najszybszy model – podsekundowy latencji, idealny dla aplikacji w czasie rzeczywistym i czatbotów

Spróbuj. Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Średni 5/5 Klonowanie głosu

Najlepsze dla: Streaming TTS z klonowaniem głosu dla aplikacji asystenta głosu

Spróbuj. CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Powoli 5/5

Najlepsze dla: Konwersacyjne AI z naturalnym wyczuciem czasu dla chatbot i głosu asystenta

Spróbuj. Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Szybko 3/5

Najlepsze dla: Bezpłatny, tylko model CPU dla aplikacji o wysokiej ilości o zerowych kosztach kredytowych

Spróbuj. Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Powoli 4/5

Najlepsze dla: Wytwarzanie dźwięku o efektach dźwiękowych dla aplikacji kreatywnych i rozrywkowych

Spróbuj. Bark

Jak zintegrować API TTS

Od rejestracji do pierwszego rozmowy API w mniej niż 5 minut

Pobierz klucz API

Zarejestruj się za darmo i wygeneruj klucz API z panelu centralnego konta. W tym 15 000 znaków.

Pierwsze wezwanie

POST do /v1/tts z tekstem, modelem i głosem. Odzyskaj bajty audio. Pod 5 wierszami kodu.

Wybierz swój model

Sprawdź różne modele dla Twojego użytkowania. Porównaj prędkość, jakość i koszt na pokolenie.

Statki do produkcji

Skaluj z znakami pay-as-you-go. Brak ograniczeń stawek w planach płatnych. Monitoruj użycie w panelu deski.

Przykłady kodu szybkiego uruchomienia

Iнтегрuj TTS.ai w dowolnym języku z naszym REST API

Python Popularne

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Uniwersalny

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

Format kompatybilny OpenAI Wrzucenie

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Pobierz swój darmowy klucz API

Co Developers Budować z TTS.ai

Wspólne wzory integracji i zastosowania

AI Chatbots & Assistants

Dodaj wyjście głosowe do czatbotu lub asystenta AI. Pipe LLM odpowiedzi przez TTS dla interfejsów podłączonych głosem. Kokoro dostarcza podsekundową latencję do rozmów w czasie rzeczywistym. Sesame CSM generuje mowy konwersacyjne z naturalnym czasem.

Odpowiedź LLM na rurociąg mowy
Podsekundowa latencja z Kokoro
Przemówienie konwersacyjne z Sezamem CSM
Streamowanie wyjścia audio

Aplikacje mobilne i głosowe

Budowa aplikacji mobilnych, narzędzi dostępności, aplikacji czytania i platformy nauczania języka. Nasz REST API pracuje z dowolnymi ramami mobilnymi. Pobierz pliki audio lub strumień bezpośrednio do klienta.

Reakcja native, Flutter, Swift, Kotlin
Dostępność i aplikacje do odczytu
Platformy uczenia się języka
Wytwarzanie zawartości dźwięku

Produkty SaaS

Możliwości głosu białego w produkcie SaaS. Dodaj TTS, STT, klonowanie głosu i przetwarzanie dźwięku jako funkcje w platformie. Użyj naszego API jako podręcznika głosowego bez zarządzania infrastrukturą GPU.

Funkcje głosu białego
Nie jest potrzebna infrastruktura GPU
Ceny płatnicze na użytkowanie
20+ modeli, aby zaoferować użytkownikom

Rurociągi automatyzacji

Integruj generację głosu do rurociągów CI/CD, automatyzacji treści i przetwarzania partii. Generuj tysiące plików audio z danych arkuszowych, automatyzuj produkcję podcastów lub buduj rurociągi lokalizacji treści.

Przetwarzanie serii za pośrednictwem API
Rurociągi lokalizacyjne zawierające zawartość
Integracja CI/CD
Systemy elektroniczne do automatyzacji dźwięku

Widok pełnej dokumentacji API

Specyfikacje API

Zbudowany do zastosowań produkcyjnych

20+

Modele TTS

100+

Głosy

30+

Języki

<1s

Latency (Kokoro)

Zaloguj się wolno — 15 000 znaków

Często zadawane pytania

Wspólne pytania dotyczące TTS.ai deweloperów API

Tak. Nasz API podąża za formatem wypowiedzi audio OpenAI. Jeśli używasz biblioteki OpenAI Python lub klientów JavaScript, możesz przełączyć się do TTS.ai poprzez zmianę parametrów base_url i api_key. Twój istniejący kod działa bez modyfikacji.

Kokoro generuje audio w mniej niż 1 sekundę dla typowych zdań. CosyVoice 2 obsługuje streaming wyjście dla jeszcze niższych postrzeganych latencji. Dla chatbotów i asystentów głosowych, całkowity czas okrągłego ruchu jest zazwyczaj 1-3 sekundy w zależności od długości tekstu i wyboru modelu.

Bezpłatne modele (Kokoro, Piper, VITS, Melotts) są całkowicie za darmo. Standardowe modele używają 2x znaków na 1K tekstu. Modele premium używają 4x znaków na 1K tekstu. Zarejestruj się bezpłatnie z 15 000 znaków. Plany zaczynają się od 9 dolarów/miesiąc na 500 000 znaków.

Tak. Wyślij próbkę dźwiękową (5-30 sekund) do punktu końcowego klonowania głosu, a następnie użyj klonowanego ID głosu w kolejnych żądaniach TTS. Modele, które wspierają klonowanie obejmują CosyVoice 2, Chatterbox, Fish Speak i GPT-SoviTS.

Bezpłatny poziom ma ograniczenie stawki podstawowej (3 zapytania na godzinę bez konta). Plany płatnicze mają hojne limity stawki odpowiednie do zastosowań produkcyjnych. Skontaktuj się z nami w przypadku wymogów w zakresie przepustowości na poziomie przedsiębiorstwa.

WAV (niekompresowana, najwyższa jakość), MP3 (kompresowane, mniejsze pliki), OGG (format otwarty) i FLAC (kompresja bezgubna). Określ format w swoim żądaniu. Domyślnie jest WAV w native próbki modelu.

Tak. Połączyć nasz TTS API z modelem mowy do tekstu i LLM, aby zbudować kompletny rurociąg głośny asystent. Kokoro zapewnia podsekundową latencję idealną do rozmowy w czasie rzeczywistym. CosyVoice 2 obsługuje streaming wyjścia dla jeszcze mniej postrzeganych czasów odpowiedzi.

CosyVoice 2 i Kokoro obsługują streaming audio wyjście, gdzie kawałki audio są dostarczane w momencie ich generowania. Zmniejsza to czas od pierwszego do pierwszego bajtu dla aplikacji w czasie rzeczywistym, takich jak asystenty głosowe i interaktywne doświadczenia.

API zwraca standardowe kody stanu HTTP. Wdrożenie wykładniowego backoff dla błędów 5xx i ograniczeń stawek. Dla aplikacji krytycznych misji, dodaj kolejkę z logiką powtórzenia. Nasz API ma wysoki czas, ale jest zawsze zalecane odporne obsługiwanie błędów.

Tak. W końcowych punktach końcowych /v1/głosów i /v1/modelów zwraca się listy wszystkich dostępnych głosów i modeli z ich metadanymi (wsparcie językowe, ocena jakości, ratingi prędkości i poziom cen). Użyj ich do budowy dynamicznych selekcjonistów modeli w aplikacji.

Darmowe modele (Kokoro, Piper, VITS, Melotts) służą jako skuteczna piaskownica, ponieważ kosztują zero kredytów. Sprawdź swoją integrację z darmowymi modelami, a następnie przełącz się na premium modele w produkcji poprzez zmianę parametru modelu. Nie jest potrzebne oddzielne środowisko testowe.

Większość naszych modeli jest otwarte źródło i może być samodomówione. Jednak samodomowstwo wymaga znacznych zasobów GPU (używamy 4x NVIDIA Tesla P40 z sumą 96GB VRAM). API zapewnia opłacalną alternatywę bez zarządzania infrastrukturą.

5.0/5 (1)

Gotowy do budowy z Voice AI?

Dostać darmowy klucz API i rozpocząć budowę. 15 kredytów na rejestrację, bezpłatne modele dostępne, kompleksowa dokumentacja.

Zarejestruj się za darmo Widok Cennik

Tekst do wypowiedzi API dla deweloperów

Spróbuj teraz

Powiedz znajomym!

Funkcje API dla programistów

Prosty REST API

OpenAI-Kompatybilny

24+ Dostępne modele

Poddruga latencja

API klonowania głosu

Wiele formatów

Najlepsze modele integracji programistów

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Jak zintegrować API TTS

Pobierz klucz API

Pierwsze wezwanie

Wybierz swój model

Statki do produkcji

Przykłady kodu szybkiego uruchomienia

Co Developers Budować z TTS.ai

AI Chatbots & Assistants

Aplikacje mobilne i głosowe

Produkty SaaS

Rurociągi automatyzacji

Specyfikacje API

Często zadawane pytania

Czy API jest kompatybilna z formatem OpenAI TTS?

Jaka jest latencja dla aplikacji w czasie rzeczywistym?

Jak ceny działają dla użytkowania API?

Czy mogę użyć klonowania głosu przez API?

Istnieje limit stawki?

Jakie formaty audio zwraca API?

Czy mogę użyć API, aby zbudować asystenta głosowego lub czatbota?

Czy istnieje WebSocket czy streaming API?

Jak radzić sobie z błędami i powtórkami w produkcji?

Czy mogę wykazać dostępne głosy i modele programem?

Jest piaskownica czy środowisko testowe?

Czy mogę sam prowadzić modele zamiast używać API?

Gotowy do budowy z Voice AI?