Tekst do wypowiedzi API dla deweloperów

Zbuduj aplikacje uprawnione do głosu z naszym REST API. Dodaj naturalny format tekst-to-speech, klonowanie głosu, mów-to-text, i przetwarzanie dźwięku do aplikacji, chatbotów, asystentów głosowych i produktów SaaS. OpenAI-kompatybilny format, 20+ modeli, prosta integracja.

REST API Czatboty Aplikacje głosowe Produkty SaaS Automatyzacja

Spróbuj teraz

Darmowe z Kokoro, Piper, VITS, Melotts
Wygenerowany dźwięk pojawi się tutaj
Zbudowany
Pobierz
Powiedz znajomym!

Funkcje API dla programistów

Wszystko, czego potrzebujesz do budowy aplikacji uprawnionych do głosu

Prosty REST API

Jeden wniosek POST do generowania mowy. JSON żądanie, odpowiedź audio. Pracuje z językiem programowania, który obsługuje HTTP.

OpenAI-Kompatybilny

Drop-in wymiana dla OpenAi TTS API. Przełącz base_url i klucz API — istniejący kod działa natychmiast.

24+ Dostępne modele

Dostęp do każdego modelu poprzez jeden API. Przełącz modele poprzez zmianę jednego parametru. Porównaj jakość, prędkość i koszt.

Poddruga latencja

Kokoro generuje audio w mniej niż 1 sekundę. Idealnie dla czatbotów w czasie rzeczywistym, asystentów głosowych i aplikacji interaktywnych.

API klonowania głosu

Klonuj dowolny głos z krótkiej próbki audio za pośrednictwem API. Użyj klonowanych głosów przez wszystkie następne pokolenia.

Wiele formatów

Wyjście jako WAV, MP3, OGG lub FLAC. Wybierz szybkość próbki i głębokość bitu. Uciekanie obsługi audio dla aplikacji w czasie rzeczywistym.

Najlepsze modele integracji programistów

Wybierz odpowiedni model dla wymagań dotyczących prędkości, jakości i kosztów aplikacji

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Najlepsze dla: Najszybszy model – podsekundowy latencji, idealny dla aplikacji w czasie rzeczywistym i czatbotów

Spróbuj. Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Klonowanie głosu

Najlepsze dla: Streaming TTS z klonowaniem głosu dla aplikacji asystenta głosu

Spróbuj. CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Najlepsze dla: Konwersacyjne AI z naturalnym wyczuciem czasu dla chatbot i głosu asystenta

Spróbuj. Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Najlepsze dla: Bezpłatny, tylko model CPU dla aplikacji o wysokiej ilości o zerowych kosztach kredytowych

Spróbuj. Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Najlepsze dla: Wytwarzanie dźwięku o efektach dźwiękowych dla aplikacji kreatywnych i rozrywkowych

Spróbuj. Bark

Jak zintegrować API TTS

Od rejestracji do pierwszego rozmowy API w mniej niż 5 minut

1

Pobierz klucz API

Zarejestruj się za darmo i wygeneruj klucz API z panelu centralnego konta. W tym 15 000 znaków.

2

Pierwsze wezwanie

POST do /v1/tts z tekstem, modelem i głosem. Odzyskaj bajty audio. Pod 5 wierszami kodu.

3

Wybierz swój model

Sprawdź różne modele dla Twojego użytkowania. Porównaj prędkość, jakość i koszt na pokolenie.

4

Statki do produkcji

Skaluj z znakami pay-as-you-go. Brak ograniczeń stawek w planach płatnych. Monitoruj użycie w panelu deski.

Przykłady kodu szybkiego uruchomienia

Iнтегрuj TTS.ai w dowolnym języku z naszym REST API

Python Popularne
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Uniwersalny
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Format kompatybilny OpenAI Wrzucenie
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Co Developers Budować z TTS.ai

Wspólne wzory integracji i zastosowania

AI Chatbots & Assistants

Dodaj wyjście głosowe do czatbotu lub asystenta AI. Pipe LLM odpowiedzi przez TTS dla interfejsów podłączonych głosem. Kokoro dostarcza podsekundową latencję do rozmów w czasie rzeczywistym. Sesame CSM generuje mowy konwersacyjne z naturalnym czasem.

  • Odpowiedź LLM na rurociąg mowy
  • Podsekundowa latencja z Kokoro
  • Przemówienie konwersacyjne z Sezamem CSM
  • Streamowanie wyjścia audio

Aplikacje mobilne i głosowe

Budowa aplikacji mobilnych, narzędzi dostępności, aplikacji czytania i platformy nauczania języka. Nasz REST API pracuje z dowolnymi ramami mobilnymi. Pobierz pliki audio lub strumień bezpośrednio do klienta.

  • Reakcja native, Flutter, Swift, Kotlin
  • Dostępność i aplikacje do odczytu
  • Platformy uczenia się języka
  • Wytwarzanie zawartości dźwięku

Produkty SaaS

Możliwości głosu białego w produkcie SaaS. Dodaj TTS, STT, klonowanie głosu i przetwarzanie dźwięku jako funkcje w platformie. Użyj naszego API jako podręcznika głosowego bez zarządzania infrastrukturą GPU.

  • Funkcje głosu białego
  • Nie jest potrzebna infrastruktura GPU
  • Ceny płatnicze na użytkowanie
  • 20+ modeli, aby zaoferować użytkownikom

Rurociągi automatyzacji

Integruj generację głosu do rurociągów CI/CD, automatyzacji treści i przetwarzania partii. Generuj tysiące plików audio z danych arkuszowych, automatyzuj produkcję podcastów lub buduj rurociągi lokalizacji treści.

  • Przetwarzanie serii za pośrednictwem API
  • Rurociągi lokalizacyjne zawierające zawartość
  • Integracja CI/CD
  • Systemy elektroniczne do automatyzacji dźwięku

Specyfikacje API

Zbudowany do zastosowań produkcyjnych

20+

Modele TTS

100+

Głosy

30+

Języki

<1s

Latency (Kokoro)

Często zadawane pytania

Wspólne pytania dotyczące TTS.ai deweloperów API

Tak. Nasz API podąża za formatem wypowiedzi audio OpenAI. Jeśli używasz biblioteki OpenAI Python lub klientów JavaScript, możesz przełączyć się do TTS.ai poprzez zmianę parametrów base_url i api_key. Twój istniejący kod działa bez modyfikacji.

Kokoro generuje audio w mniej niż 1 sekundę dla typowych zdań. CosyVoice 2 obsługuje streaming wyjście dla jeszcze niższych postrzeganych latencji. Dla chatbotów i asystentów głosowych, całkowity czas okrągłego ruchu jest zazwyczaj 1-3 sekundy w zależności od długości tekstu i wyboru modelu.

Bezpłatne modele (Kokoro, Piper, VITS, Melotts) są całkowicie za darmo. Standardowe modele używają 2x znaków na 1K tekstu. Modele premium używają 4x znaków na 1K tekstu. Zarejestruj się bezpłatnie z 15 000 znaków. Plany zaczynają się od 9 dolarów/miesiąc na 500 000 znaków.

Tak. Wyślij próbkę dźwiękową (5-30 sekund) do punktu końcowego klonowania głosu, a następnie użyj klonowanego ID głosu w kolejnych żądaniach TTS. Modele, które wspierają klonowanie obejmują CosyVoice 2, Chatterbox, Fish Speak i GPT-SoviTS.

Bezpłatny poziom ma ograniczenie stawki podstawowej (3 zapytania na godzinę bez konta). Plany płatnicze mają hojne limity stawki odpowiednie do zastosowań produkcyjnych. Skontaktuj się z nami w przypadku wymogów w zakresie przepustowości na poziomie przedsiębiorstwa.

WAV (niekompresowana, najwyższa jakość), MP3 (kompresowane, mniejsze pliki), OGG (format otwarty) i FLAC (kompresja bezgubna). Określ format w swoim żądaniu. Domyślnie jest WAV w native próbki modelu.

Tak. Połączyć nasz TTS API z modelem mowy do tekstu i LLM, aby zbudować kompletny rurociąg głośny asystent. Kokoro zapewnia podsekundową latencję idealną do rozmowy w czasie rzeczywistym. CosyVoice 2 obsługuje streaming wyjścia dla jeszcze mniej postrzeganych czasów odpowiedzi.

CosyVoice 2 i Kokoro obsługują streaming audio wyjście, gdzie kawałki audio są dostarczane w momencie ich generowania. Zmniejsza to czas od pierwszego do pierwszego bajtu dla aplikacji w czasie rzeczywistym, takich jak asystenty głosowe i interaktywne doświadczenia.

API zwraca standardowe kody stanu HTTP. Wdrożenie wykładniowego backoff dla błędów 5xx i ograniczeń stawek. Dla aplikacji krytycznych misji, dodaj kolejkę z logiką powtórzenia. Nasz API ma wysoki czas, ale jest zawsze zalecane odporne obsługiwanie błędów.

Tak. W końcowych punktach końcowych /v1/głosów i /v1/modelów zwraca się listy wszystkich dostępnych głosów i modeli z ich metadanymi (wsparcie językowe, ocena jakości, ratingi prędkości i poziom cen). Użyj ich do budowy dynamicznych selekcjonistów modeli w aplikacji.

Darmowe modele (Kokoro, Piper, VITS, Melotts) służą jako skuteczna piaskownica, ponieważ kosztują zero kredytów. Sprawdź swoją integrację z darmowymi modelami, a następnie przełącz się na premium modele w produkcji poprzez zmianę parametru modelu. Nie jest potrzebne oddzielne środowisko testowe.

Większość naszych modeli jest otwarte źródło i może być samodomówione. Jednak samodomowstwo wymaga znacznych zasobów GPU (używamy 4x NVIDIA Tesla P40 z sumą 96GB VRAM). API zapewnia opłacalną alternatywę bez zarządzania infrastrukturą.
5.0/5 (1)

Co moglibyśmy ulepszyć? Twoje zwroty zwrotne pomagają nam rozwiązać problemy.

Gotowy do budowy z Voice AI?

Dostać darmowy klucz API i rozpocząć budowę. 15 kredytów na rejestrację, bezpłatne modele dostępne, kompleksowa dokumentacja.