Text pro API pro vývojáře

Vybudujte hlasově podporované aplikace s naším REST API. Přidat přírodní text-to-speech, hlas klonování, jazyk-text, a audio zpracování do vašich aplikací, chatboty, hlasové asistenty, a SaaS produkty. OpenAI kompatibilní formát, 20+ modely, jednoduchá integrace.

REST API Chatboti Hlasové aplikace Produkty SaaS Automatizace

Zkus to teď.

Zdarma s Kokoro, Piper, VITS, Melotts
Váš vygenerovaný zvuk se objeví zde
Generován
Stáhnout
Miluju TTS.ai? Řekni to svým přátelům!

Vlastnosti API pro vývojáře

Vše, co potřebujete k vytvoření hlasových aplikací

Jednoduché REST API

Jeden POST požadavek generovat řeč. JSON požadavek, audio odpověď. Pracuje s libovolným programovacím jazykem, který podporuje HTTP.

OpenAI-kompatibilní

Drop-in náhrada za OpenAI TTS API. Přepněte svůj základní_url a API klíč API existující kód funguje okamžitě.

24+ Dostupné modely

Přístup ke každému modelu prostřednictvím jediného API. Switch modely změnou jednoho parametru. Porovnat kvalitu, rychlost a náklady.

Poddruhá latence

Kokoro generuje zvuk za méně než 1 sekundu. Ideální pro real-time chatboty, hlasové asistenty a interaktivní aplikace.

Hlasové klonování API

Klonovat jakýkoli hlas z krátkého zvukového vzorku přes API. Použijte klonované hlasy pro všechny následující generace.

Více formátů

Výstup jako WAV, MP3, OGG, nebo FLAC. Zvolte vzorkovací rychlost a hloubku bitu. Streamování audio podpory pro aplikace v reálném čase.

Nejlepší modely pro vývojářskou integraci

Vyberte si správný model pro rychlost, kvalitu a požadavky na náklady aplikace

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Nejlepší pro: Nejrychlejší model sub-sekundové latence, ideální pro aplikace v reálném čase a chatboty

Zkus to. Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Klonování hlasu

Nejlepší pro: Streamování TTS s hlasovým klonováním pro aplikace hlasového asistenta

Zkus to. CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Nejlepší pro: Konverzační AI s přirozeným načasováním pro chatbot a asistent hlas

Zkus to. Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Nejlepší pro: Zdarma pouze model CPU pro velkoobjemové aplikace s nulovými úvěrovými náklady

Zkus to. Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Nejlepší pro: Audio generace se zvukovými efekty pro tvůrčí a zábavní aplikace

Zkus to. Bark

Jak integrovat TTS API

Od přihlášení k prvnímu API hovoru do 5 minut

1

Získejte svůj API klíč

Zaregistrujte se zdarma a generujte API klíč z vašeho účtu palubní desky. 15,000 znaků v ceně.

2

Zavolejte si jako první

POST to /v1/tts s textem, modelem a hlasem. Získejte audio bajty zpět. Pod 5 řádky kódu.

3

Vyberte si svůj model

Otestujte různé modely pro vaše použití pouzdro. Porovnejte rychlost, kvalitu a náklady na generaci.

4

Loď k výrobě

Měřítko se znaky pay-as-you-go. Žádné omezení sazeb na placené plány. Monitor použití ve vaší palubní desce.

Příklady kódu rychlého startu

Integrujte TTS.ai v jakémkoli jazyce s naším REST API

Python Oblíbené
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Univerzální
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI-kompatibilní formát Drop-in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Co vývojáři budovat s TTS.ai

Společné integrační vzory a aplikace

AI Chatbots & Asistenti

Přidejte hlasový výstup do vašeho chatbotu nebo AI asistenta. Pipe LLM odezvy prostřednictvím TTS pro hlasově dostupná rozhraní. Kokoro poskytuje sub-sekund latence pro real-time konverzace. Sezam CSM generuje konverzační řeč s přirozeným načasováním.

  • LLM odpověď na řečový potrubí
  • Subsektivní latence s Kokorem
  • Konverzační řeč se Sezamem CSM
  • Streamování zvukového výstupu

Mobilní a hlasové aplikace

Vybudovat mobilní aplikace s podporou hlasu, nástroje přístupnosti, čtecí aplikace a platformy pro výuku jazyků. Naše API REST funguje s libovolným mobilním rámcem. Stáhněte si zvukové soubory nebo streamujte přímo klientovi.

  • Reagovat původní, Flutter, Swift, Kotlin
  • Přístupnost a čtecí aplikace
  • Platformy pro výuku jazyků
  • Generování audio obsahu

Produkty SaaS

White-label hlasové schopnosti ve vašem produktu SaaS. Přidat TTS, STT, hlasové klonování, a zpracování zvuku jako funkce ve vaší platformě. Použijte naše API jako hlasový backend bez řízení infrastruktury GPU.

  • White-label hlasové vlastnosti
  • Infrastruktura GPU není nutná
  • Ceny placeného za použití
  • 20+ modely, které nabízejí svým uživatelům

Automatizace potrubí

Integrovat tvorbu hlasu do CI/CD potrubí, automatizace obsahu, a dávkové zpracování pracovní postupy. Generovat tisíce zvukových souborů z tabulkových dat, automatizovat podcast výroby, nebo vybudovat obsah lokalizace potrubí.

  • Zpracovávání šarží prostřednictvím API
  • Obsah lokalizační potrubí
  • Integrace CI/CD
  • Tabulky pro automatizaci zvuku

Specifikace API

Vestavěné pro výrobní aplikace

20+

Modely TTS

100+

Hlasy

30+

Jazyky

<1s

Latency (Kokoro)

Často kladené otázky

Časté otázky k API vývojáře TTS.ai

Ano. Naše API následuje audio formát řeči OpenAI. Pokud používáte knihovnu klienta OpenAI Python nebo JavaScript, můžete přejít na TTS.ai změnou parametrů base_url a api_key. Váš stávající kód funguje bez modifikace.

Kokoro vygeneruje zvuk do 1 sekundy pro typické věty. CosyVoice 2 podporuje streaming výstupu pro ještě nižší vnímání latencí. Pro chatboty a hlasové asistenty je celkový čas kulatosti typicky 1-3 sekundy v závislosti na délce textu a výběru modelu.

Modely zdarma (Kokoro, Piper, VITS, Melotts) jsou zcela zdarma. Standardní modely používají 2x znaky na 1K textu. Premium modely používají 4x znaky na 1K textu. Zaregistrujte se zdarma s 15 000 znaky. Plány začínají na $9/měsíc na 500 000 znaků.

Ano. Nahrajte referenční vzorek zvuku (5-30 sekund) do cílového parametru klonování hlasu, pak použijte klonované ID hlasu v následujících TTS požadavcích. Modely, které podporují klonování patří CosyVoice 2, Chatterbox, Fish Speech, a GPT-SoviTS.

Free tier má základní omezení sazeb (3 žádosti za hodinu bez účtu). Placené plány mají velkorysé limity sazeb vhodné pro výrobní aplikace. Kontaktujte nás pro požadavky na průchodnost na úrovni podniku.

WAV (nekomprimovaný, nejvyšší kvalita), MP3 (komprimovaný, menší soubory), OGG (otevřený formát) a FLAC (bezztrátový komprese). Zadejte formát ve vašem požadavku. Výchozí je WAV na nativní vzorkovací frekvenci modelu.

Ano. Kombinujte naše TTS API s modelem řeči-text a LLM pro kompletní hlasový asistent potrubí. Kokoro poskytuje sub-sekundový latency ideální pro real-time konverzaci. CosyVoice 2 podporuje streaming výstup pro ještě nižší vnímané časy odezvy.

CosyVoice 2 a Kokoro podpora streaming audio výstup, kde audio kousky jsou dodávány, jak jsou generovány. To snižuje čas-k-první-byte pro aplikace v reálném čase, jako hlasové asistenty a interaktivní zážitky.

API vrací standardní HTTP stavové kódy. Implementovat exponenciální back-off pro chyby 5xx a rychlostní limit odpovědi. Pro aplikace kritické pro misi přidejte frontu s retry logikou. Naše API má vysoký čas, ale vždy se doporučuje houževnatá chybová manipulace.

Ano. Výsledky /v1/voices a /v1/modely vrací JSON seznamy všech dostupných hlasů a modelů s jejich metadaty (jazyková podpora, hodnocení kvality, hodnocení rychlosti a cenové úrovně).

Zdarma modely (Kokoro, Piper, VITS, MeloTTS) slouží jako efektivní pískoviště, protože stojí nulové kredity. Otestujte integraci s bezplatnými modely, pak přejděte na prémiové modely ve výrobě změnou modelu parametru. Není potřeba žádné samostatné testovací prostředí.

Většina našich modelů je open-source a může být sama-hosting. Nicméně, samo-hosting vyžaduje významné GPU zdroje (my používáme 4x NVIDIA Tesla P40 s 96GB VRAM celkem). API poskytuje nákladově efektivní alternativu bez řízení infrastruktury.
5.0/5 (1)

Co bychom mohli zlepšit? Vaše zpětná vazba nám pomáhá řešit problémy.

Připraveni stavět s hlasovou AI?

Získejte zdarma API klíč a začít stavět. 15,000 znaků při přihlášení, zdarma modely k dispozici, komplexní dokumentace.