Text till tal API för utvecklare

Bygg röstaktiverade program med vårt REST API. Lägg till naturlig text-till-tal, röstkloning, tal-till-text och ljudbehandling till dina appar, chattrobotar, röstassistenter och SaaS-produkter. OpenAI-kompatibelt format, 20+ modeller, enkel integration.

RESTAPI Chatbotar Röstappar SaaS-produkter Automation

Försök nu

Gratis med Kokoro, Piper, VITS, Melotts
Ditt genererade ljud visas här
Genererad
Ladda ner
Berätta för dina vänner!

API-funktioner för utvecklare

Allt du behöver för att bygga röstaktiverade applikationer

Enkelt REST- API

En POST begäran om att generera tal. JSON begäran, ljudsvar. Fungerar med alla programmeringsspråk som stöder HTTP.

OpenAI-kompatibel

Drop-in ersättning för OpenAI TTS API. Växla din base_url och API-nyckel – befintlig kod fungerar omedelbart.

24+ tillgängliga modeller

Få tillgång till varje modell genom ett enda API. Byta modeller genom att ändra en parameter. Jämför kvalitet, hastighet och kostnad.

Underandra latensen

Kokoro genererar ljud på under 1 sekund. Perfekt för chattrobotar i realtid, röstassistenter och interaktiva applikationer.

RösthanteringsgränssnittName

Clone någon röst från en kort ljudprov via API. Använd klonade röster för alla efterföljande generationer.

Flera format

Utgång som WAV, MP3, OGG, eller FLAC. Välj samplingshastighet och bitdjup. Strömma ljudstöd för realtidsappar.

Bästa modeller för utvecklarintegration

Välj rätt modell för din applikations hastighet, kvalitet och kostnadskrav

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Bäst för: Snabbaste modell – en andra latency, idealisk för appar och chattrobotar i realtid

Försök Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Röstförslutning

Bäst för: Strömma TTS med röstkloning för röstassistentprogram

Försök CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Bäst för: Konversationell AI med naturlig timing för chatbot och assisterande röst

Försök Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Bäst för: Gratis, CPU-endast modell för applikationer med hög volym med noll kreditkostnad

Försök Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Bäst för: Ljudgenerering med ljudeffekter för kreativa och underhållningsappar

Försök Bark

Hur man integrerar TTS API

Från registrering till första API-samtal på under 5 minuter

1

Hämta din API-nyckel

Registrera dig gratis och skapa en API-nyckel från din konto instrumentpanel. 15 000 tecken ingår.

2

Gör ditt första besök

POST till /v1/tts med text, modell och röst. Få ljudbyte tillbaka. Under 5 rader kod.

3

Välj din modell

Testa olika modeller för ditt användningsfall. Jämför hastighet, kvalitet och kostnad per generation.

4

Fartyg till produktion

Skala med pay-as-you-go tecken. Inga hastighetsbegränsningar för betalda planer. Övervaka användning i din instrumentpanel.

Exempel på snabbstartskod

Integrera TTS.ai på alla språk med vårt REST API

Python Populär
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universellt
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI-kompatibelt format Drop-in (drop-in)
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Vad utvecklare bygger med TTS.ai

Gemensamma integrationsmönster och tillämpningar

AI Chatbots och assistenter

Lägg till röstutmatning till din chatbot eller AI-assistent. Rör LLM-svar via TTS för röstaktiverade gränssnitt. Kokoro levererar latens under andra tiden för realtidssamtal. Sesam CSM genererar konversationstal med naturlig timing.

  • LLM svar på tal pipeline
  • Underandra latensen med Kokoro
  • Konversationstal med Sesam CSM
  • Strömmande ljudutmatning

Mobila och röstappar

Bygga röstaktiverade mobilappar, tillgänglighetsverktyg, läsa appar och språkutbildningsplattformar. Vårt REST API fungerar med alla mobila ramar. Ladda ner ljudfiler eller strömma direkt till klienten.

  • Reagera infödda, fladdra, Swift, Kotlin
  • Tillgänglighets- och läsappar
  • Plattformar för språkinlärning
  • Generering av ljudinnehåll

SaaS-produkter

White-label röstfunktioner i din SaaS-produkt. Lägg till TTS, STT, röstkloning och ljudbehandling som funktioner i din plattform. Använd vårt API som ditt röstbackend utan att hantera GPU-infrastruktur.

  • Vitmärkta röstfunktioner
  • Ingen GPU-infrastruktur behövs
  • Prissättning per användning
  • 20+ modeller för att erbjuda dina användare

Automationsrörledningar

Integrera röstgenerering till CI/CD-pipelines, innehållsautomation och arbetsflöden för batchbearbetning. Generera tusentals ljudfiler från kalkylbladsdata, automatisera produktion av podcast eller bygga innehållslokaliseringspipelines.

  • Partihantering via API
  • Rörledningar för innehållslokalisering
  • Integrering av KI/CD
  • Kalkylblad till ljudautomation

API-specifikationer

Byggt för produktionstillämpningar

20+

TTS-modeller

100+

Röster

30+

Språk

<1s

Latency (Kokoro)

Vanliga frågor

Vanliga frågor om TTS.ai-utvecklarens API

Ja. Vårt API följer OpenAI ljudtalformat. Om du använder OpenAI Python- eller JavaScript-klientbiblioteket kan du byta till TTS.ai genom att ändra parametrarna base_url och api_key. Din befintliga kod fungerar utan ändringar.

Kokoro genererar ljud i under 1 sekund för typiska meningar. CosyVoice 2 stöder streaming utdata för ännu lägre uppfattad latens. För chatbots och röst assistenter, är den totala tur-trip tid normalt 1-3 sekunder beroende på textlängd och modellval.

Gratis modeller (Kokoro, Piper, VITS, Melotts) är helt gratis. Standard modeller använder 2x tecken per 1K text. Premium modeller använder 4x tecken per 1K text. Registrera dig gratis med 15 000 tecken. Planer börjar på $9/månad för 500.000 tecken.

Ja. Ladda upp en referensljudprov (5-30 sekunder) till röstkloning endpoint, sedan använda klonade röst-ID i efterföljande TTS-förfrågningar. Modeller som stöder kloning inkluderar CosyVoice 2, Chatterbox, Fisk Tal, och GPT-Sovits.

Fri nivå har basräntasbegränsning (3 förfrågningar per timme utan konto). Betalda planer har generösa hastighetsgränser som lämpar sig för produktionsapplikationer. Kontakta oss för krav på enterprise-level dataput.

WAV (okomprimerad, högsta kvalitet), MP3 (komprimerade, mindre filer), OGG (öppet format) och FLAC (förlustfri komprimering). Ange formatet i din begäran. Standard är WAV vid modellens ursprungliga provtagningsfrekvens.

Ja. Kombinera vårt TTS-API med en tal-till-text-modell och en LLM för att bygga en komplett röstassistent pipeline. Kokoro ger sub-sekunds latency idealisk för konversation i realtid. CosyVoice 2 stöder streaming utdata för ännu lägre upplevda svarstider.

CosyVoice 2 och Kokoro stöder strömmande ljudutgång där ljudbitar levereras när de genereras. Detta minskar tiden till första bytet för realtidsapplikationer som röstassistenter och interaktiva upplevelser.

API returnerar vanliga HTTP- statuskoder. Implementera exponentiell backoff för 5xx fel och hastighetsgräns svar. För uppdragskritiska program, lägga till en kö med försök logik. Vårt API har hög drifttid men motståndskraftig felhantering rekommenderas alltid.

Ja. Ändpunkterna /v1/röster och /v1/modeller returnerar JSON-listor över alla tillgängliga röster och modeller med deras metadata (språkstöd, kvalitetsbetyg, hastighetsbetyg och prisnivå). Använd dessa för att bygga dynamiska modellväljare i din applikation.

Fria modeller (Kokoro, Piper, VITS, MeloTTS) fungerar som en effektiv sandlåda eftersom de kostar noll krediter. Testa din integration med gratis modeller, sedan byta till premium modeller i produktionen genom att ändra modellparametern. Ingen separat testmiljö behövs.

De flesta av våra modeller är öppen källkod och kan vara självförsörjande. Självvärdighet kräver dock betydande GPU-resurser (vi använder 4x NVIDIA Tesla P40 med totalt 96GB VRAM). API ger ett kostnadseffektivt alternativ utan infrastrukturhantering.
5.0/5 (1)

Vad kan vi förbättra? Din feedback hjälper oss att lösa problem.

Redo att bygga med röst AI?

Få din kostnadsfria API-nyckel och börja bygga. 15 hp på registrering, gratis modeller tillgängliga, omfattande dokumentation.