Rapportera fel/funktionsförfrågan

Text till tal API för utvecklare

Bygg röstaktiverade program med vårt REST API. Lägg till naturlig text-till-tal, röstkloning, tal-till-text och ljudbehandling till dina appar, chattrobotar, röstassistenter och SaaS-produkter. OpenAI-kompatibelt format, 20+ modeller, enkel integration.

RESTAPI Chatbotar Röstappar SaaS-produkter Automation

Fullständig TTS- editorName API- dokument

Försök nu

Texten
Filer

0/500

Gratis med Kokoro, Piper, VITS, Melotts

Ditt genererade ljud visas här

Öppna fullständig TTS- editor

API-funktioner för utvecklare

Allt du behöver för att bygga röstaktiverade applikationer

Enkelt REST- API

En POST begäran om att generera tal. JSON begäran, ljudsvar. Fungerar med alla programmeringsspråk som stöder HTTP.

OpenAI-kompatibel

Drop-in ersättning för OpenAI TTS API. Växla din base_url och API-nyckel – befintlig kod fungerar omedelbart.

24+ tillgängliga modeller

Få tillgång till varje modell genom ett enda API. Byta modeller genom att ändra en parameter. Jämför kvalitet, hastighet och kostnad.

Underandra latensen

Kokoro genererar ljud på under 1 sekund. Perfekt för chattrobotar i realtid, röstassistenter och interaktiva applikationer.

RösthanteringsgränssnittName

Clone någon röst från en kort ljudprov via API. Använd klonade röster för alla efterföljande generationer.

Flera format

Utgång som WAV, MP3, OGG, eller FLAC. Välj samplingshastighet och bitdjup. Strömma ljudstöd för realtidsappar.

Bästa modeller för utvecklarintegration

Välj rätt modell för din applikations hastighet, kvalitet och kostnadskrav

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Bäst för: Snabbaste modell – en andra latency, idealisk för appar och chattrobotar i realtid

Försök Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Röstförslutning

Bäst för: Strömma TTS med röstkloning för röstassistentprogram

Försök CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Bäst för: Konversationell AI med naturlig timing för chatbot och assisterande röst

Försök Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Bäst för: Gratis, CPU-endast modell för applikationer med hög volym med noll kreditkostnad

Försök Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Bäst för: Ljudgenerering med ljudeffekter för kreativa och underhållningsappar

Försök Bark

Hur man integrerar TTS API

Från registrering till första API-samtal på under 5 minuter

Hämta din API-nyckel

Registrera dig gratis och skapa en API-nyckel från din konto instrumentpanel. 15 000 tecken ingår.

Gör ditt första besök

POST till /v1/tts med text, modell och röst. Få ljudbyte tillbaka. Under 5 rader kod.

Välj din modell

Testa olika modeller för ditt användningsfall. Jämför hastighet, kvalitet och kostnad per generation.

Fartyg till produktion

Skala med pay-as-you-go tecken. Inga hastighetsbegränsningar för betalda planer. Övervaka användning i din instrumentpanel.

Exempel på snabbstartskod

Integrera TTS.ai på alla språk med vårt REST API

Python Populär

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Universellt

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

OpenAI-kompatibelt format Drop-in (drop-in)

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Få din gratis API-nyckel

Vad utvecklare bygger med TTS.ai

Gemensamma integrationsmönster och tillämpningar

AI Chatbots och assistenter

Lägg till röstutmatning till din chatbot eller AI-assistent. Rör LLM-svar via TTS för röstaktiverade gränssnitt. Kokoro levererar latens under andra tiden för realtidssamtal. Sesam CSM genererar konversationstal med naturlig timing.

LLM svar på tal pipeline
Underandra latensen med Kokoro
Konversationstal med Sesam CSM
Strömmande ljudutmatning

Mobila och röstappar

Bygga röstaktiverade mobilappar, tillgänglighetsverktyg, läsa appar och språkutbildningsplattformar. Vårt REST API fungerar med alla mobila ramar. Ladda ner ljudfiler eller strömma direkt till klienten.

Reagera infödda, fladdra, Swift, Kotlin
Tillgänglighets- och läsappar
Plattformar för språkinlärning
Generering av ljudinnehåll

SaaS-produkter

White-label röstfunktioner i din SaaS-produkt. Lägg till TTS, STT, röstkloning och ljudbehandling som funktioner i din plattform. Använd vårt API som ditt röstbackend utan att hantera GPU-infrastruktur.

Vitmärkta röstfunktioner
Ingen GPU-infrastruktur behövs
Prissättning per användning
20+ modeller för att erbjuda dina användare

Automationsrörledningar

Integrera röstgenerering till CI/CD-pipelines, innehållsautomation och arbetsflöden för batchbearbetning. Generera tusentals ljudfiler från kalkylbladsdata, automatisera produktion av podcast eller bygga innehållslokaliseringspipelines.

Partihantering via API
Rörledningar för innehållslokalisering
Integrering av KI/CD
Kalkylblad till ljudautomation

Visa fullständig API- dokumentation

API-specifikationer

Byggt för produktionstillämpningar

20+

TTS-modeller

100+

Röster

30+

Språk

<1s

Latency (Kokoro)

Registrera dig gratis — 15 000 tecken

Vanliga frågor

Vanliga frågor om TTS.ai-utvecklarens API

Ja. Vårt API följer OpenAI ljudtalformat. Om du använder OpenAI Python- eller JavaScript-klientbiblioteket kan du byta till TTS.ai genom att ändra parametrarna base_url och api_key. Din befintliga kod fungerar utan ändringar.

Kokoro genererar ljud i under 1 sekund för typiska meningar. CosyVoice 2 stöder streaming utdata för ännu lägre uppfattad latens. För chatbots och röst assistenter, är den totala tur-trip tid normalt 1-3 sekunder beroende på textlängd och modellval.

Gratis modeller (Kokoro, Piper, VITS, Melotts) är helt gratis. Standard modeller använder 2x tecken per 1K text. Premium modeller använder 4x tecken per 1K text. Registrera dig gratis med 15 000 tecken. Planer börjar på $9/månad för 500.000 tecken.

Ja. Ladda upp en referensljudprov (5-30 sekunder) till röstkloning endpoint, sedan använda klonade röst-ID i efterföljande TTS-förfrågningar. Modeller som stöder kloning inkluderar CosyVoice 2, Chatterbox, Fisk Tal, och GPT-Sovits.

Fri nivå har basräntasbegränsning (3 förfrågningar per timme utan konto). Betalda planer har generösa hastighetsgränser som lämpar sig för produktionsapplikationer. Kontakta oss för krav på enterprise-level dataput.

WAV (okomprimerad, högsta kvalitet), MP3 (komprimerade, mindre filer), OGG (öppet format) och FLAC (förlustfri komprimering). Ange formatet i din begäran. Standard är WAV vid modellens ursprungliga provtagningsfrekvens.

Ja. Kombinera vårt TTS-API med en tal-till-text-modell och en LLM för att bygga en komplett röstassistent pipeline. Kokoro ger sub-sekunds latency idealisk för konversation i realtid. CosyVoice 2 stöder streaming utdata för ännu lägre upplevda svarstider.

CosyVoice 2 och Kokoro stöder strömmande ljudutgång där ljudbitar levereras när de genereras. Detta minskar tiden till första bytet för realtidsapplikationer som röstassistenter och interaktiva upplevelser.

API returnerar vanliga HTTP- statuskoder. Implementera exponentiell backoff för 5xx fel och hastighetsgräns svar. För uppdragskritiska program, lägga till en kö med försök logik. Vårt API har hög drifttid men motståndskraftig felhantering rekommenderas alltid.

Ja. Ändpunkterna /v1/röster och /v1/modeller returnerar JSON-listor över alla tillgängliga röster och modeller med deras metadata (språkstöd, kvalitetsbetyg, hastighetsbetyg och prisnivå). Använd dessa för att bygga dynamiska modellväljare i din applikation.

Fria modeller (Kokoro, Piper, VITS, MeloTTS) fungerar som en effektiv sandlåda eftersom de kostar noll krediter. Testa din integration med gratis modeller, sedan byta till premium modeller i produktionen genom att ändra modellparametern. Ingen separat testmiljö behövs.

De flesta av våra modeller är öppen källkod och kan vara självförsörjande. Självvärdighet kräver dock betydande GPU-resurser (vi använder 4x NVIDIA Tesla P40 med totalt 96GB VRAM). API ger ett kostnadseffektivt alternativ utan infrastrukturhantering.

5.0/5 (1)

Redo att bygga med röst AI?

Få din kostnadsfria API-nyckel och börja bygga. 15 hp på registrering, gratis modeller tillgängliga, omfattande dokumentation.

Registrera dig gratis Visa Prissättning

Text till tal API för utvecklare

Försök nu

Berätta för dina vänner!

API-funktioner för utvecklare

Enkelt REST- API

OpenAI-kompatibel

24+ tillgängliga modeller

Underandra latensen

RösthanteringsgränssnittName

Flera format

Bästa modeller för utvecklarintegration

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Hur man integrerar TTS API

Hämta din API-nyckel

Gör ditt första besök

Välj din modell

Fartyg till produktion

Exempel på snabbstartskod

Vad utvecklare bygger med TTS.ai

AI Chatbots och assistenter

Mobila och röstappar

SaaS-produkter

Automationsrörledningar

API-specifikationer

Vanliga frågor

Är API:et kompatibelt med OpenAI TTS-formatet?

Vad är latensen för realtidsapplikationer?

Hur fungerar prissättningen för API-användning?

Kan jag använda röstkloning via API:et?

Finns det en gräns för skattesatsen?

Vilka ljudformat returnerar API:et?

Kan jag använda API:et för att bygga en röstassistent eller chatbot?

Finns det en WebSocket eller streaming API?

Hur hanterar jag fel och returer i produktionen?

Kan jag lista tillgängliga röster och modeller programmatiskt?

Finns det en sandlåda eller testmiljö?

Kan jag själv ta hand om modellerna istället för att använda API:et?

Redo att bygga med röst AI?