Tekst til tale- API for utviklere

Bygg talebaserte programmer med vårt REST API. Legg til naturlig tekst- til- tale, stemmekloning, tale- til- tekst og lydbehandling i dine apps, chatbotter, taleassistenter og SaaS- produkter. OpenAI- kompatibelt format, 20+ modeller, enkel integrering.

REST API Chatboter Stemmeapper SaaS-produkter Automasjon

Prøv det nå

Fri med Kokoro, Piper, VITS, MeloTTS
Din genererte lyd vil vises her
Generert
Last ned
Elsker TTS.ai? Fortell vennene dine!

API-funksjoner for utviklere

Alt du trenger for å bygge talebaserte programmer

Enkelt REST API

En POST- forespørsel om å lage tale. JSON- forespørsel, lydsvar. Fungerer med et hvilket som helst programmeringsspråk som støtter HTTP.

OpenAI-kompatibel

drop- in erstatning for OpenAI TTS API. Bytt base_ url og API- nøkkel – eksisterende kode virker med en gang.

24+ modeller tilgjengelige

Få tilgang til hver modell gjennom ett API. Bytt modeller ved å endre en parameter. Sammenlikne kvalitet, fart og kostnad.

Undersekunders latenstid

Kokoro lager lyd på under ett sekund. Perfekt for chatboter, taleassistenter og interaktive programmer i sanntid.

Stemmekloning-API

Klone en stemme fra en kort lydprøve via API. Bruk klonede stemmer for alle etterfølgende generasjoner.

Flere formater

Utdata som WAV, MP3, OGG eller FLAC. Velg samplingsrate og bitdybde. Støtte for lyd i sanntidsprogrammer.

Beste modeller for integrasjon med utviklere

Velg riktig modell for programmets hastighet, kvalitet og kostnadskrav

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Best for: Raskeste modell — subsekunders latens, ideell for sanntidsapper og chatbots

Forsøk Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Stemmekloning

Best for: Strømmer TTS med talekloning for taleassistentapplikasjoner

Forsøk CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Best for: Samtalende AI med naturlig tajming for chatbot og assistentstemme

Forsøk Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Best for: Gratis, CPU-modell for programmer i stort volum med null kredittkostnad

Forsøk Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Best for: Lydgenerering med lydeffekter for kreative og underholdningsapper

Forsøk Bark

Hvordan integrere TTS- API

Fra innmelding til første API-anrop på under 5 minutter

1

Hent API-nøkkelen din

Registrer deg gratis og generer en API-nøkkel fra konto- instrumentbordet. 15.000 tegn inkludert.

2

Gjør ditt første kall

POST til / v1/tt med tekst, modell og stemme. Hent lyd- byte tilbake. Under 5 kodelinjer.

3

Velg din modell

Test forskjellige modeller for bruk. Sammenlikne hastighet, kvalitet og kostnad per generasjon.

4

Skip til produksjon

Skaler med « pay- as- go » - tegn. Ingen rentegrenser for betalte planer. Overvåk bruk i kontrollpulten.

Eksempler på hurtigstart- kode

Integrer TTS.ai på alle språk med vårt REST API

Python Populære
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universell
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI- kompatibelt format Drop- inn
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Hva utviklerbygg med TTS.ai

Felles integrasjonsmønstre og anvendelser

AI Chatboter og assistenter

Legg til taleutgang til chatboten din eller AI- assistenten. Pipe LLM- svar gjennom TTS for talebaserte grensesnitt. Kokoro leverer subsekunders latenstid for sanntidssamtaler. Sesame CSM genererer samtaletale med naturlig tidtaking.

  • LLM-respons på talerørledning
  • Delsekunders latenstid med Kokoro
  • Samtaletale med Sesame CSM
  • Strømmer lydutgang

Mobile og stemmeprogrammer

Bygg talebaserte mobilapper, tilgjengelighetsverktøy, lesing av programmer og plattformer for språklæring. Vår REST API arbeider med alle mobile rammer. Last ned lydfiler eller strømmer direkte til klienten.

  • Reagere innebygd, flutter, Swift, Kotlin
  • Tilgjengelighet og leseapper
  • Språkplattformer
  • Genererer lydinnhold

SaaS-produkter

Muligheter for hvite stemmer i SaaS- produktet ditt. Legg til TTS, STT, stemmekloning og lydbehandling som funksjoner i plattformen din. Bruk vårt API som talemotor uten å håndtere GPU- infrastruktur.

  • Hvitmerkede talefunksjoner
  • Ingen GPU- infrastruktur trengs
  • Betaling per bruk
  • 20+ modeller for å tilby brukerne dine

Automasjonsrørledninger

Integrer talegenerering i CI/CD-rørledninger, innholdsautomatisering og flerbildearbeid. Generer tusenvis av lydfiler fra regnearkdata, automatiser podkastproduksjon eller bygg lokaliseringsrør.

  • Mengdebehandling via API
  • Lokaliseringsrør for innhold
  • CI/CD-integrasjon
  • Regneark til lydautomatisering

API-spesifikasjoner

Byggt for produksjonsformål

20+

TTS-modeller

100+

Stemmer

30+

Språk

<1s

Latency (Kokoro)

Ofte stilte spørsmål

Vanlige spørsmål om TTS.ai utvikler- API

Ja. Vårt API følger OpenAI lyd- opplesningsformatet. Hvis du bruker biblioteket OpenAI Python eller JavaScript kan du bytte til TTS.ai ved å endre parametre for base_ url og api_ key. Din eksisterende kode virker uten endring.

Kokoro lager lyd på under ett sekund for typiske setninger. CosyVoice 2 støtter streaming av utdata for enda lavere oppfattede latenser. For chatbotter og taleassistenter er total rundtid typisk 1-3 sekunder avhengig av tekstlengde og modellvalg.

Frie modeller (Kokoro, Piper, VITS, MeloTTS) er helt frie. Standardmodeller bruker 2x tegn per 1K tekst. Premiummodeller bruker 4x tegn per 1K tekst. Bli medlem med 15.000 tegn. Planer begynner med $9/ måned for 500.000 tegn.

Ja. Last opp en referanselydprøve (5-30 sekunder) til talekloning- endepunktet, bruk deretter klonet stemme- ID i etterfølgende TTS- forespørsler. Modeller som støtter kloning omfatter CosyVoice 2, Chatterbox, Fish Tale og GPT- SoVITS.

Fritt nivå har grunnleggende satsbegrensning (3 forespørsler i timen uten konto).Betalte planer har generøse rentegrenser som egner seg for produksjonsformål.

WAV (ukomprimert, høy kvalitet), MP3 (komprimert, mindre filer), OGG (åpent format) og FLAC (tapsfri komprimering). Oppgi formatet på forespørselen. Standard er WAV med modellens utvalgsfrekvens.

Ja. Kombiner TTS- API- en vår med en tale- til- tekst- modell og en LLM for å bygge en komplett taleassistent- rørledning. Kokoro tilbyr sub- sekund latenstid ideell for sanntids samtale. CosyVoice 2 støtter streaming av utdata for enda lavere oppfattede svartider.

CosyVoice 2 og Kokoro støtter streaming av lydutganger der lydblokker leveres mens de lages. Dette reduserer tid- til- første- byte for sanntidsapplikasjoner som taleassistenter og interaktive opplevelser.

API returnerer standard HTTP- statuskoder. Implementer eksponentiell tilbakeføring for 5xx- feil og svar med rategrense. For mission- kritiske programmer, legg til en kø med gjenprøv logikk. Vårt API har høy opptid, men motstandsdyktig feilhåndtering anbefales alltid.

Ja. Sluttpunkter for / v1/ tale og / v1/ modeller returnerer JSON- lister over alle tilgjengelige stemmer og modeller med sine metadata (språkstøtte, kvalitetsvurderinger, hastighetsvurderinger og prisnivå). Bruk disse til å bygge dynamiske modellvelgere i programmet ditt.

Frie modeller (Kokoro, Piper, VITS, MeloTTS) fungerer som en effektiv sandkasse siden de koster null kreditter. Test din integrering med frie modeller, og byt så til premiummodeller i produksjonen ved å endre modellparameteren. Det trengs ikke noe separat testmiljø.

De fleste av våre modeller er åpen kildekode og kan være egne verter. Selvvært krever imidlertid betydelige GPU- ressurser (vi bruker 4x NVIDIA Tesla P40 med 96 GB VRAM total). API- en er et kostnadseffektivt alternativ uten infrastrukturforvaltning.
5.0/5 (1)

Hva kan vi forbedre? din tilbakemelding hjelper oss med å løse problemer.

Klar til å bygge med tale- AI?

Hent din gratis API- nøkkel og start bygging. 15 poeng ved registrering, frie modeller tilgjengelig, omfattende dokumentasjon.