Rapporter feil/ funksjonsforespørsel

Tekst til tale- API for utviklere

Bygg talebaserte programmer med vårt REST API. Legg til naturlig tekst- til- tale, stemmekloning, tale- til- tekst og lydbehandling i dine apps, chatbotter, taleassistenter og SaaS- produkter. OpenAI- kompatibelt format, 20+ modeller, enkel integrering.

REST API Chatboter Stemmeapper SaaS-produkter Automasjon

Fullstendig TTS-redigering API- dokser

Prøv det nå

Tekst
Filer

0/500

Fri med Kokoro, Piper, VITS, MeloTTS

Din genererte lyd vil vises her

Åpne fullstendig TTS-redigering

API-funksjoner for utviklere

Alt du trenger for å bygge talebaserte programmer

Enkelt REST API

En POST- forespørsel om å lage tale. JSON- forespørsel, lydsvar. Fungerer med et hvilket som helst programmeringsspråk som støtter HTTP.

OpenAI-kompatibel

drop- in erstatning for OpenAI TTS API. Bytt base_ url og API- nøkkel – eksisterende kode virker med en gang.

24+ modeller tilgjengelige

Få tilgang til hver modell gjennom ett API. Bytt modeller ved å endre en parameter. Sammenlikne kvalitet, fart og kostnad.

Undersekunders latenstid

Kokoro lager lyd på under ett sekund. Perfekt for chatboter, taleassistenter og interaktive programmer i sanntid.

Stemmekloning-API

Klone en stemme fra en kort lydprøve via API. Bruk klonede stemmer for alle etterfølgende generasjoner.

Flere formater

Utdata som WAV, MP3, OGG eller FLAC. Velg samplingsrate og bitdybde. Støtte for lyd i sanntidsprogrammer.

Beste modeller for integrasjon med utviklere

Velg riktig modell for programmets hastighet, kvalitet og kostnadskrav

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Best for: Raskeste modell — subsekunders latens, ideell for sanntidsapper og chatbots

Forsøk Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Stemmekloning

Best for: Strømmer TTS med talekloning for taleassistentapplikasjoner

Forsøk CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Best for: Samtalende AI med naturlig tajming for chatbot og assistentstemme

Forsøk Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Best for: Gratis, CPU-modell for programmer i stort volum med null kredittkostnad

Forsøk Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Best for: Lydgenerering med lydeffekter for kreative og underholdningsapper

Forsøk Bark

Hvordan integrere TTS- API

Fra innmelding til første API-anrop på under 5 minutter

Hent API-nøkkelen din

Registrer deg gratis og generer en API-nøkkel fra konto- instrumentbordet. 15.000 tegn inkludert.

Gjør ditt første kall

POST til / v1/tt med tekst, modell og stemme. Hent lyd- byte tilbake. Under 5 kodelinjer.

Velg din modell

Test forskjellige modeller for bruk. Sammenlikne hastighet, kvalitet og kostnad per generasjon.

Skip til produksjon

Skaler med « pay- as- go » - tegn. Ingen rentegrenser for betalte planer. Overvåk bruk i kontrollpulten.

Eksempler på hurtigstart- kode

Integrer TTS.ai på alle språk med vårt REST API

Python Populære

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Universell

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

OpenAI- kompatibelt format Drop- inn

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Hent din frie API-nøkkel

Hva utviklerbygg med TTS.ai

Felles integrasjonsmønstre og anvendelser

AI Chatboter og assistenter

Legg til taleutgang til chatboten din eller AI- assistenten. Pipe LLM- svar gjennom TTS for talebaserte grensesnitt. Kokoro leverer subsekunders latenstid for sanntidssamtaler. Sesame CSM genererer samtaletale med naturlig tidtaking.

LLM-respons på talerørledning
Delsekunders latenstid med Kokoro
Samtaletale med Sesame CSM
Strømmer lydutgang

Mobile og stemmeprogrammer

Bygg talebaserte mobilapper, tilgjengelighetsverktøy, lesing av programmer og plattformer for språklæring. Vår REST API arbeider med alle mobile rammer. Last ned lydfiler eller strømmer direkte til klienten.

Reagere innebygd, flutter, Swift, Kotlin
Tilgjengelighet og leseapper
Språkplattformer
Genererer lydinnhold

SaaS-produkter

Muligheter for hvite stemmer i SaaS- produktet ditt. Legg til TTS, STT, stemmekloning og lydbehandling som funksjoner i plattformen din. Bruk vårt API som talemotor uten å håndtere GPU- infrastruktur.

Hvitmerkede talefunksjoner
Ingen GPU- infrastruktur trengs
Betaling per bruk
20+ modeller for å tilby brukerne dine

Automasjonsrørledninger

Integrer talegenerering i CI/CD-rørledninger, innholdsautomatisering og flerbildearbeid. Generer tusenvis av lydfiler fra regnearkdata, automatiser podkastproduksjon eller bygg lokaliseringsrør.

Mengdebehandling via API
Lokaliseringsrør for innhold
CI/CD-integrasjon
Regneark til lydautomatisering

Vis fullstendig API-dokumentasjon

API-spesifikasjoner

Byggt for produksjonsformål

20+

TTS-modeller

100+

Stemmer

30+

Språk

<1s

Latency (Kokoro)

Registrer deg gratis — 15.000 tegn

Ofte stilte spørsmål

Vanlige spørsmål om TTS.ai utvikler- API

Ja. Vårt API følger OpenAI lyd- opplesningsformatet. Hvis du bruker biblioteket OpenAI Python eller JavaScript kan du bytte til TTS.ai ved å endre parametre for base_ url og api_ key. Din eksisterende kode virker uten endring.

Kokoro lager lyd på under ett sekund for typiske setninger. CosyVoice 2 støtter streaming av utdata for enda lavere oppfattede latenser. For chatbotter og taleassistenter er total rundtid typisk 1-3 sekunder avhengig av tekstlengde og modellvalg.

Frie modeller (Kokoro, Piper, VITS, MeloTTS) er helt frie. Standardmodeller bruker 2x tegn per 1K tekst. Premiummodeller bruker 4x tegn per 1K tekst. Bli medlem med 15.000 tegn. Planer begynner med $9/ måned for 500.000 tegn.

Ja. Last opp en referanselydprøve (5-30 sekunder) til talekloning- endepunktet, bruk deretter klonet stemme- ID i etterfølgende TTS- forespørsler. Modeller som støtter kloning omfatter CosyVoice 2, Chatterbox, Fish Tale og GPT- SoVITS.

Fritt nivå har grunnleggende satsbegrensning (3 forespørsler i timen uten konto).Betalte planer har generøse rentegrenser som egner seg for produksjonsformål.

WAV (ukomprimert, høy kvalitet), MP3 (komprimert, mindre filer), OGG (åpent format) og FLAC (tapsfri komprimering). Oppgi formatet på forespørselen. Standard er WAV med modellens utvalgsfrekvens.

Ja. Kombiner TTS- API- en vår med en tale- til- tekst- modell og en LLM for å bygge en komplett taleassistent- rørledning. Kokoro tilbyr sub- sekund latenstid ideell for sanntids samtale. CosyVoice 2 støtter streaming av utdata for enda lavere oppfattede svartider.

CosyVoice 2 og Kokoro støtter streaming av lydutganger der lydblokker leveres mens de lages. Dette reduserer tid- til- første- byte for sanntidsapplikasjoner som taleassistenter og interaktive opplevelser.

API returnerer standard HTTP- statuskoder. Implementer eksponentiell tilbakeføring for 5xx- feil og svar med rategrense. For mission- kritiske programmer, legg til en kø med gjenprøv logikk. Vårt API har høy opptid, men motstandsdyktig feilhåndtering anbefales alltid.

Ja. Sluttpunkter for / v1/ tale og / v1/ modeller returnerer JSON- lister over alle tilgjengelige stemmer og modeller med sine metadata (språkstøtte, kvalitetsvurderinger, hastighetsvurderinger og prisnivå). Bruk disse til å bygge dynamiske modellvelgere i programmet ditt.

Frie modeller (Kokoro, Piper, VITS, MeloTTS) fungerer som en effektiv sandkasse siden de koster null kreditter. Test din integrering med frie modeller, og byt så til premiummodeller i produksjonen ved å endre modellparameteren. Det trengs ikke noe separat testmiljø.

De fleste av våre modeller er åpen kildekode og kan være egne verter. Selvvært krever imidlertid betydelige GPU- ressurser (vi bruker 4x NVIDIA Tesla P40 med 96 GB VRAM total). API- en er et kostnadseffektivt alternativ uten infrastrukturforvaltning.

5.0/5 (1)

Klar til å bygge med tale- AI?

Hent din gratis API- nøkkel og start bygging. 15 poeng ved registrering, frie modeller tilgjengelig, omfattende dokumentasjon.

Registrer deg gratis Vis prisfastsettelse

Tekst til tale- API for utviklere

Prøv det nå

Elsker TTS.ai? Fortell vennene dine!

API-funksjoner for utviklere

Enkelt REST API

OpenAI-kompatibel

24+ modeller tilgjengelige

Undersekunders latenstid

Stemmekloning-API

Flere formater

Beste modeller for integrasjon med utviklere

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Hvordan integrere TTS- API

Hent API-nøkkelen din

Gjør ditt første kall

Velg din modell

Skip til produksjon

Eksempler på hurtigstart- kode

Hva utviklerbygg med TTS.ai

AI Chatboter og assistenter

Mobile og stemmeprogrammer

SaaS-produkter

Automasjonsrørledninger

API-spesifikasjoner

Ofte stilte spørsmål

Er API kompatibelt med OpenAI TTS- formatet?

Hva er forsinkelsen for sanntidsanvendelser?

Hvordan virker prissetting for API- bruk?

Kan jeg bruke stemmekloning gjennom API?

Er det en rategrense?

Hvilke lydformater returnerer API?

Kan jeg bruke API til å bygge en taleassistent eller chatbot?

Finnes det en WebSocket eller streaming API?

Hvordan håndterer jeg feil og gjenforsøk i produksjonen?

Kan jeg liste tilgjengelige stemmer og modeller programmatisk?

Finnes det et sandkasse- eller testmiljø?

Kan jeg selv være vert for modellene i stedet for å bruke API?

Klar til å bygge med tale- AI?