Tekst til tale- API til udviklere

Byg stemmeaktiverede programmer med vores REST API. Tilføj naturlige tekst-til-tale, stemmekloning, tale-til-tekst og lydbehandling til dine apps, chatbotter, stemmeassistenter og SaaS-produkter. OpenAI-kompatibelt format, 20 + modeller, enkel integration.

REST API Chatbotter Stemmeapps SaaS-produkter Automation

Prøv det nu

Gratis med Kokoro, Piper, VITS, MeloTTS
Din genererede lyd vises her
Genereret
Download
Elsker TTS.ai? Fortæl dine venner!

API- funktioner til udviklere

Alt hvad du behøver for at opbygge stemmeaktiverede applikationer

Simpel REST API

En POST anmodning om at generere tale. JSON anmodning, lyd svar. Fungerer med ethvert programmeringssprog, der understøtter HTTP.

OpenAI- Kompatibel

Drop-in erstatning for OpenAI TTS API. Skift din base_url og API-tasten ~ eksisterende kode virker med det samme.

24+ Modeller tilgængelige

Få adgang til hver model gennem en enkelt API. Skift modeller ved at ændre en parameter. Sammenlign kvalitet, hastighed og omkostninger.

Subsekundær latenstid

Kokoro genererer lyd på under 1 sekund. Perfekt til real-time chatbotter, stemmeassistenter og interaktive applikationer.

Voice Cloning API

Klon enhver stemme fra en kort lydprøve via API. Brug klonede stemmer til alle efterfølgende generationer.

Flere formater

Output som WAV, MP3, OGG eller FLAC. Vælg sample rate og bit dybde. Streaming audio support til real-time apps.

Bedste modeller til integration af udviklere

Vælg den rigtige model til din ansøgnings hastighed, kvalitet og omkostningskrav

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Bedst til: Den hurtigste model, sub-second latency, ideel til real-time apps og chatbots

Prøv Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Stemmekløvning

Bedst til: Streaming af TTS med stemmekloning til stemmeassistentapplikationer

Prøv CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Bedst til: Samtale AI med naturlig timing for chatbot og assistent stemme

Prøv Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Bedst til: Gratis, CPU-kun model til høj-volumen applikationer med nul kreditomkostninger

Prøv Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Bedst til: Lyd generation med lydeffekter til kreative og underholdning apps

Prøv Bark

Hvordan man integrerer TTS API

Fra tilmelding til første API-opkald i under 5 minutter

1

Få din API- nøgle

Tilmeld dig gratis og generere en API-nøgle fra din konto dashboard. 15.000 tegn inkluderet.

2

Gør dit første kald

POST til /v1/tts med tekst, model og stemme. Få lydbytes tilbage. Under 5 linjer kode.

3

Vælg din model

Test forskellige modeller til din brug kasse. Sammenlign hastighed, kvalitet, og omkostninger per generation.

4

Skib til produktion

Skalér med pay-as-you-go tegn. Ingen satsgrænser for betalte planer. Overvåg brug i dit instrumentbræt.

Eksempler på hurtigstartkode

Integrer TTS.ai på alle sprog med vores REST API

Python Populære
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universelt
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI- kompatibelt format Drop- in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Hvad udviklere bygger med TTS.ai

Fælles integrationsmønstre og -applikationer

AI Chatbots og assistenter

Tilføj stemme output til din chatbot eller AI assistent. Pipe LLM svar via TTS for stemmeaktiverede grænseflader. Kokoro leverer sub-sekunders latency til real-time samtaler. Sesam CSM genererer samtaletale med naturlig timing.

  • LLM-svar på talerørledningen
  • Sub-sekundær latens med Kokoro
  • Samtaletale med Sesam CSM
  • Streaming af lydudgang

Mobile & stemmeapps

Byg stemmeaktiverede mobile apps, tilgængelighedsværktøjer, læseapps og sprogindlæringsplatforme. Vores REST API arbejder med enhver mobil ramme. Download lydfiler eller stream direkte til klienten.

  • React Native, Flutter, Swift, Kotlin
  • Tilgængeligheds- og læseapps
  • Sprogindlæringsplatforme
  • Produktion af lydindhold

SaaS-produkter

White-label stemme kapaciteter i dit SaaS produkt. Tilføj TTS, STT, stemme kloning og lydbehandling som funktioner i din platform. Brug vores API som din stemme backend uden at administrere GPU infrastruktur.

  • Hvide taleegenskaber
  • Ingen GPU- infrastruktur nødvendig
  • Prissætning pr. anvendelse
  • 20+ modeller til at tilbyde dine brugere

Automationsrørledninger

Integrer talegenerering i CI / CD rørledninger, indhold automatisering, og batch behandling arbejdsgange. Generere tusindvis af lydfiler fra regneark data, automatisere podcast produktion, eller bygge indhold lokalisering rørledninger.

  • Batchbehandling via API
  • Lokaliseringsrørledninger med indhold
  • CI/CD-integration
  • Regneark til lydautomatisering

API-specifikationer

Bygget til produktionsformål

20+

TTS-modeller

100+

Stemmer

30+

Sprog

<1s

Latency (Kokoro)

Ofte stillede spørgsmål

Almindelige spørgsmål om TTS.ai udvikler API

Ja. Vores API følger OpenAI- lydtaleformatet. Hvis du bruger OpenAI Python- eller JavaScript-klientbiblioteket, kan du skifte til TTS.ai ved at ændre parametrene base_url og api_ key. Din eksisterende kode virker uden ændring.

Kokoro genererer lyd i under 1 sekund for typiske sætninger. CosyVoice 2 understøtter streaming output for endnu lavere opfattet latenstid. For chatbotter og stemmeassistenter er den samlede runde-trip tid typisk 1-3 sekunder afhængigt af tekstlængde og modelvalg.

Gratis modeller (Kokoro, Piper, VITS, MeloTTS) er helt gratis. Standardmodeller bruger 2x tegn pr 1K tekst. Premium modeller bruger 4x tegn pr 1K tekst. Tilmeld dig gratis med 15.000 tegn. Planer starter med $9/måned for 500.000 tegn.

Ja. Upload en reference audio prøve (5-30 sekunder) til stemmekloning endpoint, derefter bruge klonet stemme-id i efterfølgende TTS anmodninger. Modeller, der understøtter kloning omfatter CosyVoice 2, Chatterbox, Fish Speech, og GPT-SoVITS.

Gratis niveau har basissats begrænsning (3 anmodninger i timen uden en konto). Betalt planer har generøse sats grænser egnet til produktion applikationer. Kontakt os for enterprise-niveau gennemløb krav.

WAV (ukomprimeret, højeste kvalitet), MP3 (komprimeret, mindre filer), OGG (åbent format), og FLAC (lossless komprimering). Angiv formatet i din anmodning. Standard er WAV på modellens indfødte prøvehastighed.

Ja. Kombiner vores TTS API med en tale-til-tekst model og en LLM til at opbygge en komplet stemme assistent pipeline. Koko giver sub-sekund latency ideel til real-time samtale. CosyVoice 2 understøtter streaming output for endnu lavere opfattede svartider.

CosyVoice 2 og Kokoro understøtter streaming audio output, hvor lydstykker leveres som de genereres. Dette reducerer tid-til-første byte til real-time applikationer som stemmeassistenter og interaktive oplevelser.

API returnerer standard HTTP statuskoder. Implementere eksponentiel backoff for 5xx fejl og sats grænse svar. For mission-kritiske applikationer, tilføje en kø med prøve logik. Vores API har høj oppetid, men robust fejlhåndtering anbefales altid.

Ja. /v1/stemmer og /v1/modeller endpoints returnerer JSON lister over alle tilgængelige stemmer og modeller med deres metadata (sprog støtte, kvalitet ratings, hastighed ratings, og prissætning niveau). Brug disse til at opbygge dynamiske model selectors i din ansøgning.

Gratis modeller (Kokoro, Piper, VITS, MeloTTS) fungerer som en effektiv sandkasse, da de er helt gratis. Test din integration med gratis modeller, derefter skifte til premium modeller i produktionen ved at ændre modelparameteren. Ingen separat test miljø er nødvendigt.

De fleste af vores modeller er open source og kan være selv-hostet. Men selv-hosting kræver betydelige GPU ressourcer (vi bruger 4x NVIDIA Tesla P40 med 96GB VRAM i alt). API giver et omkostningseffektivt alternativ uden infrastrukturstyring.
5.0/5 (1)

Hvad kan vi forbedre? Din feedback hjælper os med at løse problemer.

Klar til at bygge med stemme AI?

Få din gratis API nøgle og begynde at bygge. 15.000 tegn på tilmelding, gratis modeller til rådighed, omfattende dokumentation.