Informa d' errors / Petició de característiques

Text a l' API de veu pels desenvolupadors

Construïu aplicacions d' ús de veu amb la nostra API REST. Afegiu un format de text natural a veu, clonant veu, text de veu, i processament d' àudio a les vostres aplicacions, robots de xat, assistents de veu i productes SaS. OpenAI- compatible, 20+ models, integració senzilla.

API REST Chatbots Apps de veu Productes SaaS automatització

Editor TTS complet API Docs

Intenta-ho ara

Text
Fitxers

0/500

Lliure amb Kokoro, Koner, VITS, MeloTTS

Apareixerà aquí el vostre àudio generat

Obre l' editor TTS complet

Característiques de l' API pels desenvolupadors

Tot el que necessiteu per construir aplicacions habilitats de veu

API simple REST

Una petició POST per generar el discurs. JSON, la resposta de l' àudio. Funciona amb qualsevol idioma de programació que permeti HTTP.

OpenAI-Compatible

Substitució de llançament per a l' API OpenAI TTS. Canvieu la vostra clau base_url i API funciona immediatament.

Models disponibles 24+

Accés a cada model a través d' una única API. Canvieu models canviant un paràmetre. Compara qualitat, velocitat i cost.

Sub- Latència

Kokoro genera àudio en menys d' un segon. Perfecte per a xatbots de temps real, ajudants de veu i aplicacions interactius.

API de la còpia de veu

Clona qualsevol veu d' una breu mostra d' àudio mitjançant l' API. Useu veus clonades per a totes les generacions subsegüents.

Formats múltiples

Sortida com a WAV, MP3, OGG, o FLAC. Escolliu la freqüència de mostreig i una mica de profunditat. Implementació d' àudio de flux per a aplicacions en temps real.

Els millors models per a la integració dels desenvolupadors

Escolliu el model correcte per a la vostra aplicació

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Ràpid 5/5

Millor per a: Model més ràpid que subsegon de retard, ideal per a aplicacions en temps real i robots de xat

Intenta- ho Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Mitjà 5/5 Clon de veu

Millor per a: TTS de corrent amb clonació de veu per a aplicacions d' assistent de veu

Intenta- ho CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Lenta 5/5

Millor per a: L'AI conversacional amb temps natural per a xatbot i assistent veu

Intenta- ho Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Ràpid 3/5

Millor per a: Model lliure, només de CPU per a aplicacions en volum elevat amb cost zero de crèdit

Intenta- ho Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Lenta 4/5

Millor per a: Generació d' àudio amb efectes de so per a aplicacions creatives i d' entretenimentName

Intenta- ho Bark

Com gestionar l' API TTS

Des de la signatura a la primera crida API en menys de 5 minuts

Obtén la vostra clau de l' API

Signa' t per a la llibertat i genera una clau API del tauler de comptes. S' inclouen 50 crèdits.

Fes la vostra primera trucada

POST a / v1/ tts amb text, model i veu. Obtenir bytes d' àudio cap enrere. Sota 5 línies de codi.

Escolliu el model

Proveu diferents models per al vostre cas d' ús. Compara la velocitat, la qualitat i el cost per generació.

Nau a producció

Escala amb crèdits de pagament. No hi ha límits de taxa en els plans pagats. Feu un seguiment d' ús al tauler.

Exemples de codi d' inici ràpid

Integra TTS.ai en qualsevol idioma amb la nostra API

Python Popular

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Universal

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

Format OpenAI-Compatible Deixa anar

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Obtén la vostra clau de l' API lliure

Quins desenvolupadors es construeix amb TTS.ai

Dissenys d'integració comuns i aplicacions

& Assistents de xat de la IA

Add voice output to your chatbot or AI assistant. Pipe LLM responses through TTS for voice-enabled interfaces. Kokoro delivers sub-second latency for real-time conversations. Sesame CSM generates conversational speech with natural timing.

LLM response to speech pipeline
El segon retard amb Kokoro
Pronunciació conversacional amb Seseame CSM
S' està corrent la sortida d' àudio

Apps de & veu mòbil

Construïu aplicacions mòbils, eines d' accessibilitat, llegir aplicacions i plataformes d' aprenentatge del llenguatge. La nostra REST API funciona amb qualsevol marc mòbil. Descarrega fitxers d' àudio o flux directament al client.

React nadiu, Futter, Swift, Kotlin
Accessibilitat i lectura d' aplicacions
Eines d' aprenentatge del llenguatge
Generació del contingut de l' àudio

Productes SaaS

Capacitats de veu blanca en el vostre producte SaaS. Afegiu TTS, TTS, cloneu la veu i el processament d' àudio com a característiques de la plataforma. Useu la nostra API com a dorsal de veu sense gestionar les infraestructures de la GPU.

Característiques de la veu de l' etiqueta blanca
No cal infraestructura de la GPU
fixació de preus d' ús de pagament
20+ models per oferir als vostres usuaris

Canonies d' automatització

Integra la generació de veu en canonades de CI/CD, automació de continguts i fluxs de processament de treball per lots. Genera milers de fitxers d' àudio des de dades del full de càlcul, la producció de podcast per a automatitzar, o crear canonades de contingut locals.

Processat per lots mitjançant l' API
Suseccions de localització del contingut
Integració amb CI/CD
Full de càlcul a l' autocompleció d' àudio

Visualitza Documentació completa de l' API

Especificacions de l' API

Es construeix per a aplicacions de produccióName

20+

Models TTS

100+

Voices

30+

Idiomes

<1s

Latència (Kokoro)

Signa els caràcters de 15.000 lliures

Preguntes més freqüents

Preguntes comunes quant a l' API del TTS.ai desenvolupador

Sí. La nostra API segueix el format de discurs d' àudio OpenAI. Si esteu usant la biblioteca de Python OpenAI, podeu canviar a TTS.ai canviant els paràmetres base_url i api_ key. El codi existent funciona sense modificar.

Kokoro genera àudio en menys d' 1 segon per a frases típices. CosyVoice 2 permet l' eixida de sortida per a fins i tot percebuda. Per als assistents a la veu, el temps total d' arrodoniment és normalment 1- 3 segons depenent de la longitud de text i de l' elecció del model.

Els models lliures (Kokoro, Pipher, VITS, MeloTTS) costen zero crèdits. Els models estàndard costen 2 crèdits per 1000 caràcters. Els models Premium costen 4 crèdits per 1000 caràcters. Signa amb 50 crèdits. Els plans comencen a $9/ mesos per 500 crèdits.

Sí. Carrega una mostra d' àudio de referència (5-30 segons) al punt de final de veu clonat de les sol· licituds de veu posterior TTS. Models que permeten la clonació inclouen CosyVoice 2, Chatterbox, Fish i GPT- STITS.

El tier lliure té un límit bàsic (3 sol· licituds per hora sense compte). Els plans triats tenen límits de taxa generosa adequades per a les aplicacions de producció. Contacteu amb nosaltres per a requeriments de nivell d' empresa a través de rendiment.

WAV (uncompressed, highest quality), MP3 (compressed, smaller files), OGG (open format), and FLAC (lossless compression). Specify the format in your request. Default is WAV at the model's native sample rate.

Yes. Combine our TTS API with a speech-to-text model and an LLM to build a complete voice assistant pipeline. Kokoro provides sub-second latency ideal for real-time conversation. CosyVoice 2 supports streaming output for even lower perceived response times.

CosyVoice 2 i Kokoro dóna suport a la sortida d' àudio on es donen trossos d' àudio quan es generen. Això redueix el temps a primer pla per a aplicacions en temps real com ara l' assistent de veu i experiències interactius.

L' API retorna els codis d' estat HTTP estàndard. Implementa l' error exponencial per a 5x i les respostes límit de la taxa. Per a les aplicacions de missions, afegiu una cua amb la lògica reintentar- ho. La nostra API té una gestió d' errors elevats però la gestió d' errors resistents sempre es recomana.

Sí. Els / v1/voices i / v1/models acaben retornen llistes de totes les veus disponibles JSON i models amb les seves metadades (ajuda en llengua, puntuacions de qualitat, puntuacions de velocitat i corbata de preus). Useu aquests per construir selectors de models dinàmics a la vostra aplicació.

Models lliures (Kokoro, Pipista, VITS, MeloTTS) serveixen com a una carpeta local efectiva atès que van costar zero crèdits. Proveu la vostra integració amb models lliures, llavors canvieu a models més grans en producció canviant el paràmetre model. No es necessita cap entorn de prova diferent.

La majoria dels nostres models són de codi obert i poden ser autoordinadors. Tot i això, l' auto- màquina requereix recursos significatius de la GPU (utilitzem 4x NVIDIA Tesla P40 amb 96GB VRAM total). L' API proporciona una alternativa cost- efectiu sense gestió d' infraestructura.

5.0/5 (1)

Preparat per a construir amb la IA de veu?

Obtingueu la vostra clau API lliure i comenceu a construir. 50 crèdits a signar, models disponibles, documentació global.

Signa lliure Visualitza Pricing

Text a l' API de veu pels desenvolupadors

Intenta-ho ara

Els teus amics!

Característiques de l' API pels desenvolupadors

API simple REST

OpenAI-Compatible

Models disponibles 24+

Sub- Latència

API de la còpia de veu

Formats múltiples

Els millors models per a la integració dels desenvolupadors

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Com gestionar l' API TTS

Obtén la vostra clau de l' API

Fes la vostra primera trucada

Escolliu el model

Nau a producció

Exemples de codi d' inici ràpid

Quins desenvolupadors es construeix amb TTS.ai

& Assistents de xat de la IA

Apps de & veu mòbil

Productes SaaS

Canonies d' automatització

Especificacions de l' API

Preguntes més freqüents

L' API és compatible amb el format OpenATI TTS?

Quin és el retard de les aplicacions en temps real?

Com funciona el preu de l' ús de l' API?

Puc utilitzar la clonació de veu a través de l' API?

Hi ha un límit de velocitat?

Quins formats d' àudio retorna l' API?

Puc utilitzar l' API per a construir un assistent de veu o un xatbot?

Hi ha un WebSocket o l' API corrent?

Com puc manejar errors i reintents en la producció?

Puc llistar les veus i el programa de models disponibles?

Hi ha cap entorn de proves o proves?

Puc auto-ordinadorar els models en comptes d'utilitzar l' API?

Preparat per a construir amb la IA de veu?