Como podo obter unha chave API?

Inscríbase nunha conta gratuíta de TTS.ai, logo vaia ao panel da súa conta e prema en « Xerar chave da API ». A súa chave terá o prefixo sk-tts- e poderá usarse inmediatamente. As contas gratuítas reciben 50 créditos para comezar.

É a API compatíbel co formato de OpenAI?

Si, a nosa API segue os formatos de solicitude e resposta compatíbeis con OpenAI. Se ten código existente que usa a API TTS de OpenAI, pode cambiar a TTS. ai cambiando o URL base e a chave da API con cambios mínimos no código.

Que linguaxes de programación están soportadas?

A API REST funciona con calquera linguaxe que poida facer peticións HTTP. Fornecemos exemplos de código en Python, JavaScript (Node. js e navegador), cURL e máis. Calquera linguaxe cunha biblioteca cliente HTTP (Go, Ruby, Java, C#, PHP, etc.) pode usar a API.

Cales son os límites de velocidade da API?

As contas gratuítas están limitadas a 3 solicitudes por hora. Os plans de pago teñen límites máis altos baseados no nivel da súa subscrición: Starter (60/ hora), Professional (300/ hora), Enterprise (ilimitado). As cabeceiras de límite de taxa inclúense en cada resposta da API.

Como funcionan os prezos e os créditos da API?

O uso da API consome créditos segundo o nivel do modelo e a lonxitude do texto. Os modelos gratuítos usan 0 créditos, os modelos estándar usan 2 créditos por cada 1K de caracteres e os modelos premium usan 4 créditos por cada 1K de caracteres. Os créditos están incluídos en todos os plans de pago e tamén se poden comprar por separado.

Que puntos finais están dispoñíbeis?

A API proporciona puntos finais para texto- a- voz (POST / v1/ tts /), voz- a- texto (POST / v1/ transcribe /), clonación de voz (POST / v1/ voice- clone /), conversión de voz (POST / v1/ voice- convert /), tradución de voz (POST / v1/ speech- translate /), mellora de son (POST / v1/ audio- enhance /), eliminación vocal, división de tronco, análise de teclas e BPM, e máis.

Que formatos de audio devolve a API?

Por omisión, a API devolve o son en formato WAV. Pode especificar o formato de saída (mp3, wav, ogg, flac) empregando o parámetro response_ format. Recoméndase MP3 para aplicacións web, WAV para o posterior procesamento do son.

Existe unha API de transmisión para TTS en tempo real?

Si, a nosa API asíncrona devolve un UUID da tarefa que pode consultar para obter resultados. Para modelos soportados como Kokoro, a xeración de son é rápida dabondo para aplicacións case en tempo real. O punto final de consulta devolve o URL do son cando se completa o procesamento.

Como manexo os erros na API?

A API devolve códigos de estado HTTP estándar (400 para peticións incorrectas, 401 para erros de autenticación, 429 para límites de velocidade, 500 para erros do servidor) con mensaxes de erro JSON. Comprobe sempre o código de estado e o campo de erro nas respostas para o manexo correcto dos erros.

Podo usar a API para aplicacións comerciais?

Si, a API está deseñada para uso comercial. O son xerado a través da API pode ser usado nos seus produtos, aplicacións e servizos. Todos os modelos usan licenzas de código aberto, e non hai royalties adicionais no son xerado.

Existe un ambiente de probas ou sandbox?

Os modelos de nivel libre (Kokoro, Piper, VITS, MeloTTS) serven como un excelente sandbox — usan cero créditos e están dispoñíbeis para todas as contas. Probe a súa integración con modelos libres antes de cambiar a modelos premium para uso en produción.

Como podo listar as voces e modelos dispoñíbeis a través da API?

Empregue GET / v1/ voices para listar todas as voces dispoñíbeis con opcións de filtrado (modelo, lingua, xénero). Empregue GET / v1/ models para listar todos os modelos TTS dispoñíbeis coas súas capacidades e información de nivel. Ambos os extremos devolven respostas JSON.

TTS.ai API Documentation - Text to Speech REST API

Resumo

A API TTS. ai proporciona acceso programático a todas as funcionalidades da plataforma: síntese de texto a voz, transcrición de voz a texto, clonación de voz, mellora de son e máis. A API emprega convencións REST estándar con corpos de solicitude/ resposta JSON.

Chave da API

Obter a chave da API desde Configuración da conta. Dispoñible nos plans Pro e Enterprise.

URL base

https://api.tts.ai/v1/

Autorización

Vía do token do portador Authorization cabeceira

Autenticación

Todos os pedidos da API requiren autenticación mediante un token de portador no Authorization cabeceira.

Cabeceira HTTP

Authorization: Bearer sk-tts-your-api-key-here

Manteña a chave da API en segredo. Non o comparta no código do lado do cliente, repositorios públicos ou rexistros. Rote as chaves regularmente desde a configuración da súa conta.

URL base

URL base: https://api.tts.ai/v1/

Todos os puntos finais son relativos a este URL base. Por exemplo, o punto final de TTS é:

POST https://api.tts.ai/v1/tts/

Límites de taxa

Os límites de velocidade da API varían segundo o plan:

Plano	Pedidos/ min	Concorrente	Lonxitude máxima do texto
Pro	60	5	5. 000 caracteres
Enterpriseusa. kgm	300	20	50. 000 caracteres

As cabeceiras de límite de taxa inclúense en cada resposta: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

Custos de crédito

Servizo	Custo	Unidade
TTS (modelos libres: Piper, VITS, MeloTTS)	1 crédito	por 1. 000 caracteres
TTS (Modelos estándar: Kokoro, CosyVoice 2, etc.)	2 créditos	por 1. 000 caracteres
TTS (Modelos Premium: Tortoise, Chatterbox, etc.)	4 créditos	por 1. 000 caracteres
Fala a textoComment	2 créditos	por minuto de son
Clonaxe de voz	4 créditos	por 1. 000 caracteres
Cambiador de voz	3 créditos	por minuto de son
Mellora do son	2 créditos	por minuto de son
Eliminación de voces / División de voces	3-4 créditos	por minuto de son
Tradución de vozName	5 créditos	por minuto de son
Chat de voz	3 créditos	por turno
Buscador de teclas e BPM	Libre	--
Convertedor de sonName	Libre	--

Texto a vozComment

POST /v1/tts/

Converte o texto en voz. Devolve o ficheiro de son no formato pedido.

Corpo da petición

Parámetros	& Tipo:	Requirido	Descrición
model	string	Si	ID do modelo (p. ex., `kokoro`, `chatterbox`, `piper`)
text	string	Si	Texto a converter en voz (máximo 5. 000 caracteres para Pro, 50. 000 para Enterprise)
voice	string	Si	ID da voz (empregue `/v1/voices/` para listar as voces dispoñíbeis)
format	string	Non	Formato de saída: `mp3` (predeterminado), `wav`, `flac`, `ogg`
speed	float	Non	Multiplicador da velocidade de fala. Por omisión: `1. 0`. Rango: `0. 5` a `2. 0`
language	string	Non	Código da lingua (p. ex., `en`, `es`). Detéctase automaticamente se se omite.
stream	boolean	Non	Activar a resposta de transmisión. Por omisión: `false`

Pedido de exemplo

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

Resposta

Devolve o ficheiro de son como datos binarios coa cabeceira Content- Type axeitada (audio/ mpeg, audio/ wav, etc.).

Cabeceiras de resposta

Content-Type: audio/mpeg
Content-Length: 48256
X-Credits-Used: 2
X-Credits-Remaining: 498

Fala a textoComment

POST /v1/stt/

Transcreba son en texto. Soporta 99 idiomas con detección automática.

Corpo da petición (multipart/form-data)

Parámetros	& Tipo:	Requirido	Descrición
file	file	Si	Ficheiro de son (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Máx. 100 MB.
model	string	Non	Modelo STT: `whisper` (predeterminado), `faster-whisper`, `sensevoice`
language	string	Non	Código da lingua. `auto` para a detección automática (por omisión).
timestamps	boolean	Non	Incluír marcas de tempo a nivel de palabra. Por omisión: `false`
diarize	boolean	Non	Activar a diarización do falante. Por omisión: `false`

Resposta

Resposta JSON

{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}

Clonaxe de voz

POST /v1/tts/clone/

Xerar fala nunha voz clonada. Enviar un son e texto de referencia.

Corpo da petición (multipart/form-data)

Parámetros	& Tipo:	Requirido	Descrición
reference_audio	file	Si	Son de voz de referencia (recoméndanse 10- 30 segundos). Máx. 20 MB.
text	string	Si	Texto a ler na voz clonada.
model	string	Non	Modelo de clon: `chatterbox` (predeterminado), `cosyvoice2`, `gpt-sovits`
format	string	Non	Formato de saída: `mp3` (por omisión), `wav`, `flac`
language	string	Non	Código da lingua de destino. Debe estar soportado polo modelo escollido.

Resposta

Devolve o ficheiro de son como datos binarios, o mesmo que o punto final de TTS.

Cambiador de voz

POST /v1/voice-convert/

Converte o son para que soe como unha voz diferente. Envíe o son de orixe e escolla unha voz de destino.

Corpo da petición (multipart/form-data)

Parámetros	& Tipo:	Requirido	Descrición
file	file	Si	Ficheiro de son de orixe (MP3, WAV, FLAC). Máx. 50MB.
target_voice	string	Si	Identificador de voz de destino para converter (empregue `/v1/voices/` para listar as voces dispoñíbeis)
model	string	Non	Modelo de conversión de voz: `openvoice` (predeterminado), `knn-vc`
format	string	Non	Formato de saída: `wav` (por omisión), `mp3`, `flac`

Pedido de exemplo

cURL

curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav

Resposta

Devolve o ficheiro de son convertido como datos binarios.

Tradución de vozName

POST /v1/speech-translate/

Traduza audio falado dunha lingua a outra. Combina voz-texto, tradución e texto-voz nunha soa chamada. Name

Corpo da petición (multipart/form-data)

Parámetros	& Tipo:	Requirido	Descrición
file	file	Si	Ficheiro de son de orixe na lingua orixinal. Máx. 100 MB.
target_language	string	Si	Código da lingua de destino (p. ex., `es`, `fr`, `de`, `ja`)
voice	string	Non	Voz para a saída traducida. Seleccionada automaticamente se se omite.
preserve_voice	boolean	Non	Tentar preservar o falante orixinal

Resposta

Resposta JSON

{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}

Fala a falaComment

POST /v1/speech-to-speech/

Transforma o estilo de fala, emoción ou entrega mantendo o contido. Útil para axustar o ton, o ritmo e a expresividade.

Corpo da petición (multipart/form-data)

Parámetros	& Tipo:	Requirido	Descrición
file	file	Si	Ficheiro de son de voz de orixe. Máx. 50MB.
voice	string	Si	Identificador de voz de destino para o discurso de saída
model	string	Non	Modelo: `openvoice` (predeterminado), `chatterbox`
emotion	string	Non	Emoción de destino: `neutro`, `feliz`, `triste`, `enfadado`, `emocionado`
speed	float	Non	Axuste da velocidade. Por omisión: `1. 0`. Rango: `0. 5` a `2. 0`

Resposta

Devolve o ficheiro de son transformado como datos binarios.

Ferramentas de sonName

Puntos finais de procesamento de son para mellorar, eliminar voces, dividir o tronco e máis.

POST /v1/audio/enhance/

Mellorar a calidade do son: eliminar o ruído, mellorar a claridade, super resolución.

file file	Ficheiro de son a mellorar
denoise boolean	Activar a eliminación de ruído (por omisión: verdadeiro)
enhance_clarity boolean	Mellorar a claridade da fala (por omisión: verdadeiro)
super_resolution boolean	Aumentar a calidade do son (por omisión: falso)
strength integer	1- 3 (ligeiro, medio, forte). Por omisión: 2

POST /v1/audio/separate/

Separa os vocais dos instrumentais (eliminación de vocais) ou divídeos en partes.

file file	Ficheiro de son a separar
model string	`demucs` (por omisión) ou `spleeter`
stems integer	Número de talos: 2, 4, 5 ou 6 (por omisión: 2)
format string	Formato de saída: `wav`, `mp3`, `flac`

POST /v1/audio/dereverb/

Elimina o eco e a reverberación das gravacións de son.

file file	Ficheiro de son a procesar
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

POST /v1/audio/analyze/ Libre

Analiza o son para detectar a tonalidade, BPM e compás.

file file

Ficheiro de son a analizar

Resposta

{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}

POST /v1/audio/convert/ Libre

Converta son entre formatos.

file file	Ficheiro de son a converter
format string	Formato de destino: `mp3`, `wav`, `flac`, `ogg`, `m4a`, `aac`
bitrate integer	Taxa de bits de saída en kbps: 64, 128, 192, 256, 320
sample_rate integer	Frecuencia de mostraxe: 22050, 44100, 48000
channels string	`mono` ou `stereo`

Chat de voz

POST /v1/voice-chat/

Envie son ou texto e reciba unha resposta de IA con voz sintetizada.

Corpo da petición (multipart/form-data ou JSON)

Parámetros	& Tipo:	Requirido	Descrición
audio	file	Non*	Entrada de son (requírese `audio` ou `text`)
text	string	Non*	Entrada de texto (requírese `audio` ou `text`)
voice	string	Non	Voz para a resposta da IA. Por omisión: `af_bella`
tts_model	string	Non	Modelo TTS para a resposta. Por omisión: `kokoro`
system_prompt	string	Non	Mensaxe personalizada do sistema para a IA
conversation_id	string	Non	Continuar unha conversa existente

Resposta

Resposta JSON

{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}

Listaxe de modelos

GET /v1/models/

Devolve unha lista de todos os modelos dispoñíbeis coas súas capacidades.

Resposta

Resposta JSON

{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}

Lista de voces

GET /v1/voices/

Devolve unha lista de todas as voces dispoñíbeis, opcionalmente filtradas por modelo ou idioma.

Parámetros da consulta

Parámetros	& Tipo:	Descrición
model	string	Filtrar polo ID do modelo (por ex., `kokoro`)
language	string	Filtrar polo código da lingua (p. ex., `en`)
gender	string	Filtrar polo xénero: `masculino`, `feminino`, `neutro`

Resposta

Resposta JSON

{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}

Exemplos de código

Texto a vozComment

Python - requests

import requests

API_KEY = "sk-tts-your-key"

# Text to Speech
response = requests.post(
    "https://api.tts.ai/v1/tts/",
    headers={"Authorization": f"Bearer {API_KEY}"},
    json={
        "model": "kokoro",
        "text": "Hello from TTS.ai!",
        "voice": "af_bella",
        "format": "mp3"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

print(f"Credits used: {response.headers.get('X-Credits-Used')}")

Fala a textoComment

Python - requests

# Speech to Text
with open("recording.mp3", "rb") as f:
    response = requests.post(
        "https://api.tts.ai/v1/stt/",
        headers={"Authorization": f"Bearer {API_KEY}"},
        files={"file": f},
        data={"model": "faster-whisper", "timestamps": "true"}
    )

result = response.json()
print(result["text"])

Clonaxe de voz

Python - requests

# Voice Cloning
with open("reference.wav", "rb") as ref:
    response = requests.post(
        "https://api.tts.ai/v1/tts/clone/",
        headers={"Authorization": f"Bearer {API_KEY}"},
        files={"reference_audio": ref},
        data={
            "text": "This speech uses a cloned voice.",
            "model": "chatterbox"
        }
    )

with open("cloned_output.mp3", "wb") as f:
    f.write(response.content)

Texto a vozComment

JavaScript - fetch

const API_KEY = 'sk-tts-your-key';

// Text to Speech
const response = await fetch('https://api.tts.ai/v1/tts/', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${API_KEY}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'kokoro',
    text: 'Hello from TTS.ai!',
    voice: 'af_bella',
    format: 'mp3'
  })
});

const audioBlob = await response.blob();
const audioUrl = URL.createObjectURL(audioBlob);
const audio = new Audio(audioUrl);
audio.play();

Fala a textoComment

JavaScript - fetch

// Speech to Text
const formData = new FormData();
formData.append('file', audioFile);
formData.append('model', 'faster-whisper');

const response = await fetch('https://api.tts.ai/v1/stt/', {
  method: 'POST',
  headers: { 'Authorization': `Bearer ${API_KEY}` },
  body: formData
});

const result = await response.json();
console.log(result.text);

Texto a vozComment

cURL

# Text to Speech
curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{"model":"kokoro","text":"Hello!","voice":"af_bella","format":"mp3"}' \
  -o output.mp3

Fala a textoComment

cURL

# Speech to Text
curl -X POST https://api.tts.ai/v1/stt/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@recording.mp3" \
  -F "model=faster-whisper" \
  -F "timestamps=true"

Clonaxe de voz

cURL

# Voice Cloning
curl -X POST https://api.tts.ai/v1/tts/clone/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "reference_audio=@reference.wav" \
  -F "text=This uses a cloned voice." \
  -F "model=chatterbox" \
  -o cloned.mp3

Mellora do son

cURL

# Audio Enhancement
curl -X POST https://api.tts.ai/v1/audio/enhance/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@noisy_audio.mp3" \
  -F "denoise=true" \
  -F "enhance_clarity=true" \
  -o enhanced.mp3

Códigos de erro

Todos os erros devolven unha resposta JSON cun error campo.

Formato da resposta de erro

{
  "error": {
    "code": "insufficient_credits",
    "message": "You do not have enough credits for this request.",
    "credits_required": 4,
    "credits_available": 2
  }
}

Estado de HTTP	Código de erro	Descrición
400	`bad_request`	Os parámetros do pedido non son válidos. Consulte a mensaxe de erro para máis detalles.
401	`unauthorized`	Falta a chave da API ou non é válida.
402	`insufficient_credits`	Non hai créditos de abondo. Compre máis en / pricing /.
403	`forbidden`	O acceso á API non está dispoñíbel no seu plan.
404	`not_found`	Non se atopou o modelo ou a voz.
413	`file_too_large`	O ficheiro enviado excede o límite de tamaño.
429	`rate_limited`	Demasiados pedidos. Comprobe as cabeceiras do límite de velocidade.
500	`internal_error`	Erro do servidor. Ténteo de novo máis tarde.
503	`model_loading`	O modelo está a cargar. Ténteo de novo en poucos segundos.

Webhooks

Para tarefas de longa duración (división de tronco, TTS por lotes), pode fornecer un parámetro < code> webhook_ url. Cando a tarefa remate, enviaremos o resultado ao seu URL.

Carga útil do Webhook

{
  "event": "task.completed",
  "task_id": "task_abc123",
  "status": "success",
  "result_url": "https://api.tts.ai/v1/results/task_abc123",
  "credits_used": 12,
  "created_at": "2025-01-15T10:30:00Z",
  "completed_at": "2025-01-15T10:30:45Z"
}

Os resultados do webhook están dispoñíbeis para descarga durante 24 horas despois da finalización. Asegúrese de descargalos axiña.

Listo para construír?

Obteña a súa chave API e comece a integrar TTS.ai nas súas aplicacións.

Inscríbete gratis Ver os planos

Documentación da API

Resumo

Chave da API

URL base

Autorización

Autenticación

URL base

Límites de taxa

Custos de crédito

Texto a vozComment

Corpo da petición

Pedido de exemplo

Resposta

Fala a textoComment

Corpo da petición (multipart/form-data)

Resposta

Clonaxe de voz

Corpo da petición (multipart/form-data)

Resposta

Cambiador de voz

Corpo da petición (multipart/form-data)

Pedido de exemplo

Resposta

Tradución de vozName

Corpo da petición (multipart/form-data)

Resposta

Fala a falaComment

Corpo da petición (multipart/form-data)

Resposta

Ferramentas de sonName

Chat de voz

Corpo da petición (multipart/form-data ou JSON)

Resposta

Listaxe de modelos

Resposta

Lista de voces

Parámetros da consulta

Resposta

Exemplos de código

Texto a vozComment

Fala a textoComment

Clonaxe de voz

Texto a vozComment

Fala a textoComment

Texto a vozComment

Fala a textoComment

Clonaxe de voz

Mellora do son

Códigos de erro

Webhooks

Listo para construír?