How do I get an API key?

Sign up for a free TTS.ai account, then navigate to your account dashboard and click "Generate API Key." Your key will be prefixed with sk-tts- and can be used immediately. Free accounts receive 50 credits to get started.

Is the API compatible with OpenAI's format?

Yes, our API follows OpenAI-compatible request and response formats. If you have existing code that uses OpenAI's TTS API, you can switch to TTS.ai by changing the base URL and API key with minimal code changes.

What programming languages are supported?

The REST API works with any language that can make HTTP requests. We provide code examples in Python, JavaScript (Node.js and browser), cURL, and more. Any language with an HTTP client library (Go, Ruby, Java, C#, PHP, etc.) can use the API.

What are the API rate limits?

Contas gratuitas são limitadas a 3 pedidos por hora. Planos pagos têm limites mais elevados com base na sua camada de assinatura: Starter (60/hora), Professional (300/hora), Enterprise (ilimitado). Os headers de taxa limite estão incluídos em cada resposta da API.

Como funciona o preço da API e os créditos?

API usage consumes credits based on the model tier and text length. Free models use 0 credits, standard models use 2 credits per 1K characters, and premium models use 4 credits per 1K characters. Credits are included in all paid plans and can also be purchased separately.

What endpoints are available?

The API provides endpoints for text-to-speech (POST /v1/tts/), speech-to-text (POST /v1/transcribe/), voice cloning (POST /v1/voice-clone/), voice conversion (POST /v1/voice-convert/), speech translation (POST /v1/speech-translate/), audio enhancement (POST /v1/audio-enhance/), vocal removal, stem splitting, key and BPM analysis, and more.

What audio formats does the API return?

The API returns audio in WAV format by default. You can specify the output format (mp3, wav, ogg, flac) using the response_format parameter. MP3 is recommended for web applications, WAV for further audio processing.

Is there a streaming API for real-time TTS?

Yes, our async API returns a job UUID that you can poll for results. For supported models like Kokoro, audio generation is fast enough for near-real-time applications. The polling endpoint returns the audio URL when processing is complete.

How do I handle errors in the API?

The API returns standard HTTP status codes (400 for bad requests, 401 for auth errors, 429 for rate limits, 500 for server errors) with JSON error messages. Always check the status code and error field in responses for proper error handling.

Can I use the API for commercial applications?

Yes, the API is designed for commercial use. Audio generated through the API can be used in your products, applications, and services. All models use open-source licenses, and there are no additional royalties on generated audio.

Is there a sandbox or testing environment?

Free-tier models (Kokoro, Piper, VITS, MeloTTS) serve as an excellent sandbox — they use zero credits and are available to all accounts. Test your integration with free models before switching to premium models for production use.

How do I list available voices and models via the API?

Use GET /v1/voices to list all available voices with filtering options (model, language, gender). Use GET /v1/models to list all available TTS models with their capabilities and tier information. Both endpoints return JSON responses.

TTS.ai API Documentation - Text to Speech REST API

Visão geral

The TTS.ai API provides programmatic access to all platform features: text-to-speech synthesis, speech-to-text transcription, voice cloning, audio enhancement, and more. The API uses standard REST conventions with JSON request/response bodies.

Chave da API

Obtenha a sua chave API de Configurações da Conta. Disponível nos planos Pro e Enterprise.

URL de base

https://api.tts.ai/v1/

Auth

Token de portador através de Authorization cabeçalho

Autenticação

Todos os pedidos de API requerem autenticação através de um token de Bearer no Authorization cabeçalho.

Cabeçalho HTTP

Authorization: Bearer sk-tts-your-api-key-here

Manter sua chave API secreta. Não compartilhe isso no código do lado do cliente, repositórios públicos ou logs. Gire as chaves regularmente a partir das configurações da sua conta.

URL de base

URL de base: https://api.tts.ai/v1/

Todos os endpoints são relativos a esta URL base. Por exemplo, o endpoint TTS é:

POST https://api.tts.ai/v1/tts/

Limites de taxa

Os limites de taxa da API variam por plano:

Plano	Pedidos/min	Concurrent	Comprimento máximo do texto
Pro	60	5	5000 caracteres
Empresa	300	20	50.000 caracteres

Os cabeçalhos-limite da taxa estão incluídos em cada resposta: X-RateLimit-Limit, X-RateLimit-Remaining, X-RateLimit-Reset.

Custos de crédito

Serviço	Custo	Unidade
TTS (Modelos gratuitos: Piper, VITS, MeloTTS)	1 crédito	por 1.000 caracteres
TTS (Modelos standard: Kokoro, CosyVoice 2, etc.)	2 créditos	por 1.000 caracteres
TTS (Modelos de prémio: Tortoise, Chatterbox, etc.)	4 créditos	por 1.000 caracteres
Discurso ao texto	2 créditos	por minuto de áudio
Clonagem de Voz	4 créditos	por 1.000 caracteres
Mudante de voz	3 créditos	por minuto de áudio
Melhoria do áudio	2 créditos	por minuto de áudio
Remoção Vocal / Separação de estirpe	3-4 créditos	por minuto de áudio
Tradução da Fonoaudiologia	5 créditos	por minuto de áudio
Chat de Voz	3 créditos	por turno
Key & BPM Finder	Grátis	--
Conversor de Áudio	Grátis	--

Texto ao Discurso

POST /v1/tts/

Converter texto para áudio de voz. Devolve o arquivo de áudio no formato solicitado.

Órgão de Pedido

Parâmetro	Tipo	Requerido	Descrição
model	string	Sim	ID do modelo (por exemplo, kokoro, chatterbox, piper)
text	string	Sim	Texto para converter para fala (máx 5.000 caracteres para Pro, 50.000 para Enterprise)
voice	string	Sim	ID de voz (use `/v1/voces/` para listar vozes disponíveis)
format	string	Não	Formato de saída: mp3 (por defeito), wav, flac, ogg
speed	float	Não	Falando multiplicador de velocidade. Predefinido: `1.0` . Gama: `0.5` para `2.0`
language	string	Não	Código do idioma (por exemplo, `en` , `es`). Detectado automaticamente se omitido.
stream	boolean	Não	Activar a resposta ao streaming. Por omisión: `false`

Pedido de Exemplo

cURL

curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "kokoro",
    "text": "Hello from TTS.ai! This is a test.",
    "voice": "af_bella",
    "format": "mp3"
  }' \
  --output output.mp3

Resposta

Returns the audio file as binary data with appropriate Content-Type header (audio/mpeg, audio/wav, etc.).

Cabeçalhos de Resposta

Content-Type: audio/mpeg
Content-Length: 48256
X-Credits-Used: 2
X-Credits-Remaining: 498

Discurso ao texto

POST /v1/stt/

Transcriba áudio para texto. Apoia 99 idiomas com auto-detecção.

Órgão de Pedido (multipart/form-data)

Parâmetro	Tipo	Requerido	Descrição
file	file	Sim	Arquivo de áudio (MP3, WAV, FLAC, OGG, M4A, MP4, WebM). Max 100MB.
model	string	Não	Modelo STT: whisper (por defeito), faster-whisper, sensevoice
language	string	Não	Código do idioma. `auto` para autodetecção (por defeito).
timestamps	boolean	Não	Incluir selos de tempo de nível de palavra. Por omisión: `false`
diarize	boolean	Não	Activar a diarização do alto-falante. Por omisión: `false`

Resposta

Resposta JSON

{
  "text": "Hello, this is a transcription test.",
  "language": "en",
  "duration": 3.5,
  "segments": [
    {
      "start": 0.0,
      "end": 1.8,
      "text": "Hello, this is",
      "speaker": "SPEAKER_00"
    },
    {
      "start": 1.8,
      "end": 3.5,
      "text": "a transcription test.",
      "speaker": "SPEAKER_00"
    }
  ]
}

Clonagem de Voz

POST /v1/tts/clone/

Gerar a fala em voz clonada. Envie um áudio de referência e texto.

Órgão de Pedido (multipart/form-data)

Parâmetro	Tipo	Requerido	Descrição
reference_audio	file	Sim	áudio de voz de referência (10-30 segundos recomendados). Max 20MB.
text	string	Sim	Texto para falar na voz clonada.
model	string	Não	Modelo clone: `chatterbox` (por defeito), `cosyvoice2`, `gpt-sovits`
format	string	Não	Formato de saída: mp3 (por defeito), wav, flac
language	string	Não	Código da língua-alvo. Deve ser suportado pelo modelo escolhido.

Resposta

Devolve o arquivo de áudio como dados binários, como o endpoint TTS.

Mudante de voz

POST /v1/voice-convert/

Converte áudio para som como uma voz diferente. Carregue áudio fonte e escolha uma voz de destino.

Órgão de Pedido (multipart/form-data)

Parâmetro	Tipo	Requerido	Descrição
file	file	Sim	Arquivo de áudio de origem (MP3, WAV, FLAC). Max 50MB.
target_voice	string	Sim	ID de voz alvo para converter (use `/v1/voces/` para listar as vozes disponíveis)
model	string	Não	Modelo de conversão de voz: `openvoice` (default), `knn-vc`
format	string	Não	Formato de saída: `wav` (por defeito), `mp3`, `flac`

Pedido de Exemplo

cURL

curl -X POST https://api.tts.ai/v1/voice-convert/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@source_audio.mp3" \
  -F "target_voice=af_bella" \
  -F "model=openvoice" \
  -o converted.wav

Resposta

Devolve o arquivo de áudio convertido como dados binários.

Tradução da Fonoaudiologia

POST /v1/speech-translate/

Traduzir áudio falado de uma língua para outra. Combina a fala-a-texto, a tradução e o texto-a- voz em uma única chamada.

Órgão de Pedido (multipart/form-data)

Parâmetro	Tipo	Requerido	Descrição
file	file	Sim	Arquivo de áudio de origem na língua original. Max 100MB.
target_language	string	Sim	Código da língua-alvo (por exemplo, es, fr, de, ja)
voice	string	Não	Voz para saída traduzida. Auto-selecionado se omitido.
preserve_voice	boolean	Não	Tentar preservar o falante original

Resposta

Resposta JSON

{
  "original_text": "Hello, how are you?",
  "translated_text": "Hola, como estas?",
  "source_language": "en",
  "target_language": "es",
  "audio_url": "https://api.tts.ai/v1/results/translate_abc123.mp3",
  "credits_used": 5
}

Discurso

POST /v1/speech-to-speech/

Transformar o estilo de fala, a emoção ou a entrega mantendo o conteúdo. Útil para ajustar o tom, o ritmo e a expressividade.

Órgão de Pedido (multipart/form-data)

Parâmetro	Tipo	Requerido	Descrição
file	file	Sim	Arquivo de áudio de fala de origem. Max 50MB.
voice	string	Sim	Identificador de voz alvo para a fala de saída
model	string	Não	Modelo: openvoice (por defeito), chatterbox
emotion	string	Não	Emoção alvo: `neutral`, `happy`, `sad`, `angry`, `excitado`
speed	float	Não	Ajuste de velocidade. Predefinido: `1.0` . Gama: `0.5` para `2.0`

Resposta

Devolve o arquivo de áudio transformado como dados binários.

Ferramentas de Áudio

Endpoints de processamento de áudio para realce, remoção vocal, divisão de tronco, e muito mais.

POST /v1/audio/enhance/

Melhorar a qualidade do áudio: denoise, melhorar a clareza, super resolução.

file file	Arquivo de áudio para melhorar
denoise boolean	Activar a denoização (por omisión: true)
enhance_clarity boolean	Melhorar a clareza da fala (por defeito: verdadeiro)
super_resolution boolean	Qualidade de áudio elevada (por defeito: false)
strength integer	1-3 (luz, médio, forte). Predefinido: 2

POST /v1/audio/separate/

Vocais separados dos instrumentos (remoção vocal) ou divididos em caules.

file file	Ficheiro de áudio a separar
model string	`demucs` (padrão) ou `spleeter`
stems integer	Número de troncos: 2, 4, 5, ou 6 (por omisión: 2)
format string	Formato de saída: `wav`, `mp3`, `flac`

POST /v1/audio/dereverb/

Remover eco e reverber das gravações de áudio.

file file	Ficheiro de áudio para processar
type string	`echo` or `reverb` (default: both)
intensity integer	1-5 (default: 3)

POST /v1/audio/analyze/ Grátis

Analise áudio para detectar chave, BPM e assinatura de tempo.

file file

Arquivo de áudio para analisar

Resposta

{
  "key": "C",
  "scale": "Major",
  "bpm": 120.0,
  "time_signature": "4/4",
  "camelot": "8B",
  "compatible_keys": ["C Major", "G Major", "F Major", "A Minor"]
}

POST /v1/audio/convert/ Grátis

Converter áudio entre formatos.

file file	Ficheiro de áudio para converter
format string	Formato de destino: mp3, wav, flac, ogg, m4a, aac
bitrate integer	Taxa de bits de saída em kbps: 64, 128, 192, 256, 320
sample_rate integer	Taxa de amostragem: 22050, 44100, 48000
channels string	`mono` ou `stereo`

Chat de Voz

POST /v1/voice-chat/

Envie áudio ou texto e receba uma resposta IA com fala sintetizada.

Órgão de Pedido (multipart/form-data ou JSON)

Parâmetro	Tipo	Requerido	Descrição
audio	file	Não*	Entrada de áudio (ou audio ou texto requerido)
text	string	Não*	Entrada de texto (quer audio ou texto requerido)
voice	string	Não	Voz para resposta da IA. Por defeito: `af_bella`
tts_model	string	Não	Modelo TTS para resposta. Por defeito: `kokoro`
system_prompt	string	Não	Prompt de sistema personalizado para a IA
conversation_id	string	Não	Continuar uma conversa existente

Resposta

Resposta JSON

{
  "conversation_id": "conv_abc123",
  "user_text": "What is the capital of France?",
  "ai_text": "The capital of France is Paris.",
  "audio_url": "https://api.tts.ai/v1/audio/tmp/resp_xyz.mp3",
  "credits_used": 3
}

Listar os Modelos

GET /v1/models/

Devolve uma lista de todos os modelos disponíveis com suas capacidades.

Resposta

Resposta JSON

{
  "models": [
    {
      "id": "kokoro",
      "name": "Kokoro",
      "type": "tts",
      "tier": "standard",
      "languages": ["en", "ja", "ko", "zh", "fr"],
      "supports_cloning": false,
      "supports_streaming": true,
      "credits_per_1k_chars": 2
    },
    {
      "id": "chatterbox",
      "name": "Chatterbox",
      "type": "tts",
      "tier": "premium",
      "languages": ["en"],
      "supports_cloning": true,
      "supports_streaming": true,
      "credits_per_1k_chars": 4
    }
  ]
}

Listar Vozes

GET /v1/voices/

Devolve uma lista de todas as vozes disponíveis, opcionalmente filtradas por modelo ou idioma.

Parâmetros da Consulta

Parâmetro	Tipo	Descrição
model	string	Filtrar por ID do modelo (por exemplo, kokoro)
language	string	Filtrar por código da língua (por exemplo, `en` )
gender	string	Filtrar por gênero: `masculino` , `masculino`, `neutral`

Resposta

Resposta JSON

{
  "voices": [
    {
      "id": "af_bella",
      "name": "Bella",
      "model": "kokoro",
      "language": "en",
      "gender": "female",
      "preview_url": "https://api.tts.ai/v1/voices/preview/af_bella.mp3"
    }
  ],
  "total": 142
}

Exemplos de código

Texto ao Discurso

Python - requests

import requests

API_KEY = "sk-tts-your-key"

# Text to Speech
response = requests.post(
    "https://api.tts.ai/v1/tts/",
    headers={"Authorization": f"Bearer {API_KEY}"},
    json={
        "model": "kokoro",
        "text": "Hello from TTS.ai!",
        "voice": "af_bella",
        "format": "mp3"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

print(f"Credits used: {response.headers.get('X-Credits-Used')}")

Discurso ao texto

Python - requests

# Speech to Text
with open("recording.mp3", "rb") as f:
    response = requests.post(
        "https://api.tts.ai/v1/stt/",
        headers={"Authorization": f"Bearer {API_KEY}"},
        files={"file": f},
        data={"model": "faster-whisper", "timestamps": "true"}
    )

result = response.json()
print(result["text"])

Clonagem de Voz

Python - requests

# Voice Cloning
with open("reference.wav", "rb") as ref:
    response = requests.post(
        "https://api.tts.ai/v1/tts/clone/",
        headers={"Authorization": f"Bearer {API_KEY}"},
        files={"reference_audio": ref},
        data={
            "text": "This speech uses a cloned voice.",
            "model": "chatterbox"
        }
    )

with open("cloned_output.mp3", "wb") as f:
    f.write(response.content)

Texto ao Discurso

JavaScript - fetch

const API_KEY = 'sk-tts-your-key';

// Text to Speech
const response = await fetch('https://api.tts.ai/v1/tts/', {
  method: 'POST',
  headers: {
    'Authorization': `Bearer ${API_KEY}`,
    'Content-Type': 'application/json'
  },
  body: JSON.stringify({
    model: 'kokoro',
    text: 'Hello from TTS.ai!',
    voice: 'af_bella',
    format: 'mp3'
  })
});

const audioBlob = await response.blob();
const audioUrl = URL.createObjectURL(audioBlob);
const audio = new Audio(audioUrl);
audio.play();

Discurso ao texto

JavaScript - fetch

// Speech to Text
const formData = new FormData();
formData.append('file', audioFile);
formData.append('model', 'faster-whisper');

const response = await fetch('https://api.tts.ai/v1/stt/', {
  method: 'POST',
  headers: { 'Authorization': `Bearer ${API_KEY}` },
  body: formData
});

const result = await response.json();
console.log(result.text);

Texto ao Discurso

cURL

# Text to Speech
curl -X POST https://api.tts.ai/v1/tts/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -H "Content-Type: application/json" \
  -d '{"model":"kokoro","text":"Hello!","voice":"af_bella","format":"mp3"}' \
  -o output.mp3

Discurso ao texto

cURL

# Speech to Text
curl -X POST https://api.tts.ai/v1/stt/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@recording.mp3" \
  -F "model=faster-whisper" \
  -F "timestamps=true"

Clonagem de Voz

cURL

# Voice Cloning
curl -X POST https://api.tts.ai/v1/tts/clone/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "reference_audio=@reference.wav" \
  -F "text=This uses a cloned voice." \
  -F "model=chatterbox" \
  -o cloned.mp3

Melhoria do áudio

cURL

# Audio Enhancement
curl -X POST https://api.tts.ai/v1/audio/enhance/ \
  -H "Authorization: Bearer sk-tts-your-key" \
  -F "file=@noisy_audio.mp3" \
  -F "denoise=true" \
  -F "enhance_clarity=true" \
  -o enhanced.mp3

Códigos de Erro

Todos os erros retornam uma resposta JSON com um error campo.

Formato de Resposta de Erro

{
  "error": {
    "code": "insufficient_credits",
    "message": "You do not have enough credits for this request.",
    "credits_required": 4,
    "credits_available": 2
  }
}

Estado HTTP	Error Code	Descrição
400	`bad_request`	Parâmetros de pedido inválidos. Verifique a mensagem de erro para mais detalhes.
401	`unauthorized`	Chave API faltante ou inválida.
402	`insufficient_credits`	Não os créditos suficientes. Compra mais em /pricing /.
403	`forbidden`	Acesso API não disponível no seu plano.
404	`not_found`	Modelo ou voz não encontrado.
413	`file_too_large`	O arquivo carregado excede o limite de tamanho.
429	`rate_limited`	Demasiados pedidos. Verifique os headers do limite de taxa.
500	`internal_error`	Erro do servidor. Tente de novo mais tarde.
503	`model_loading`	O modelo está carregando. Volte a tentar em alguns segundos.

Webhooks

Para tarefas de longo prazo (divisão de stem, batch TTS), você pode fornecer um webhook_url parâmetro. Quando a tarefa se completa, nós vamos POST o resultado para o seu URL.

Webhook Carga útil

{
  "event": "task.completed",
  "task_id": "task_abc123",
  "status": "success",
  "result_url": "https://api.tts.ai/v1/results/task_abc123",
  "credits_used": 12,
  "created_at": "2025-01-15T10:30:00Z",
  "completed_at": "2025-01-15T10:30:45Z"
}

Os resultados do Webhook estão disponíveis para download por 24 horas após a conclusão. Certifique-se de os baixar rapidamente.

Pronto para Construir?

Obtenha a sua chave API e comece a integrar o TTS.ai em suas aplicações.

Inscreva-se gratuitamente Ver Planos

Documentação da API

Visão geral

Chave da API

URL de base

Auth

Autenticação

URL de base

Limites de taxa

Custos de crédito

Texto ao Discurso

Órgão de Pedido

Pedido de Exemplo

Resposta

Discurso ao texto

Órgão de Pedido (multipart/form-data)

Resposta

Clonagem de Voz

Órgão de Pedido (multipart/form-data)

Resposta

Mudante de voz

Órgão de Pedido (multipart/form-data)

Pedido de Exemplo

Resposta

Tradução da Fonoaudiologia

Órgão de Pedido (multipart/form-data)

Resposta

Discurso

Órgão de Pedido (multipart/form-data)

Resposta

Ferramentas de Áudio

Chat de Voz

Órgão de Pedido (multipart/form-data ou JSON)

Resposta

Listar os Modelos

Resposta

Listar Vozes

Parâmetros da Consulta

Resposta

Exemplos de código

Texto ao Discurso

Discurso ao texto

Clonagem de Voz

Texto ao Discurso

Discurso ao texto

Texto ao Discurso

Discurso ao texto

Clonagem de Voz

Melhoria do áudio

Códigos de Erro

Webhooks

Pronto para Construir?