API de texto para fonoaudiologia para desenvolvedores

Construa aplicativos habilitados por voz com a nossa API REST. Adicione textos naturais à voz, clonagem de voz, fala a texto e processamento de áudio aos seus aplicativos, chatbots, assistentes de voz e produtos SaaS. Formato compatível com o OpenAI, 20+ modelos, integração simples.

API REST Chatbots Aplicativos de Voz Produtos SaaS Automação

Experimente agora

Grátis com Kokoro, Piper, VITS, MeloTTS
Seu áudio gerado aparecerá aqui
Produzida
Baixar
Gosta do TTS.ai? Conte aos seus amigos!

Características da API para os desenvolvedores

Tudo o que você precisa para construir aplicativos habilitados por voz

API REST simples

Um pedido POST para gerar fala. Pedido JSON, resposta de áudio. Funciona com qualquer linguagem de programação que suporte HTTP.

OpenAI-Compatível

Substituição do drop-in pela API OpenAI TTS. Mude sua chave base_url e API — código existente funciona imediatamente.

Disponível 24+ Modelos

Acesse cada modelo através de uma única API. Switch modelos alterando um parâmetro. Compare qualidade, velocidade e custo.

Sub-Segunda Latência

Kokoro gera áudio em menos de 1 segundo. Perfeito para chatbots em tempo real, assistentes de voz e aplicações interativas.

API de clonagem de voz

Clone qualquer voz de uma pequena amostra de áudio através da API. Use vozes clonadas para todas as gerações seguintes.

Múltiplos formatos

Saída como WAV, MP3, OGG, ou FLAC. Escolha taxa de amostra e profundidade de bits.

Melhores modelos para a integração dos desenvolvedores

Escolha o modelo certo para os requisitos de velocidade, qualidade e custo da sua aplicação

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Melhor para: Modelo mais rápido — sub-segundo latência, ideal para aplicativos em tempo real e chatbots

Tentar Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonagem de Voz

Melhor para: Streaming TTS com clonagem de voz para aplicações de assistente de voz

Tentar CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Melhor para: IA conversacional com tempo natural para chatbot e voz assistente

Tentar Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Melhor para: Modelo livre, apenas CPU para aplicações de alto volume a zero custo

Tentar Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Melhor para: Geração de áudio com efeitos sonoros para aplicativos criativos e de entretenimento

Tentar Bark

Como integrar a API TTS

Desde a inscrição até a primeira chamada API em menos de 5 minutos

1

Obter sua chave API

Inscreva-se gratuitamente e gere uma chave API a partir do painel de contas. 15.000 caracteres incluídos.

2

Faça sua primeira chamada

POST para /v1/tts com texto, modelo e voz. Obter bytes de áudio de volta. Sob 5 linhas de código.

3

Escolha o seu modelo

Teste modelos diferentes para seu caso de uso. Compare velocidade, qualidade e custo por geração.

4

Navio para a Produção

Escalar com caracteres pay-as-you-go. Sem limites de taxa em planos pagos. Monitore o uso em seu painel.

Exemplos de Código de Início Rápido

Integrar TTS.ai em qualquer idioma com a nossa API REST

Python Populares
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universal
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Formato Compatível de OpenAI Caídas
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

O que desenvolvedores construir com TTS.ai

Padrões e aplicações comuns de integração

Chatbots e assistentes da IA

Adicione a saída de voz ao seu chatbot ou assistente de IA. Pipe LLM respostas através do TTS para interfaces habilitadas por voz. Kokoro oferece sub-segundo latência para conversas em tempo real. Sesame CSM gera fala conversacional com tempo natural.

  • Resposta LLM ao gasoduto de fala
  • Latência subsegundo com Kokoro
  • Discurso de conversa com Sesame CSM
  • Fluxo da saída de áudio

Aplicativos de Móveis e Voz

Construa aplicativos móveis habilitados por voz, ferramentas de acessibilidade, aplicativos de leitura e plataformas de aprendizagem de idiomas. Nossa API REST funciona com qualquer framework móvel. Baixe arquivos de áudio ou transmita diretamente para o cliente.

  • Reagir nativo, flutter, Swift, Kotlin
  • Aplicações de acessibilidade e leitura
  • Plataformas de aprendizagem de línguas
  • Geração de conteúdo de áudio

Produtos SaaS

Capacidades de voz de rótulo branco no seu produto SaaS. Adicione TTS, STT, clonagem de voz e processamento de áudio como características na sua plataforma. Use nossa API como seu mecanismo de voz sem gerenciar infraestrutura GPU.

  • Características de voz de rótulo branco
  • Não é necessária uma infra-estrutura GPU
  • Preço de pagamento por utilização
  • Mais de 20 modelos para oferecer aos seus usuários

Pipelines de automação

Integrar a geração de voz em tubos CI/CD, automação de conteúdos e fluxos de trabalho de processamento de lotes. Gere milhares de arquivos de áudio a partir de dados de planilha, automatizar a produção de podcast ou construir conteúdo canalizações de localização.

  • Processamento de lote através da API
  • Oleodutos de localização de conteúdo
  • Integração CI/CD
  • Folha de cálculo para automação de áudio

Especificações da API

Construído para aplicações de produção

20+

Modelos TTS

100+

Vozes

30+

Línguas

<1s

Latência (Kokoro)

Perguntas Frequentes

Perguntas comuns sobre o TTS.ai desenvolvedor API

Sim. Nossa API segue o formato de voz de áudio OpenAI. Se você estiver usando a biblioteca de clientes OpenAI Python ou JavaScript, você pode mudar para TTS.ai alterando os parâmetros base_url e api_key. Seu código existente funciona sem modificação.

Kokoro gera áudio em menos de 1 segundo para frases típicas. CosyVoice 2 suporta a saída de streaming para latência percebida ainda mais baixa. Para chatbots e assistentes de voz, o tempo total de volta é tipicamente 1-3 segundos, dependendo do comprimento de texto e escolha de modelo.

Os modelos gratuitos (Kokoro, Piper, VITS, MeloTTS) são totalmente gratuitos. Os modelos padrão usam caracteres 2x por 1K de texto. Os modelos premium usam caracteres 4x por 1K de texto. Cadastre-se gratuitamente com 15.000 caracteres. Os planos começam com 9$/mês para 500.000 caracteres.

Sim. Envie uma amostra de áudio de referência (5-30 segundos) para o endpoint de clonagem de voz, em seguida use o ID de voz clonada em pedidos TTS subsequentes. Os modelos que suportam clonagem incluem CosyVoice 2, Chatterbox, Fish Speech e GPT-SoVITS.

O nível livre tem limitação de taxa básica (3 pedidos por hora sem conta). Os planos pagos têm limites de taxa generosos adequados para aplicações de produção. Contacte-nos para requisitos de throughput de nível empresarial.

WAV (descomprimido, de alta qualidade), MP3 (comprimido, arquivos menores), OGG (formato aberto) e FLAC (compressão sem perda). Especifique o formato em seu pedido. O padrão é WAV à taxa de amostra nativa do modelo.

Sim. Combinar nossa API TTS com um modelo de fala-texto e um LLM para construir um completo pipeline assistente de voz. O Kokoro fornece sub-segundo latência ideal para conversa em tempo real. CosyVoice 2 suporta a saída de streaming para tempos de resposta ainda mais baixos percebidos.

CosyVoice 2 e Kokoro suportam a saída de áudio em streaming onde os pedaços de áudio são entregues como são gerados. Isto reduz o tempo-a-primeiro-byte para aplicações em tempo real como assistentes de voz e experiências interativas.

A API devolve códigos de estado HTTP padrão. Implementar o backoff exponencial para erros 5xx e respostas de limite de taxa. Para aplicações críticas de missão, adicione uma fila com lógica de repetição. Nossa API tem alto tempo de uptime, mas manuseio de erros resistente é sempre recomendado.

Sim. Os endpoints /v1/voces e /v1/models retornam listas JSON de todas as vozes e modelos disponíveis com seus metadados (suporte linguístico, classificação de qualidade, classificação de velocidade e nível de preços). Use estes para construir selectores de modelos dinâmicos em sua aplicação.

Os modelos livres (Kokoro, Piper, VITS, MeloTTS) servem como uma areia eficaz, já que custam zero créditos. Teste sua integração com modelos livres, depois mude para modelos premium na produção alterando o parâmetro do modelo. Não é necessário um ambiente de teste separado.

A maioria dos nossos modelos é de código aberto e pode ser auto-hosted. No entanto, a auto-hosting requer recursos GPU significativos (usamos 4x NVIDIA Tesla P40 com 96GB VRAM total). A API fornece uma alternativa econômica sem gestão de infraestruturas.
5.0/5 (1)

O que podemos melhorar? Seu feedback nos ajuda a resolver problemas.

Pronto para Construir com IA de Voz?

Obtenha sua chave de API gratuita e começar a construir. 15 créditos na inscrição, modelos gratuitos disponíveis, documentação abrangente.