API de síntese de voz para desenvolvedores

Cree aplicacións de voz coa nosa API REST. Engada texto natural a voz, clonación de voz, voz a texto e procesamento de son ás súas aplicacións, chatbots, asistentes de voz e produtos SaaS. Formato compatíbel con OpenAI, máis de 24 modelos, integración sinxela.

API REST Chatbots Aplicativos de voz Produtos SaaS Automatización

Probalo agora

0/500
Libre con Kokoro, Piper, VITS, MeloTTS
Your generated audio will appear here
Xerado
0:00 0:00
Obter
Como TTS.ai? Dillo aos teus amigos!

Características da API para desenvolventes

Todo o que precisa para crear aplicacións de voz

API REST sinxela

Un pedido POST para xerar voz. Pedido JSON, resposta de son. Funciona con calquera linguaxe de programación que soporte HTTP.

Compatible con OpenAI

Substitución automática da API TTS de OpenAI. Troque o seu base_ url e a chave da API; o código existente funciona inmediatamente.

Máis de 24 modelos dispoñibles

Acceda a cada modelo a través dunha única API. Troque de modelo cambiando un parámetro. Compare a calidade, velocidade e custo.

Latencia subsegundo

Kokoro xera son en menos dun segundo. Perfecto para chatbots en tempo real, asistentes de voz e aplicacións interactivas.

API de clonación de voz

Clonar calquera voz a partir dunha mostra de son curta mediante a API. Empregar voces clonadas para todas as xeracións seguintes.

Múltiplos formatos

Saída como WAV, MP3, OGG ou FLAC. Escolla a taxa de mostraxe e a profundidade de bits. Soporte de transmisión de son para programas en tempo real.

Mellores modelos para a integración dos desenvolventes

Escolla o modelo axeitado para o seu programa

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Mellor para: O modelo máis rápido — latencia de subsegundos, ideal para aplicacións en tempo real e chatbots

Probar Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonaxe de voz

Mellor para: Transmisión de TTS con clonación de voz para aplicacións de asistente de voz

Probar CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Mellor para: IA conversacional con tempos naturais para chatbot e voz de asistente

Probar Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Mellor para: Modelo libre, só CPU, para aplicacións de alto volume con custo de crédito cero

Probar Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Mellor para: Xeración de son con efectos sonoros para aplicacións creativas e de entretemento

Probar Bark

Como integrar a API de TTS

Desde o rexistro á primeira chamada á API en menos de 5 minutos

1

Obter a chave da API

Inscríbase de balde e xere unha chave API desde o panel da súa conta. Inclúense 50 créditos.

2

Faga a súa primeira chamada

POST a /v1/tts con texto, modelo e voz. Obtén os bytes de son. Baixo 5 liñas de código.

3

Escolla o seu modelo

Probe diferentes modelos para o seu caso de uso. Compare velocidade, calidade e custo por xeración.

4

Enviar á produción

Escale con créditos de pago por uso. Non hai límites de tarifa nos plans de pago. Vixie o uso no seu panel.

Exemplos de código de inicio rápido

Integre TTS.ai en calquera lingua coa nosa API REST

Python Popular
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universal
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Formato compatíbel con OpenAI Drop- in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

O que os desenvolvedores constrúen con TTS.ai

Padróns de integración comúns e aplicacións

Asistentes e chatbots de IA

Engada saída de voz ao seu chatbot ou asistente de IA. Envíe as respostas LLM a través de TTS para interfaces activadas por voz. Kokoro ofrece unha latencia de menos dun segundo para conversas en tempo real. Sesame CSM xera fala conversacional con tempo natural.

  • Resposta de LLM ao conduto de vozName
  • Latencia de subsegundos con Kokoro
  • Fala conversacional con Sesame CSM
  • Saída de son en fluxo

Aplicativos móbiles e de vozName

Cree aplicacións móbiles con voz activada, ferramentas de accesibilidade, aplicacións de lectura e plataformas de aprendizaxe de linguas. A nosa API REST funciona con calquera estrutura móbil. Descargue ficheiros de son ou transmita directamente ao cliente.

  • React Native, Flutter, Swift, Kotlin
  • Aplicativos de accesibilidade e lectura
  • Plataformas de aprendizaxe de linguas
  • Xeración de contido de son

Produtos SaaS

Capacidades de voz de marca branca no seu produto SaaS. Engada TTS, STT, clonación de voz e procesamento de son como características na súa plataforma. Use a nosa API como a súa infraestrutura de voz sen xestionar a infraestrutura da GPU.

  • Características de voz de marca branca
  • Non se precisa infraestrutura de GPU
  • Pago por uso
  • Máis de 24 modelos para ofrecer aos seus usuarios

Condutos de automatización

Integre a xeración de voz en canalizacións CI/CD, automatización de contidos e fluxos de traballo de procesamento por lotes. Xere miles de ficheiros de son a partir de datos de follas de cálculo, automatice a produción de podcasts ou cree canalizacións de localización de contidos.

  • Procesamento por lotes mediante API
  • Condutos de localización de contidos
  • Integración CI/CD
  • Folla de cálculo para automatización de son

Especificacións da API

Construído para aplicacións de produción

24+

Modelos TTS

100+

Vozes

30+

Linguas

<1s

Latencia (Kokoro)

Preguntas frecuentes

Preguntas frecuentes sobre a API de desenvolvemento de TTS.ai

Si. A nosa API segue o formato de voz de audio OpenAI. Se está a usar a biblioteca cliente OpenAI Python ou JavaScript, pode cambiar a TTS. ai cambiando os parámetros base_ url e api_ key. O seu código existente funciona sen modificación.

Kokoro xera son en menos de 1 segundo para frases típicas. CosyVoice 2 admite a saída en fluxo para unha latencia aínda menor. Para chatbots e asistentes de voz, o tempo total de ida e volta é normalmente de 1- 3 segundos dependendo da lonxitude do texto e da escolla do modelo.

Os modelos gratuítos (Kokoro, Piper, VITS, MeloTTS) custan cero créditos. Os modelos estándar custan 2 créditos por cada 1. 000 caracteres. Os modelos premium custan 4 créditos por cada 1. 000 caracteres. Inscríbase de balde con 50 créditos. Os plans comezan en $9/ mes por 500 créditos.

Si. Envíe unha mostra de son de referencia (5- 30 segundos) ao punto final de clonación de voz, e logo empregue a ID de voz clonada en peticións subseguintes de TTS. Os modelos que admiten a clonación son CosyVoice 2, Chatterbox, Fish Speech e GPT- SoVITS.

O nivel gratuíto ten un límite básico de velocidade (3 peticións por hora sen conta). Os plans de pago teñen límites de velocidade xenerosos axeitados para aplicacións de produción. Póñase en contacto connosco para os requisitos de rendemento a nivel empresarial.

WAV (sen comprimir, máxima calidade), MP3 (comprimido, ficheiros máis pequenos), OGG (formato aberto) e FLAC (compresión sen perdas). Especifique o formato na súa solicitude. Por omisión é WAV coa taxa de mostraxe nativa do modelo.

Si. Combine a nosa API TTS cun modelo de voz- a- texto e un LLM para construír unha canle completa de asistentes de voz. Kokoro proporciona unha latencia de subsegundos ideal para conversas en tempo real. CosyVoice 2 admite a saída en fluxo para tempos de resposta aínda máis baixos.

CosyVoice 2 e Kokoro admiten a saída de son en fluxo onde os anacos de son se entregan a medida que se xeran. Isto reduce o tempo ao primeiro byte para aplicacións en tempo real como asistentes de voz e experiencias interactivas.

A API devolve códigos de estado HTTP estándar. Implemente o backoff exponencial para erros 5xx e respostas de límite de velocidade. Para aplicacións críticas, engada unha fila con lóxica de reintento. A nosa API ten un tempo de actividade alto, pero recoméndase sempre unha xestión de erros resiliente.

Si. Os puntos finais / v1/ voices e / v1/ models devolven listas JSON de todas as voces e modelos dispoñíbeis cos seus metadatos (soporte de linguaxe, cualificacións de calidade, cualificacións de velocidade e nivel de prezos). Emprégueos para construír selectores de modelos dinámicos no seu programa.

Os modelos libres (Kokoro, Piper, VITS, MeloTTS) serven como un sandbox eficaz xa que custan cero créditos. Probe a súa integración con modelos libres, e logo cambie a modelos premium en produción cambiando o parámetro do modelo. Non se precisa ningún entorno de proba separado.

A maioría dos nosos modelos son de código aberto e poden ser autoaloxados. Porén, o autoaloxamento require recursos significativos da GPU (usamos 4x NVIDIA Tesla P40 con 96 GB de VRAM total). A API proporciona unha alternativa económica sen xestión da infraestrutura.
5.0/5 (1)

Listo para construír con IA de voz?

Obteña a súa chave API gratuíta e comece a construír. 50 créditos ao rexistrarse, modelos gratuítos dispoñíbeis, documentación completa.