Informar dun erro / Solicitar unha funcionalidade

API de síntese de voz para desenvolvedores

Cree aplicacións de voz coa nosa API REST. Engada texto natural a voz, clonación de voz, voz a texto e procesamento de son ás súas aplicacións, chatbots, asistentes de voz e produtos SaaS. Formato compatíbel con OpenAI, máis de 20 modelos, integración sinxela.

API REST Chatbots Aplicativos de voz Produtos SaaS Automatización

Editor completo de TTS Documentación da API

Probalo agora

0/500

Libre con Kokoro, Piper, VITS, MeloTTS

O son xerado aparecerá aquí

Abrir o editor completo de TTS

Características da API para desenvolventes

Todo o que precisa para crear aplicacións de voz

API REST sinxela

Un pedido POST para xerar voz. Pedido JSON, resposta de son. Funciona con calquera linguaxe de programación que soporte HTTP.

Compatible con OpenAI

Substitución automática da API TTS de OpenAI. Troque o seu base_ url e a chave da API; o código existente funciona inmediatamente.

Máis de 24 modelos dispoñibles

Acceda a cada modelo a través dunha única API. Troque de modelo cambiando un parámetro. Compare a calidade, velocidade e custo.

Latencia subsegundo

Kokoro xera son en menos dun segundo. Perfecto para chatbots en tempo real, asistentes de voz e aplicacións interactivas.

API de clonación de voz

Clonar calquera voz a partir dunha mostra de son curta mediante a API. Empregar voces clonadas para todas as xeracións seguintes.

Múltiplos formatos

Saída como WAV, MP3, OGG ou FLAC. Escolla a taxa de mostraxe e a profundidade de bits. Soporte de transmisión de son para programas en tempo real.

Mellores modelos para a integración dos desenvolventes

Escolla o modelo axeitado para o seu programa

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Mellor para: O modelo máis rápido — latencia de subsegundos, ideal para aplicacións en tempo real e chatbots

Probar Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonaxe de voz

Mellor para: Transmisión de TTS con clonación de voz para aplicacións de asistente de voz

Probar CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Mellor para: IA conversacional con tempos naturais para chatbot e voz de asistente

Probar Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Mellor para: Modelo libre, só CPU, para aplicacións de alto volume con custo de crédito cero

Probar Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Mellor para: Xeración de son con efectos sonoros para aplicacións creativas e de entretemento

Probar Bark

Como integrar a API de TTS

Desde o rexistro á primeira chamada á API en menos de 5 minutos

Obter a chave da API

Inscríbase de balde e xere unha chave API desde o panel da súa conta. Inclúense 15.000 caracteres.

Faga a súa primeira chamada

POST a /v1/tts con texto, modelo e voz. Obtén os bytes de son. Baixo 5 liñas de código.

Escolla o seu modelo

Probe diferentes modelos para o seu caso de uso. Compare velocidade, calidade e custo por xeración.

Enviar á produción

Escale con créditos de pago por uso. Non hai límites de tarifa nos plans de pago. Vixie o uso no seu panel.

Exemplos de código de inicio rápido

Integre TTS.ai en calquera lingua coa nosa API REST

Python Popular

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Universal

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

Formato compatíbel con OpenAI Drop- in

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Obteña a súa chave API gratuíta

O que os desenvolvedores constrúen con TTS.ai

Padróns de integración comúns e aplicacións

Asistentes e chatbots de IA

Engada saída de voz ao seu chatbot ou asistente de IA. Envíe as respostas LLM a través de TTS para interfaces activadas por voz. Kokoro ofrece unha latencia de menos dun segundo para conversas en tempo real. Sesame CSM xera fala conversacional con tempo natural.

Resposta de LLM ao conduto de vozName
Latencia de subsegundos con Kokoro
Fala conversacional con Sesame CSM
Saída de son en fluxo

Aplicativos móbiles e de vozName

Cree aplicacións móbiles con voz activada, ferramentas de accesibilidade, aplicacións de lectura e plataformas de aprendizaxe de linguas. A nosa API REST funciona con calquera estrutura móbil. Descargue ficheiros de son ou transmita directamente ao cliente.

React Native, Flutter, Swift, Kotlin
Aplicativos de accesibilidade e lectura
Plataformas de aprendizaxe de linguas
Xeración de contido de son

Produtos SaaS

Capacidades de voz de marca branca no seu produto SaaS. Engada TTS, STT, clonación de voz e procesamento de son como características na súa plataforma. Use a nosa API como a súa infraestrutura de voz sen xestionar a infraestrutura da GPU.

Características de voz de marca branca
Non se precisa infraestrutura de GPU
Pago por uso
Máis de 20 modelos para ofrecer aos seus usuarios

Condutos de automatización

Integre a xeración de voz en canalizacións CI/CD, automatización de contidos e fluxos de traballo de procesamento por lotes. Xere miles de ficheiros de son a partir de datos de follas de cálculo, automatice a produción de podcasts ou cree canalizacións de localización de contidos.

Procesamento por lotes mediante API
Condutos de localización de contidos
Integración CI/CD
Folla de cálculo para automatización de son

Ver a documentación completa da API

Especificacións da API

Construído para aplicacións de produción

20+

Modelos TTS

100+

Vozes

30+

Linguas

<1s

Latencia (Kokoro)

Inscríbete gratis — 15. 000 caracteres

Preguntas frecuentes

Preguntas frecuentes sobre a API de desenvolvemento de TTS.ai

Si. A nosa API segue o formato de voz de audio OpenAI. Se está a usar a biblioteca cliente OpenAI Python ou JavaScript, pode mudar a TTS.ai cambiando os parámetros base_ url e api_ key. O seu código existente funciona sen modificación.

Kokoro xera son en menos de 1 segundo para frases típicas. CosyVoice 2 admite a saída en fluxo para unha latencia aínda menor. Para chatbots e asistentes de voz, o tempo total de ida e volta é normalmente de 1- 3 segundos dependendo da lonxitude do texto e da escolla do modelo.

Os modelos libres (Kokoro, Piper, VITS, MeloTTS) son completamente libres. Os modelos estándar usan 2x caracteres por 1K de texto. Os modelos premium usan 4x caracteres por 1K de texto. Inscrebase gratis con 15. 000 caracteres. Os plans comezan en $9/ mes por 500. 000 caracteres.

Si. Envíe unha mostra de son de referencia (5- 30 segundos) ao punto final de clonación de voz, e logo empregue a ID de voz clonada en peticións subseguintes de TTS. Os modelos que admiten a clonación son CosyVoice 2, Chatterbox, Fish Speech e GPT- SoVITS.

O nivel gratuíto ten un límite básico de velocidade (3 peticións por hora sen conta). Os plans de pago teñen límites de velocidade xenerosos axeitados para aplicacións de produción. Póñase en contacto connosco para os requisitos de rendemento a nivel empresarial.

WAV (sen comprimir, máxima calidade), MP3 (comprimido, ficheiros máis pequenos), OGG (formato aberto) e FLAC (compresión sen perdas). Especifique o formato na súa solicitude. Por omisión é WAV coa taxa de mostraxe nativa do modelo.

Si. Combine a nosa API TTS cun modelo de voz- a- texto e un LLM para construír unha canle completa de asistentes de voz. Kokoro proporciona unha latencia de subsegundos ideal para conversas en tempo real. CosyVoice 2 admite a saída en fluxo para tempos de resposta aínda máis baixos.

CosyVoice 2 e Kokoro admiten a saída de son en fluxo onde os anacos de son se entregan a medida que se xeran. Isto reduce o tempo ao primeiro byte para aplicacións en tempo real como asistentes de voz e experiencias interactivas.

A API devolve códigos de estado HTTP estándar. Implemente o backoff exponencial para erros 5xx e respostas de límite de velocidade. Para aplicacións críticas, engada unha fila con lóxica de reintento. A nosa API ten un tempo de actividade alto, pero recoméndase sempre unha xestión de erros resiliente.

Si. Os puntos finais / v1/ voices e / v1/ models devolven listas JSON de todas as voces e modelos dispoñíbeis cos seus metadatos (soporte de linguaxe, cualificacións de calidade, cualificacións de velocidade e nivel de prezos). Emprégueos para construír selectores de modelos dinámicos no seu programa.

Os modelos libres (Kokoro, Piper, VITS, MeloTTS) serven como un sandbox eficaz xa que custan cero créditos. Probe a súa integración con modelos libres, e logo cambie a modelos premium en produción cambiando o parámetro do modelo. Non se precisa ningún entorno de proba separado.

A maioría dos nosos modelos son de código aberto e poden ser autoaloxados. Porén, o autoaloxamento require recursos significativos da GPU (usamos 4x NVIDIA Tesla P40 con 96 GB de VRAM total). A API proporciona unha alternativa económica sen xestión da infraestrutura.

5.0/5 (1)

Listo para construír con IA de voz?

Obteña a súa chave API gratuíta e comece a construír. 15. 000 caracteres ao rexistrarse, modelos gratuítos dispoñíbeis, documentación completa.

Inscríbete gratis Ver os prezos

API de síntese de voz para desenvolvedores

Probalo agora

Encántalle TTS.ai? Cóntallo aos teus amigos!

Características da API para desenvolventes

API REST sinxela

Compatible con OpenAI

Máis de 24 modelos dispoñibles

Latencia subsegundo

API de clonación de voz

Múltiplos formatos

Mellores modelos para a integración dos desenvolventes

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Como integrar a API de TTS

Obter a chave da API

Faga a súa primeira chamada

Escolla o seu modelo

Enviar á produción

Exemplos de código de inicio rápido

O que os desenvolvedores constrúen con TTS.ai

Asistentes e chatbots de IA

Aplicativos móbiles e de vozName

Produtos SaaS

Condutos de automatización

Especificacións da API

Preguntas frecuentes

É a API compatíbel co formato OpenAI TTS?

Cal é a latencia dos programas en tempo real?

Como funcionan os prezos para o uso da API?

Podo usar a clonación de voz a través da API?

Hai un límite de velocidade?

Que formatos de audio devolve a API?

Podo usar a API para construír un asistente de voz ou chatbot?

Existe un WebSocket ou unha API de transmisión?

Como manexo os erros e os reintentos en produción?

Podo listar as voces e modelos dispoñíbeis mediante programación?

Existe un ambiente de probas ou de probas?

Podo aloxar os modelos eu mesmo no canto de empregar a API?

Listo para construír con IA de voz?