API de texto a voz para desarrolladores

Cree aplicaciones con capacidad de voz con nuestra API REST. Añada texto a voz natural, clonación de voz, voz a texto y procesamiento de audio a sus aplicaciones, chatbots, asistentes de voz y productos SaaS. Formato compatible con OpenAI, más de 20 modelos, integración sencilla.

API REST Chatbots Aplicaciones de voz Productos SaaS Automatización

Inténtalo ahora.

Libre con Kokoro, Piper, VITS, MeloTTS
Su audio generado aparecerá aquí
Generado
Descargar
¿Te gusta TTS.ai? ¡Cuéntaselo a tus amigos!

Características de API para desarrolladores

Todo lo que necesita para crear aplicaciones habilitadas para voz

API REST simple

Una solicitud POST para generar voz. Solicitud JSON, respuesta de audio. Funciona con cualquier lenguaje de programación que admite HTTP.

OpenAI-Compatible

Reemplazo desplegable para OpenAI TTS API. Cambie su clave base_url y API — el código existente funciona inmediatamente.

Disponibles más de 24 modelos

Acceda a cada modelo a través de una sola API. Cambie los modelos cambiando un parámetro. Compare calidad, velocidad y costo.

Subsegunda latencia

Kokoro genera audio en menos de 1 segundo. Perfecto para chatbots en tiempo real, asistentes de voz y aplicaciones interactivas.

API de clonación de voz

Clonar cualquier voz de una breve muestra de audio a través de la API. Utilice voces clonadas para todas las generaciones siguientes.

Formatos múltiples

Salida como WAV, MP3, OGG o FLAC. Elija la tasa de muestreo y la profundidad de bits.

Mejores modelos para la integración de desarrolladores

Elija el modelo adecuado para los requisitos de velocidad, calidad y costo de su aplicación

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Lo mejor para: Modelo más rápido — sub-segundo de latencia, ideal para aplicaciones en tiempo real y chatbots

Intente Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonación de voz

Lo mejor para: Transmitiendo TTS con clonación de voz para aplicaciones de asistente de voz

Intente CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Lo mejor para: Conversacional IA con tiempo natural para chatbot y asistente de voz

Intente Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Lo mejor para: Modelo gratuito y exclusivo para CPU para aplicaciones de alto volumen a un costo cero

Intente Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Lo mejor para: Generación de audio con efectos de sonido para aplicaciones creativas y de entretenimiento

Intente Bark

Cómo integrar la API de TTS

Desde el registro hasta la primera llamada de API en menos de 5 minutos

1

Obtener su clave de API

Regístrese gratis y genere una clave API desde el panel de control de su cuenta. 15.000 caracteres incluidos.

2

Haga su primera llamada

Mensaje a /v1/tts con texto, modelo y voz. Obtener bytes de audio atrás. Bajo 5 líneas de código.

3

Elija su modelo

Pruebe diferentes modelos para su caso de uso. Compare velocidad, calidad y costo por generación.

4

Buque a la producción

Escala con caracteres pay-a-you-go. No hay límites de tarifas en los planes de pago. Monitoree el uso en su tablero.

Ejemplos de código de inicio rápido

Integre TTS.ai en cualquier idioma con nuestra API REST

Python Popular
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universal
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Formato OpenAI-Compatible Caída
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Lo que los desarrolladores construyen con TTS.ai

Patrones y aplicaciones de integración comunes

Chatbots y Asistentes de AI

Agregue la salida de voz a su chatbot o asistente de IA. Pipe las respuestas LLM a través de TTS para interfaces habilitadas para voz. Kokoro ofrece sub-segundo de latencia para conversaciones en tiempo real.

  • Respuesta de LLM al conducto del habla
  • Subsegundo latencia con Kokoro
  • Discurso conversacional con Sésamo CSM
  • Transmitiendo salida de audio

Aplicaciones móviles y de voz

Cree aplicaciones móviles con voz, herramientas de accesibilidad, aplicaciones de lectura y plataformas de aprendizaje de idiomas. Nuestra API REST funciona con cualquier framework móvil. Descargue archivos de audio o transmita directamente al cliente.

  • React Native, Flutter, Swift, Kotlin
  • Aplicaciones de accesibilidad y lectura
  • Plataformas de aprendizaje de idiomas
  • Generación de contenido de audio

Productos SaaS

Capacidades de voz en marca blanca en su producto SaaS. Añada TTS, STT, clonación de voz y procesamiento de audio como características en su plataforma. Utilice nuestra API como su motor de voz sin administrar la infraestructura GPU.

  • Características de voz de marca blanca
  • No se necesita infraestructura de la GPU
  • Fijación de precios de pago por uso
  • Más de 20 modelos para ofrecer a sus usuarios

Pipelines de automatización

Integrar la generación de voz en tuberías CI/CD, automatización de contenido y flujos de trabajo de procesamiento por lotes. Generar miles de archivos de audio a partir de datos de hoja de cálculo, automatizar la producción de podcasts o construir tuberías de localización de contenido.

  • Procesamiento por lotes a través de API
  • Conductos de localización de contenido
  • Integración CI/CD
  • Hoja de cálculo para la automatización de audio

Especificaciones API

Construido para aplicaciones de producción

20+

Modelos TTS

100+

Voces

30+

Idiomas

<1s

Latencia (Kokoro)

Preguntas frecuentes

Preguntas comunes sobre la API TTS.ai desarrollador

Sí. Nuestra API sigue el formato de voz de audio OpenAI. Si está usando la biblioteca cliente OpenAI Python o JavaScript, puede cambiar a TTS.ai cambiando los parámetros base_url y api_key. Su código existente funciona sin modificación.

Kokoro genera audio en menos de 1 segundo para frases típicas. CosyVoice 2 admite la salida de streaming para una percepción aún menor de latencia. Para los chatbots y asistentes de voz, el tiempo total de ida y vuelta es típicamente 1-3 segundos dependiendo de la longitud del texto y la elección del modelo.

Los modelos gratuitos (Kokoro, Piper, VITS, MeloTTS) son completamente gratuitos. Los modelos estándar usan 2x caracteres por 1K de texto. Los modelos premium usan 4x caracteres por 1K de texto. Inscríbase gratis con 15.000 caracteres. Los planes comienzan a $9/mes para 500.000 caracteres.

Sí. Sube una muestra de audio de referencia (5-30 segundos) al punto final de clonación de voz, luego usa el ID de voz clonado en las solicitudes posteriores de TTS. Los modelos que soportan la clonación incluyen CosyVoice 2, Chatterbox, Fish Speech y GPT-SoVITS.

El nivel libre tiene una tarifa básica limitada (3 solicitudes por hora sin cuenta). Los planes pagados tienen límites de tarifas generosos adecuados para aplicaciones de producción.

WAV (sin comprimir, alta calidad), MP3 (comprimido, archivos más pequeños), OGG (formato abierto) y FLAC (compresión sin pérdidas). Especifique el formato en su solicitud. Por defecto es WAV a la tasa de muestra nativa del modelo.

Sí. Combine nuestra API de TTS con un modelo de voz a texto y un LLM para construir una tubería de asistente de voz completa. Kokoro proporciona sub-segundo de latencia ideal para la conversación en tiempo real. CosyVoice 2 admite salida de streaming para tiempos de respuesta aún más bajos percibidos.

CosyVoice 2 y Kokoro soportan la salida de audio en streaming donde se entregan trozos de audio a medida que se generan. Esto reduce el tiempo hasta el primer byte para aplicaciones en tiempo real como asistentes de voz y experiencias interactivas.

La API devuelve códigos de estado HTTP estándar. Implemente backoff exponencial para errores de 5xx y respuestas de límite de velocidad. Para aplicaciones de misión crítica, agregue una cola con lógica de reintento. Nuestra API tiene un alto tiempo de funcionamiento, pero siempre se recomienda manejar errores resilientes.

Sí. Los endpoints /v1/voices y /v1/models devuelven listas JSON de todas las voces y modelos disponibles con sus metadatos (soporte de lenguaje, calificaciones de calidad, calificaciones de velocidad y nivel de precios).Utilice éstos para crear selectores de modelos dinámicos en su aplicación.

Los modelos gratuitos (Kokoro, Piper, VITS, MeloTTS) sirven como un sandbox efectivo ya que cuestan cero créditos. Pruebe su integración con modelos libres, luego cambie a modelos premium en producción cambiando el parámetro del modelo. No se necesita un entorno de prueba separado.

La mayoría de nuestros modelos son de código abierto y pueden ser auto-anfitriones. Sin embargo, el auto-anfitrión requiere recursos GPU significativos (utilizamos 4x NVIDIA Tesla P40 con 96GB VRAM total). La API proporciona una alternativa rentable sin gestión de infraestructura.
5.0/5 (1)

¿Qué podríamos mejorar? Sus comentarios nos ayudan a solucionar problemas.

¿Listo para construir con Voice AI?

Obtenga su clave de API gratuita y comenzar a construir. 15.000 caracteres en el registro, modelos gratuitos disponibles, documentación completa.