Text a l' API de veu pels desenvolupadors

Construïu aplicacions d' ús de veu amb la nostra API REST. Afegiu un format de text natural a veu, clonant veu, text de veu, i processament d' àudio a les vostres aplicacions, robots de xat, assistents de veu i productes SaS. OpenAI- compatible amb el format, 24+ models, integració senzilla.

API REST Chatbots Apps de veu Productes SaaS automatització

Intenta-ho ara

0/500
Lliure amb Kokoro, Koner, VITS, MeloTTS
Your generated audio will appear here
Generat
0:00 0:00
Descarrega
Com TTS.ai? Digue-li als teus amics!

Característiques de l' API pels desenvolupadors

Tot el que necessiteu per construir aplicacions habilitats de veu

API simple REST

Una petició POST per generar el discurs. JSON, la resposta de l' àudio. Funciona amb qualsevol idioma de programació que permeti HTTP.

OpenAI-Compatible

Substitució de llançament per a l' API OpenAI TTS. Canvieu la vostra clau base_url i API funciona immediatament.

Models disponibles 24+

Accés a cada model a través d' una única API. Canvieu models canviant un paràmetre. Compara qualitat, velocitat i cost.

Sub- Latència

Kokoro genera àudio en menys d' un segon. Perfecte per a xatbots de temps real, ajudants de veu i aplicacions interactius.

API de la còpia de veu

Clona qualsevol veu d' una breu mostra d' àudio mitjançant l' API. Useu veus clonades per a totes les generacions subsegüents.

Formats múltiples

Sortida com a WAV, MP3, OGG, o FLAC. Escolliu la freqüència de mostreig i una mica de profunditat. Implementació d' àudio de flux per a aplicacions en temps real.

Els millors models per a la integració dels desenvolupadors

Escolliu el model correcte per a la vostra aplicació

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Millor per a: Model més ràpid que subsegon de retard, ideal per a aplicacions en temps real i robots de xat

Intenta- ho Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clon de veu

Millor per a: TTS de corrent amb clonació de veu per a aplicacions d' assistent de veu

Intenta- ho CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Millor per a: L'AI conversacional amb temps natural per a xatbot i assistent veu

Intenta- ho Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Millor per a: Model lliure, només de CPU per a aplicacions en volum elevat amb cost zero de crèdit

Intenta- ho Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Millor per a: Generació d' àudio amb efectes de so per a aplicacions creatives i d' entretenimentName

Intenta- ho Bark

Com gestionar l' API TTS

Des de la signatura a la primera crida API en menys de 5 minuts

1

Obtén la vostra clau de l' API

Signa' t per a la llibertat i genera una clau API del tauler de comptes. S' inclouen 50 crèdits.

2

Fes la vostra primera trucada

POST a / v1/ tts amb text, model i veu. Obtenir bytes d' àudio cap enrere. Sota 5 línies de codi.

3

Escolliu el model

Proveu diferents models per al vostre cas d' ús. Compara la velocitat, la qualitat i el cost per generació.

4

Nau a producció

Escala amb crèdits de pagament. No hi ha límits de taxa en els plans pagats. Feu un seguiment d' ús al tauler.

Exemples de codi d' inici ràpid

Integra TTS.ai en qualsevol idioma amb la nostra API

Python Popular
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universal
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Format OpenAI-Compatible Deixa anar
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Quins desenvolupadors es construeix amb TTS.ai

Dissenys d'integració comuns i aplicacions

& Assistents de xat de la IA

Afegeix sortida de veu al vostre assistent de xat o IA. Conducte LLLM respostes a través de les interfícies d' execució de veu. Kokoro proporciona retard de conversa en temps real. Seasme CSM genera un discurs de conversa amb el temps natural.

  • Resposta LLLM a la canonada de veu
  • El segon retard amb Kokoro
  • Pronunciació conversacional amb Seseame CSM
  • S' està corrent la sortida d' àudio

Apps de & veu mòbil

Construïu aplicacions mòbils, eines d' accessibilitat, llegir aplicacions i plataformes d' aprenentatge del llenguatge. La nostra REST API funciona amb qualsevol marc mòbil. Descarrega fitxers d' àudio o flux directament al client.

  • React nadiu, Futter, Swift, Kotlin
  • Accessibilitat i lectura d' aplicacions
  • Eines d' aprenentatge del llenguatge
  • Generació del contingut de l' àudio

Productes SaaS

Capacitats de veu blanca en el vostre producte SaaS. Afegiu TTS, TTS, cloneu la veu i el processament d' àudio com a característiques de la plataforma. Useu la nostra API com a dorsal de veu sense gestionar les infraestructures de la GPU.

  • Característiques de la veu de l' etiqueta blanca
  • No cal infraestructura de la GPU
  • fixació de preus d' ús de pagament
  • 24+ models per oferir als vostres usuaris

Canonies d' automatització

Integra la generació de veu en canonades de CI/CD, automació de continguts i fluxs de processament de treball per lots. Genera milers de fitxers d' àudio des de dades del full de càlcul, la producció de podcast per a automatitzar, o crear canonades de contingut locals.

  • Processat per lots mitjançant l' API
  • Suseccions de localització del contingut
  • Integració amb CI/CD
  • Full de càlcul a l' autocompleció d' àudio

Especificacions de l' API

Es construeix per a aplicacions de produccióName

24+

Models TTS

100+

Voices

30+

Idiomes

<1s

Latència (Kokoro)

Preguntes més freqüents

Preguntes comunes quant a l' API del TTS.ai desenvolupador

Sí. La nostra API segueix el format de discurs d' àudio OpenAI. Si esteu usant la biblioteca de Python OpenAI, podeu canviar a TTS.ai canviant els paràmetres base_url i api_ key. El codi existent funciona sense modificar.

Kokoro genera àudio en menys d' 1 segon per a frases típices. CosyVoice 2 permet l' eixida de sortida per a fins i tot percebuda. Per als assistents a la veu, el temps total d' arrodoniment és normalment 1- 3 segons depenent de la longitud de text i de l' elecció del model.

Els models lliures (Kokoro, Pipher, VITS, MeloTTS) costen zero crèdits. Els models estàndard costen 2 crèdits per 1000 caràcters. Els models Premium costen 4 crèdits per 1000 caràcters. Signa amb 50 crèdits. Els plans comencen a $9/ mesos per 500 crèdits.

Sí. Carrega una mostra d' àudio de referència (5-30 segons) al punt de final de veu clonat de les sol· licituds de veu posterior TTS. Models que permeten la clonació inclouen CosyVoice 2, Chatterbox, Fish i GPT- STITS.

El tier lliure té un límit bàsic (3 sol· licituds per hora sense compte). Els plans triats tenen límits de taxa generosa adequades per a les aplicacions de producció. Contacteu amb nosaltres per a requeriments de nivell d' empresa a través de rendiment.

WAV (sense comprimir, qualitat alta), MP3 (comprimits, fitxers més petits), OGGG (format d' obertura) i FLAC (compressió sense errors). Especifiqueu el format en la vostra petició. Per omissió és WAV a la taxa de mostreig nativa del model.

Sí. Combinar la nostra API TTS amb un model de text a veu i un LLLM per a construir una canonada completa de veu. Kokoro proporciona l' ideal subsegon per a una conversa en temps real.

CosyVoice 2 i Kokoro dóna suport a la sortida d' àudio on es donen trossos d' àudio quan es generen. Això redueix el temps a primer pla per a aplicacions en temps real com ara l' assistent de veu i experiències interactius.

L' API retorna els codis d' estat HTTP estàndard. Implementa l' error exponencial per a 5x i les respostes límit de la taxa. Per a les aplicacions de missions, afegiu una cua amb la lògica reintentar- ho. La nostra API té una gestió d' errors elevats però la gestió d' errors resistents sempre es recomana.

Sí. Els / v1/voices i / v1/models acaben retornen llistes de totes les veus disponibles JSON i models amb les seves metadades (ajuda en llengua, puntuacions de qualitat, puntuacions de velocitat i corbata de preus). Useu aquests per construir selectors de models dinàmics a la vostra aplicació.

Models lliures (Kokoro, Pipista, VITS, MeloTTS) serveixen com a una carpeta local efectiva atès que van costar zero crèdits. Proveu la vostra integració amb models lliures, llavors canvieu a models més grans en producció canviant el paràmetre model. No es necessita cap entorn de prova diferent.

La majoria dels nostres models són de codi obert i poden ser autoordinadors. Tot i això, l' auto- màquina requereix recursos significatius de la GPU (utilitzem 4x NVIDIA Tesla P40 amb 96GB VRAM total). L' API proporciona una alternativa cost- efectiu sense gestió d' infraestructura.
5.0/5 (1)

Preparat per a construir amb la IA de veu?

Obtingueu la vostra clau API lliure i comenceu a construir. 50 crèdits a signar, models disponibles, documentació global.