Text to Speech API for Developers

Costruisci applicazioni attivate con la nostra API REST. Aggiungi testo naturale alla bocca, clonazione vocale, linguaggio-testo ed elaborazione audio alle tue app, chatbot, assistenti vocali e prodotti SaaS. Formato compatibile con OpenAI, 20+ modelli, integrazione semplice.

API REST Chatbot App della voce Prodotti SaaS Automazione

Provalo ora.

Gratis con Kokoro, Piper, VITS, MeloTTS
L'audio generato apparirà qui
Generato
Scarica
Ti piace TTS.ai? Dillo ai tuoi amici!

Funzionalità API per sviluppatori

Tutto ciò di cui hai bisogno per creare applicazioni abilitato alla voce

Semplice API REST

Una richiesta POST per generare discorso. Richiesta JSON, risposta audio. Funziona con qualsiasi linguaggio di programmazione che supporta HTTP.

OpenAI-Compatibile

Sostituzione di drop-in per API OpenAI TTS. Cambia il tuo codice esistente base_url e API.

24+ Modelli disponibili

Accedere a ogni modello tramite una singola API. Cambiare i modelli cambiando un parametro. Confrontare qualità, velocità e costi.

Sotto-Seconda Latenza

Kokoro genera audio in meno di 1 secondo. Perfetto per chatbot in tempo reale, assistenti vocali e applicazioni interattive.

API di clonazione vocale

Clonare qualsiasi voce da un breve campione audio tramite l'API. Utilizzare voci clonate per tutte le generazioni successive.

Formati multipli

Output come WAV, MP3, OGG, o FLAC. Scegliere velocità di campionamento e profondità di bit. Streaming supporto audio per applicazioni in tempo reale.

Migliori modelli per l'integrazione degli sviluppatori

Scegli il modello giusto per i requisiti di velocità, qualità e costi della tua applicazione

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Meglio per: La latenza sub-secondo del modello più veloce, ideale per applicazioni in tempo reale e chatbot

Prova Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonazione vocale

Meglio per: Streaming TTS con cloning vocale per applicazioni Voice Assistant

Prova CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Meglio per: IA conversazionale con tempismo naturale per chatbot e voce assistente

Prova Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Meglio per: Modello gratuito, CPU-Solo per applicazioni ad alto volume a costo zero

Prova Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Meglio per: Generazione audio con effetti sonori per applicazioni creative e di intrattenimento

Prova Bark

Come integrare le API TTS

Dalla registrazione alla prima chiamata API in meno di 5 minuti

1

Ottieni la tua chiave API

Iscriviti gratis e genera una chiave API dal tuo account dashboard. 15.000 caratteri inclusi.

2

Fai la tua prima chiamata

POST a /v1/tts con testo, modello e voce. Ricevi byte audio indietro. Sotto 5 linee di codice.

3

Scegli il tuo modello

Prova diversi modelli per il tuo caso d'uso. Confronta velocità, qualità e costi per generazione.

4

Nave per la produzione

Scala con i caratteri pay-as-you-go. Nessun limite di tasso sui piani a pagamento. Monitorare l'uso nel cruscotto.

Esempi di codice di avvio rapido

Integra TTS.ai in qualsiasi lingua con la nostra API REST

Python Popolare
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universale
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Formato compatibile con OpenAI Drop-in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Che cosa gli sviluppatori costruiscono con TTS.ai

Modelli e applicazioni comuni di integrazione

Assistenti e chatbot AI

Aggiunga l'uscita vocale al vostro chatbot o assistente AI. Le risposte LLM del tubo attraverso TTS per le interfacce vocali-enabled. Kokoro fornisce la latenza sub-secondo per le conversazioni in tempo reale. Sesame CSM genera il discorso di conversazione con i tempi naturali.

  • Risposta LLM alla conduttura vocale
  • Seconda latenza con Kokoro
  • Discorso conversazionale con Sesame CSM
  • Streaming output audio

App per dispositivi mobili e voce

Costruisci app per dispositivi mobili, strumenti di accessibilità, app per la lettura e piattaforme per l'apprendimento delle lingue. Le nostre API REST funzionano con qualsiasi framework mobile. Scarica file audio o stream direttamente al client.

  • React Native, Flutter, Swift, Kotlin
  • Accessibilità e lettura delle app
  • Piattaforme di apprendimento delle lingue
  • Generazione di contenuti audio

Prodotti SaaS

Capacità vocali in white label nel prodotto SaaS. Aggiungi TTS, STT, cloning vocale ed elaborazione audio come funzionalità nella tua piattaforma. Usa la nostra API come backend vocale senza gestire l'infrastruttura GPU.

  • Caratteristiche della voce in bianco
  • Nessuna infrastruttura GPU necessaria
  • Tariffe pay-per-use
  • 20+ modelli per offrire agli utenti

Tubi di automazione

Integra la generazione vocale in pipeline CI/CD, automazione dei contenuti e flussi di lavoro di elaborazione batch. Genera migliaia di file audio dai dati del foglio di calcolo, automatizza la produzione di podcast o costruisci pipeline di localizzazione dei contenuti.

  • Elaborazione di lotti tramite API
  • Contenuti di localizzazione pipeline
  • Integrazione CI/CD
  • Foglio di calcolo per l'automazione audio

Specifiche API

Costruito per applicazioni di produzione

20+

Modelli TTS

100+

Voci

30+

Lingue

<1s

Latenza (Kokoro)

Domande frequenti

Domande comuni sulla TTS.ai API sviluppatore

Sì. La nostra API segue il formato audio OpenAI. Se si utilizza la libreria client OpenAI Python o JavaScript, è possibile passare a TTS.ai cambiando i parametri base_url e api_key. Il codice esistente funziona senza modifiche.

Kokoro genera audio in meno di 1 secondo per frasi tipiche. CosyVoice 2 supporta l'uscita in streaming per una latenza percepita ancora più bassa. Per i chatbot e gli assistenti vocali, il tempo totale di andata e ritorno è tipicamente di 1-3 secondi a seconda della lunghezza del testo e della scelta del modello.

I modelli gratuiti (Kokoro, Piper, VITS, MeloTTS) sono completamente gratuiti. I modelli standard utilizzano 2x caratteri per 1K di testo. I modelli premium utilizzano 4x caratteri per 1K di testo. Iscriviti gratis con 15.000 caratteri. I piani partono da $9/mese per 500.000 caratteri.

Sì. Caricare un campione audio di riferimento (5-30 secondi) all'endpoint di clonazione vocale, quindi utilizzare l'ID vocale clonato nelle successive richieste TTS. I modelli che supportano la clonazione includono CosyVoice 2, Chatterbox, Fish Speech e GPT-SoVITS.

Free tier ha un tasso di base limitato (3 richieste all'ora senza un account). I piani a pagamento hanno limiti di tasso generosi adatti per le applicazioni di produzione. Contattaci per i requisiti di produttività a livello aziendale.

WAV (non compresso, di alta qualità), MP3 (compresso, file più piccoli), OGG (formato aperto) e FLAC (compressione senza perdita). Specificare il formato nella richiesta. Predefinito è WAV alla velocità di campionamento nativo del modello.

Sì. Combina le nostre API TTS con un modello speech-to-text e un LLM per costruire una pipeline completa per assistenti vocali. Kokoro fornisce una latenza sub-secondo ideale per la conversazione in tempo reale. CosyVoice 2 supporta l'output in streaming per tempi di risposta ancora più bassi.

CosyVoice 2 e Kokoro supportano l'uscita audio in streaming dove i pezzi audio vengono consegnati man mano che vengono generati. Ciò riduce il time-to-first-byte per applicazioni in tempo reale come assistenti vocali ed esperienze interattive.

L'API restituisce codici di stato HTTP standard. Implementa il backoff esponenziale per errori 5xx e risposte limite di velocità. Per le applicazioni mission-critical, aggiungi una coda con logica di riprova. La nostra API ha un alto uptime, ma la gestione degli errori resiliente è sempre raccomandata.

Sì. Gli endpoint /v1/voice e /v1/models restituisce agli utenti JSON liste di tutte le voci e modelli disponibili con i loro metadati (sostegno linguistico, valutazioni di qualità, valutazioni di velocità e livello di prezzo). Usali per creare selettori di modelli dinamici nella tua applicazione.

I modelli gratuiti (Kokoro, Piper, VITS, MeloTTS) servono come una sandbox efficace poiché sono completamente gratuiti. Metti alla prova la tua integrazione con i modelli gratuiti, poi passa ai modelli premium in produzione modificando il parametro del modello. Non è necessario alcun ambiente di test separato.

La maggior parte dei nostri modelli sono open-source e possono essere self-hosting. Tuttavia, self-hosting richiede importanti risorse GPU (utilizzando 4x NVIDIA Tesla P40 con 96GB VRAM totali). L'API fornisce un'alternativa conveniente senza gestione dell'infrastruttura.
5.0/5 (1)

Cosa potremmo migliorare? Il tuo feedback ci aiuta a risolvere i problemi.

Pronto a costruire con la voce AI?

Ottieni la tua chiave API gratuita e inizia a costruire. 15.000 caratteri su iscrizione, modelli gratuiti disponibili, documentazione completa.