Segnala bug / richiesta di funzionalità

Text to Speech API for Developers

Costruisci applicazioni attivate con la nostra API REST. Aggiungi testo naturale alla bocca, clonazione vocale, linguaggio-testo ed elaborazione audio alle tue app, chatbot, assistenti vocali e prodotti SaaS. Formato compatibile con OpenAI, 20+ modelli, integrazione semplice.

API REST Chatbot App della voce Prodotti SaaS Automazione

Editor TTS completo Documenti API

Provalo ora.

Testo
File

0/500

Gratis con Kokoro, Piper, VITS, MeloTTS

L'audio generato apparirà qui

Apri l'editor TTS completo

Funzionalità API per sviluppatori

Tutto ciò di cui hai bisogno per creare applicazioni abilitato alla voce

Semplice API REST

Una richiesta POST per generare discorso. Richiesta JSON, risposta audio. Funziona con qualsiasi linguaggio di programmazione che supporta HTTP.

OpenAI-Compatibile

Sostituzione di drop-in per API OpenAI TTS. Cambia il tuo codice esistente base_url e API.

24+ Modelli disponibili

Accedere a ogni modello tramite una singola API. Cambiare i modelli cambiando un parametro. Confrontare qualità, velocità e costi.

Sotto-Seconda Latenza

Kokoro genera audio in meno di 1 secondo. Perfetto per chatbot in tempo reale, assistenti vocali e applicazioni interattive.

API di clonazione vocale

Clonare qualsiasi voce da un breve campione audio tramite l'API. Utilizzare voci clonate per tutte le generazioni successive.

Formati multipli

Output come WAV, MP3, OGG, o FLAC. Scegliere velocità di campionamento e profondità di bit. Streaming supporto audio per applicazioni in tempo reale.

Migliori modelli per l'integrazione degli sviluppatori

Scegli il modello giusto per i requisiti di velocità, qualità e costi della tua applicazione

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Meglio per: La latenza sub-secondo del modello più veloce, ideale per applicazioni in tempo reale e chatbot

Prova Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonazione vocale

Meglio per: Streaming TTS con cloning vocale per applicazioni Voice Assistant

Prova CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Meglio per: IA conversazionale con tempismo naturale per chatbot e voce assistente

Prova Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Meglio per: Modello gratuito, CPU-Solo per applicazioni ad alto volume a costo zero

Prova Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Meglio per: Generazione audio con effetti sonori per applicazioni creative e di intrattenimento

Prova Bark

Come integrare le API TTS

Dalla registrazione alla prima chiamata API in meno di 5 minuti

Ottieni la tua chiave API

Iscriviti gratis e genera una chiave API dal tuo account dashboard. 15.000 caratteri inclusi.

Fai la tua prima chiamata

POST a /v1/tts con testo, modello e voce. Ricevi byte audio indietro. Sotto 5 linee di codice.

Scegli il tuo modello

Prova diversi modelli per il tuo caso d'uso. Confronta velocità, qualità e costi per generazione.

Nave per la produzione

Scala con i caratteri pay-as-you-go. Nessun limite di tasso sui piani a pagamento. Monitorare l'uso nel cruscotto.

Esempi di codice di avvio rapido

Integra TTS.ai in qualsiasi lingua con la nostra API REST

Python Popolare

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Universale

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

Formato compatibile con OpenAI Drop-in

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Ottieni la tua chiave API gratuita

Che cosa gli sviluppatori costruiscono con TTS.ai

Modelli e applicazioni comuni di integrazione

Assistenti e chatbot AI

Aggiunga l'uscita vocale al vostro chatbot o assistente AI. Le risposte LLM del tubo attraverso TTS per le interfacce vocali-enabled. Kokoro fornisce la latenza sub-secondo per le conversazioni in tempo reale. Sesame CSM genera il discorso di conversazione con i tempi naturali.

Risposta LLM alla conduttura vocale
Seconda latenza con Kokoro
Discorso conversazionale con Sesame CSM
Streaming output audio

App per dispositivi mobili e voce

Costruisci app per dispositivi mobili, strumenti di accessibilità, app per la lettura e piattaforme per l'apprendimento delle lingue. Le nostre API REST funzionano con qualsiasi framework mobile. Scarica file audio o stream direttamente al client.

React Native, Flutter, Swift, Kotlin
Accessibilità e lettura delle app
Piattaforme di apprendimento delle lingue
Generazione di contenuti audio

Prodotti SaaS

Capacità vocali in white label nel prodotto SaaS. Aggiungi TTS, STT, cloning vocale ed elaborazione audio come funzionalità nella tua piattaforma. Usa la nostra API come backend vocale senza gestire l'infrastruttura GPU.

Caratteristiche della voce in bianco
Nessuna infrastruttura GPU necessaria
Tariffe pay-per-use
20+ modelli per offrire agli utenti

Tubi di automazione

Integra la generazione vocale in pipeline CI/CD, automazione dei contenuti e flussi di lavoro di elaborazione batch. Genera migliaia di file audio dai dati del foglio di calcolo, automatizza la produzione di podcast o costruisci pipeline di localizzazione dei contenuti.

Elaborazione di lotti tramite API
Contenuti di localizzazione pipeline
Integrazione CI/CD
Foglio di calcolo per l'automazione audio

Visualizza Documentazione API completa

Specifiche API

Costruito per applicazioni di produzione

20+

Modelli TTS

100+

Voci

30+

Lingue

<1s

Latenza (Kokoro)

Iscriviti gratis 15.000 caratteri

Domande frequenti

Domande comuni sulla TTS.ai API sviluppatore

Sì. La nostra API segue il formato audio OpenAI. Se si utilizza la libreria client OpenAI Python o JavaScript, è possibile passare a TTS.ai cambiando i parametri base_url e api_key. Il codice esistente funziona senza modifiche.

Kokoro genera audio in meno di 1 secondo per frasi tipiche. CosyVoice 2 supporta l'uscita in streaming per una latenza percepita ancora più bassa. Per i chatbot e gli assistenti vocali, il tempo totale di andata e ritorno è tipicamente di 1-3 secondi a seconda della lunghezza del testo e della scelta del modello.

I modelli gratuiti (Kokoro, Piper, VITS, MeloTTS) sono completamente gratuiti. I modelli standard utilizzano 2x caratteri per 1K di testo. I modelli premium utilizzano 4x caratteri per 1K di testo. Iscriviti gratis con 15.000 caratteri. I piani partono da $9/mese per 500.000 caratteri.

Sì. Caricare un campione audio di riferimento (5-30 secondi) all'endpoint di clonazione vocale, quindi utilizzare l'ID vocale clonato nelle successive richieste TTS. I modelli che supportano la clonazione includono CosyVoice 2, Chatterbox, Fish Speech e GPT-SoVITS.

Free tier ha un tasso di base limitato (3 richieste all'ora senza un account). I piani a pagamento hanno limiti di tasso generosi adatti per le applicazioni di produzione. Contattaci per i requisiti di produttività a livello aziendale.

WAV (non compresso, di alta qualità), MP3 (compresso, file più piccoli), OGG (formato aperto) e FLAC (compressione senza perdita). Specificare il formato nella richiesta. Predefinito è WAV alla velocità di campionamento nativo del modello.

Sì. Combina le nostre API TTS con un modello speech-to-text e un LLM per costruire una pipeline completa per assistenti vocali. Kokoro fornisce una latenza sub-secondo ideale per la conversazione in tempo reale. CosyVoice 2 supporta l'output in streaming per tempi di risposta ancora più bassi.

CosyVoice 2 e Kokoro supportano l'uscita audio in streaming dove i pezzi audio vengono consegnati man mano che vengono generati. Ciò riduce il time-to-first-byte per applicazioni in tempo reale come assistenti vocali ed esperienze interattive.

L'API restituisce codici di stato HTTP standard. Implementa il backoff esponenziale per errori 5xx e risposte limite di velocità. Per le applicazioni mission-critical, aggiungi una coda con logica di riprova. La nostra API ha un alto uptime, ma la gestione degli errori resiliente è sempre raccomandata.

Sì. Gli endpoint /v1/voice e /v1/models restituisce agli utenti JSON liste di tutte le voci e modelli disponibili con i loro metadati (sostegno linguistico, valutazioni di qualità, valutazioni di velocità e livello di prezzo). Usali per creare selettori di modelli dinamici nella tua applicazione.

I modelli gratuiti (Kokoro, Piper, VITS, MeloTTS) servono come una sandbox efficace poiché sono completamente gratuiti. Metti alla prova la tua integrazione con i modelli gratuiti, poi passa ai modelli premium in produzione modificando il parametro del modello. Non è necessario alcun ambiente di test separato.

La maggior parte dei nostri modelli sono open-source e possono essere self-hosting. Tuttavia, self-hosting richiede importanti risorse GPU (utilizzando 4x NVIDIA Tesla P40 con 96GB VRAM totali). L'API fornisce un'alternativa conveniente senza gestione dell'infrastruttura.

5.0/5 (1)

Pronto a costruire con la voce AI?

Ottieni la tua chiave API gratuita e inizia a costruire. 15.000 caratteri su iscrizione, modelli gratuiti disponibili, documentazione completa.

Iscriviti gratis Visualizza prezzi

Text to Speech API for Developers

Provalo ora.

Ti piace TTS.ai? Dillo ai tuoi amici!

Funzionalità API per sviluppatori

Semplice API REST

OpenAI-Compatibile

24+ Modelli disponibili

Sotto-Seconda Latenza

API di clonazione vocale

Formati multipli

Migliori modelli per l'integrazione degli sviluppatori

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Come integrare le API TTS

Ottieni la tua chiave API

Fai la tua prima chiamata

Scegli il tuo modello

Nave per la produzione

Esempi di codice di avvio rapido

Che cosa gli sviluppatori costruiscono con TTS.ai

Assistenti e chatbot AI

App per dispositivi mobili e voce

Prodotti SaaS

Tubi di automazione

Specifiche API

Domande frequenti

L'API è compatibile con il formato OpenAI TTS?

Qual è la latenza per le applicazioni in tempo reale?

Come funziona il prezzo per l'utilizzo delle API?

Posso usare la clonazione vocale attraverso l'API?

C'e' un limite di velocita'?

Quali formati audio ritornano le API?

Posso usare l'API per creare un assistente vocale o un chatbot?

C'è una API WebSocket o in streaming?

Come posso gestire gli errori e i tentativi in produzione?

Posso elencare le voci disponibili e i modelli programmaticamente?

C'è un ambiente sandbox o test?

Posso auto-ospitare i modelli invece di utilizzare l'API?

Pronto a costruire con la voce AI?