API texte à discours pour les développeurs

Construisez des applications vocales avec notre API REST. Ajoutez du texte naturel à la parole, du clonage vocal, de la parole au texte et du traitement audio à vos applications, chatbots, assistants vocaux et produits SaaS. Format compatible OpenAI, modèles 20+, intégration simple.

API REST Chatbots Applications vocales Produits SaaS Automatisation

Essayez-le maintenant.

Gratuit avec Kokoro, Piper, VITS, MeloTTS
Votre audio généré apparaîtra ici
Générés
Télécharger
Vous aimez TTS.ai ? Parlez-en à vos amis !

Caractéristiques de l'API pour les développeurs

Tout ce dont vous avez besoin pour construire des applications vocales

API REST simple

Une requête POST pour générer la parole. Requête JSON, réponse audio. Fonctionne avec n'importe quel langage de programmation qui supporte HTTP.

Compatible OpenAI

Remplacement de l'API OpenAI TTS. Changez votre clé base_url et API — le code existant fonctionne immédiatement.

24+ Modèles disponibles

Accédez à chaque modèle à l'aide d'une seule API. Changez les modèles en changeant un paramètre. Comparez la qualité, la vitesse et le coût.

Sous-deuxième latence

Kokoro génère de l'audio en moins de 1 seconde. Parfait pour les chatbots en temps réel, les assistants vocaux et les applications interactives.

API de Clonage de la voix

Clone n'importe quelle voix d'un court échantillon audio via l'API. Utilisez des voix clonées pour toutes les générations suivantes.

Formats multiples

Sortie comme WAV, MP3, OGG ou FLAC. Choisissez le taux d'échantillonnage et la profondeur du bit.

Meilleurs modèles pour l'intégration des développeurs

Choisissez le bon modèle pour les exigences de vitesse, de qualité et de coût de votre application

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Meilleur pour: Modèle le plus rapide — sous-seconde latence, idéal pour les applications en temps réel et les chatbots

Essaie. Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonage de la voix

Meilleur pour: Streaming TTS avec clonage vocal pour les applications d'assistant vocal

Essaie. CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Meilleur pour: AI conversationnelle avec chronométrage naturel pour chatbot et voix assistante

Essaie. Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Meilleur pour: Modèle CPU gratuit uniquement pour les applications à haut volume à coût zéro

Essaie. Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Meilleur pour: Production audio avec effets sonores pour les applications créatives et de divertissement

Essaie. Bark

Comment intégrer l'API TTS

De l'inscription au premier appel API en moins de 5 minutes

1

Obtenez votre clé API

Inscrivez-vous gratuitement et générer une clé API à partir de votre tableau de bord de compte. 15 000 caractères inclus.

2

Faites votre premier appel

POST to /v1/tts with text, model, and voice. Retirez les octets audio. Moins de 5 lignes de code.

3

Choisissez votre modèle

Testez différents modèles pour votre cas d'utilisation. Comparez la vitesse, la qualité et le coût par génération.

4

Navire jusqu'à la production

Échelle avec des caractères pay-as-You-go. Pas de limites de taux sur les régimes payés. Surveillez l'utilisation dans votre tableau de bord.

Exemples de code de démarrage rapide

Intégrez TTS.ai dans n'importe quelle langue avec notre API REST

Python Populaire
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universel
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Format compatible OpenAI Décrochage
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Ce que les développeurs construisent avec TTS.ai

Modèles et applications communs d'intégration

AI Chatbots & Assistants

Ajoutez la sortie vocale à votre chatbot ou assistant AI. Pipe LLM répond par TTS pour les interfaces vocaux. Kokoro offre une latence sous-seconde pour les conversations en temps réel. Sesame CSM génère un discours conversationnel avec un timing naturel.

  • Réponse de la LLM au pipeline de parole
  • Sous-deuxième latence avec Kokoro
  • Discours conversationnel avec Sésame CSM
  • Sortie audio en streaming

Applications mobiles et vocales

Construisez des applications mobiles, des outils d'accessibilité, des applications de lecture et des plateformes d'apprentissage de la langue compatibles avec la voix. Notre API REST fonctionne avec n'importe quel cadre mobile.

  • Réagir native, flutter, swift, Kotlin
  • Accessibilité et lecture d'applications
  • Plates-formes d'apprentissage des langues
  • Production de contenu audio

Produits SaaS

Capacités vocales en marque blanche dans votre produit SaaS. Ajoutez TTS, STT, clonage vocal et traitement audio comme fonctionnalités dans votre plateforme. Utilisez notre API comme moteur vocal sans gérer l'infrastructure GPU.

  • Caractéristiques vocales en marque blanche
  • Pas d'infrastructure GPU nécessaire
  • Prix à la carte
  • 20+ modèles pour offrir à vos utilisateurs

Automatisation des pipelines

Intégrer la génération vocale dans les pipelines CI/CD, l'automatisation du contenu et le traitement par lots. Générer des milliers de fichiers audio à partir de données de tableur, automatiser la production de podcast ou construire des pipelines de localisation du contenu.

  • Traitement par lots via API
  • Pipelines de localisation du contenu
  • Intégration CI/CD
  • Feuille de calcul pour l'automatisation audio

Spécifications de l'API

Construit pour des applications de production

20+

Modèles TTS

100+

Voix

30+

Langues

<1s

Latence (Kokoro)

Foire aux questions

Questions courantes sur l'API de développeur TTS.ai

Oui. Notre API suit le format audio OpenAI. Si vous utilisez la bibliothèque cliente OpenAI Python ou JavaScript, vous pouvez passer à TTS.ai en changeant les paramètres base_url et api_key. Votre code existant fonctionne sans modification.

Kokoro génère de l'audio en moins de 1 seconde pour les phrases typiques. CosyVoice 2 prend en charge la sortie en streaming pour une latence encore plus faible perçue. Pour les chatbots et les assistants vocaux, le temps total aller-retour est généralement de 1-3 secondes selon la longueur du texte et le choix du modèle.

Les modèles gratuits (Kokoro, Piper, VITS, MeloTTS) sont entièrement gratuits. Les modèles standard utilisent 2 caractères par 1K de texte. Les modèles Premium utilisent 4 caractères par 1K de texte. Inscrivez-vous gratuitement avec 15 000 caractères. Les plans commencent à 9 $ par mois pour 500 000 caractères.

Oui. Chargez un échantillon audio de référence (5-30 secondes) sur le paramètre de clonage vocal, puis utilisez l'identifiant vocal cloné dans les demandes TTS subséquentes. Les modèles qui supportent le clonage comprennent CosyVoice 2, Chatterbox, Fish Speech et GPT-SoVITS.

Les plans payants ont des limites tarifaires généreuses adaptées aux applications de production. Contactez-nous pour les exigences de débit au niveau de l'entreprise.

WAV (non compressé, haute qualité), MP3 (compressé, fichiers plus petits), OGG (format ouvert) et FLAC (compression sans perte). Spécifiez le format dans votre demande. Par défaut, WAV est au taux d'échantillonnage natif du modèle.

Oui. Combinez notre API TTS avec un modèle parole-texte et un LLM pour construire un pipeline d'assistant vocal complet. Kokoro fournit une latence sous-seconde idéale pour la conversation en temps réel. CosyVoice 2 prend en charge la sortie en streaming pour des temps de réponse encore plus faibles.

CosyVoice 2 et Kokoro prennent en charge la sortie audio en streaming où les morceaux audio sont livrés au fur et à mesure qu'ils sont générés.

L'API retourne les codes d'état HTTP standard. Implémenter un backoff exponentiel pour les erreurs 5xx et les réponses aux limites de taux. Pour les applications critiques pour la mission, ajouter une file d'attente avec une logique de réessayer.

Oui. Les paramètres /v1/voices et /v1/modèles renvoient les listes JSON de toutes les voix et modèles disponibles avec leurs métadonnées (assistance linguistique, cotes de qualité, cotes de vitesse et niveau de prix). Utilisez-les pour construire des sélecteurs de modèles dynamiques dans votre application.

Les modèles gratuits (Kokoro, Piper, VITS, MeloTTS) servent de bac à sable efficace puisqu'ils coûtent zéro crédit. Testez votre intégration avec des modèles gratuits, puis passez à des modèles premium en production en modifiant le paramètre du modèle. Aucun environnement de test séparé n'est nécessaire.

La plupart de nos modèles sont open-source et peuvent être auto-organisés. Cependant, l'auto-hébergement nécessite des ressources GPU importantes (nous utilisons 4x NVIDIA Tesla P40 avec 96 Go de VRAM total). L'API fournit une alternative rentable sans gestion d'infrastructure.
5.0/5 (1)

Que pourrions-nous améliorer? Vos commentaires nous aident à résoudre les problèmes.

Prêt à construire avec Voice AI?

Obtenez votre clé API gratuite et commencez à construire. 50 crédits sur inscription, modèles gratuits disponibles, documentation complète.