API text la discurs pentru dezvoltatori

Construiește aplicații activate în voce cu API REST. Adaugă text-to-peech natural, clonare vocală, text-to-voce și prelucrarea audio la aplicațiile dumneavoastră, chatbots, asistenți vocali și produse SaaS. Format OpenAI-compatibil, 20+ modele, integrare simplă.

API REST Chatbots Aplicații vocale Produse SaaS Automatizare

Încearcă acum

Gratuit cu Kokoro, Piper, VITS, MeloTTS
Audio generat va apărea aici
Generat
Descărcare
Spune-i prietenilor tăi!

Caracteristici API pentru dezvoltatori

Tot ce ai nevoie pentru a construi aplicații cu voce activată

API REST simplă

O cerere POST pentru a genera voce. Cerere JSON, răspuns audio. Funcționează cu orice limbaj de programare care suportă HTTP.

OpenAI-Compatibil

Înlocuiește-o pentru API OpenAI TTS. Schimbați cheia de bază_url și API — codul existent funcționează imediat.

Disponibil cu 24 de modele

Accesează fiecare model printr-o singură API. Schimbă modele prin schimbarea unui singur parametr. Comparați calitatea, viteza și costul.

Latenţă subsecventă

Kokoro generează audio în mai puţin de 1 secundă. Perfect pentru chatbot-uri în timp real, asistenţi vocali şi aplicaţii interactive.

API de clonare vocală

Clonează orice voce dintr-o probă audio scurtă prin API. Folosește voci clonate pentru toate generațiile ulterioare.

Formate multiple

Ieșirea ca WAV, MP3, OGG, sau FLAC. Alegeți rata de eșantion și profunditatea bit. Streaming suport audio pentru aplicații în timp real.

Cele mai bune modele pentru integrarea dezvoltatorilor

Alegeți modelul potrivit pentru cerințele de viteză, calitate și cost ale aplicației dumneavoastră

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Cel mai bun pentru: Modelul cel mai rapid — latență sub-secunda, ideal pentru aplicații în timp real și chatbots

Încearcă Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Clonarea vocală

Cel mai bun pentru: Streaming TTS cu clonare vocală pentru aplicații de asistent vocal

Încearcă CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Cel mai bun pentru: AI conversațională cu sincronizare naturală pentru chatbot și voce asistent

Încearcă Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Cel mai bun pentru: Model liber, doar CPU pentru aplicații de mare volum la cost zero

Încearcă Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Cel mai bun pentru: Generație audio cu efecte sonore pentru aplicații creative și de divertisment

Încearcă Bark

Cum să integrăm API TTS

De la semnarea la primul apel API în mai puțin de 5 minute

1

Obțineți cheia API

Înregistrează-te gratuit și generează o cheie API de la bordul contului. 15.000 de caractere incluse.

2

Primul apel

POST la /v1/tts cu text, model și voce. Obține bytes audio înapoi. Sub 5 linii de cod.

3

Alegeți modelul dumneavoastră

Testează diferite modele pentru cazul de utilizare. Comparați viteza, calitatea și costul pe generație.

4

Nava către producție

Scalați cu caractere pay-as-you-go. Fără limite de rată asupra planurilor plătite. Monitorizează utilizarea în bordul de bord.

Exemple de cod de pornire rapidă

Integrați TTS.ai în orice limbă cu API REST

Python Populare
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universal
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Format compatibil cu OpenAI Drop-in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Ce construiesc dezvoltatorii cu TTS.ai

Modele și aplicații comune de integrare

Chatbots și asistenți ai AI

Adaugă ieșirea vocală la chatbot sau asistentul AI. Pipe LLM răspunsuri prin TTS pentru interfețele activate de voce. Kokoro oferă latență sub- secunda pentru conversații în timp real. Sesam CSM generează discurs conversațional cu timing natural.

  • Răspuns LLM la conducte de vorbire
  • Latenţă sub-a doua cu Kokoro
  • Discursul de conversație cu Sesame CSM
  • Fluxarea ieșirii audio

Aplicații mobile și vocale

Construiește aplicații mobile activate în voce, instrumente de accesibilitate, aplicații de citit și platforme de învățare limbaj. API REST funcționează cu orice cadru mobil. Descarcă fișiere audio sau flux direct către client.

  • Reacționează nativ, flutter, Swift, Kotlin
  • Accesibilitate și lectură aplicații
  • Platforme de învățare lingvistică
  • Generarea conținutului audio

Produse SaaS

Capacitățile vocale albe în produsul SaaS. Adaugă TTS, STT, clonarea vocală și prelucrarea audio ca caracteristici în platforma ta. Utilizați API-ul nostru ca backend-ul vocal fără a gestiona infrastructura GPU.

  • Caracteristici ale vocii de etichetă albă
  • Nu este necesară nicio infrastructură GPU
  • Prețurile de plată per utilizare
  • Mai mult de 20 de modele pentru a oferi utilizatorilor dumneavoastră

Pipe de automatizare

Integrați generarea vocală în conducte CI/CD, automatizarea conținutului și fluxuri de lucru de procesare a loturilor. Generați mii de fișiere audio din datele de calcul, automatizarea producției de podcast sau construirea de conducte de localizare a conținutului.

  • Prelucrarea lotului prin API
  • Conținutul conductelor de localizare
  • Integrarea CI/CD
  • Furnal de calcul la automatizare audio

Specificații API

Construit pentru aplicații de producție

20+

Modele TTS

100+

Voci

30+

Limbi

<1s

Latenţă (Kokoro)

Întrebări frecvente

Întrebări frecvente cu privire la API dezvoltator TTS.ai

Da. API noastră urmează formatul de voce audio OpenAI. Dacă utilizați biblioteca clientului OpenAI Python sau JavaScript, puteți trece la TTS.ai prin modificarea parametrilor base_url și api_key. Codul dvs. existent funcționează fără modificare.

Kokoro generează audio în mai puţin de 1 secundă pentru fraze tipice. CosyVoice 2 suportă ieșirea streaming pentru latență percepută și mai mică. Pentru chatbots și asistenți vocali, timpul total rotund-trip este de obicei 1-3 secunde, în funcție de lungimea textului și alegerea modelului.

Modelele gratuite (Kokoro, Piper, VITS, MeloTTS) sunt complet gratuite. Modelele standard folosesc 2x caractere pe 1K de text. Modelele Premium folosesc 4x caractere pe 1K de text. Înregistrează-te gratuit cu 15.000 de caractere. Planurile încep la 9$/luna pentru 500.000 de caractere.

Da. Încărcaţi un eșantion audio de referinţă (5-30 secunde) la punctul final de clonare a vocii, apoi utilizaţi ID-ul de voce clonat în cererile ulterioare TTS. Modelele care suportă clonarea includ CosyVoice 2, Chatterbox, Focalizat de peşte şi GPT-SoVITS.

Nivelul liber are limitarea ratei de bază (3 cereri pe oră fără cont). Planurile plătite au limite de rată generose potrivite pentru aplicații de producție. Contactați-ne pentru cerințele de acces la nivel de întreprindere.

WAV (necomprimat, de înaltă calitate), MP3 (comprimat, fișiere mai mici), OGG (format deschis), și FLAC (comprimare fără pierdere). Specificați formatul în cererea dumneavoastră. Defectul este WAV la rata de eșantion nativă a modelului.

Da. Combinați API-ul nostru TTS cu un model de speach-to-text și un LLM pentru a construi un complet pipeline asistent vocal. Kokoro oferă latenția sub- secunda ideal pentru conversație în timp real. CosyVoice 2 suportă ieșirea streaming pentru timpuri de răspuns percepute și mai mici.

CosyVoice 2 și Kokoro suportă ieșirea audio de streaming în cazul în care bucăți audio sunt livrate așa cum sunt generate. Acest lucru reduce timpul la primul-byte pentru aplicații în timp real, cum ar fi asistenți de voce și experiențe interactive.

API returnează coduri de stare HTTP standard. Implementează retragerea exponențială pentru erori 5xx și răspunsuri la limită de rată. Pentru aplicații critice de misiune, adaugă o coada cu logica de reluare. API noastră are timp de uptime ridicat, dar tratarea erorilor reziliente este întotdeauna recomandată.

Da. /v1/voci și /v1/models puncte finale returnează listele JSON de toate vocile și modelele disponibile cu metadatele lor (support limbii, ratinguri de calitate, ratinguri de viteză și nivel de preț). Utilizați acestea pentru a construi selectori dinamic de modele în aplicația dumneavoastră.

Modelele gratuite (Kokoro, Piper, VITS, MeloTTS) servesc ca un sandbox eficient, deoarece sunt complet gratuite. Testați integrarea cu modele gratuite, apoi treceți la modelele premium în producție, schimbând parametrul modelului. Nu este nevoie de mediu de testare separat.

Majoritatea modelelor noastre sunt open-source și pot fi auto-hosted. Cu toate acestea, auto-hosting necesită resurse GPU semnificative (folosim 4x NVIDIA Tesla P40 cu 96GB VRAM total). API oferă o alternativă rentabilă fără gestionarea infrastructurii.
5.0/5 (1)

Feedback-ul vostru ne ajută să rezolvăm problemele.

Gata pentru a construi cu Voce AI?

Obțineți cheia API gratuit și începeți construirea. 15.000 de caractere pe înregistrare, modele gratuite disponibile, documentație cuprinzătoare.