Test għal Diskussjoni API għall-Iżviluppaturi

Jibnu applikazzjonijiet vuċi-abilitati mal-REST API tagħna.Żid naturali test-to-diskors, klonazzjoni vuċi, diskors-to-test, u l-ipproċessar awdjo għall-apps tiegħek, chatbots, vuċi assistenti, u prodotti SaaS.OpenAI-format kompatibbli, 20 + mudelli, integrazzjoni sempliċi.

REST API Chatbots Applikazzjonijiet tal-vuċi Prodotti tal-SaaS Awtomazzjoni

Ipprovaha issa

Ħieles ma Kokoro, Piper, VITS, MeloTTS
L-awdjo ġġenerat tiegħek se jidher hawn
Iġġenerat
Niżżel
Imħabba TTS.ai? Għid lill-ħbieb tiegħek!

Karatteristiċi API għall-Iżviluppaturi

Dak kollu li għandek bżonn biex tibni applikazzjonijiet bil-vuċi

Sempliċi REST API

Wieħed talba POST biex jiġġeneraw diskors. talba JSON, tweġiba awdjo. xogħlijiet bi kwalunkwe lingwa ta ’programmar li jappoġġja HTTP.

Kompatibbli ma’ OpenAI

Drop-in sostituzzjoni għall OpenAI TTS API. Swiċċ tiegħek base_url u l-API ewlenija — kodiċi eżistenti xogħlijiet immedjatament.

24+ mudelli disponibbli

Aċċess kull mudell permezz ta' API waħda.Bidla mudelli billi tibdel parametru wieħed. Qabbel il-kwalità, il-veloċità, u l-ispiża.

Latenza Sub-Tieni

Kokoro jiġġenera awdjo f'inqas minn sekonda 1.Perfetta għal chatbots f'ħin reali, assistenti tal-vuċi, u applikazzjonijiet interattivi.

API għall-ikklonjar tal-vuċi

Ikklonja kwalunkwe vuċi minn kampjun awdjo qasir permezz tal-API.Uża vuċijiet ikklonjati għall-ġenerazzjonijiet sussegwenti kollha.

Formati multipli

Output bħala WAV, MP3, OGG, jew FLAC. Agħżel ir-rata tal-kampjun u l-fond bit. Streaming awdjo appoġġ għall-applikazzjonijiet fil-ħin reali.

Mudelli aħjar għall-Integrazzjoni Developer

Agħżel il-mudell it-tajjeb għall-veloċità tal-applikazzjoni tiegħek, il-kwalità, u l-ħtiġijiet tal-ispiża

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

L-aħjar għal: Mudell aktar mgħaġġel - latency sub-sekonda, ideali għal applikazzjonijiet f'ħin reali u chatbots

Ipprova Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Klonazzjoni tal-vuċi

L-aħjar għal: Streaming TTS bl-ikklonjar tal-vuċi għall-applikazzjonijiet tal-assistent tal-vuċi

Ipprova CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

L-aħjar għal: AI konversazzjonali b'ħin naturali għal chatbot u vuċi assistent

Ipprova Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

L-aħjar għal: Mudell b'xejn, CPU biss għal applikazzjonijiet b'volum għoli bi spiża ta' kreditu żero

Ipprova Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

L-aħjar għal: Ġenerazzjoni tal-awdjo b'effetti tal-ħoss għal applikazzjonijiet kreattivi u ta' divertiment

Ipprova Bark

Kif Tintegra l-API TTS

Minn reġistrazzjoni għall-ewwel sejħa API f'inqas minn 5 minuti

1

Ikseb il-Klassifikazzjoni tal-API Tiegħek

Irreġistra b'xejn u iġġenera ċavetta API mid-dashboard tal-kont tiegħek. 15,000 karattru inklużi.

2

Agħmel l-ewwel sejħa tiegħek

POST għal / v1 / tts bit-test, mudell, u vuċi. Get bytes awdjo lura. Taħt 5 linji tal-kodiċi.

3

Agħżel Mudell tiegħek

Ittestja mudelli differenti għall-każ tal-użu tiegħek. Qabbel il-veloċità, il-kwalità u l-ispiża għal kull ġenerazzjoni.

4

Vapur għall-Produzzjoni

Skala b'karattri pay-as-you-go. L-ebda limiti tar-rata fuq pjanijiet imħallsa.

Quick Bidu Kodiċi Eżempji

Integra TTS.ai fi kwalunkwe lingwa mal-REST API tagħna

Python Popolari
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Universali
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Format kompatibbli ma’ OpenAI Drop-in
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

X'inhuma l-Iżviluppaturi Jibnu b'TTS.ai

Mudelli u applikazzjonijiet komuni ta’ integrazzjoni

AI Chatbots & Assistenti

Żid output tal-vuċi għall-chatbot jew l-assistent AI tiegħek. It-tweġibiet tal-pajpijiet LLM permezz tat-TTS għal interfaċċi b'vuċi attivata. Kokoro jagħti latency sub-sekonda għal konversazzjonijiet f'ħin reali.

  • Rispons tal-LLM għall-pipeline tad-diskors
  • Latenza sub-sekondarja ma' Kokoro
  • Diskors ta’ konverżazzjoni ma’ Sesame CSM
  • Streaming output awdjo

Applikazzjonijiet mobbli u bil-vuċi

Ibni applikazzjonijiet mobbli bil-vuċi, għodod ta' aċċessibbiltà, applikazzjonijiet tal-qari, u pjattaformi għat-tagħlim tal-lingwi. Ir-REST API tagħna taħdem ma' kwalunkwe qafas mobbli.

  • Reaġixxi Nattiv, Flutter, Swift, Kotlin
  • Applikazzjonijiet tal-aċċessibbiltà u tal-qari
  • Pjattaformi għat-tagħlim tal-lingwi
  • Ġenerazzjoni tal-kontenut awdjo

Prodotti SaaS

Kapaċitajiet vuċi white-label fil-prodott SaaS tiegħek.Żid TTS, STT, klonazzjoni vuċi, u l-ipproċessar awdjo bħala karatteristiċi fil-pjattaforma tiegħek.Uża API tagħna bħala backend vuċi tiegħek mingħajr ma jimmaniġġjaw l-infrastruttura GPU.

  • Karatteristiċi tal-vuċi tal-white label
  • Ebda infrastruttura GPU meħtieġa
  • Prezzijiet ta’ ħlas skont l-użu
  • 20+ mudelli li joffru lill-utenti tiegħek

Pipelines tal-Awtomazzjoni

Integra l-ġenerazzjoni tal-vuċi fil-pipelines CI / CD, awtomatizzazzjoni tal-kontenut, u l-flussi tax-xogħol tal-ipproċessar tal-lott.Iġġenera eluf ta' fajls awdjo minn data spreadsheet, awtomatizza l-produzzjoni tal-podcast, jew ibni pipelines lokalizzazzjoni kontenut.

  • Ipproċessar tal-lott permezz tal-API
  • Pipelines tal-lokalizzazzjoni tal-kontenut
  • Integrazzjoni tas-CI/CD
  • Spreadsheet għall-awtomazzjoni awdjo

Speċifikazzjonijiet API

Mibnija għall-applikazzjonijiet tal-produzzjoni

20+

Mudelli TTS

100+

Il-Voti

30+

Lingwi

<1s

Latenza (Kokoro)

Mistoqsijiet Frekwenti (FAQ)

Mistoqsijiet komuni dwar l-TTS.ai żviluppatur API

Iva. L-API tagħna ssegwi l-format tal-vuċi tal-awdjo OpenAI. Jekk qed tuża l-librerija tal-klijent OpenAI Python jew JavaScript, tista' taqleb għal TTS.ai billi tbiddel il-parametri base_url u api_key. Il-kodiċi eżistenti tiegħek jaħdem mingħajr modifika.

Kokoro jiġġenera awdjo f'inqas minn sekonda għal sentenzi tipiċi.CosyVoice 2 jappoġġja l-output streaming għal latency perċepita saħansitra aktar baxxa.Għal chatbots u assistenti tal-vuċi, il-ħin totali round-trip huwa tipikament 1-3 sekondi skond it-tul tat-test u l-għażla tal-mudell.

Mudelli ħielsa (Kokoro, Piper, VITS, MeloTTS) huma kompletament b'xejn. Mudelli standard jużaw karattri 2x għal kull 1K ta' test. Mudelli premium jużaw karattri 4x għal kull 1K ta' test. Sign up b'xejn ma 15,000 karattri. Pjanijiet jibdew minn $ 9 / xahar għal 500,000 karattru.

Iva. Ittella' kampjun awdjo ta' referenza (5-30 sekonda) għall-punt aħħari tal-ikklonjar tal-vuċi, imbagħad uża l-ID tal-vuċi kklonat fit-talbiet TTS sussegwenti.Mudelli li jappoġġjaw il-klonazzjoni jinkludu CosyVoice 2, Chatterbox, Diskors tal-Ħut, u GPT-SoVITS.

Il-livell b'xejn għandu limitazzjoni tar-rata bażika (3 talbiet fis-siegħa mingħajr kont). Il-pjanijiet imħallsa għandhom limiti tar-rata ġenerużi adattati għall-applikazzjonijiet tal-produzzjoni.

WAV (mhux ikkompressat, l-ogħla kwalità), MP3 (ikkompressat, fajls iżgħar), OGG (format miftuħ), u FLAC (kompressjoni mingħajr telf). Speċifika l-format fit-talba tiegħek.

Iva. Ikkombina l-API TTS tagħna ma’ mudell ta’ diskors għal test u LLM biex tibni pipeline ta’ assistent tal-vuċi sħiħa.Kokoro jipprovdi latency ta’ taħt it-tieni ideali għal konverżazzjoni f’ħin reali.CosyVoice 2 jappoġġja l-output tal-istrimjar għal ħinijiet ta’ rispons perċepiti saħansitra aktar baxxi.

CosyVoice 2 u Kokoro jappoġġjaw l-output tal-awdjo li jsir permezz ta' streaming fejn il-biċċiet tal-awdjo jiġu kkonsenjati hekk kif jiġu ġġenerati.Dan inaqqas iż-żmien għall-ewwel byte għal applikazzjonijiet f'ħin reali bħal assistenti bil-vuċi u esperjenzi interattivi.

L-API jirritorna kodiċijiet standard tal-istatus HTTP. Implimenta backoff esponenzjali għal żbalji 5xx u tweġibiet ta’ limitu tar-rata. Għall-applikazzjonijiet kritiċi għall-missjoni, żid kju b’loġika ta’ riprova.

Iva. L-endpoints /v1/voices u /v1/models jirritornaw listi JSON tal-ilħna u l-mudelli kollha disponibbli bil-metadata tagħhom (appoġġ tal-lingwa, klassifikazzjonijiet tal-kwalità, klassifikazzjonijiet tal-veloċità, u l-livell tal-prezzijiet).Użahom biex tibni seletturi dinamiċi tal-mudell fl-applikazzjoni tiegħek.

Il-mudelli ħielsa (Kokoro, Piper, VITS, MeloTTS) iservu bħala sandbox effettiv peress li jiswew żero krediti. Ittestja l-integrazzjoni tiegħek b'mudelli ħielsa, imbagħad aqleb għal mudelli premium fil-produzzjoni billi tbiddel il-parametru tal-mudell.

Il-biċċa l-kbira tal-mudelli tagħna huma open-source u jistgħu jiġu ospitati waħedhom. Madankollu, l-awto-ospitar jeħtieġ riżorsi GPU sinifikanti (nużaw 4x NVIDIA Tesla P40 b'96GB VRAM totali).
5.0/5 (1)

X'nistgħu ntejbu? Il-feedback tiegħek jgħinna nsolvu l-problemi.

Lest biex tibni bil-vuċi AI?

Ikseb ċavetta API b'xejn tiegħek u tibda tibni.15-il kreditu fuq is-sinjal, mudelli b'xejn disponibbli, dokumentazzjoni komprensiva.