Raporto një gabim / kërkesë për funksion

API e Tekstit në Fjalë për zhvilluesit

Ndërto aplikacione të aktivizuara me zë me API-në tonë REST. Shto tekst natyror në fjalë, klonim zëri, fjalë në tekst dhe përpunim audio në aplikacionet, chatbot-ët, asistentët e zërit dhe produktet SaaS. Format i përshtatshëm me OpenAI, më shumë se 20 modele, integrim i thjeshtë.

REST API Chatbots Aplikativë zëri Produktët SaaS Automatizimi

Editori i plotë TTS Dokumentimi i API

Provoje tani

Teksti
File

0/500

Pa pagesë me Kokoro, Piper, VITS, MeloTTS

Zëri juaj i gjeneruar do të shfaqet këtu

Hap editorin e plotë të TTS

Funksionet e API për zhvilluesit

Gjithçka që të duhet për të ndërtuar aplikacione me zë

API e thjeshtë REST

Një kërkesë POST për të gjeneruar fjalimin. Kërkesë JSON, përgjigje audio. Punon me çdo gjuhë programimi që suporton HTTP.

OpenAI-Compatible

Zëvendësues për API OpenAI TTS. Ndrysho base_url dhe kyçin e API - kodi ekzistues punon menjëherë.

Modele në dispozicion

Hyr në çdo model nëpërmjet një API të vetme. Ndrysho modele duke ndryshuar një parametr. Krahaso cilësinë, shpejtësinë dhe koston.

Sub-Second Latency

Kokoro gjeneron audion në më pak se 1 sekond. Perfekt për chatbots në kohë reale, asistentët e zërit dhe aplikacionet interaktive.

API e klonimit të zërit

Klono çdo zë nga një shembull i shkurtër audio nëpërmjet API. Përdor zërat e klonuar për të gjitha brezat e ardhshëm.

Formate të shumta

Shfaq si WAV, MP3, OGG, ose FLAC. Zgjidh shkallën e shembullit dhe thellësinë e bit. Suport për streaming audio për aplikativët në kohë reale.

Modelet më të mira për integrimin e zhvilluesve

Zgjidh modelin e duhur për shpejtësinë, cilësinë dhe kërkesat e kostos së aplikimit tënd

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Me shpejtësi 5/5

Më i miri për: Modeli më i shpejtë — vonesë nën sekonda, ideal për aplikacionet në kohë reale dhe chatbots

Provo Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Klonimi i zërit

Më i miri për: Shfaq TTS me klonim zëri për aplikacionet e ndihmësve të zërit

Provo CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Ngadalë 5/5

Më i miri për: AI biseduese me kohë natyrore për chatbot dhe zërin e asistentit

Provo Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Me shpejtësi 3/5

Më i miri për: Model i lirë, vetëm CPU për aplikacione me volum të lartë me koston zero të kreditit

Provo Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Ngadalë 4/5

Më i miri për: Gjeneratori i audios me efekte zëri për aplikacionet krijuese dhe argëtuese

Provo Bark

Si të integrosh API-në e TTS

Nga regjistrimi tek thirrjet e para të API-së në më pak se 5 minuta

Merr çelësin tuaj API

Regjistrohu falas dhe gjenero një çelës API nga paneli i llogarisë tënde. 15,000 karaktere të përfshira.

Telefonata e parë

POST në /v1/tts me tekst, model dhe zë. Kthej byte audio. Në 5 rreshta kodi.

Zgjidh modelin tënd

Testo modele të ndryshme për përdorimin tënd. Krahaso shpejtësinë, cilësinë dhe koston për gjeneratë.

Shko tek prodhimi

Shkalla me karakterë të paguara sipas përdorimit. Pa kufizime në tarifat e paguara. Monitoro përdorimin në panelin tënd.

Shembuj të Kodit të Fillimit të Shpejtë

Integro TTS.ai në çdo gjuhë me API-në tonë REST

Python Popullore

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Universale

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

Format i përshtatshëm OpenAI Shko

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Merr çelësin tënd të API-së falas

Çfarë ndërtojnë zhvilluesit me TTS.ai

Modele dhe aplikime të përbashkëta të integrimit

AI Chatbots & Asistentë

Shto daljen e zërit tek chatbot apo asistenti i AI. Përgjigjet e LLM-it nëpërmjet TTS për ndërfaqet e aktivizuara me zë. Kokoro ofron kohëzgjatje nën një sekond për biseda në kohë reale. Sesame CSM gjeneron biseda me kohëzgjatje natyrale.

Përgjigja LLM tek pipeline e fjalimit
Kokoro
Fjalimi i bisedës me Sesame CSM
Shtimi i audios

Aplikacionet e zërit dhe të lëvizshëm

Ndërto aplikacione të aktivizuara me zë për mobile, instrumente të açesibilitetit, aplikacione leximi dhe platforma të mësimit të gjuhës. API jonë REST punon me çdo platformë mobile. Shkarko file audio ose transmeto drejtpërsëdrejti tek klienti.

React Native, Flutter, Swift, Kotlin
Aplikativë të açesibilitetit dhe leximit
Platforma për mësimin e gjuhës
Gjenerati audio

Produktët SaaS

Mundësitë e zërit të etiketës së bardhë në produktin tuaj SaaS. Shto TTS, STT, klonimin e zërit dhe përpunimin e audios si funksione në platformën tuaj. Përdor API tonë si backend të zërit pa menaxhuar infrastrukturën e GPU.

Funksionet e zërit
Nuk duhet infrastrukturë GPU
Pagu për përdorim
20+ modele për t'u ofruar përdoruesve tuaj

Automatizimi i Pipeline

Integro gjenerimin e zërit në CI/CD pipelines, automatizimin e përmbajtjes dhe procesimin e grupeve të punës. Gjeneroni mijëra skedarë audio nga të dhënat e tabelave, automatizoni prodhimin e podcast-eve ose ndërtoni pipelines e lokalizimit të përmbajtjes.

Përpunimi i grupeve nëpërmjet API
Përmbajtja e lokalizimit
Integrimi CI/CD
Tabela e llogarive për automatikimin e audios

Shiko dokumentacionin e plotë të API

Specifikimet e API

E ndërtuar për aplikacionet e prodhimit

20+

Modelet TTS

100+

Zërat

30+

Gjuhë

<1s

Kokoro

Regjistrohu falas — 15,000 karakterë

Pyetje të shpeshta

Pyetje të zakonshme rreth API të zhvilluesit TTS.ai

Po. API jonë ndjek formatin e foljes audio OpenAI. Nëse po përdorni bibliotekën klient OpenAI Python ose JavaScript, mund të kaloni tek TTS.ai duke ndryshuar parametrat base_url dhe api_key. Kodi juaj ekzistues punon pa modifikime.

Kokoro gjeneron audion në më pak se 1 sekond për fjalitë tipike. CosyVoice 2 suporton daljen e rrjedhës për një kohë të perceptuar edhe më të ulët. Për chatbots dhe asistentët e zërit, koha e përgjithshme e udhëtimit është zakonisht 1-3 sekonda në varësi të gjatësisë së tekstit dhe zgjedhjes së modelit.

Modelet e lira (Kokoro, Piper, VITS, MeloTTS) janë krejtësisht të lira. Modelet standarde përdorin 2x karaktere për 1K tekst. Modelet Premium përdorin 4x karaktere për 1K tekst. Regjistrohu pa pagesë me 15,000 karaktere. Planet fillojnë nga $9/muaj për 500,000 karaktere.

Po. Ngarko një shembull të referencës audio (5-30 sekonda) tek pika përfundimtare e klonimit të zërit, pastaj përdor ID e zërit të klonuar në kërkesat e mëvonshme TTS. Modelet që suportojnë klonimin përfshijnë CosyVoice 2, Chatterbox, Fish Speech dhe GPT-SoVITS.

Niveli i lirë ka kufizim të normës bazë (3 kërkesa në orë pa një llogari). Planet e paguar kanë kufizim të madh të normës të përshtatshëm për aplikativët e prodhimit. Kontaktoni me ne për kërkesat e nivelit të ndërmarrjes.

WAV (i pakompresosur, cilësia më e lartë), MP3 (i kompresuar, file më të vegjël), OGG (format i hapur) dhe FLAC (kompresim pa humbje). Specifikoni formatin në kërkesën tuaj. E paracaktuar është WAV me shkallën e shembullit nativ të modelit.

Po. Kombinimi i API-së sonë TTS me një model të foljes në tekst dhe një LLM për të ndërtuar një kanal të plotë të ndihmësve të zërit. Kokoro ofron një kohëzgjatje prej nën një sekonde ideale për biseda në kohë reale. CosyVoice 2 mbështet daljen e rrjetit për kohë të ndjeshme më të ulët përgjigje.

CosyVoice 2 dhe Kokoro suportojnë daljen e audios në streaming ku copëzat e audios janë të paraqitura ndërsa ato gjenerohen. Kjo redukton kohën e bytes së parë për aplikacionet në kohë reale si asistentët e zërit dhe përvojat interaktive.

API kthen kodet e gjendjes HTTP standarde. Zbaton backoff eksponenciale për gabimet 5xx dhe përgjigjet e kufizuara të shpejtësisë. Për aplikativët kritikë të misionit, shto një rresht me logjikë përsëritje. API jonë ka kohë të lartë të punës por trajtimi i qëndrueshëm i gabimeve është gjithmonë i rekomanduar.

Po. Pikat përfundimtare /v1/voices dhe /v1/models kthejnë lista JSON të të gjithë zërave dhe modeleve në dispozicion me metatë dhënat e tyre (suport gjuhësh, vlerësime cilësie, vlerësime shpejtësie dhe nivel çmimi). Përdori këto për të ndërtuar zgjedhësit dinamikë të modeleve në aplikimin tënd.

Modelet e lira (Kokoro, Piper, VITS, MeloTTS) shërbejnë si një sandbox efektive pasi kushton zero kreditë. Testoni integrimin tuaj me modelet e lira, pastaj kaloni tek modelet premium në prodhim duke ndryshuar parametrat e modelit. Nuk është i nevojshëm asnjë mjedis i veçantë testimi.

Shumica e modeleve tona janë me burim të hapur dhe mund të jenë të vetë-pritura. Megjithatë, vetë-pritja kërkon burime të rëndësishme GPU (ne përdorim 4x NVIDIA Tesla P40 me 96GB VRAM të përgjithshme). API ofron një alternativë të kusht-efektshme pa menazhimin e infrastrukturës.

5.0/5 (1)

Gati për të ndërtuar me AI të zërit?

Merr çelësin tënd të API-së dhe fillo ndërtimin. 15 kredite në regjistrim, modele të lira në dispozicion, dokumentacion tërësor.

Regjistrohu pa pagesë Shiko çmimin

API e Tekstit në Fjalë për zhvilluesit

Provoje tani

Të pëlqen TTS.ai?

Funksionet e API për zhvilluesit

API e thjeshtë REST

OpenAI-Compatible

Modele në dispozicion

Sub-Second Latency

API e klonimit të zërit

Formate të shumta

Modelet më të mira për integrimin e zhvilluesve

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Si të integrosh API-në e TTS

Merr çelësin tuaj API

Telefonata e parë

Zgjidh modelin tënd

Shko tek prodhimi

Shembuj të Kodit të Fillimit të Shpejtë

Çfarë ndërtojnë zhvilluesit me TTS.ai

AI Chatbots & Asistentë

Aplikacionet e zërit dhe të lëvizshëm

Produktët SaaS

Automatizimi i Pipeline

Specifikimet e API

Pyetje të shpeshta

A është API e përshtatshme me formatin OpenAI TTS?

Cila është vonesa për aplikimet në kohë reale?

Si funksionon çmimi për përdorimin e API?

A mund të përdor klonimin e zërit nëpërmjet API?

A ka ndonjë kufizim të shpejtësisë?

Çfarë formatesh audio kthen API?

A mund të përdor API për të ndërtuar një asistent zëri apo chatbot?

A ka një WebSocket ose një API streaming?

Si i trajtoj gabimet dhe riprovimet në prodhim?

Mund të listoj zërat dhe modelet në dispozicion në mënyrë programatike?

A ka një mjedis të rerës apo të testimit?

A mund të vetë-host modelet në vend të përdorimit të API?

Gati për të ndërtuar me AI të zërit?