API- текст за говор за развивачите

Изградете апликации со глас со нашиот REST API. Додадете го природниот текст- во- говор, клонирањето на глас, говор- во- текст, и обработка на аудио во вашите апликации, чатоти, гласовни асистентки и SaaS производи. Компатибилен со OpenAI формат, 20+ модели, едноставна интеграција.

РЕЗУЛЬТАТНА АПИ Чатоти Гласовни апликации Продукти на SaaS Автоматизација

Обиди се сега

Слободен со Кокоро, Пајпер, ВИТС, Мелотс
Вашата генерирана аудио снимка ќе се појави тука
Генерирано
Симнување
Кажи им на пријателите!

API карактеристики за развивачите

Се што ви треба за да ги изградите апликациите оспособени со глас

Едноставен REST API

Едно барање за POST за генерирање говор. JSON барање, аудио одговор. Работи со секој програмски јазик кој го поддржува HTTP.

OpenAI- компатибилен

Празна замена за OpenAI TTS API. Сменете го вашиот base_url и API клуч — постојниот код работи веднаш.

24+ Модели достапни

Пристапи на секој модел преку еден API. Смени го моделот со менување на еден параметар. Спореди го квалитетот, брзината и цената.

Подвтората латенција

Кокоро генерира аудио за помалку од една секунда. Совршено за вистински чат-боти, гласовни асистенти и интерактивни апликации.

API за клонирање на гласот

Клонирајте секој глас од краток аудио примерок преку API. Користете клонирани гласови за сите наредни генерации.

Повеќекратни формати

Излези како WAV, MP3, OGG или FLAC. Изберете брзина на примероци и длабочина на битови. Објавувам аудио поддршка за апликации во реално време.

Најдобри модели за интеграција на развивачот

Изберете го вистинскиот модел за брзината, квалитетот и трошочните барања на вашата апликација

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Најдобро за: Најбрз модел — подсекунда латенција, идеална за апликации во реално време и чатботови

Обиди се Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Гласовно клонирање

Најдобро за: Стремирање на TTS со клонирање на гласот за апликации за гласовен асистент

Обиди се CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Најдобро за: Разговорен ВИ со природен тајминг за чатбот и асистентски глас

Обиди се Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Најдобро за: Слободен, процесорски модел само за апликации со висок обем со нулта кредитна цена

Обиди се Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Најдобро за: Генерација на аудио со звучни ефекти за креативни и забавни апликации

Обиди се Bark

Како да се интегрира АПИ на ТТС

Од пријава до првиот повик за API за помалку од 5 минути

1

Земи си го API клучот

Пријавете се бесплатно и генерирајте API клуч од вашата табла со табла. Вклучително и 15.000 знаци.

2

Повикај го својот прв повик

ПОСТ до /v1/ tts со текст, модел и глас. Земете аудио бајти назад. Под 5 редови код.

3

Изберете го вашиот модел

Испробајте различни модели за вашата употреба. Споредете ја брзината, квалитетот и трошоците по генерација.

4

Брод во производство

Скалирај со знаци за плата како што си ти. Нема ограничувања на платените планови. Надгледувајте ја употребата во вашата табла со инструменти.

Примери за брзо стартување на кодот

Интегрирај TTS.ai во било кој јазик со нашиот REST API

Python Популарен
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Универзално
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
OpenAI- компатибилен формат Спуштање
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Што градат развивачите со TTS.ai

Заеднички образци и апликации за интеграција

AL Чатоти и помошници

Додај гласовен излез на вашиот чатбот или асистент на AI. Pipe LLM одговори преку TTS за интерфејси со глас. Kokoro доставува подсекунда латенција за разговори во реално време. Sesame CSM генерира разговорен говор со природно време.

  • Одговорот на ЛЛМ на говороводот
  • Подсекунда латенција со Кокоро
  • Разговорен говор со Сезаме ЦСМ
  • Го пренесувам аудио излезот

Мобилни и гласови апликации

Изгради мобилни апликации со глас, алатки за пристапност, апликации за читање и платформи за учење на јазикот. Нашиот REST API работи со секоја мобилна рамка. Симни ги аудио датотеките или пренесувајте директно кон клиентот.

  • Реагирај се, трепери, Свифт, Котлин
  • Пристапност и апликации за читање
  • Платформи за учење на јазикот
  • Генерирање на аудио содржина

Продукти на SaaS

Способности за гласање со бела ознака во вашиот производ SaaS. Додај TTS, STT, клонирање на гласот и процесирање на аудио како можности во вашата платформа. Користете го нашиот API како вашиот гласовен задник без управување со GPU инфраструктурата.

  • Својства на гласот со бела ознака
  • Нема потреба од инфраструктура на ГПУ
  • Цени за плата за користење
  • 20+ модели за да им понудите на вашите корисници

Автоматски цевки

Интегрирајте ја генерацијата на гласот во ЦИ/ЦД гасоводите, автоматизацијата на содржините и процесот на процесуална обработка. Генерирајте илјадници аудио датотеки од податоците од табелата, автоматизирајте производство на подкаст или градете ги локализираните гасоводите за содржина.

  • Пакетна обработка преку API
  • Нафтоводите за локализација на содржината
  • Интеграција на CI/CD
  • Табела за автоматизација на аудио

API спецификации

Изградена за производство на апликации

20+

TTS модели

100+

Гласови

30+

Јазици

<1s

Латенција (Кокоро)

Често поставувани прашања

Заеднички прашања за TTS.ai програмер API

Да. Нашата API го следи форматот на аудио говор OpenAI. Ако ја користите библиотеката OpenAI Python или JavaScript клиент, може да се префрлите на TTS.ai со менување на base_url и api_ key параметри. Постојниот код работи без модификација.

Kokoro генерира аудио за помалку од 1 секунда за типични реченици. CosyVoice 2 го поддржува пренесувањето на излезот за уште пониско догледувано латенција. За чатоботи и гласовни асистентки, вкупното време за тркалање е обично 1-3 секунди во зависност од должината на текстот и изборот на моделот.

Слободни модели (Kokoro, Piper, VITS, MelotTS) се целосно слободни. Стандардни модели користат 2x знаци на 1K текст. Премиум модели користат 4x знаци на 1K текст. Се пријавуваат бесплатно со 15.000 знаци. Плановите почнуваат од 9$ месечно за 500,000 знаци.

Да. Внесете референтен аудио примерок (5- 30 секунди) на крајниот крај на клонирањето на гласот, а потоа користете го клонираниот гласовен ИД во наредните TTS барања. Модели кои поддржуваат клонирање вклучуваат CosyVoice 2, Chatterbox, Fish Speech и GPT-SoviTS.

Слободниот степен има ограничување на основните стапки (3 барања на час без сметка). Платените планови имаат великодушни ограничувања на стапките соодветни за производство на апликации. Контактирајте со нас за услови на проток на претпријатија.

WAV (некомпресирани, највисок квалитет), MP3 (компресирани, помали датотеки), OGG (отворен формат) и FLAC (безгубно компресија). Наведете го форматот во вашето барање. Стандардно е WAV според стапката на математичниот примерок на моделот.

Да. Спојете го нашиот TTS API со модел од говор кон текст и LLM за да изградите комплетен гласовен асистент на гасоводот. Kokoro обезбедува подсекунда латенција идеална за разговор во реално време. CosyVoice 2 го поддржува пренесувањето на излезот за уште пониско гледано време на одговор.

Пријатен глас 2 и Кокоро поддржуваат пренесување аудио излез каде што се доставуваат аудио парчиња додека се генерираат. Ова го намалува времето-на-прво-бајт за апликации во реално време како што се гласовните асистентки и интерактивни искуства.

API враќа стандардни HTTP- кодови за статусот. Имплементирајте експоненцијални резервни копии за 5xx грешки и ограничувања на брзината. За апликациите кои се критични за мисијата, додајте редица со логиката на повторување. Нашиот API има високо време, но секогаш се препорачува да се раководи со отпорни грешки.

Да. Исходните точки на /v1/ гласовите и /v1/modelите ги враќаат JSON списоците на сите достапни гласови и модели со нивните метаподатоци (јазична поддршка, квалитетни рејтинги, брзински рејтинги и ниво на цени). Користете ги за да изградите динамични селектори на модели во вашата апликација.

Бесплатни модели (Kokoro, Piper, VITS, MelotTS) служат како ефикасна песочничка бидејќи тие чинат нулти кредити. Проверете ја вашата интеграција со слободни модели, а потоа префрлете на премиум модели во производството со менување на параметрот на моделот. Не е потребна посебна пробна околина.

Повеќето од нашите модели се отворени и можат да бидат самодомаќини. Сепак, самодомаќинството бара значителни ресурси на ГПУ (ми користиме 4x NVIDIA Tesla P40 со вкупно 96GB VRAM).
5.0/5 (1)

Твоите повратни информации ни помагаат да ги решиме проблемите.

Подготвен за градење со гласовна интелигенција?

Земи си го бесплатниот API клуч и почни со изградба. 15 кредити за пријавување, бесплатни модели достапни, сеопфатна документација.