Текст за говор API за разработчици

Изграждане на глас-включени приложения с нашите REST API. Добавяне на естествен текст-то-шпик, клониране на глас, говор-то-текст, и аудио обработка към вашите приложения, чатботи, гласов асистент, и SaaS продукти. OpenAI-съответстващ формат, 20+ модели, проста интеграция.

РЕЗУЛЬТАТНО АПИ Чатботи Гласови приложения Продукти на SaaS Автоматизиране

Опитай сега.

Безплатно с Кокоро, Пайпър, ВИТС, МелоТТС
Твоето генерирано аудио ще се появи тук
Създаден
Изтегляне
Обичай ТТСай, кажи на приятелите си!

API функции за разработчици

Всичко, от което се нуждаете, за да изградите приложения с глас

Обикновено API

Един POST искане за генериране на реч. JSON искане, аудио отговор. Работи с всеки език за програмиране, който поддържа HTTP.

Компатибилно на OpenAI

Drop-in замяна на OpenAI TTS API. Превключете base_url и API ключ — съществуващ код работи незабавно.

24+ Модели на разположение

Достъп до всеки модел чрез един API. Превключете модели чрез промяна на един параметър. Сравните качество, скорост и разходи.

Подвтора латенция

Кокоро генерира аудио в под 1 секунда. Перфектно за чатботи в реално време, гласов асистент и интерактивни приложения.

Гласово клониране API

Клониране на всеки глас от къса аудио проба чрез API. Използвайте клонирани гласове за всички следващи поколения.

Многоформати

Изход като WAV, MP3, OGG или FLAC. Изберете скоростта на извадката и дълбочина на бита. Ускоряване на аудио поддръжката за приложения в реално време.

Най-добрите модели за интеграция на разработчиците

Изберете правилния модел за скоростта, качеството и разходите на вашето приложение

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Най-добро за: Най-бърз модел — подсекунда латенция, идеална за приложения в реално време и чатботи

Опитай. Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Гласово клониране

Най-добро за: Пренасочване на TTS с клониране на глас за приложения за гласов асистент

Опитай. CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Най-добро за: Разговорен интелигентен интелект с естествен момент за чатбот и асистентски глас

Опитай. Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Най-добро за: Безплатен модел на процесора само за високообемни приложения с нулева кредитна цена

Опитай. Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Най-добро за: Аудио генериране със звукови ефекти за творчески и развлекателни приложения

Опитай. Bark

Как да се интегрира API на TTS

От регистрация до първия API повикване в под 5 минути

1

Вземи си API ключ

Регистрирайте се безплатно и генерирате API ключ от вашата акаунтна табло. 15 000 символа включени.

2

Обади се за първи път

POST до /v1/tts с текст, модел и глас. Вземи аудио байти обратно. Под 5 редове код.

3

Избор на вашия модел

Тествайте различни модели за вашия случай на употреба. Сравни скорост, качество и разходи на поколение.

4

Кораб за производство

Скалирайте с символи за изплащане на пари. Без ограничения на цените на платените планове. Наблюдавайте използването в вашата табло.

Примери за бързо стартиране на кода

Интегриране на TTS.ai в който и да е език с нашия REST API

Python Популярни
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Универсален
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Компактен формат на OpenAI Влизане
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Какво изграждат разработчиците с TTS.ai

Общи модели и приложения за интеграция

AL Чатботи и асистентки

Добавете гласов изход към вашия чатбот или AI асистент. Pipe LLM отговорите чрез TTS за гласови интерфейси. Kokoro предоставя подсекунда латенция за разговори в реално време. Sesame CSM генерира разговорно говорене с естествен момент.

  • LLM отговор на речния тръбопровод
  • Подсекунда латенция с Кокоро
  • Разговорна реч със Сезаме CSM
  • Ускоряване на аудио изхода

Мобилни & Гласови приложения

Изграждане на мобилни приложения с глас, инструменти за достъпност, четене на приложения и езикови платформи за обучение. Нашият REST API работи с всяка мобилна рамка. Сваляне на аудио файлове или поток директно към клиента.

  • Реакция на местните, флейтър, Суифт, Котлин
  • Достъпност и приложения за четене
  • Езикови платформи за обучение
  • Създаване на аудио съдържание

Продукти на SaaS

Бела маркировка Гласови възможности във вашия продукт SaaS. Добавете TTS, STT, гласово клониране, и аудио обработка като функции във вашата платформа. Използвайте нашия API като ваш гласов поддръжник, без да управлявате GPU инфраструктура.

  • Гласови характеристики на белата маркировка
  • Не се нуждае от инфраструктура на ГПС
  • Цените за заплащане за ползване
  • 20+ модели за предлагане на Вашите потребители

Автоматизиране на тръбите

Интегриране на генерирането на глас в CI/CD тръбопроводи, автоматизация на съдържанието и преработка на партиди работни потоки. Генериране на хиляди аудио файлове от електронни данни, автоматизиране на производството на подкаст, или изграждане на съдържание локализирани тръбопроводи.

  • Пакетна обработка чрез API
  • Местопроводи за локализиране на съдържанието
  • Интеграция на CI/CD
  • Електронна таблица за аудио автоматизация

API спецификации

Изградени за производствени приложения

20+

Модели на ТТС

100+

Гласове

30+

Езици

<1s

Латенция (Кокоро)

Често задавани въпроси

Общи въпроси за TTS.ai разработчик API

Да. Нашият API следва формата на аудио реч OpenAI. Ако използвате библиотеката OpenAI Python или клиента на JavaScript, можете да преминете към TTS.ai, като промените параметрите base_url и api_key. Съществуващият ви код работи без промяна.

Kokoro генерира аудио в под 1 секунда за типични изречения. CosyVoice 2 поддържа стрийминг изход за още по-ниска възприеманата латенция. За чатботи и гласови асистентки, общото време за кръгла писта е обикновено 1-3 секунди в зависимост от дължината на текста и избора на модела.

Безплатни модели (Kokoro, Piper, VITS, MeloTTS) са напълно безплатни. Стандартните модели използват 2x символи на 1K от текст. Премиум модели използват 4x символи на 1K от текста. Регистрирайте се безплатно с 15 000 символа. Плановете започват от 9 / месец за 500 000 символа.

Да. Качете референтна аудио проба (5-30 секунди) към крайната точка на клонирането на гласа, след това използвайте клонирания гласов ID в следващите TTS искания. Модели, които подкрепят клонирането включват CosyVoice 2, Chatterbox, Fish Speech и GPT-SoviTS.

Безплатен ступеон има основни лихвени ограничения (3 искания на час без сметка). Платените планове имат щедри лихвени проценти, подходящи за производството. Свържете се с нас за изискванията за преминаване на предприятията.

WAV (некомпресиран, най-високо качество), MP3 (компресиран, по-малки файлове), OGG (отворен формат) и FLAC (безгубен компресия). Определяне на формата във вашето искане. По подразбиране е WAV при началната пробата на модела.

Да. Комбиниране на нашия TTS API с реч-то-текст модел и LLM за изграждане на пълен глас асистент трубопровод. Kokoro осигурява подсекунда латенция идеален за реално време разговор. CosyVoice 2 поддържа поток на изход за още по-ниски възприемано време на отговор.

CosyVoice 2 и Kokoro поддържат поток аудио изход, където аудио парчета се доставят, тъй като те са генерирани. Това намалява времето-то-първо-байт за реално време приложения като глас асистентки и интерактивни преживявания.

API връща стандартни HTTP кодове на състоянието. Въведете експоненциални резервни копия за 5xx грешки и ограничаване на скоростта отговори. За приложенията, които са критични за мисията, добавете редица с логиката на повторение. Нашият API има високо време, но винаги се препоръчва устойчиво обработване на грешки.

Да. The /v1/voices and /v1/models крайните точки връщат JSON списъци на всички налични гласове и модели с техните метадани (езикова поддръжка, качествени рейтинги, скоростни рейтинги и ценообразуване). Използвайте тези за изграждане на динамични модели селектори във вашето приложение.

Безплатни модели (Kokoro, Piper, VITS, MeloTTS) служат като ефективен пясъчник, тъй като те струват нулеви кредити. Тествайте интеграцията си с безплатни модели, след това преминавайте към премиум модели в производството чрез промяна на параметра на модела. Няма нужда от отделна тестова среда.

Повечето от нашите модели са отворени източници и могат да бъдат самостоятелни. Въпреки това, самостоятелното хостинг изисква значителни ресурси на GPU (ние използваме 4x NVIDIA Tesla P40 с общо 96GB VRAM). API осигурява рентабилна алтернатива без управление на инфраструктурата.
5.0/5 (1)

Какво можем да подобрим? Твоята обратна връзка ни помага да решим проблемите.

Готови ли сте за изграждане с гласова интелигенция?

Вземи си безплатния API ключ и започнете да строите. 15 000 символа на регистрация, безплатни модели на разположение, цялостна документация.