API пераўтварэньня тэксту ў мову для распрацоўшчыкаў

Стварайце галасавыя праграмы з дапамогай нашага REST API. Дадайце натуральнае ператварэньне тэксту ў гаворку, кланаваньне голасу, ператварэньне гаворкі ў тэкст і апрацоўку аўдыё да вашых праграмаў, чат-ботаў, галасавых памочнікаў і SaaS-прадуктаў. OpenAI-сумяшчальны фармат, 24+ мадэлі, простая інтэграцыя.

API REST Чат- боты Галасовыя праграмыName Прадукты SaaS Аўтаматызацыя

Паспрабуйце зараз

0/500
Свабодны з Kokoro, Piper, VITS, MeloTTS
Your generated audio will appear here
Створана
0:00 0:00
Сцягнуць
Як TTS.ai? Раскажыце сваім сябрам!

Функцыі API для распрацоўшчыкаў

Усё неабходнае для стварэньня праграмаў з падтрымкай голасу

Просты REST APIComment

Адзін запыт POST для стварэння маўлення. Запыт JSON, адказ на гук. Працуе з любой мовай праграмавання, якая падтрымлівае HTTP.

Сумяшчальны з OpenAI

Замена OpenAI TTS API. Змяніце base_ url і ключ API — існуючы код будзе працаваць адразу.

Даступныя 24+ мадэлі

Даступ да кожнай мадэлі праз адзіны API. Змяніць мадэлі, змяніўшы адзін параметр. Параўнаць якасць, хуткасць і кошт.

Затрымка падсекунды

Kokoro генеруе гук менш чым за 1 секунду. Ідэальна падыходзіць для чат-ботаў рэальнага часу, галасавых памочнікаў і інтэрактыўных праграмаў.

API кланаваньня голасу

Клонаваць любы голас з кароткага аўдыёсемплера праз API. Выкарыстоўваць клонаваныя голасу для ўсіх наступных пакаленняў.

Некалькі фарматаў

Вывад у фармаце WAV, MP3, OGG, або FLAC. Выберыце дыскавую частату і глыбіню. Падтрымка аўдыё- трансляцыі для праграм рэальнага часу.

Найлепшыя мадэлі для інтэграцыі распрацоўшчыкаў

Выберыце правільную мадэль для вашага прыкладання

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

Лепшы для: Найхутчэйшая мадэль — субсекундная латэнцыя, ідэальна падыходзіць для праграм рэальнага часу і чат-ботаў

Спроба Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 Клонаванне голасу

Лепшы для: Трансляцыя TTS з клонаваньнем голасу для галасавых дапаможных праграмаў

Спроба CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

Лепшы для: Размоўны штучны інтэлект з натуральным часаваньнем для чат-бота і голасу памочніка

Спроба Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

Лепшы для: Бясплатная мадэль толькі з працэсарам для вялікіх праграмаў з нулявым коштам крэдыту

Спроба Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

Лепшы для: Генэрацыя аўдыё з гукавымі эфектамі для творчых і забаўляльных праграмаў

Спроба Bark

Як інтэграваць TTS API

Ад рэгістрацыі да першага выкліку API менш за 5 хвілін

1

Атрымаць ваш ключ API

Зарэгіструйцеся бясплатна і стварыце ключ API з панэлі кіравання вашага рахунку. Уключана 50 крэдытных балаў.

2

Зрабіць першы званок

POST у /v1/tts з тэкстам, мадэллю і голасам. Атрымаць аўдыёбайты назад. За 5 радкоў кода.

3

Выберыце мадэль

Праверце розныя мадэлі для вашага выпадку выкарыстання. Параўнайце хуткасць, якасць і кошт за пакаленне.

4

Адправіць у вытворчасць

Скаляваць з pay-as-you-go крэдыт. Няма абмежаванняў на платныя планы. Назіраць за выкарыстаннем у вашай панэлі кіравання.

Прыклады кода для хуткага запуску

Інтэграцыя TTS.ai на любую мову з нашым REST API

Python Папулярны
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL Універсальны
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
Фармат, сумяшчальны з OpenAI Выпадальны спіс
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Што распрацоўшчыкі ствараюць з TTS.ai

Агульныя інтэграцыйныя шаблоны і праграмы

Чат-боты і памочнікіComment

Дадайце галасавы выхад да вашага чат-бота ці асістэнта AI. Адпраўляйце адказы LLM праз TTS для інтэрфэйсаў з падтрымкай голасу. Kokoro забяспечвае субсекундную задержку для размоваў у рэальным часе. Sesame CSM генеруе размоўную мову з натуральным часам.

  • Comment=Адказ LLM на канвеер гаворкі
  • Затрымка ў секундах з Kokoro
  • Размоўная мова з Sesame CSM
  • Аўдыёвывад

Name=Мобільныя праграмыName

Стварайце мабільныя праграмы з падтрымкай голасу, інструмэнты даступнасьці, праграмы для чытання і платформы для вывучэння моваў. Наш REST API працуе з любым мабільным фрэймворкам. Сцягвайце аўдыёфайлы або транслюйце іх прама ў кліент.

  • React Native, Flutter, Swift, KotlinName
  • Даступнасьць і праграмы для чытання
  • Платформы для вывучэння мовы
  • Генерацыя аўдыё- зместу

Прадукты SaaS

Гласовыя магчымасьці ў вашым SaaS-прадукце. Дадайце TTS, STT, кланаваньне голасу і апрацоўку аўдыё як магчымасьці ў вашай платформе. Выкарыстоўвайце наш API як ваш голасовы backend без кіраваньня інфраструктурай GPU.

  • Функцыі галасаваньня White- label
  • Інфраструктура GPU не патрабуецца
  • Плата за выкарыстанне
  • 24+ мадэлі, каб прапанаваць сваім карыстальнікам

Кантэйнеры аўтаматызацыі

Інтэграцыя генерацыі голасу ў канвееры CI/CD, аўтаматызацыю кантэнту і пакетную апрацоўку. Стварэньне тысячаў аўдыёфайлаў з табліц, аўтаматызацыя вытворчасьці падкастаў ці стварэньне канвеераў лакалізацыі кантэнту.

  • Пакетная апрацоўка праз API
  • Кантэйнеры лакалізацыі змесціва
  • Інтэграцыя CI/CD
  • Электронная табліца для аўтаматызацыі гуку

Спецыфікацыі API

Збудаваны для вытворчых праграмаў

24+

Модэлі TTS

100+

Галасы

30+

МовыName

<1s

Затрымка (Kokoro)

Частыя пытанні

Частыя пытанні пра API распрацоўшчыка TTS.ai

Так. Наш API падпарадкоўваецца фармату OpenAI audio speech. Калі вы карыстаецеся кліенцкай бібліятэкай OpenAI Python або JavaScript, вы можаце пераключыцца на TTS. ai, змяніўшы параметры base_ url і api_ key. Ваш існуючы код працуе без зменаў.

Kokoro генеруе аўдыё менш чым за 1 секунду для звычайных слоў. CosyVoice 2 падтрымлівае стрымінгавы вывад для яшчэ больш нізкай затрымакі. Для чат- ботаў і галасавых памочнікаў, агульнае час паездкі звычайна складае 1- 3 секунды ў залежнасці ад даўжыні тэксту і выбару мадэлі.

Бясплатныя мадэлі (Kokoro, Piper, VITS, MeloTTS) каштуюць 0 крэдытных балаў. Стандартныя мадэлі каштуюць 2 крэдытных балаў за 1000 знакаў. Прэміум-мадэлі каштуюць 4 крэдытных балаў за 1000 знакаў. Зарэгіструйцеся бясплатна з 50 крэдытнымі баламі. Планы пачынаюцца ад $9/месяц за 500 крэдытных балаў.

Так. Загрузіць аўдыёсемпль (5- 30 секунд) у канечную кропку клонавання голасу, а затым выкарыстоўваць ідэнтыфікатар клонаванага голасу ў наступных запыце TTS. Модулі, якія падтрымліваюць клонаванне, уключаюць CosyVoice 2, Chatterbox, Fish Speech і GPT- SoVITS.

Бясплатны ўзровень мае абмежаванне хуткасці (3 запыты на гадзіну без рахунку). Плацежныя планы маюць шырокія абмежаванні хуткасці, падыходныя для прадукцыйных праграмаў. Звяжыцеся з намі па пытаннях прапускной здольнасці на ўзроўні прадпрыемства.

WAV (несціснуты, найвышэйшая якасць), MP3 (сціснуты, меншыя файлы), OGG (адкрыты фармат) і FLAC (сціснуты без страт). Вызначце фармат у запытах. Па змаўчанні - WAV з вызначанай частатой дыскавай запісу.

Так. Аб' яднаць наш TTS API з мадэллю пераўтварэння гаворкі ў тэкст і LLM, каб пабудаваць поўны канвеер галасавога памочніка. Kokoro забяспечвае субсекундную задержку, ідэальную для размоваў у рэальным часе. CosyVoice 2 падтрымлівае выхад у рэжыме струменевага перадачы для яшчэ больш кароткіх часоў адказу.

CosyVoice 2 і Kokoro падтрымліваюць аўдыявывад па струмені, дзе аўдыёчасткі перадаюцца пры іх стварэнні. Гэта скарачае час да першага байта для праграм рэальнага часу, такіх як галасавыя памочнікі і інтэрактыўны досвед.

API вяртае стандартныя коды стану HTTP. Выкарыстоўвайце экспаненцыяльны backoff для памылак 5xx і абмежавання хуткасці адказу. Для крытычных праграм дадайце чаргу з логікай паўторных спробаў. Наш API мае доўгі час працы, але заўсёды рэкамендуецца ўстойлівая апрацоўка памылак.

Так. Крайнія кропкі / v1/ voices і / v1/ models вяртаюць JSON- спісы ўсіх даступных галасоў і мадэляў з іх метаданымі (падтрымка мовы, ацэнка якасці, ацэнка хуткасці і ўзровень кошту). Выкарыстоўвайце іх для стварэння дынамічных выбіральнікаў мадэляў у вашай праграме.

Свабодныя мадэлі (Kokoro, Piper, VITS, MeloTTS) служаць эфектыўнай тэставай пляцоўкай, паколькі яны каштуюць нуля крэдытных балаў. Праверце інтэграцыю з свабоднымі мадэлямі, а затым пераключыцеся на прэміум- мадэлі ў вытворчасці, змяніўшы параметры мадэлі. Не патрабуецца асобнае тэставае асяроддзе.

Большасць нашых мадэляў маюць адкрыты зыходны код і могуць быць размешчаны самастойна. Аднак самастойнае размяшчэнне патрабуе значных рэсурсаў відэакарты (мы выкарыстоўваем 4x NVIDIA Tesla P40 з 96 ГБ VRAM). API забяспечвае эканамічную альтэрнатыву без кіравання інфраструктурай.
5.0/5 (1)

Вы гатовыя пабудаваць з дапамогай галасавага штучнага інтэлекту?

Атрымайце бясплатны ключ API і пачніце будаваць. 50 крэдытных балаў пры рэгістрацыі, даступныя бясплатныя мадэлі, поўная дакументацыя.