Паведаміць пра памылку / запыт на магчымасць

API пераўтварэньня тэксту ў мову для распрацоўшчыкаў

Стварайце галасавыя праграмы з дапамогай нашага REST API. Дадайце натуральнае ператварэньне тэксту ў гаворку, кланаваньне голасу, ператварэньне гаворкі ў тэкст і апрацоўку аўдыё да вашых праграмаў, чат-ботаў, галасавых памочнікаў і прадуктаў SaaS. Фармат, сумяшчальны з OpenAI, 20+ мадэляў, простая інтэграцыя.

API REST Чат- боты Галасовыя праграмыName Прадукты SaaS Аўтаматызацыя

Поўны рэдактар TTS Дакументацыя API

Паспрабуйце зараз

0/500

Свабодны з Kokoro, Piper, VITS, MeloTTS

Ваша створанае гучанне з' явіцца тут

Адкрыць поўны рэдактар TTS

Функцыі API для распрацоўшчыкаў

Усё неабходнае для стварэньня праграмаў з падтрымкай голасу

Просты REST APIComment

Адзін запыт POST для стварэння маўлення. Запыт JSON, адказ на гук. Працуе з любой мовай праграмавання, якая падтрымлівае HTTP.

Сумяшчальны з OpenAI

Замена OpenAI TTS API. Змяніце base_ url і ключ API — існуючы код будзе працаваць адразу.

Даступныя 24+ мадэлі

Даступ да кожнай мадэлі праз адзіны API. Змяніць мадэлі, змяніўшы адзін параметр. Параўнаць якасць, хуткасць і кошт.

Затрымка падсекунды

Kokoro генеруе гук менш чым за 1 секунду. Ідэальна падыходзіць для чат-ботаў рэальнага часу, галасавых памочнікаў і інтэрактыўных праграмаў.

API кланаваньня голасу

Клонаваць любы голас з кароткага аўдыёсемплера праз API. Выкарыстоўваць клонаваныя голасу для ўсіх наступных пакаленняў.

Некалькі фарматаў

Вывад у фармаце WAV, MP3, OGG, або FLAC. Выберыце дыскавую частату і глыбіню. Падтрымка аўдыё- трансляцыі для праграм рэальнага часу.

Найлепшыя мадэлі для інтэграцыі распрацоўшчыкаў

Выберыце правільную мадэль для вашага прыкладання

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Захаваць 5/5

Лепшы для: Найхутчэйшая мадэль — субсекундная латэнцыя, ідэальна падыходзіць для праграм рэальнага часу і чат-ботаў

Спроба Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Носьбіт 5/5 Клонаванне голасу

Лепшы для: Трансляцыя TTS з клонаваньнем голасу для галасавых дапаможных праграмаў

Спроба CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Павольны 5/5

Лепшы для: Размоўны штучны інтэлект з натуральным часаваньнем для чат-бота і голасу памочніка

Спроба Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Захаваць 3/5

Лепшы для: Бясплатная мадэль толькі з працэсарам для вялікіх праграмаў з нулявым коштам крэдыту

Спроба Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Павольны 4/5

Лепшы для: Генэрацыя аўдыё з гукавымі эфектамі для творчых і забаўляльных праграмаў

Спроба Bark

Як інтэграваць TTS API

Ад рэгістрацыі да першага выкліку API менш за 5 хвілін

Атрымаць ваш ключ API

Зарэгіструйцеся бясплатна і стварыце ключ API з панэлі кіравання вашага рахунку. Уключана 50 крэдытных балаў.

Зрабіць першы званок

POST у /v1/tts з тэкстам, мадэллю і голасам. Атрымаць аўдыёбайты назад. За 5 радкоў кода.

Выберыце мадэль

Праверце розныя мадэлі для вашага выпадку выкарыстання. Параўнайце хуткасць, якасць і кошт за пакаленне.

Адправіць у вытворчасць

Скаляваць з pay-as-you-go крэдыт. Няма абмежаванняў на платныя планы. Назіраць за выкарыстаннем у вашай панэлі кіравання.

Прыклады кода для хуткага запуску

Інтэграцыя TTS.ai на любую мову з нашым REST API

Python Папулярны

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL Універсальны

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

Фармат, сумяшчальны з OpenAI Выпадальны спіс

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

Атрымаць бясплатны ключ API

Што распрацоўшчыкі ствараюць з TTS.ai

Агульныя інтэграцыйныя шаблоны і праграмы

Чат-боты і памочнікіComment

Дадайце галасавы выхад да вашага чат-бота ці асістэнта AI. Адпраўляйце адказы LLM праз TTS для інтэрфэйсаў з падтрымкай голасу. Kokoro забяспечвае субсекундную задержку для размоваў у рэальным часе. Sesame CSM генеруе размоўную мову з натуральным часам.

Comment=Адказ LLM на канвеер гаворкі
Затрымка ў секундах з Kokoro
Размоўная мова з Sesame CSM
Аўдыёвывад

Name=Мобільныя праграмыName

Стварайце мабільныя праграмы з падтрымкай голасу, інструмэнты даступнасьці, праграмы для чытання і платформы для вывучэння моваў. Наш REST API працуе з любым мабільным фрэймворкам. Сцягвайце аўдыёфайлы або транслюйце іх прама ў кліент.

React Native, Flutter, Swift, KotlinName
Даступнасьць і праграмы для чытання
Платформы для вывучэння мовы
Генерацыя аўдыё- зместу

Прадукты SaaS

Гласовыя магчымасьці ў вашым SaaS-прадукце. Дадайце TTS, STT, кланаваньне голасу і апрацоўку аўдыё як магчымасьці ў вашай платформе. Выкарыстоўвайце наш API як ваш голасовы backend без кіраваньня інфраструктурай GPU.

Функцыі галасаваньня White- label
Інфраструктура GPU не патрабуецца
Плата за выкарыстанне
20+ мадэляў, каб прапанаваць сваім карыстальнікам

Кантэйнеры аўтаматызацыі

Інтэграцыя генерацыі голасу ў канвееры CI/CD, аўтаматызацыю кантэнту і пакетную апрацоўку. Стварэньне тысячаў аўдыёфайлаў з табліц, аўтаматызацыя вытворчасьці падкастаў ці стварэньне канвеераў лакалізацыі кантэнту.

Пакетная апрацоўка праз API
Кантэйнеры лакалізацыі змесціва
Інтэграцыя CI/CD
Электронная табліца для аўтаматызацыі гуку

Праглядзець поўную дакументацыю API

Спецыфікацыі API

Збудаваны для вытворчых праграмаў

20+

Модэлі TTS

100+

Галасы

30+

МовыName

<1s

Затрымка (Kokoro)

Зарэгіструйцеся бясплатна — 15, 000 знакаў

Частыя пытанні

Частыя пытанні пра API распрацоўшчыка TTS.ai

Так. Наш API падтрымлівае фармат OpenAI для гукавой мовы. Калі вы карыстаецеся кліенцкай бібліятэкай OpenAI Python або JavaScript, вы можаце пераключыцца на TTS.ai змяніўшы параметры base_ url і api_ key. Ваш існуючы код працуе без зменаў.

Kokoro генеруе аўдыё менш чым за 1 секунду для звычайных слоў. CosyVoice 2 падтрымлівае стрымінгавы вывад для яшчэ больш нізкай затрымакі. Для чат- ботаў і галасавых памочнікаў, агульнае час паездкі звычайна складае 1- 3 секунды ў залежнасці ад даўжыні тэксту і выбару мадэлі.

Бясплатныя мадэлі (Kokoro, Piper, VITS, MeloTTS) каштуюць 0 крэдытных балаў. Стандартныя мадэлі каштуюць 2 крэдытных балаў за 1000 знакаў. Прэміум-мадэлі каштуюць 4 крэдытных балаў за 1000 знакаў. Зарэгіструйцеся бясплатна з 50 крэдытнымі баламі. Планы пачынаюцца ад $9/месяц за 500 крэдытных балаў.

Так. Загрузіць аўдыёсемпль (5- 30 секунд) у канечную кропку клонавання голасу, а затым выкарыстоўваць ідэнтыфікатар клонаванага голасу ў наступных запыце TTS. Модулі, якія падтрымліваюць клонаванне, уключаюць CosyVoice 2, Chatterbox, Fish Speech і GPT- SoVITS.

Бясплатны ўзровень мае абмежаванне хуткасці (3 запыты на гадзіну без рахунку). Плацежныя планы маюць шырокія абмежаванні хуткасці, падыходныя для прадукцыйных праграмаў. Звяжыцеся з намі па пытаннях прапускной здольнасці на ўзроўні прадпрыемства.

WAV (несціснуты, найвышэйшая якасць), MP3 (сціснуты, меншыя файлы), OGG (адкрыты фармат) і FLAC (сціснуты без страт). Вызначце фармат у запытах. Па змаўчанні - WAV з вызначанай частатой дыскавай запісу.

Так. Аб' яднаць наш TTS API з мадэллю пераўтварэння гаворкі ў тэкст і LLM, каб пабудаваць поўны канвеер галасавога памочніка. Kokoro забяспечвае субсекундную задержку, ідэальную для размоваў у рэальным часе. CosyVoice 2 падтрымлівае выхад у рэжыме струменевага перадачы для яшчэ больш кароткіх часоў адказу.

CosyVoice 2 і Kokoro падтрымліваюць аўдыявывад па струмені, дзе аўдыёчасткі перадаюцца пры іх стварэнні. Гэта скарачае час да першага байта для праграм рэальнага часу, такіх як галасавыя памочнікінтэрактыўны досвед.

API вяртае стандартныя коды стану HTTP. Выкарыстоўвайце экспаненцыяльны backoff для памылак 5xx і абмежавання хуткасці адказу. Для крытычных праграм дадайце чаргу з логікай паўторных спробаў. Наш API мае доўгі час працы, але заўсёды рэкамендуецца ўстойлівая апрацоўка памылак.

Так. Крайнія кропкі / v1/ voices і / v1/ models вяртаюць JSON- спісы ўсіх даступных галасоў і мадэляў з іх метаданымі (падтрымка мовы, ацэнка якасці, ацэнка хуткасці і ўзровень кошту). Выкарыстоўвайце іх для стварэння дынамічных выбіральнікаў мадэляў у вашай праграме.

Свабодныя мадэлі (Kokoro, Piper, VITS, MeloTTS) служаць эфектыўнай тэставай пляцоўкай, паколькі яны каштуюць нуля крэдытных балаў. Праверце інтэграцыю з свабоднымі мадэлямі, а затым пераключыцеся на прэміум- мадэлі ў вытворчасці, змяніўшы параметры мадэлі. Не патрабуецца асобнае тэставае асяроддзе.

Большасць нашых мадэляў маюць адкрыты зыходны код і могуць быць размешчаны самастойна. Аднак самастойнае размяшчэнне патрабуе значных рэсурсаў відэакарты (мы выкарыстоўваем 4x NVIDIA Tesla P40 з 96 ГБ VRAM). API забяспечвае эканамічную альтэрнатыву без кіравання інфраструктурай.

5.0/5 (1)

Вы гатовыя пабудаваць з дапамогай галасавага штучнага інтэлекту?

Атрымайце бясплатны ключ API і пачніце будаваць. 50 крэдытных балаў пры рэгістрацыі, даступныя бясплатныя мадэлі, поўная дакументацыя.

Падпісацца бясплатна Прагляд цаны

API пераўтварэньня тэксту ў мову для распрацоўшчыкаў

Паспрабуйце зараз

Любіце TTS.ai? Раскажыце сваім сябрам!

Функцыі API для распрацоўшчыкаў

Просты REST APIComment

Сумяшчальны з OpenAI

Даступныя 24+ мадэлі

Затрымка падсекунды

API кланаваньня голасу

Некалькі фарматаў

Найлепшыя мадэлі для інтэграцыі распрацоўшчыкаў

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

Як інтэграваць TTS API

Атрымаць ваш ключ API

Зрабіць першы званок

Выберыце мадэль

Адправіць у вытворчасць

Прыклады кода для хуткага запуску

Што распрацоўшчыкі ствараюць з TTS.ai

Чат-боты і памочнікіComment

Name=Мобільныя праграмыName

Прадукты SaaS

Кантэйнеры аўтаматызацыі

Спецыфікацыі API

Частыя пытанні

Ці сумяшчальны API з фарматам OpenAI TTS?

Які час чакання для праграм рэальнага часу?

Як працуюць цэны на выкарыстанне API?

Ці магу я выкарыстоўваць клонаванне голасу праз API?

Ці ёсць абмежаванне хуткасці?

Якія фарматы аўдыё API вяртае?

Ці магу я выкарыстоўваць API для стварэння галасавага памочніка або чат-бота?

Ці існуе WebSocket або API для трансляцыі?

Як я працую з памылкамі і паўторнымі спробамі ў вытворчасці?

Ці магу я праграмаваць спіс даступных галасоў і мадэляў?

Ці існуе пясчанка ці тэставае асяроддзе?

Ці магу я самастойна захоўваць мадэлі замест выкарыстання API?

Вы гатовыя пабудаваць з дапамогай галасавага штучнага інтэлекту?