អត្ថបទ​ទៅ​ការ​និយាយ API សម្រាប់​អ្នក​អភិវឌ្ឍន៍

បង្កើតកម្មវិធីដែលអនុញ្ញាតឱ្យមានសំឡេងជាមួយ REST API របស់យើង។ បន្ថែមអត្ថបទទៅជាសំឡេងធម្មជាតិ, ការចម្លងសំឡេង, ការនិយាយទៅជាអត្ថបទនិងដំណើរការអូឌីយ៉ូទៅកម្មវិធីរបស់អ្នក, chatbots, អ្នកជំនួយការសំឡេងនិងផលិតផល SaaS ។ ទ្រង់ទ្រាយ OpenAI ឆបគ្នា, ម៉ូដែល 20 +, ការរួមបញ្ចូលសាមញ្ញ។

REST API មនុស្សយន្ត​ជជែក​កំសាន្ត កម្មវិធី​សំឡេងName ផលិតផល SaaS ស្វ័យប្រវត្តិ

សាកល្បង​វា​ឥឡូវ

ឥតគិតថ្លៃ​ជាមួយ Kokoro, Piper, VITS, MeloTTS
អូឌីយ៉ូ​ដែល​បាន​បង្កើត​របស់​អ្នក​នឹង​លេចឡើង​នៅ​ទីនេះ
បាន​បង្កើត
ទាញយក
ស្រឡាញ់ TTS.ai? ប្រាប់មិត្តភក្តិរបស់អ្នក!

លក្ខណៈពិសេស API សម្រាប់​អ្នក​អភិវឌ្ឍន៍

អ្វី​ដែល​អ្នក​ត្រូវការ​ដើម្បី​ស្ថាបនា​កម្មវិធី​ដែល​អាច​និយាយ​បាន

REST API ធម្មតា

សំណើ POST មួយ​ដើម្បី​បង្កើត​ការ​និយាយ & # 160; ។ សំណើ JSON ការ​ឆ្លើយតប​អូឌីយ៉ូ & # 160; ។ ធ្វើការ​ជាមួយ​ភាសា​កម្មវិធី​ណាមួយ​ដែល​គាំទ្រ HTTP & # 160; ។

ឆបគ្នា​ជាមួយ OpenAI

Drop- ក្នុង ការ ជំនួស សម្រាប់ OpenAI TTS API. ប្តូរ base_url និង កូនសោ API របស់ អ្នក - កូដ បច្ចុប្បន្ន ធ្វើការ ភ្លាមៗ.

24+ ម៉ូដែលដែលអាចរកបាន

ចូលដំណើរការ​ម៉ូដែល​នីមួយៗ​តាមរយៈ API មួយ ។ ប្ដូរ​ម៉ូដែល​ដោយ​ផ្លាស់ប្ដូរ​ប៉ារ៉ាម៉ែត្រ​មួយ ។ ប្រៀបធៀប​គុណភាព ល្បឿន និង​តម្លៃ ។

ការ​ពន្យារ​រង​វិនាទី

Kokoro បង្កើត​អូឌីយ៉ូ​ក្នុង​រយៈពេល​ក្រោម ១ វិនាទី ។ ល្អ​ឥតខ្ចោះ​សម្រាប់​កម្មវិធី​ជជែក​កំសាន្ត​ពេលវេលា​ពិត កម្មវិធី​ជំនួយ​សំឡេង និង​កម្មវិធី​អន្តរកម្ម ។

API ក្លូន​សំឡេង

ក្លូន​សំឡេង​ណាមួយ​ពី​គំរូ​អូឌីយ៉ូ​ខ្លី​តាម​រយៈ API & # 160; ។ ប្រើ​សំឡេង​ក្លូន​សម្រាប់​ជំនាន់​បន្ទាប់​ទាំងអស់ & # 160; ។

ទ្រង់ទ្រាយ​ច្រើន

លទ្ធផល​ជា WAV, MP3, OGG ឬ FLAC & # 160; ។ ជ្រើស​អត្រា​គំរូ និង​ជម្រៅ​ប៊ីត & # 160; ។ គាំទ្រ​អូឌីយ៉ូ​ស្ទ្រីម​សម្រាប់​កម្មវិធី​ពេលវេលា​ពិត & # 160; ។

ម៉ូដែល​ល្អបំផុត​សម្រាប់​ការ​រួមបញ្ចូល​អ្នក​អភិវឌ្ឍន៍

ជ្រើស​ម៉ូដែល​ត្រឹមត្រូវ​សម្រាប់​ល្បឿន​កម្មវិធី​របស់​អ្នក គុណភាព និង​តម្រូវការ​តម្លៃ

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

ល្អបំផុត​សម្រាប់ & # 160; ៖ ម៉ូដែលលឿនបំផុត - sub-second latency, ល្អឥតខ្ចោះសម្រាប់កម្មវិធីពេលវេលាពិតនិង chatbots

ព្យាយាម Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 ការ​ក្លូន​សំឡេង

ល្អបំផុត​សម្រាប់ & # 160; ៖ ស្ទ្រីម TTS ជាមួយ​ការ​ក្លូន​សំឡេង​សម្រាប់​កម្មវិធី​ជំនួយការ​សំឡេង

ព្យាយាម CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

ល្អបំផុត​សម្រាប់ & # 160; ៖ AI ការ​សន្ទនា​ជាមួយ​ការ​កំណត់​ពេល​វេលា​ធម្មជាតិ​សម្រាប់ chatbot និង​សំឡេង​ជំនួយការ

ព្យាយាម Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

ល្អបំផុត​សម្រាប់ & # 160; ៖ ម៉ូដែល​តែ​ស៊ីភីយូ​ដោយ​ឥត​គិត​ថ្លៃ​សម្រាប់​កម្មវិធី​កម្រិត​ខ្ពស់​ដែល​មាន​តម្លៃ​ឥណទាន​សូន្យ

ព្យាយាម Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

ល្អបំផុត​សម្រាប់ & # 160; ៖ ការ​បង្កើត​អូឌីយ៉ូ​ជាមួយ​បែបផែន​សំឡេង​សម្រាប់​កម្មវិធី​ច្នៃប្រឌិត និង​កំសាន្ត

ព្យាយាម Bark

តើធ្វើដូចម្តេចដើម្បីបញ្ចូល TTS API

ចាប់ពីចុះឈ្មោះរហូតដល់ការហៅ API ដំបូងក្នុងរយៈពេល5នាទី

1

យក​សោ API របស់​អ្នក

ចុះឈ្មោះដោយឥតគិតថ្លៃនិងបង្កើតកូនសោ API ពី dashboard គណនីរបស់អ្នក. 15,000 តួអក្សររួមបញ្ចូល។

2

ធ្វើ​ការ​ហៅ​ដំបូង​របស់​អ្នក

POST ទៅ / v1 / tts ជាមួយអត្ថបទ, ម៉ូដែល, និងសំឡេង. ទទួលបានបៃអូឌីយ៉ូត្រឡប់មកវិញ. ក្រោម5បន្ទាត់នៃកូដ.

3

ជ្រើស​ម៉ូដែល​របស់​អ្នក

សាកល្បង​ម៉ូដែល​ផ្សេង​គ្នា​សម្រាប់​ករណី​ប្រើ​របស់​អ្នក ។ ប្រៀបធៀប​ល្បឿន គុណភាព និង​តម្លៃ​ក្នុង​មួយ​ជំនាន់ ។

4

ផ្ញើ​ទៅ​ផលិតកម្ម

មាត្រដ្ឋានជាមួយតួអក្សរបង់ប្រាក់តាមដែលអ្នកទៅ។ គ្មានដែនកំណត់អត្រាលើផែនការដែលបានបង់។ ត្រួតពិនិត្យការប្រើប្រាស់នៅក្នុង dashboard របស់អ្នក។

ឧទាហរណ៍​កូដ​ចាប់ផ្ដើម​រហ័ស

បញ្ចូល TTS.ai ក្នុងភាសាណាមួយជាមួយ REST API របស់យើង

Python ពេញនិយម
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL សកល
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
ទ្រង់ទ្រាយ​ឆបគ្នា​ជាមួយ OpenAI ទម្លាក់​ចូល
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

តើអ្នកអភិវឌ្ឍន៍បង្កើតជាមួយ TTS.ai

លំនាំ​ការ​បញ្ចូល​គ្នា​ទូទៅ និង​កម្មវិធី

AI Chatbots និង​អ្នក​ជំនួយការ

បន្ថែមលទ្ធផលសំឡេងទៅ chatbot ឬអ្នកជំនួយការ AI របស់អ្នក។ ចម្លើយ LLM បំពង់តាមរយៈ TTS សម្រាប់ចំណុចប្រទាក់ដែលអនុញ្ញាតឱ្យមានសំឡេង។ Kokoro ផ្គត់ផ្គង់ការពន្យារពេលក្រោមវិនាទីសម្រាប់ការសន្ទនាពេលវេលាពិត។ Sesame CSM បង្កើតការនិយាយការសន្ទនាជាមួយនឹងការកំណត់ពេលវេលាធម្មជាតិ។

  • ការ​ឆ្លើយតប LLM ទៅ​បំពង់​និយាយ
  • ភាព​យឺត​ពេល​រង​វិនាទី​ជាមួយ Kokoro
  • ការ​និយាយ​ជាមួយ Sesame CSM
  • លទ្ធផល​អូឌីយ៉ូ​ស្ទ្រីម

កម្មវិធី​សំឡេង និង​ចល័តName

បង្កើតកម្មវិធីចល័តដែលអនុញ្ញាតឱ្យមានសំឡេង, ឧបករណ៍ងាយស្រួលប្រើ, កម្មវិធីអាននិងវេទិការៀនភាសា. REST API របស់យើងធ្វើការជាមួយគ្រោងការណ៍ចល័តណាមួយ. ទាញយកឯកសារអូឌីយ៉ូឬស្ទ្រីមដោយផ្ទាល់ទៅម៉ាស៊ីនភ្ញៀវ.

  • React ដើម Flutter Swift Kotlin
  • កម្មវិធី​មធ្យោបាយ​ងាយស្រួល និង​អាន
  • វេទិកា​រៀន​ភាសា
  • ការ​បង្កើត​មាតិកា​អូឌីយ៉ូ

ផលិតផល SaaS

បន្ថែម TTS, STT, ក្លូនសំឡេងនិងដំណើរការអូឌីយ៉ូជាលក្ខណៈពិសេសនៅក្នុងវេទិការបស់អ្នក។ ប្រើ API របស់យើងជា backend សំឡេងរបស់អ្នកដោយមិនចាំបាច់គ្រប់គ្រងហេដ្ឋារចនាសម្ព័ន្ធ GPU ។

  • លក្ខណៈ​ពិសេស​សំឡេង​ស្លាក​ស
  • គ្មាន​មូលដ្ឋាន​គ្រឹះ GPU ដែល​ត្រូវការ
  • តម្លៃ​បង់​តាម​ការ​ប្រើ
  • 20+ ម៉ូដែលដើម្បីផ្តល់ជូនអ្នកប្រើរបស់អ្នក

បំពង់​ស្វ័យប្រវត្តិ

បញ្ចូលការបង្កើតសំឡេងទៅក្នុងបំពង់ CI / CD ស្វ័យប្រវត្តិកម្មមាតិកានិងលំហូរការងារដំណើរការ batch ។ បង្កើតឯកសារអូឌីយ៉ូរាប់ពាន់ពីទិន្នន័យសន្លឹកបៀស្វ័យប្រវត្តិកម្មផលិតកម្មផតខាស់ឬស្ថាបនាបំពង់ការបកប្រែមាតិកា ។

  • ដំណើរការ​បាច់​តាម​រយៈ API
  • បំពង់​ការ​កំណត់​ទីតាំង​មាតិកា
  • ការ​បញ្ចូល​គ្នា CI/CD
  • សន្លឹក​បញ្ជី​ទៅ​ស្វ័យប្រវត្តិ​អូឌីយ៉ូ

ការ​បញ្ជាក់ API

ស្ថាបនា​សម្រាប់​កម្មវិធី​ផលិតកម្ម

20+

ម៉ូដែល TTS

100+

សំឡេង

30+

ភាសា

<1s

ការ​ពន្យារ (Kokoro)

សំណួរ​ដែល​សួរ​ញឹកញាប់

សំណួរ​ទូទៅ​អំពី​កម្មវិធី​អភិវឌ្ឍន៍ TTS.ai API

បាទ. API របស់យើងតាមទ្រង់ទ្រាយការនិយាយអូឌីយ៉ូ OpenAI. ប្រសិនបើអ្នកកំពុងប្រើបណ្ណាល័យម៉ាស៊ីនភ្ញៀវ OpenAI Python ឬ JavaScript អ្នកអាចប្តូរទៅ TTS.ai ដោយផ្លាស់ប្តូរប៉ារ៉ាម៉ែត្រ base_url និង api_key ។ កូដដែលមានស្រាប់របស់អ្នកធ្វើការដោយគ្មានការកែប្រែ។

Kokoro បង្កើតអូឌីយ៉ូក្នុងរយៈពេលក្រោម 1 វិនាទីសម្រាប់ឃ្លាធម្មតា។ CosyVoice2គាំទ្រលទ្ធផលស្ទ្រីមសម្រាប់ភាពយឺតយ៉ាវដែលមើលឃើញទាប។ សម្រាប់ chatbots និងអ្នកជំនួយការសំឡេងពេលវេលាធ្វើដំណើរជុំសរុបជាធម្មតាគឺ 1-3 វិនាទីអាស្រ័យលើប្រវែងអត្ថបទនិងជម្រើសម៉ូដែល។

ម៉ូដែលឥតគិតថ្លៃ (Kokoro, Piper, VITS, MeloTTS) គឺឥតគិតថ្លៃទាំងស្រុង។ ម៉ូដែលស្តង់ដារប្រើតួអក្សរ 2x ក្នុងមួយអត្ថបទ 1K ។ ម៉ូដែលប្រាក់រង្វាន់ប្រើតួអក្សរ 4x ក្នុងមួយអត្ថបទ 1K ។ ចុះឈ្មោះដោយឥតគិតថ្លៃជាមួយតួអក្សរ 15,000 ។ ផែនការចាប់ផ្តើមនៅ $9 / ខែសម្រាប់ 500,000 តួអក្សរ។

បាទ/ ចាស & # 160; ។ ផ្ទុក​ឧទាហរណ៍​អូឌីយ៉ូ​យោង​ឡើង​វិញ (5- 30 វិនាទី) ទៅ​កាន់​ចំណុច​បញ្ចប់​ក្លូន​សំឡេង បន្ទាប់​មក​ប្រើ​លេខ​សម្គាល់​សំឡេង​ក្លូន​ក្នុង​សំណើ TTS បន្ទាប់ & # 160; ។ ម៉ូដែល​ដែល​គាំទ្រ​ការ​ក្លូន​រួម​មាន CosyVoice2Chatterbox Fish Speech និង GPT- SoVITS & # 160; ។

កម្រិតឥតគិតថ្លៃមានកំណត់អត្រាមូលដ្ឋាន (3 សំណើក្នុងមួយម៉ោងដោយគ្មានគណនី) ។ ផែនការដែលបានបង់ប្រាក់មានដែនកំណត់អត្រាដ៏ធំទូលាយដែលសមស្របសម្រាប់កម្មវិធីផលិតកម្ម។ ទាក់ទងមកយើងខ្ញុំសម្រាប់តម្រូវការដំណើរការកម្រិតសហគ្រាស។

WAV (មិន​បាន​បង្ហាប់ គុណភាព​ខ្ពស់​បំផុត) MP3 (បាន​បង្ហាប់ ឯកសារ​តូច​ជាង) OGG (ទ្រង់ទ្រាយ​បើក) និង FLAC (ការ​បង្ហាប់​គ្មាន​ការ​បាត់បង់) & # 160; ។ បញ្ជាក់​ទ្រង់ទ្រាយ​ក្នុង​សំណើ​របស់​អ្នក & # 160; ។ លំនាំដើម​គឺ WAV នៅ​អត្រា​គំរូ​ដើម​របស់​ម៉ូដែល & # 160; ។

មែន។ រួមបញ្ចូល TTS API របស់យើងជាមួយម៉ូដែលនិយាយទៅអត្ថបទនិង LLM ដើម្បីបង្កើតបំពង់ជំនួយការសំឡេងពេញលេញ។ Kokoro ផ្តល់នូវការពន្យារពេលក្រោមវិនាទីដែលសមស្របសម្រាប់ការសន្ទនាពេលពិត។ CosyVoice2គាំទ្រការចេញផ្សាយស្ទ្រីមសម្រាប់ពេលវេលាឆ្លើយតបដែលមើលឃើញទាបជាង។

CosyVoice2និង Kokoro គាំទ្រ​លទ្ធផល​អូឌីយ៉ូ​ស្ទ្រីម​ដែល​បាន​ផ្ដល់​នូវ​ផ្នែក​អូឌីយ៉ូ​ដែល​ពួក​វា​ត្រូវ​បាន​បង្កើត & # 160; ។ វា​បន្ថយ​ពេល​វេលា​ទៅ​បៃ​ដំបូង​សម្រាប់​កម្មវិធី​ពេល​ពិត​ដូចជា​អ្នក​ជំនួយការ​សំឡេង និង​បទពិសោធន៍​អន្តរកម្ម & # 160; ។

API ត្រឡប់កូដស្ថានភាព HTTP ស្តង់ដារ. អនុវត្ត backoff និមិត្តសញ្ញាសម្រាប់កំហុស 5xx និងអត្រាឆ្លើយតបដែនកំណត់. សម្រាប់កម្មវិធីសំខាន់ៗបន្ថែមជួរជាមួយតក្កវិជ្ជាព្យាយាមឡើងវិញ. API របស់យើងមានពេលវេលាដំណើរការខ្ពស់ប៉ុន្តែការដោះស្រាយកំហុសរឹងមាំត្រូវបានផ្ដល់អនុសាសន៍ជានិច្ច.

បាទ/ ចាស & # 160; ។ ចំណុច​បញ្ចប់ / v1/ voices និង / v1/ models ត្រឡប់​បញ្ជី JSON នៃ​សំឡេង និង​ម៉ូដែល​ដែល​មាន​ទាំងអស់​ជាមួយ​នឹង​ទិន្នន័យ​មេតា​របស់​ពួក​វា (ការ​គាំទ្រ​ភាសា ការ​វាយតម្លៃ​គុណភាព ការ​វាយតម្លៃ​ល្បឿន និង​កម្រិត​តម្លៃ) & # 160; ។ ប្រើ​ពួក​វា​ដើម្បី​បង្កើត​កម្មវិធី​ជ្រើស​ម៉ូដែល​ថាមវន្ត​ក្នុង​កម្មវិធី​របស់​អ្នក & # 160; ។

ម៉ូដែល​ឥត​គិត​ថ្លៃ (Kokoro, Piper, VITS, MeloTTS) ធ្វើ​ជា​ប្រអប់​ខ្សាច់​ដែល​មាន​ប្រសិទ្ធភាព​ចាប់​តាំង​ពី​ពួកគេ​ចំណាយ​សូន្យ​ពិន្ទុ & # 160; ។ សាកល្បង​ការ​បញ្ចូល​គ្នា​របស់​អ្នក​ជាមួយ​នឹង​ម៉ូដែល​ឥត​គិត​ថ្លៃ បន្ទាប់​មក​ប្ដូរ​ទៅ​ម៉ូដែល​ពិសេស​ក្នុង​ការ​ផលិត​ដោយ​ផ្លាស់ប្ដូរ​ប៉ារ៉ាម៉ែត្រ​ម៉ូដែល & # 160; ។ គ្មាន​បរិស្ថាន​សាកល្បង​ដាច់​ដោយ​ឡែក​ដែល​ត្រូវការ​ទេ & # 160; ។

ម៉ូដែលភាគច្រើនរបស់យើងគឺជាប្រភពបើកចំហហើយអាចត្រូវបានរៀបចំដោយខ្លួនឯង។ ទោះជាយ៉ាងណាក៏ដោយការរៀបចំដោយខ្លួនឯងត្រូវការធនធាន GPU សំខាន់ (យើងប្រើ 4x NVIDIA Tesla P40 ជាមួយ 96GB VRAM សរុប) ។ API ផ្តល់នូវជម្រើសដែលមានតំលៃសមរម្យដោយគ្មានការគ្រប់គ្រងហេដ្ឋារចនាសម្ព័ន្ធ។
5.0/5 (1)

តើ​យើង​អាច​ធ្វើ​អ្វី​បាន​ប្រសើរ​ឡើង & # 160;? មតិ​យោបល់​របស់​អ្នក​ជួយ​យើង​ជួសជុល​បញ្ហា & # 160; ។

ត្រៀមខ្លួន​រួចរាល់​ហើយ​ដើម្បី​សាងសង់​ជាមួយ AI សំឡេង?

ទទួលបានកូនសោ API ឥតគិតថ្លៃរបស់អ្នកនិងចាប់ផ្តើមសាងសង់. 50 ពិន្ទុលើការចុះឈ្មោះ, ម៉ូដែលឥតគិតថ្លៃដែលអាចប្រើបាន, ឯកសារទូលំទូលាយ.