گزارش اشکال / درخواست ویژگی

رابط کاربری متن به گفتار برای توسعه‌دهندگانName

اضافه کردن متن طبیعی به گفتار، شبیه‌سازی صدا، گفتار به متن، و پردازش صوتی به برنامه‌های شما، چت‌بات‌ها، دستیارهای صوتی، و محصولات SaaS. فرمت سازگار با OpenAI، ۲۰+ مدل، یکپارچه‌سازی ساده.

API REST ربات‌های گفتگو کاربردهای صدا محصولات SaaS خودکارسازی

ویرایشگر کامل TTS مستندات API

حالا امتحانش کن

0/500

آزاد با Kokoro, Piper, VITS, MeloTTS

صدای تولید شده شما در اینجا ظاهر خواهد شد

باز کردن ویرایشگر کامل TTS

ویژگی‌های API برای توسعه‌دهندگان

همه چیزهایی که برای ساخت برنامه‌های کاربردی فعال‌کننده صدا نیاز دارید

API REST ساده

یک درخواست POST برای تولید گفتار. درخواست JSON، پاسخ صوتی. با هر زبان برنامه‌نویسی که از HTTP پشتیبانی می‌کند کار می‌کند.

سازگار با OpenAI

جایگزینی Drop-in برای OpenAI TTS API. base_url و کلید API خود را عوض کنید — کد موجود بلافاصله کار می‌کند.

مدلهای موجود

دسترسی به هر مدل از طریق یک API واحد. مدل‌ها را با تغییر یک پارامتر عوض کنید. کیفیت، سرعت و هزینه را مقایسه کنید.

تأخیر زیر ثانیه

Kokoro صدا را در کمتر از یک ثانیه تولید می‌کند. برای چت‌بات‌های زمان واقعی، دستیارهای صوتی و برنامه‌های کاربردی تعاملی عالی است.

API شبیه‌سازی صدا

شبیه‌سازی هر صدایی از یک نمونه صوتی کوتاه از طریق API. برای تمام نسل‌های بعدی از صداهای شبیه‌سازی شده استفاده کنید.

قالبهای متعدد

خروجی به صورت WAV ، MP3 ، OGG ، یا FLAC. نرخ نمونه‌گیری و عمق بیت را انتخاب کنید. پشتیبانی از جریان صوتی برای کاربردهای زمان واقعی.

بهترین مدل‌ها برای یکپارچه‌سازی توسعه‌دهنده

مدل مناسب برای سرعت، کیفیت و نیازهای هزینهٔ برنامه‌ی کاربردی خود را انتخاب کنید

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

سریع 5/5

بهترین برای: سریع‌ترین مدل - تأخیر زیر ثانیه، ایده‌آل برای برنامه‌های کاربردی زمان واقعی و چت‌بات‌ها

سعي کن Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

متوسط 5/5 شبیه‌سازی صدا

بهترین برای: پخش TTS با شبیه‌سازی صدا برای برنامه‌های کمکی صدا

سعي کن CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

آهسته 5/5

بهترین برای: هوش مصنوعی مکالمه‌ای با زمان‌بندی طبیعی برای چت‌بات و صدای دستیار

سعي کن Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

سریع 3/5

بهترین برای: مدل آزاد، CPU-only برای برنامه‌های کاربردی حجم بالا با هزینه اعتبار صفر

سعي کن Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

آهسته 4/5

بهترین برای: تولید صدا با جلوه‌های صوتی برای کاربردهای خلاقانه و سرگرم‌کننده

سعي کن Bark

چگونگی ادغام API TTS

از ثبت نام تا اولین تماس API کمتر از پنج دقیقه

کلید API خود را دریافت کنید

برای ثبت نام رایگان و تولید یک کلید API از صفحه نمایش حساب خود. ۱۵۰۰۰ کاراکتر شامل.

انجام اولین تماس شما

POST به /v1/tts با متن، مدل و صدا. بايت هاي صوتي رو برگردون. زير 5 خط کد.

انتخاب مدل شما

مدل‌های مختلف را برای مورد استفاده خود امتحان کنید. سرعت، کیفیت و هزینه هر نسل را مقایسه کنید.

ارسال به تولید

مقیاس‌پذیری با کاراکترهای پرداختی. هیچ محدودیتی در نرخ در برنامه‌های پرداختی وجود ندارد. استفاده را در دایرکتوری خود نظارت کنید.

مثالهای کد شروع سریع

TTS.ai را در هر زبانی با API REST ما ادغام کنید

Python محبوب

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL جهانی

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

قالب سازگار با OpenAI برگرد

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

کلید API رایگان خود را دریافت کنید

توسعه‌دهندگان با TTS.ai چه می‌سازند

الگوهای یکپارچه سازی و برنامه‌های کاربردی مشترک

جادوگرها و دستیارهای AI

خروجی صدا را به چت‌بات یا دستیار هوش مصنوعی خود اضافه کنید. پاسخ‌های LLM را از طریق TTS برای واسط‌های فعال‌شده با صدا هدایت کنید. Kokoro تأخیر زیر ثانیه‌ای برای مکالمات زمان واقعی ارائه می‌دهد. Sesame CSM گفتار مکالماتی را با زمان‌بندی طبیعی تولید می‌کند.

پاسخ LLM به خط لوله گفتار
تأخیر زیر ثانیه با Kokoro
وب‌گاه رسمی شرکت سی‌اس‌ام
خروجی جریان صوتی

کاربردهای تلفن همراه و صوتی

برنامه‌های کاربردی تلفن همراه، ابزارهای دسترسی‌پذیری، برنامه‌های کاربردی خواندن و پلتفرم‌های یادگیری زبان را ایجاد کنید. API REST ما با هر چارچوب تلفن همراهی کار می‌کند. فایل‌های صوتی را دانلود کنید یا مستقیماً به کلاینت پخش کنید.

React Native، Flutter، Swift، Kotlin
برنامه‌های دسترسی‌پذیری و خواندن
پلتفرم‌های آموزش زبان
تولید محتوای صوتی

محصولات SaaS

قابلیت‌های صدای لیبل سفید در محصول SaaS شما. اضافه کردن TTS، STT، شبیه‌سازی صدا، و پردازش صوتی به عنوان ویژگی‌ها در پلتفرم خود. از API ما به عنوان پشته صدای خود بدون مدیریت زیرساخت GPU استفاده کنید.

ویژگی‌های صدای برچسب سفید
نیازی به زیرساخت GPU نیست
قیمت‌گذاری بر اساس استفاده
20+ مدل برای ارائه به کاربران شما

خط لوله خودکارسازی

تولید صدا را در خط لوله‌های CI/CD، خودکارسازی محتوا و جریان‌های کاری پردازش بسته یکپارچه کنید. هزاران فایل صوتی را از داده‌های صفحه گسترده تولید کنید، تولید پادکست را خودکار کنید، یا خط لوله‌های محلی سازی محتوا را بسازید.

پردازش دسته از طریق API
خط لوله محلی‌سازی محتوا
یکپارچه‌سازی CI/CD
صفحه گسترده برای خودکارسازی صوتی

نمایش مستندات کامل API

مشخصات API

برای برنامه‌های کاربردی تولید ساخته شده

20+

مدلهای TTS

100+

صداها

30+

زبانها

<1s

تأخیر (Kokoro)

ثبت نام رایگان — ۱۵۰۰۰ کاراکتر

پرسشهای متداول

فهرست شهرهای استرالیا "TTS.ai Developer API".

بله. API ما از قالب گفتار صوتی OpenAI پیروی می‌کند. اگر از کتابخانه کارگزار OpenAI Python یا JavaScript استفاده می‌کنید، می‌توانید با تغییر پارامترهای base_url و api_key به TTS.ai تغییر دهید. کد موجود شما بدون تغییر کار می‌کند.

Kokoro صدا را در کمتر از یک ثانیه برای جملات معمولی تولید می‌کند. CosyVoice 2 از خروجی جریانی برای تأخیر حتی کمتری پشتیبانی می‌کند. برای چت‌بات‌ها و دستیارهای صوتی، زمان چرخش کل معمولاً ۱ تا ۳ ثانیه است که بستگی به طول متن و انتخاب مدل دارد.

مدل‌های رایگان (Kokoro, Piper, VITS, MeloTTS) کاملاً رایگان هستند. مدل‌های استاندارد از کاراکترهای ۲x در هر ۱K متن استفاده می‌کنند. مدل‌های پرمیوم از کاراکترهای ۴x در هر ۱K متن استفاده می‌کنند. با ۱۵۰۰۰ کاراکتر رایگان ثبت نام کنید. برنامه‌ها از ۹ دلار در ماه برای ۵۰ کاراکتر شروع می‌شوند.

بله. یک نمونه صوتی مرجع (۵-۳۰ ثانیه) را به نقطه پایانی شبیه‌سازی صدا بارگذاری کنید، سپس از شناسه صدای شبیه‌سازی شده در درخواست‌های TTS بعدی استفاده کنید. مدل‌هایی که شبیه‌سازی را پشتیبانی می‌کنند شامل CosyVoice ۲، Chatterbox، Fish Speech و GPT-SoVITS هستند.

سطح رایگان محدودیت نرخ پایه دارد (۳ درخواست در ساعت بدون حساب). برنامه‌های پرداختی محدودیت‌های نرخ سخاوتمندانه‌ای دارند که برای برنامه‌های کاربردی تولید مناسب هستند. برای نیازمندی‌های کارایی سطح شرکت با ما تماس بگیرید.

WAV) فشرده نشده ، بالاترین کیفیت (، MP3 (فشرده شده ، پرونده‌های کوچکتر ، OGG (شکل باز) ، و FLAC (فشرده سازی بدون از دست دادن. قالب را در درخواست خود مشخص کنید. پیش‌فرض WAV با نرخ نمونه‌گیری بومی مدل است.

بله. ترکیب TTS API ما با یک مدل گفتار به متن و یک LLM برای ساخت یک خط لوله کمکی کامل صدا. Kokoro تأخیر زیر ثانیه ای را برای مکالمات زمان واقعی ایده‌آل فراهم می‌کند. CosyVoice 2 از خروجی جریان برای زمان پاسخ حتی کمتری پشتیبانی می‌کند.

CosyVoice 2 و Kokoro از خروجی صوتی جریانی پشتیبانی می‌کنند که در آن قطعات صوتی همان‌طور که تولید می‌شوند تحویل داده می‌شوند. این زمان تا اولین بایت را برای برنامه‌های کاربردی زمان واقعی مانند دستیار صوتی و تجربه‌های تعاملی کاهش می‌دهد.

رابط برنامه‌نویسی کدهای وضعیت استاندارد HTTP را برمی‌گرداند. برای خطاهای 5xx و پاسخهای حد نرخ ، نمایی را پیاده‌سازی کنید. برای کاربردهای حیاتی ، صفی با منطق تلاش مجدد اضافه کنید. رابط برنامه‌نویسی ما زمان کار بالا دارد ، اما همیشه توصیه می‌شود که خطاهای قابل تنظیم را مدیریت کند.

بله. نقاط پایانی /v1/voices و /v1/models فهرست‌های JSON از تمام صداها و مدل‌های موجود با فراداده‌هایشان (پشتیبانی از زبان، رتبه‌های کیفیت، رتبه‌های سرعت و سطح قیمت) را برمی‌گردانند. از اینها برای ساختن انتخاب‌کننده‌های مدل پویا در برنامه‌تان استفاده کنید.

مدلهای آزاد (Kokoro ، Piper ، VITS ، MeloTTS) به عنوان یک sandbox مؤثر عمل می‌کنند ، زیرا هزینه اعتبار صفر دارند. یکپارچه‌سازی خود را با مدلهای آزاد امتحان کنید ، سپس با تغییر پارامتر مدل به مدلهای پرمیوم در تولید تغییر دهید. هیچ محیط تست جداگانه‌ای نیاز نیست.

بیشتر مدل‌های ما منبع باز هستند و می‌توانند خود میزبانی شوند. با این حال، خود میزبانی نیاز به منابع قابل توجهی از GPU دارد (ما از 4x NVIDIA Tesla P40 با مجموع 96GB VRAM استفاده می‌کنیم).

5.0/5 (1)

آماده ساختن با هوش مصنوعی صدا؟

کلید API رایگان خود را دریافت کنید و شروع به ساختن کنید. ۵۰ کرید با ثبت نام، مدل‌های رایگان در دسترس، مستندات جامع.

ثبت نام نمایش قیمت

رابط کاربری متن به گفتار برای توسعه‌دهندگانName

حالا امتحانش کن

دوست داريد TTS.ai؟ به دوستانتون بگو!

ویژگی‌های API برای توسعه‌دهندگان

API REST ساده

سازگار با OpenAI

مدلهای موجود

تأخیر زیر ثانیه

API شبیه‌سازی صدا

قالبهای متعدد

بهترین مدل‌ها برای یکپارچه‌سازی توسعه‌دهنده

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

چگونگی ادغام API TTS

کلید API خود را دریافت کنید

انجام اولین تماس شما

انتخاب مدل شما

ارسال به تولید

مثالهای کد شروع سریع

توسعه‌دهندگان با TTS.ai چه می‌سازند

جادوگرها و دستیارهای AI

کاربردهای تلفن همراه و صوتی

محصولات SaaS

خط لوله خودکارسازی

مشخصات API

پرسشهای متداول

آیا API با فرمت OpenAI TTS سازگار است؟

زمان انتظار برای برنامه‌های زمان واقعی چیست؟

قیمت گذاری برای استفاده از API چگونه کار می‌کند؟

آیا می‌توانم از شبیه‌سازی صدا از طریق API استفاده کنم؟

محدوديت سرعت وجود داره؟

چه شکل‌های صوتی API برمی‌گردد؟

آیا می‌توانم از API برای ساختن یک دستیار صوتی یا چت‌بات استفاده کنم؟

آیا یک WebSocket یا API جریان وجود دارد؟

چگونه می‌توانم با خطاها و تلاش مجدد در تولید مقابله کنم؟

میتونم صداها و مدلهای موجود رو به صورت برنامه نویسی لیست کنم؟

آیا یک sandbox یا محیط آزمایش وجود دارد؟

می‌توانم مدل‌ها را به جای استفاده از API خودم میزبانی کنم؟

آماده ساختن با هوش مصنوعی صدا؟