رابط کاربری متن به گفتار برای توسعه‌دهندگانName

اضافه کردن متن طبیعی به گفتار، شبیه‌سازی صدا، گفتار به متن، و پردازش صوتی به برنامه‌های شما، چت‌بات‌ها، دستیارهای صوتی، و محصولات SaaS. فرمت سازگار با OpenAI، ۲۰+ مدل، یکپارچه‌سازی ساده.

API REST ربات‌های گفتگو کاربردهای صدا محصولات SaaS خودکارسازی

حالا امتحانش کن

آزاد با Kokoro, Piper, VITS, MeloTTS
صدای تولید شده شما در اینجا ظاهر خواهد شد
تولید شده
بارگیری
دوست داريد TTS.ai؟ به دوستانتون بگو!

ویژگی‌های API برای توسعه‌دهندگان

همه چیزهایی که برای ساخت برنامه‌های کاربردی فعال‌کننده صدا نیاز دارید

API REST ساده

یک درخواست POST برای تولید گفتار. درخواست JSON، پاسخ صوتی. با هر زبان برنامه‌نویسی که از HTTP پشتیبانی می‌کند کار می‌کند.

سازگار با OpenAI

جایگزینی Drop-in برای OpenAI TTS API. base_url و کلید API خود را عوض کنید — کد موجود بلافاصله کار می‌کند.

مدلهای موجود

دسترسی به هر مدل از طریق یک API واحد. مدل‌ها را با تغییر یک پارامتر عوض کنید. کیفیت، سرعت و هزینه را مقایسه کنید.

تأخیر زیر ثانیه

Kokoro صدا را در کمتر از یک ثانیه تولید می‌کند. برای چت‌بات‌های زمان واقعی، دستیارهای صوتی و برنامه‌های کاربردی تعاملی عالی است.

API شبیه‌سازی صدا

شبیه‌سازی هر صدایی از یک نمونه صوتی کوتاه از طریق API. برای تمام نسل‌های بعدی از صداهای شبیه‌سازی شده استفاده کنید.

قالبهای متعدد

خروجی به صورت WAV ، MP3 ، OGG ، یا FLAC. نرخ نمونه‌گیری و عمق بیت را انتخاب کنید. پشتیبانی از جریان صوتی برای کاربردهای زمان واقعی.

بهترین مدل‌ها برای یکپارچه‌سازی توسعه‌دهنده

مدل مناسب برای سرعت، کیفیت و نیازهای هزینهٔ برنامه‌ی کاربردی خود را انتخاب کنید

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

بهترین برای: سریع‌ترین مدل - تأخیر زیر ثانیه، ایده‌آل برای برنامه‌های کاربردی زمان واقعی و چت‌بات‌ها

سعي کن Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 شبیه‌سازی صدا

بهترین برای: پخش TTS با شبیه‌سازی صدا برای برنامه‌های کمکی صدا

سعي کن CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

بهترین برای: هوش مصنوعی مکالمه‌ای با زمان‌بندی طبیعی برای چت‌بات و صدای دستیار

سعي کن Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

بهترین برای: مدل آزاد، CPU-only برای برنامه‌های کاربردی حجم بالا با هزینه اعتبار صفر

سعي کن Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

بهترین برای: تولید صدا با جلوه‌های صوتی برای کاربردهای خلاقانه و سرگرم‌کننده

سعي کن Bark

چگونگی ادغام API TTS

از ثبت نام تا اولین تماس API کمتر از پنج دقیقه

1

کلید API خود را دریافت کنید

برای ثبت نام رایگان و تولید یک کلید API از صفحه نمایش حساب خود. ۱۵۰۰۰ کاراکتر شامل.

2

انجام اولین تماس شما

POST به /v1/tts با متن، مدل و صدا. بايت هاي صوتي رو برگردون. زير 5 خط کد.

3

انتخاب مدل شما

مدل‌های مختلف را برای مورد استفاده خود امتحان کنید. سرعت، کیفیت و هزینه هر نسل را مقایسه کنید.

4

ارسال به تولید

مقیاس‌پذیری با کاراکترهای پرداختی. هیچ محدودیتی در نرخ در برنامه‌های پرداختی وجود ندارد. استفاده را در دایرکتوری خود نظارت کنید.

مثالهای کد شروع سریع

TTS.ai را در هر زبانی با API REST ما ادغام کنید

Python محبوب
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL جهانی
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
قالب سازگار با OpenAI برگرد
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

توسعه‌دهندگان با TTS.ai چه می‌سازند

الگوهای یکپارچه سازی و برنامه‌های کاربردی مشترک

جادوگرها و دستیارهای AI

خروجی صدا را به چت‌بات یا دستیار هوش مصنوعی خود اضافه کنید. پاسخ‌های LLM را از طریق TTS برای واسط‌های فعال‌شده با صدا هدایت کنید. Kokoro تأخیر زیر ثانیه‌ای برای مکالمات زمان واقعی ارائه می‌دهد. Sesame CSM گفتار مکالماتی را با زمان‌بندی طبیعی تولید می‌کند.

  • پاسخ LLM به خط لوله گفتار
  • تأخیر زیر ثانیه با Kokoro
  • وب‌گاه رسمی شرکت سی‌اس‌ام
  • خروجی جریان صوتی

کاربردهای تلفن همراه و صوتی

برنامه‌های کاربردی تلفن همراه، ابزارهای دسترسی‌پذیری، برنامه‌های کاربردی خواندن و پلتفرم‌های یادگیری زبان را ایجاد کنید. API REST ما با هر چارچوب تلفن همراهی کار می‌کند. فایل‌های صوتی را دانلود کنید یا مستقیماً به کلاینت پخش کنید.

  • React Native، Flutter، Swift، Kotlin
  • برنامه‌های دسترسی‌پذیری و خواندن
  • پلتفرم‌های آموزش زبان
  • تولید محتوای صوتی

محصولات SaaS

قابلیت‌های صدای لیبل سفید در محصول SaaS شما. اضافه کردن TTS، STT، شبیه‌سازی صدا، و پردازش صوتی به عنوان ویژگی‌ها در پلتفرم خود. از API ما به عنوان پشته صدای خود بدون مدیریت زیرساخت GPU استفاده کنید.

  • ویژگی‌های صدای برچسب سفید
  • نیازی به زیرساخت GPU نیست
  • قیمت‌گذاری بر اساس استفاده
  • 20+ مدل برای ارائه به کاربران شما

خط لوله خودکارسازی

تولید صدا را در خط لوله‌های CI/CD، خودکارسازی محتوا و جریان‌های کاری پردازش بسته یکپارچه کنید. هزاران فایل صوتی را از داده‌های صفحه گسترده تولید کنید، تولید پادکست را خودکار کنید، یا خط لوله‌های محلی سازی محتوا را بسازید.

  • پردازش دسته از طریق API
  • خط لوله محلی‌سازی محتوا
  • یکپارچه‌سازی CI/CD
  • صفحه گسترده برای خودکارسازی صوتی

مشخصات API

برای برنامه‌های کاربردی تولید ساخته شده

20+

مدلهای TTS

100+

صداها

30+

زبانها

<1s

تأخیر (Kokoro)

پرسشهای متداول

فهرست شهرهای استرالیا "TTS.ai Developer API".

بله. API ما از قالب گفتار صوتی OpenAI پیروی می‌کند. اگر از کتابخانه کارگزار OpenAI Python یا JavaScript استفاده می‌کنید، می‌توانید با تغییر پارامترهای base_url و api_key به TTS.ai تغییر دهید. کد موجود شما بدون تغییر کار می‌کند.

Kokoro صدا را در کمتر از یک ثانیه برای جملات معمولی تولید می‌کند. CosyVoice 2 از خروجی جریانی برای تأخیر حتی کمتری پشتیبانی می‌کند. برای چت‌بات‌ها و دستیارهای صوتی، زمان چرخش کل معمولاً ۱ تا ۳ ثانیه است که بستگی به طول متن و انتخاب مدل دارد.

مدل‌های رایگان (Kokoro, Piper, VITS, MeloTTS) کاملاً رایگان هستند. مدل‌های استاندارد از کاراکترهای ۲x در هر ۱K متن استفاده می‌کنند. مدل‌های پرمیوم از کاراکترهای ۴x در هر ۱K متن استفاده می‌کنند. با ۱۵۰۰۰ کاراکتر رایگان ثبت نام کنید. برنامه‌ها از ۹ دلار در ماه برای ۵۰۰۰۰۰ کاراکتر شروع می‌شوند.

بله. یک نمونه صوتی مرجع (۵-۳۰ ثانیه) را به نقطه پایانی شبیه‌سازی صدا بارگذاری کنید، سپس از شناسه صدای شبیه‌سازی شده در درخواست‌های TTS بعدی استفاده کنید. مدل‌هایی که شبیه‌سازی را پشتیبانی می‌کنند شامل CosyVoice ۲، Chatterbox، Fish Speech و GPT-SoVITS هستند.

سطح رایگان محدودیت نرخ پایه دارد (۳ درخواست در ساعت بدون حساب). برنامه‌های پرداختی محدودیت‌های نرخ سخاوتمندانه‌ای دارند که برای برنامه‌های کاربردی تولید مناسب هستند. برای نیازمندی‌های کارایی سطح شرکت با ما تماس بگیرید.

WAV) فشرده نشده ، بالاترین کیفیت (، MP3 (فشرده شده ، پرونده‌های کوچکتر ، OGG (شکل باز) ، و FLAC (فشرده سازی بدون از دست دادن. قالب را در درخواست خود مشخص کنید. پیش‌فرض WAV با نرخ نمونه‌گیری بومی مدل است.

بله. ترکیب TTS API ما با یک مدل گفتار به متن و یک LLM برای ساخت یک خط لوله کمکی کامل صدا. Kokoro تأخیر زیر ثانیه ای را برای مکالمات زمان واقعی ایده‌آل فراهم می‌کند. CosyVoice 2 از خروجی جریان برای زمان پاسخ حتی کمتری پشتیبانی می‌کند.

CosyVoice 2 و Kokoro از خروجی صوتی جریانی پشتیبانی می‌کنند که در آن قطعات صوتی همان‌طور که تولید می‌شوند تحویل داده می‌شوند. این زمان تا اولین بایت را برای برنامه‌های کاربردی زمان واقعی مانند دستیار صوتی و تجربه‌های تعاملی کاهش می‌دهد.

رابط برنامه‌نویسی کدهای وضعیت استاندارد HTTP را برمی‌گرداند. برای خطاهای 5xx و پاسخهای حد نرخ ، نمایی را پیاده‌سازی کنید. برای کاربردهای حیاتی ، صفی با منطق تلاش مجدد اضافه کنید. رابط برنامه‌نویسی ما زمان کار بالا دارد ، اما همیشه توصیه می‌شود که خطاهای قابل تنظیم را مدیریت کند.

بله. نقاط پایانی /v1/voices و /v1/models فهرست‌های JSON از تمام صداها و مدل‌های موجود با فراداده‌هایشان (پشتیبانی از زبان، رتبه‌های کیفیت، رتبه‌های سرعت و سطح قیمت) را برمی‌گردانند. از اینها برای ساختن انتخاب‌کننده‌های مدل پویا در برنامه‌تان استفاده کنید.

مدلهای آزاد (Kokoro ، Piper ، VITS ، MeloTTS) به عنوان یک sandbox مؤثر عمل می‌کنند ، زیرا هزینه اعتبار صفر دارند. یکپارچه‌سازی خود را با مدلهای آزاد امتحان کنید ، سپس با تغییر پارامتر مدل به مدلهای پرمیوم در تولید تغییر دهید. هیچ محیط تست جداگانه‌ای نیاز نیست.

بیشتر مدل‌های ما منبع باز هستند و می‌توانند خود میزبانی شوند. با این حال، خود میزبانی نیاز به منابع قابل توجهی از GPU دارد (ما از 4x NVIDIA Tesla P40 با مجموع 96GB VRAM استفاده می‌کنیم).
5.0/5 (1)

چه چیزی میتونیم بهتر کنیم؟ بازخورد شما به ما کمک میکنه مشکلات رو حل کنیم.

آماده ساختن با هوش مصنوعی صدا؟

کلید API رایگان خود را دریافت کنید و شروع به ساختن کنید. ۵۰ کرید با ثبت نام، مدل‌های رایگان در دسترس، مستندات جامع.