برنامج تحويل النص إلى صوت للمطورين

إنشاء تطبيقات تمكين الصوت مع REST API. إضافة النص الطبيعي إلى الكلام، واستنساخ الصوت، والكلام إلى النص، ومعالجة الصوت إلى تطبيقاتك، والدردشة الروبوتات، والمساعدين الصوتيين، ومنتجات SaaS. OpenAI الشكل المتوافق، 20 + نماذج، التكامل البسيط.

REST API الروبوتات الدردشة التطبيقات الصوتية منتجات البرامجيات كخدمة التشغيل الآلي

جربها الآن

مجاني مع كوكورو، بايبر، فيتس، ميلو تي تي إس
سيظهر الصوت الذي أنتجته هنا
المولدة
تنزيل
أحب TTS.ai؟ أخبر أصدقائك!

خصائص واجهة برمجة التطبيقات للمطورين

كل ما تحتاجون إليه لبناء تطبيقات صوتية

واجهة REST البسيطة

طلب POST واحد لتوليد الكلام. طلب JSON، استجابة صوتية. يعمل مع أي لغة برمجة تدعم HTTP.

متوافق مع OpenAI

استبدال تلقائي لـ OpenAI TTS API. قم بتغيير base_url ومفتاح API الخاص بك - يعمل الكود القائم على الفور.

24+ نماذج متاحة

الوصول إلى كل نموذج من خلال واجهة برمجة تطبيقات واحدة. تغيير النماذج بتغيير بارامترات واحدة. مقارنة الجودة والسرعة والتكلفة.

التأخير دون الثاني

كوكورو يولد الصوت في أقل من ثانية واحدة. مثالي للوقت الحقيقي شاتبوت، مساعدين صوتيا، والتطبيقات التفاعلية.

استنساخ الصوت

استنساخ أي صوت من عينة صوتية قصيرة من خلال واجهة برمجة التطبيقات. استخدام الأصوات المستنسخة لجميع الأجيال اللاحقة.

أشكال متعددة

خرج ك WAV أو MP3 أو OGG أو FLAC. اختار معدل العينة وعمق البت. دعم تدفق الصوت لتطبيقات الوقت الحقيقي.

أفضل النماذج لإدماج المطورين

اختار النموذج المناسب لسرعة تطبيقك، والجودة، ومتطلبات التكلفة

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

أفضل ل: أسرع نموذج - تأخير دون الثانية، مثالي للتطبيقات في الوقت الحقيقي والروبوتات

حاول Kokoro

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 استنساخ الصوت

أفضل ل: تدفق النصوص إلى صوت مع استنساخ الصوت لتطبيقات المساعد الصوتي

حاول CosyVoice 2

Sesame CSMSesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

Slow 5/5

أفضل ل: الذكاء الاصطناعي المحادثي مع توقيت طبيعي للروبوت المحادث وصوت المساعد

حاول Sesame CSM

PiperPiper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

Fast 3/5

أفضل ل: نموذج مجاني، وحدة معالجة مركزية فقط للتطبيقات الكبيرة الحجم بتكلفة صفرية

حاول Piper

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

أفضل ل: توليد صوت مع تأثيرات صوتية للتطبيقات الإبداعية والترفيهية

حاول Bark

كيفية إدماج واجهة برمجة تطبيقات تكنولوجيا المعلومات والاتصالات

من التسجيل إلى أول مكالمة لبرنامج المساعدة في أقل من 5 دقائق

1

احصل على مفتاحك

انضم مجاناً و احصل على مفتاح API من لوحة حسابك. 15,000 حرف متضمنة.

2

قم بمكالمتك الأولى

أرسل إلى / v1 / tts مع النص، النموذج، والصوت. احصل على بايت الصوت مرة أخرى. تحت 5 خطوط من الشفرة.

3

اختر نموذجك

اختبار نماذج مختلفة لحالة الاستخدام الخاصة بك. مقارنة السرعة والجودة والتكلفة لكل جيل.

4

من السفينة إلى الإنتاج

قياس مع الدفع حسب الاستخدام الشخصيات. لا حدود المعدل على خطط مدفوعة. رصد الاستخدام في لوحة التحكم.

أمثلة شفرة البداية السريعة

دمج TTS.ai بأي لغة مع REST API

Python شعبية
import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)
JavaScript (Node.js) Node.js
const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();
cURL عالمية
curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3
الشكل المتوافق مع OpenAI زيارات غير منتظمة
# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

ماذا يبني المطورون بـ TTS.ai

أنماط التكامل المشتركة وتطبيقاته

الروبوتات والمساعدون

إضافة مخرجات صوتية إلى معالجك أو مساعد الذكاء الاصطناعي. توجيه استجابات LLM من خلال TTS للواجهات الصوتية. كوكورو يقدم تأخير دون الثانية للمحادثات في الوقت الحقيقي. سيسامي CSM يولد الكلام المحادثة مع التوقيت الطبيعي.

  • استجابة ماجستير القانون إلى خط أنابيب الخطاب
  • تأخير دون الثانية مع كوكورو
  • كلمة محادثة مع سيسامي CSM
  • مخرجات صوتية متدفقة

التطبيقات المحمولة والصوتية

إنشاء تطبيقات محمولة قادرة على الصوت، وأدوات الوصول، وتطبيقات القراءة، ومنصات تعلم اللغات. REST API يعمل مع أي إطار محمول. تنزيل الملفات الصوتية أو تدفق مباشرة إلى العميل.

  • React Native، و Flutter، و Swift، و Kotlin
  • تطبيقات تيسير الوصول والقراءة
  • برامج تعلم اللغات
  • إنتاج المحتوى السمعي

منتجات البرامجيات كخدمة

القدرات الصوتية ذات العلامة البيضاء في منتجك SaaS. أضف TTS، STT، استنساخ الصوت، ومعالجة الصوت كمميزات في منصتك. استخدم برنامجنا API كصوت خلفي دون إدارة البنية التحتية لمعالج الرسوميات.

  • الخصائص الصوتية ذات العلامة البيضاء
  • لا حاجة إلى بنية تحتية لمعالج رسوميات
  • تسعير الدفع حسب الاستخدام
  • 20+ نماذج لعرضها على مستخدميك

أنابيب التشغيل الآلي

دمج توليد الصوت في أنابيب CI/CD، وأتمتة المحتوى، وتدفق العمل لمعالجة المجموعات. توليد الآلاف من الملفات الصوتية من بيانات جداول البيانات، وأتمتة إنتاج البث، أو بناء أنابيب تحديد المواقع المحتوى.

  • تجهيز الدفعات عن طريق واجهة البرمجة
  • قنوات نقل المحتوى إلى اللغة المحلية
  • التكامل بين تكنولوجيا المعلومات والاتصالات وتكنولوجيا المعلومات والاتصالات
  • من جدول البيانات إلى التشغيل الآلي السمعي

مواصفات API

مصنوعة لتطبيقات الإنتاج

20+

نماذج TTS

100+

الأصوات

30+

ألف - اللغات

<1s

التأخير (كوكورو)

الأسئلة المتكررة

أسئلة شائعة حول TTS.ai API للمطورين

نعم. تتبع واجهة برمجة التطبيقات لدينا صيغة الكلام السمعي OpenAI. إذا كنت تستخدم مكتبة العميل OpenAI Python أو JavaScript، يمكنك التحول إلى TTS.ai بتغيير البارامترات base_url و api_key. يشغّل شفرتك الحالية دون تعديل.

ويدعم برنامج CosyVoice 2 الخرج المتدفق لفترة تأخير أقل. وبالنسبة لآليات الدردشة والمساعدين الصوتيين، فإن الوقت الإجمالي للرحلة ذهابا وإيابا هو عادة 1-3 ثوان اعتمادا على طول النص واختيار النموذج.

النماذج المجانية (كوكورو، بايبر، فيتس، ميلوتتس) مجانية تماما. النماذج العادية تستخدم 2x علامات لكل 1K من النص. النماذج المتميزة تستخدم 4x علامات لكل 1K من النص. التسجيل مجانا مع 15000 علامة. الخطط تبدأ من $9/شهر ل 500000 علامة.

نعم. قم بتحميل عينة صوتية مرجعية (5-30 ثانية) إلى نقطة النهاية لاستنساخ الصوت، ثم استخدم هوية الصوت المستنسخة في طلبات TTS اللاحقة. وتشمل النماذج التي تدعم الاستنساخ CosyVoice 2، Chatterbox، Fish Speech، و GPT-SoVITS.

المستوى المجاني له حد أدنى للمعدل الأساسي (3 طلبات في الساعة بدون حساب). الخطط المدفوعة لها حدود سخية للمعدل مناسبة لتطبيقات الإنتاج. اتصل بنا لمتطلبات الإنتاجية على مستوى المؤسسة.

WAV (غير مضغوط، أعلى جودة)، MP3 (مضغوط، ملفات أصغر)، OGG (صيغة مفتوحة)، و FLAC (ضغط بلا خسارة). حدد الصيغة في طلبك. الافتراض هو WAV بمعدل العينة الأصلي للنموذج.

نعم. دمج TTS API مع نموذج الكلام إلى النص و LLM لبناء خط أنابيب مساعد صوتي كامل. كوكورو يوفر تأخير أقل من الثانية مثالية للمحادثة في الوقت الحقيقي. CosyVoice 2 يدعم تدفق الخرج لفترات استجابة أقل.

ويدعم كل من CosyVoice 2 وKokoro تدفق الخرج الصوتي حيث يتم تسليم قطع صوتية عند توليدها، مما يقلل من الوقت إلى أول بايت للتطبيقات في الوقت الحقيقي مثل المساعدين الصوتيين والتجارب التفاعلية.

ويعود برنامج الوصلة البينية لرموز الحالة القياسية لـ HTTP. وينفذ التراجع الأسي لأخطاء 5xx واستجابات الحد من المعدل. وبالنسبة للتطبيقات ذات الأهمية الحاسمة للمهمة، أضف صفا مع منطق إعادة المحاولة. وبرنامج الوصلة البينية لدينا له وقت تشغيل مرتفع ولكن من الموصى به دائما معالجة الأخطاء المرنة.

نعم. تعيد النقطتان النهائيتان /v1/voices و /v1/models قوائم JSON لجميع الأصوات والنماذج المتاحة مع بياناتها الوصفية (دعم اللغة، وتصنيفات الجودة، وتصنيفات السرعة، ومستوى التسعير). استخدم هذه القوائم لبناء أجهزة اختيار نماذج دينامية في تطبيقك.

النماذج المجانية (Kokoro, Piper, VITS, MeloTTS) تعمل كصندوق رمل فعال لأنها لا تكلف أي رصيد. اختبر تكاملك مع النماذج المجانية، ثم انتقل إلى النماذج المتميزة في الإنتاج عن طريق تغيير بارامترات النموذج. لا توجد حاجة إلى بيئة اختبار منفصلة.

ومعظم نماذجنا مفتوحة المصدر ويمكن استضافتها ذاتياً. ومع ذلك، فإن الاستضافة الذاتية تتطلب موارد كبيرة من وحدة المعالجة الرسومية (نستخدم 4x NVIDIA Tesla P40 مع ذاكرة VRAM إجماليها 96 جيجابايت). ويوفر برنامج التطبيقات البديل الفعال من حيث التكلفة دون إدارة البنية التحتية.
5.0/5 (1)

ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.

هل أنت مستعد للبناء باستخدام الذكاء الاصطناعي الصوتي؟

احصل على مفتاح API المجاني وبدأ البناء 50 نقطة عند التسجيل، نماذج مجانية متاحة، وثائق شاملة.