إبلاغ عن خطأ/طلب خاصية

برنامج تحويل النص إلى صوت للمطورين

إنشاء تطبيقات تمكين الصوت مع REST API. إضافة النص الطبيعي إلى الكلام، واستنساخ الصوت، والكلام إلى النص، ومعالجة الصوت إلى تطبيقاتك، والدردشة الروبوتات، والمساعدين الصوتيين، ومنتجات SaaS. OpenAI الشكل المتوافق، 20 + نماذج، التكامل البسيط.

REST API الروبوتات الدردشة التطبيقات الصوتية منتجات البرامجيات كخدمة التشغيل الآلي

محرر كامل لترجمة النصوص وثائق API

جربها الآن

0/500

مجاني مع كوكورو، بايبر، فيتس، ميلو تي تي إس

سيظهر الصوت الذي أنتجته هنا

فتح محرر كامل لترجمة النصوص

خصائص واجهة برمجة التطبيقات للمطورين

كل ما تحتاجون إليه لبناء تطبيقات صوتية

واجهة REST البسيطة

طلب POST واحد لتوليد الكلام. طلب JSON، استجابة صوتية. يعمل مع أي لغة برمجة تدعم HTTP.

متوافق مع OpenAI

استبدال تلقائي لـ OpenAI TTS API. قم بتغيير base_url ومفتاح API الخاص بك - يعمل الكود القائم على الفور.

24+ نماذج متاحة

الوصول إلى كل نموذج من خلال واجهة برمجة تطبيقات واحدة. تغيير النماذج بتغيير بارامترات واحدة. مقارنة الجودة والسرعة والتكلفة.

التأخير دون الثاني

كوكورو يولد الصوت في أقل من ثانية واحدة. مثالي للوقت الحقيقي شاتبوت، مساعدين صوتيا، والتطبيقات التفاعلية.

استنساخ الصوت

استنساخ أي صوت من عينة صوتية قصيرة من خلال واجهة برمجة التطبيقات. استخدام الأصوات المستنسخة لجميع الأجيال اللاحقة.

أشكال متعددة

خرج ك WAV أو MP3 أو OGG أو FLAC. اختار معدل العينة وعمق البت. دعم تدفق الصوت لتطبيقات الوقت الحقيقي.

أفضل النماذج لإدماج المطورين

اختار النموذج المناسب لسرعة تطبيقك، والجودة، ومتطلبات التكلفة

Kokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

سريع 5/5

أفضل ل: أسرع نموذج - تأخير دون الثانية، مثالي للتطبيقات في الوقت الحقيقي والروبوتات

حاول Kokoro

CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

متوسطة 5/5 استنساخ الصوت

أفضل ل: تدفق النصوص إلى صوت مع استنساخ الصوت لتطبيقات المساعد الصوتي

حاول CosyVoice 2

Sesame CSM

Premium

Conversational speech model generating natural dialogue with appropriate timing and emotion.

بطيء 5/5

أفضل ل: الذكاء الاصطناعي المحادثي مع توقيت طبيعي للروبوت المحادث وصوت المساعد

حاول Sesame CSM

Piper

Free

A fast, local neural text to speech system optimized for Raspberry Pi and embedded devices.

سريع 3/5

أفضل ل: نموذج مجاني، وحدة معالجة مركزية فقط للتطبيقات الكبيرة الحجم بتكلفة صفرية

حاول Piper

Bark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

بطيء 4/5

أفضل ل: توليد صوت مع تأثيرات صوتية للتطبيقات الإبداعية والترفيهية

حاول Bark

كيفية إدماج واجهة برمجة تطبيقات تكنولوجيا المعلومات والاتصالات

من التسجيل إلى أول مكالمة لبرنامج المساعدة في أقل من 5 دقائق

احصل على مفتاحك

انضم مجاناً و احصل على مفتاح API من لوحة حسابك. 15,000 حرف متضمنة.

قم بمكالمتك الأولى

أرسل إلى / v1 / tts مع النص، النموذج، والصوت. احصل على بايت الصوت مرة أخرى. تحت 5 خطوط من الشفرة.

اختر نموذجك

اختبار نماذج مختلفة لحالة الاستخدام الخاصة بك. مقارنة السرعة والجودة والتكلفة لكل جيل.

من السفينة إلى الإنتاج

قياس مع الدفع حسب الاستخدام الشخصيات. لا حدود المعدل على خطط مدفوعة. رصد الاستخدام في لوحة التحكم.

أمثلة شفرة البداية السريعة

دمج TTS.ai بأي لغة مع REST API

Python شعبية

import requests

response = requests.post(
    "https://api.tts.ai/v1/tts",
    json={
        "text": "Hello from my app!",
        "model": "kokoro",
        "voice": "af_heart",
        "format": "mp3"
    },
    headers={
        "Authorization": "Bearer sk-tts-xxx"
    }
)

with open("output.mp3", "wb") as f:
    f.write(response.content)

JavaScript (Node.js) Node.js

const response = await fetch(
    "https://api.tts.ai/v1/tts",
    {
        method: "POST",
        headers: {
            "Content-Type": "application/json",
            "Authorization": "Bearer sk-tts-xxx"
        },
        body: JSON.stringify({
            text: "Hello from my app!",
            model: "kokoro",
            voice: "af_heart",
            format: "mp3"
        })
    }
);

const audio = await response.blob();

cURL عالمية

curl -X POST https://api.tts.ai/v1/tts \
  -H "Authorization: Bearer sk-tts-xxx" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Hello from my app!",
    "model": "kokoro",
    "voice": "af_heart",
    "format": "mp3"
  }' \
  --output output.mp3

الشكل المتوافق مع OpenAI زيارات غير منتظمة

# Works with OpenAI client library
from openai import OpenAI

client = OpenAI(
    api_key="sk-tts-xxx",
    base_url="https://api.tts.ai/v1"
)

response = client.audio.speech.create(
    model="kokoro",
    voice="af_heart",
    input="Hello from my app!"
)

response.stream_to_file("output.mp3")

احصل على مفتاحك المجاني

ماذا يبني المطورون بـ TTS.ai

أنماط التكامل المشتركة وتطبيقاته

الروبوتات والمساعدون

إضافة مخرجات صوتية إلى معالجك أو مساعد الذكاء الاصطناعي. توجيه استجابات LLM من خلال TTS للواجهات الصوتية. كوكورو يقدم تأخير دون الثانية للمحادثات في الوقت الحقيقي. سيسامي CSM يولد الكلام المحادثة مع التوقيت الطبيعي.

استجابة ماجستير القانون إلى خط أنابيب الخطاب
تأخير دون الثانية مع كوكورو
كلمة محادثة مع سيسامي CSM
مخرجات صوتية متدفقة

التطبيقات المحمولة والصوتية

إنشاء تطبيقات محمولة قادرة على الصوت، وأدوات الوصول، وتطبيقات القراءة، ومنصات تعلم اللغات. REST API يعمل مع أي إطار محمول. تنزيل الملفات الصوتية أو تدفق مباشرة إلى العميل.

React Native، و Flutter، و Swift، و Kotlin
تطبيقات تيسير الوصول والقراءة
برامج تعلم اللغات
إنتاج المحتوى السمعي

منتجات البرامجيات كخدمة

القدرات الصوتية ذات العلامة البيضاء في منتجك SaaS. أضف TTS، STT، استنساخ الصوت، ومعالجة الصوت كمميزات في منصتك. استخدم برنامجنا API كصوت خلفي دون إدارة البنية التحتية لمعالج الرسوميات.

الخصائص الصوتية ذات العلامة البيضاء
لا حاجة إلى بنية تحتية لمعالج رسوميات
تسعير الدفع حسب الاستخدام
20+ نماذج لعرضها على مستخدميك

أنابيب التشغيل الآلي

دمج توليد الصوت في أنابيب CI/CD، وأتمتة المحتوى، وتدفق العمل لمعالجة المجموعات. توليد الآلاف من الملفات الصوتية من بيانات جداول البيانات، وأتمتة إنتاج البث، أو بناء أنابيب تحديد المواقع المحتوى.

تجهيز الدفعات عن طريق واجهة البرمجة
قنوات نقل المحتوى إلى اللغة المحلية
التكامل بين تكنولوجيا المعلومات والاتصالات وتكنولوجيا المعلومات والاتصالات
من جدول البيانات إلى التشغيل الآلي السمعي

وثائق كاملة

مواصفات API

مصنوعة لتطبيقات الإنتاج

20+

نماذج TTS

100+

الأصوات

30+

ألف - اللغات

<1s

التأخير (كوكورو)

التسجيل مجانا - 15,000 حرف

الأسئلة المتكررة

أسئلة شائعة حول TTS.ai API للمطورين

نعم. تتبع واجهة برمجة التطبيقات لدينا صيغة الكلام السمعي OpenAI. إذا كنت تستخدم مكتبة العميل OpenAI Python أو JavaScript، يمكنك التحول إلى TTS.ai بتغيير البارامترات base_url و api_key. يشغّل شفرتك الحالية دون تعديل.

ويدعم برنامج CosyVoice 2 الخرج المتدفق لفترة تأخير أقل. وبالنسبة لآليات الدردشة والمساعدين الصوتيين، فإن الوقت الإجمالي للرحلة ذهابا وإيابا هو عادة 1-3 ثوان اعتمادا على طول النص واختيار النموذج.

النماذج المجانية (كوكورو، بايبر، فيتس، ميلوتتس) مجانية تماما. النماذج العادية تستخدم 2x علامات لكل 1K من النص. النماذج المتميزة تستخدم 4x علامات لكل 1K من النص. التسجيل مجانا مع 15000 علامة. الخطط تبدأ من $9/شهر ل 50 علامة.

نعم. قم بتحميل عينة صوتية مرجعية (5-30 ثانية) إلى نقطة النهاية لاستنساخ الصوت، ثم استخدم هوية الصوت المستنسخة في طلبات TTS اللاحقة. وتشمل النماذج التي تدعم الاستنساخ CosyVoice 2، Chatterbox، Fish Speech، و GPT-SoVITS.

المستوى المجاني له حد أدنى للمعدل الأساسي (3 طلبات في الساعة بدون حساب). الخطط المدفوعة لها حدود سخية للمعدل مناسبة لتطبيقات الإنتاج. اتصل بنا لمتطلبات الإنتاجية على مستوى المؤسسة.

WAV (غير مضغوط، أعلى جودة)، MP3 (مضغوط، ملفات أصغر)، OGG (صيغة مفتوحة)، و FLAC (ضغط بلا خسارة). حدد الصيغة في طلبك. الافتراض هو WAV بمعدل العينة الأصلي للنموذج.

نعم. دمج TTS API مع نموذج الكلام إلى النص و LLM لبناء خط أنابيب مساعد صوتي كامل. كوكورو يوفر تأخير أقل من الثانية مثالية للمحادثة في الوقت الحقيقي. CosyVoice 2 يدعم تدفق الخرج لفترات استجابة أقل.

ويدعم كل من CosyVoice 2 وKokoro تدفق الخرج الصوتي حيث يتم تسليم قطع صوتية عند توليدها، مما يقلل من الوقت إلى أول بايت للتطبيقات في الوقت الحقيقي مثل المساعدين الصوتيين والتجارب التفاعلية.

ويعود برنامج الوصلة البينية لرموز الحالة القياسية لـ HTTP. وينفذ التراجع الأسي لأخطاء 5xx واستجابات الحد من المعدل. وبالنسبة للتطبيقات ذات الأهمية الحاسمة للمهمة، أضف صفا مع منطق إعادة المحاولة. وبرنامج الوصلة البينية لدينا له وقت تشغيل مرتفع ولكن من الموصى به دائما معالجة الأخطاء المرنة.

نعم. تعيد النقطتان النهائيتان /v1/voices و /v1/models قوائم JSON لجميع الأصوات والنماذج المتاحة مع بياناتها الوصفية (دعم اللغة، وتصنيفات الجودة، وتصنيفات السرعة، ومستوى التسعير). استخدم هذه القوائم لبناء أجهزة اختيار نماذج دينامية في تطبيقك.

النماذج المجانية (Kokoro, Piper, VITS, MeloTTS) تعمل كصندوق رمل فعال لأنها لا تكلف أي رصيد. اختبر تكاملك مع النماذج المجانية، ثم انتقل إلى النماذج المتميزة في الإنتاج عن طريق تغيير بارامترات النموذج. لا توجد حاجة إلى بيئة اختبار منفصلة.

ومعظم نماذجنا مفتوحة المصدر ويمكن استضافتها ذاتياً. ومع ذلك، فإن الاستضافة الذاتية تتطلب موارد كبيرة من وحدة المعالجة الرسومية (نستخدم 4x NVIDIA Tesla P40 مع ذاكرة VRAM إجماليها 96 جيجابايت). ويوفر برنامج التطبيقات البديل الفعال من حيث التكلفة دون إدارة البنية التحتية.

5.0/5 (1)

هل أنت مستعد للبناء باستخدام الذكاء الاصطناعي الصوتي؟

احصل على مفتاح API المجاني وبدأ البناء 50 نقطة عند التسجيل، نماذج مجانية متاحة، وثائق شاملة.

انضم مجاناً عرض التسعير

برنامج تحويل النص إلى صوت للمطورين

جربها الآن

أحب TTS.ai؟ أخبر أصدقائك!

خصائص واجهة برمجة التطبيقات للمطورين

واجهة REST البسيطة

متوافق مع OpenAI

24+ نماذج متاحة

التأخير دون الثاني

استنساخ الصوت

أشكال متعددة

أفضل النماذج لإدماج المطورين

Kokoro

CosyVoice 2

Sesame CSM

Piper

Bark

كيفية إدماج واجهة برمجة تطبيقات تكنولوجيا المعلومات والاتصالات

احصل على مفتاحك

قم بمكالمتك الأولى

اختر نموذجك

من السفينة إلى الإنتاج

أمثلة شفرة البداية السريعة

ماذا يبني المطورون بـ TTS.ai

الروبوتات والمساعدون

التطبيقات المحمولة والصوتية

منتجات البرامجيات كخدمة

أنابيب التشغيل الآلي

مواصفات API

الأسئلة المتكررة

هل تتوافق واجهة البرمجة مع صيغة OpenAI TTS؟

ما هو التأخير في التطبيقات الزمنية الحقيقية؟

كيف يتم تسعير استخدام البرنامج المرفق؟

هل يمكنني استخدام نسخ الصوت من خلال API؟

هل هناك حد أقصى للمعدل؟

ما هي الأشكال السمعية التي يعيدها هذا البرنامج؟

هل يمكنني استخدام واجهة برمجة التطبيقات لبناء مساعد صوتي أو روبوت للدردشة؟

هل هناك WebSocket أو API للتدفق؟

كيف أتعامل مع الأخطاء وإعادة المحاولات في الإنتاج؟

هل يمكنني إضافة الأصوات والنماذج المتاحة إلى القائمة بصورة برمجية؟

هل هناك بيئة اختبارية أو بيئة رملية؟

هل يمكنني استضافة النماذج بنفسي بدلاً من استخدام واجهة البرمجة التطبيقية؟

هل أنت مستعد للبناء باستخدام الذكاء الاصطناعي الصوتي؟