ما هو تحويل النص إلى كلام؟

إن النص إلى كلمة هو التكنولوجيا التي تحول النص المكتوب إلى صوت منطوق باستخدام الذكاء الاصطناعي. ومن أجهزة التركيب الروبوتية المبكرة إلى الشبكات العصبية اليوم التي لا يمكن تمييزها عن البشر، حول النص إلى كلمة الطريقة التي نتفاعل بها مع التكنولوجيا، ونستهلك المحتوى، ونجعل المعلومات متاحة.

جيم - التكنولوجيا ألف - التاريخ كيف يعمل الشبكات العصبية التطور

المفاهيم الرئيسية في تحويل النصوص إلى كلام

فهم اللبنات الأساسية لتركيب الكلام الحديث

ماذا تعني كلمة TTS

TTS هو اختصار لـ Text-to-Speech - وهي التكنولوجيا التي تحول النصوص المكتوبة إلى صوت منطوق باستخدام أصوات مولدة بالحاسوب.

كيف يعمل الترجمة النصية العصبية

تستخدم تقنية TTS الحديثة شبكات عصبية عميقة لتحليل النصوص، والتنبؤ بأنماط الكلام، وتوليد أشكال موجات صوتية تبدو إنسانية بشكل ملحوظ.

تاريخ تركيب الكلام

من النظم القائمة على القواعد في الستينات إلى التوليف المتسلسل في التسعينات إلى النماذج العصبية اليوم - كيف تطورت لغة TTS على مدى ستة عقود.

نماذج الذكاء الاصطناعي الحديثة

نماذج اليوم مثل كوكورو، و Bark، و CosyVoice 2 تستخدم المحولات، والانتشار، والاستدلال المتغير لتحقيق جودة الكلام على المستوى البشري.

التطبيقات الشائعة

وتوفر تقنية الترجمة التحريرية التلقائية القوة لقراء الشاشة، والملاحة بواسطة النظام العالمي لتحديد المواقع، والمساعدين الافتراضيين، والكتب السمعية، والروبوتات لخدمة العملاء، ومنصات التعلم الإلكتروني، وإنشاء المحتوى.

المصدر المفتوح مقابل التجاري

وتوفر نماذج المصدر المفتوح (معهد ماساتشوستس للتكنولوجيا، أباشي 2.0) خدمات مجانية لترجمة النصوص إلى لغة مباشرة يمكن استضافتها ذاتياً، بينما توفر الخدمات التجارية تطبيقات برمجة التطبيقات المدارة مع اتفاقات مستوى الخدمة والدعم.

نماذج TTS متاحة على TTS.ai

من الأصوات العصبية السريعة والخفيفة إلى الأصوات العصبية ذات الجودة الإستديو

KokoroKokoro

Free

Lightweight 82M parameter model delivering studio-quality speech with blazing-fast inference.

Fast 5/5

أفضل ل: نموذج صغير حديث - يبين المدى الذي بلغه نظام الترجمة الفورية العصبية

حاول Kokoro

BarkBark

Standard

Transformer-based text-to-audio model that generates realistic speech, music, and sound effects.

Slow 4/5

أفضل ل: نموذج قائم على المحول يبين توليد صوت يتجاوز الكلام

حاول Bark

CosyVoice 2CosyVoice 2

Standard

Alibaba's scalable streaming TTS with human-parity naturalness and near-zero latency.

Medium 5/5 استنساخ الصوت

أفضل ل: تدفق TTS مع نوعية تكافؤ الإنسان والاستنساخ صفر-الطلقة

حاول CosyVoice 2

ChatterboxChatterbox

Premium

State-of-the-art zero-shot voice cloning with emotion control from Resemble AI.

Medium 5/5 استنساخ الصوت

أفضل ل: استنساخ الصوت من نقطة الصفر يظهر حدود التركيب الصوتي

حاول Chatterbox

Tortoise TTSTortoise TTS

Premium

Multi-voice text-to-speech focused on quality with autoregressive architecture.

Slow 5/5 استنساخ الصوت

أفضل ل: بنية ذاتية التراجع تعطي الأولوية لأقصى جودة سمعية

حاول Tortoise TTS

كيف يعمل الترجمة النصية العصبية

خط أنابيب تركيب الكلام الحديث في أربع خطوات

1

فهم الأساسيات

وتحول تقنية الترجمة الفورية النصوص المكتوبة إلى صوت منطوق. وتستخدم النظم الحديثة شبكات عصبية مدربة على آلاف الساعات من تسجيلات الكلام البشري.

2

استكشاف نماذج مختلفة

كل نموذج من نماذج TTS يستخدم بنية مختلفة (محول، الانتشار، التباين) مع نقاط قوة فريدة في السرعة، والجودة، والخصائص.

3

جربها بنفسك

أفضل طريقة لفهم ترجمة النصوص إلى صوت هي استخدامها. جرب نماذجنا المجانية أعلاه - لصق أي نص وأسمعه منطوقا في ثوان.

4

إدماج في مشاريعك

بمجرد أن تجد نموذجا تحبه، استخدم واجهة برمجة التطبيقات لدينا لإدماج TTS في تطبيقاتك، أو منتجاتك، أو تدفق عمل إنشاء المحتوى.

تاريخ موجز لتحويل النص إلى كلمة

من الآلات الكلامية الميكانيكية إلى الشبكات العصبية

الأيام الأولى (1950-1980)

يعود تاريخ أول خطاب تم توليده بواسطة الحاسوب إلى عام 1961، عندما قامت شركة IBM

النظم البارزة: فوتراكس (1970s)، DECtalk (1984، استخدمه ستيفن هوكينغ)، آبل

التوليف المتسلسل (1990-2000)

يسجل نظام ترجمة النصوص إلى صوت متسلسل صوتاً بشرياً حقيقياً يتحدث آلافاً من مجموعات الأصوات، ثم يجمع الأجزاء الصحيحة معاً في وقت التشغيل. وهذا ينتج صوتاً أكثر طبيعية، ولكنه يتطلب قواعد بيانات ضخمة (غالباً ما تتراوح بين 10 إلى 20 ساعة من التسجيل لكل صوت). وكانت الجودة تعتمد بشدة على إيجاد اتصالات سلسة بين الأجزاء.

يستخدمه: AT&T الأصوات الطبيعية، Nuance Vocalizer، مترجم جوجل TTS المبكر.

إحصائية/بارامترية (2000-2010)

بدلاً من تجميع التسجيلات، تعلمت النماذج البارامترية تمثيلات إحصائية للكلمات. وعملت نماذج ماركوف الخفية (HMMs) والشبكات العصبية العميقة في وقت لاحق على توليد بارامترات الكلام (النغمة، والمدة، والسمات الطيفية) التي تم تغذيتها من خلال مترجم صوت. وقد سمح هذا بمفردات غير محدودة وإنشاء صوت أسهل، ولكن خطوة المترجم الصوت غالباً ما كانت تنتج صوتاً غير واضح.

النماذج الرئيسية: HTS، Merlin، النظم المبكرة القائمة على شبكة DNN.

(2016-حتى الآن)

بدأ العصر الحديث بـ"وايبنت" (DeepMind، 2016)، التي تولِّد عينة صوتية بعينة باستخدام الشبكات العصبية العميقة. ثم جاءت "تاكوترون" (Google، 2017)، التي تعلمت رسم النصوص مباشرة على الطيفوغرامات. واليوم، أصبحت هذه التكنولوجيا موجودة في كل مكان.

الاختراقات الرئيسية: WaveNet, Tacotron, FastSpeech, VITS, Bark, Kokoro.

كيف تعمل تقنية الترجمة العصبية الحديثة

البنية التحتية وراء الأصوات الطبيعية للذكاء الاصطناعي

تحليل النصوص وتطبيعها

تنظيف النص الخام وتطبيعه: الأرقام تصبح كلمات (\

النموذج الصوتي (النص إلى المخطط الطيفي)

ويأخذ النموذج الصوتي (غالباً ما يكون محولاً أو شبكة ذاتية التراجع) تسلسل الصوت ويتنبأ بطيفاً صوتياً - تمثيلاً مرئياً لكيفية تحول الصوت.

جهاز ترميز الصوت (التحول من الطيف إلى الصوت)

وتحول الأجهزة الصوتية المطيافية إلى أشكال موجية صوتية فعلية. وأنتجت الأجهزة الصوتية المبكرة مثل غريفين - ليم مصنوعات روبوتية. وتولد الأجهزة الصوتية العصبية الحديثة (HiFi-GAN، BigVGAN، Vocos) صوتاً عالي الدقة بتردد 24 كيلو هرتز أو 44.1 كيلو هرتز يلتقط التفاصيل الدقيقة للكلام الطبيعي، بما في ذلك أصوات التنفس وحركات الشفاه الدقيقة.

نماذج من البداية إلى النهاية

إن أحدث النماذج مثل VITS، وكوكورو، وبارك تتخطى أنابيب المرحلتين بالكامل. فهي تنتقل مباشرة من النص إلى الصوت في شبكة عصبية واحدة، فتنتج نتائج أكثر طبيعية مع عدد أقل من المصنوعات اليدوية. بل إن بعض النماذج (مثل بارك) قادرة حتى على توليد الأصوات غير الكلامية، والضحك، والموسيقى إلى جانب الكلام.

مقارنة بين نُهُج التجارة والتنمية

كيف تقارن الأجيال الأربعة لتكنولوجيا الترجمة التحريرية

ألف - النهج الفترة الطبيعة المرونة السرعة البيانات المطلوبة
التوليف التكويني
نمذجة الترددات القائمة على القواعد
1960s-1990s لا شيء
التسلسل
أجزاء سمعية متصلة
1990s-2010s 10-20+ ساعة
بارامترية (HMM/DNN)
نماذج الكلام الإحصائية
2000s-2016 1-5 ساعات
شبكة عصبية من البداية إلى النهاية
التعلم العميق (VITS, Kokoro, Bark)
2016-الحالية الدقائق إلى الساعات

التطبيقات الشائعة لتكنولوجيا المعلومات والاتصالات

حيثما تستخدم اليوم تكنولوجيا تحويل النصوص إلى صوت

إمكانية الوصول

وتعتمد قارئات الشاشة والأجهزة المساعدة والأدوات الخاصة بالأشخاص ذوي الإعاقة البصرية أو الإعاقة في القراءة على تقنية تحويل النصوص إلى صوت لجعل المحتوى الرقمي متاحاً للجميع.

إنشاء المحتوى

يستخدم مستخدمو يوتيوب، ومستخدمو البث، ومبدعو وسائط التواصل الاجتماعي TTS للصوتيات، والسرد، وإنتاج المحتوى الآلي على نطاق واسع.

المساعدون الافتراضيون

Siri و Alexa و Google Assistant و Chatbots لخدمة العملاء تستخدم جميعها TTS لتكلم الردود بشكل طبيعي للمستخدمين.

الأسئلة المتكررة

الأسئلة الشائعة بشأن تكنولوجيا تحويل النصوص إلى كلام

TTS تعني النص إلى الكلام. وهي تشير إلى التكنولوجيا التي تحول النص المكتوب إلى كلمات منطوقة مسموعة باستخدام أصوات اصطناعية أو مصنوعة بواسطة الذكاء الاصطناعي. ويستخدم المصطلح بشكل متبادل مع "تركيب الكلام" في المؤلفات التقنية.

تعمل أنظمة تحويل النص إلى صوت حديثة على ثلاث مراحل: تحليل النص (التحليل، والتطبيع، وتحويل الصوت)، والتنبؤ بالصوت (تحديد الإيقاع، والنبرة، والتوتر، والتوقف)، والتوليف الصوتي (توليد الشكل الموجي الفعلي للصوت). وتتعلم النماذج العصبية كل المراحل الثلاث من بيانات التدريب.

إن تقنية ترجمة الكلام إلى صوت متسلسل تجمع بين شرائح الكلام المسجلة مسبقا، والتي قد تبدو متقطعة عند الانتقالات. وتقوم تقنية ترجمة الكلام إلى صوت عصبي بتوليد الكلام من الصفر باستخدام التعلم العميق، مما ينتج صوتًا أكثر سلاسة وأكثر طبيعية مع تحسين النغمة والمشاعر.

لغة SSML (لغة علامات تركيب الكلام) هي لغة علامات قائمة على XML تسمح لك بالتحكم في كيفية نطق النص بواسطة أنظمة TTS. يمكنك تحديد فترات التوقف، والتأكيد، والنطق، وتغييرات النغمة، ومعدل الكلام باستخدام علامات SSML داخل مدخلات النص.

ويستخدم هذا النوع من الترجمة لتيسير الوصول (قارئ الشاشة للمستخدمين ذوي الإعاقة البصرية)، والمساعدين الافتراضيين (Siri، Alexa، Google Assistant)، وإنتاج الكتب السمعية، والتعلم الإلكتروني، والملاحة بواسطة النظام العالمي لتحديد المواقع، ونظم الاستجابة الفورية على الإنترنت لخدمة العملاء، وإنشاء المحتوى، وتطبيقات تعلم اللغات.

تطورت TTS من النظم الروبوتية القائمة على القواعد في الستينيات، إلى التوليف المتسلسل في التسعينيات، إلى التوليف الإحصائي البارامتري في العقد الأول من القرن الحادي والعشرين، إلى TTS العصبي مع WaveNet في عام 2016، إلى نماذج المحول والانتشار اليوم التي تحقق جودة على المستوى البشري.

يتطلب تحويل النص إلى صوت طبيعي دقّة النغمة (الإيقاع، والتشديد، والنبرة)، والوتيرة المناسبة، والانتقال السلس بين الأصوات، والهوية الصوتية المتسقة. وتتعلم النماذج العصبية هذه الأنماط من مجموعات بيانات كبيرة من تسجيلات الكلام البشري الطبيعي.

إن نماذج استنساخ الصوت مثل Chatterbox و CosyVoice 2 قادرة على استنساخ صوت محدد من 5 إلى 30 ثانية فقط من الصوت المرجعي. ويلتقط الصوت المستنسخ النغمة، والنبرة، وأسلوب الكلام، على الرغم من أن الاعتبارات الأخلاقية والقانونية تنطبق على استنساخ أصوات الآخرين.

تدعم نماذج TTS الحديثة بشكل جماعي أكثر من 30 لغة. وتتخصص بعض النماذج في لغات محددة بينما تعد البعض الآخر متعدد اللغات. تتوفر اللغة الإنجليزية بأكثر النماذج والأصوات المتاحة، ولكن اللغات الصينية واليابانية والكورية والإسبانية والأوروبية مدعومة جيدًا.

TTS هي مجموعة فرعية من الذكاء الاصطناعي توليد الصوت. TTS على وجه التحديد تحويل مدخلات النص إلى مخرجات الكلام. الذكاء الاصطناعي توليد الصوت هو مصطلح أوسع نطاقا الذي يشمل أيضا استنساخ الصوت، وتحويل الصوت، والكلام إلى الكلام، وتوليد التأثيرات الصوتية.

يعتمد على احتياجاتك. Kokoro يقدم أفضل التوازن بين السرعة والجودة للاستخدام العام. Chatterbox يقود في استنساخ الصوت. Orpheus يتفوق في التعبير العاطفي. StyleTTS 2 ينتج أكثر السرد الطبيعي لمتحدث واحد. لا يوجد نموذج واحد "أفضل" لجميع حالات الاستخدام.

نعم، جميع النماذج على TTS.ai مفتوحة المصدر ويمكن استضافتها ذاتياً. النماذج التي تستخدم وحدة المعالجة المركزية فقط مثل بايبِر تعمل على أي جهاز كمبيوتر. وتحتاج نماذج وحدة المعالجة الرسومية مثل كوكورو وبارك إلى وحدة معالجة رسومية من إنفيديا مع ذاكرة فيديو تتراوح بين 2 و8 جيجابايت.
5.0/5 (1)

ما الذي يمكننا تحسينه؟ تساعدنا تعليقاتكم على حل المشاكل.

تجربة TTS الحديثة بنفسك

جرب 20+ أحدث نماذج صوت الذكاء الاصطناعي مجانًا. انظر إلى أي مدى وصل النص إلى الكلام.