قسم الإعداد اللغوي، معهد تعليم العربية، جامعة الإمام محمد بن سعود الإسلامية, المملكة العربية السعودية
العدد: 29 | الصفحات: 32-44 | يونيو 2022 | https://doi.org/10.54940/ll16145890 | بي دي إف
تم الاستلام: 21 مارس 2021 | تاريخ القبول: 18 أبريل 2021 | عبر الإنترنت: 27 مارس 2022
الملخص
: تقع هذه الدراسة في مجال معالجة اللغات الطبيعية وتطبق منهج تعلم الآلة غير الموجه في تحديد الموضوعات الكامنة في نصوص الصحف العربية السعودية باستعمال أحد أهم خوارزميات النمذجة الموضوعية غير الموجهة، وهي خوارزمية تخصيص دركليه الكامن للموضوعات. وقد جمعت نصوص الصحف السعودية في مدونة بلغ مجموع نصوصها بعد تهيئتها 4781 نصًّا، تضمنت 649,734 كلمة فعلية. وأظهرت نتائج تدريب 20 نموذجًا عليها بعشر كلمات مميزة أن القيمة المثلى لعدد الموضوعات في تلك النصوص، هي 7 موضوعات، وذلك بدرجة تماسك جيدة بلغت 0.6723 . وقد استدل على هذه الموضوعات من خلال كلماتها العشر ذات القيم العليا في كل موضوع. ففسرت الموضوعات على التوالي: الرقابة والتوعية، والتنمية والتطوير، والرياضة، والصحة، والاقتصاد، وشؤون محلية، وسياسة دولية. ثم قيم النموذج ذي ال 7 موضوعات تقييمًا نوعيًّا بفحص تماسك الكلمات في الموض وع الواحد يدويًّا، وفحص الموضوعات بمراجعة النصوص الخمسين الأولى في كل موضوع؛ للتأكد من انتمائها لموضوعها الذي خصصته الخوارزمية لها. وقد ساعد في التقييم النوعي إجراء الخوارزمية مرة أخرى على نصوص كل موضوع من الموضوعات السبعة؛ للوصول إلى تفاصيل أكثر حول كل موضوع على حدة. وعلى الرغم من وجود بعض القصور في نتائج عملية النمذجة الموضوعية لبيانات الدراسة بتلك الخوارزمية، إلا أنه يمكن استكمال أوجه القصور ومعالجتها، واستعمالها في تحليل الخطاب بدلاً من المناهج التقليدية.
الكلمات المفتاحية
نموذج موضوعي، مقياس التماسك، خوارزمية LDA ، النموذج الأمثل، معالجة اللغة، تعلم الآلة
كيفية الاستشهاد
التميمي ، أ. (يونيو 2022). تقييم نمذجة الموضوع لنصوص الصحف السعودية باستخدام LDA: دراسة اللغويات الحاسوبية. مجلة جامعة أم القرى لعلوم اللغة وآدابها ، 29 ، 32 - 44. https://doi.org/10.54940/ll16145890