Variable Selection In Logistic Regression Model Using Modified Firefly Algorithms

Suleiman Dawood, Heba

doi:10.33899/iqjoss.2024.183255

Journals List

Variable Selection In Logistic Regression Model Using Modified Firefly Algorithms

IRAQI JOURNAL OF STATISTICAL SCIENCES

Volume 21, Issue 1, June 2024, Pages 150-158 PDF (472.97 K)

Document Type: Research Paper

DOI: 10.33899/iqjoss.2024.183255

Author

Heba Suleiman Dawood

Department of Statistics and Informatics, College of Computer Science and Mathematics, University of Mosul, Mosul, Iraq

Abstract

Abstract: The logistic regression model is considered the most widely used in many applications, and it is one of the main models in the family of generalized linear models. Like other regression models, the model may contain many independent variables, which negatively affects the accuracy of the model and its simplicity in interpreting the results. This study aims to use the modified firefly algorithm and compare it with other methods for selecting variables in an exponential regression model using simulation and real data. The results showed that compared to other previously used methods, the proposed method performs better and helps reduce the mean square error of the model.

.

Highlights

تشير النتائج التي تم الحصول عليها من خلال المحاكاة والبيانات الحقيقية في انموذج الانحدار اللوجستي إلى أن استخدام اسلوب FFA يؤدي إلى نتائج ممتازة عند استخدام معيار MSEو PE، مما يجعله موثوقاً للمستخدمين في التنبؤ بالنتائج وتقييم النماذج الإحصائية. وبالإضافة إلى ذلك، يبدو أن حجم العينة له تأثير كبير على قيم PE، حيث تنخفض قيمه PE عند زيادة حجم العينة، مما يعني زيادة الدقة. وعلى الجانب الآخر، عند زيادة قيمة عدد المتغيرات المستقلة نلاحظ أيضاً انخفاض في قيمة PE . ويجدر بالذكر أن استخدام معيار MSE مع يؤدي إلى نتائج أفضل في التنبؤ بالنتائج وتقييم النماذج الإحصائية. علاوة على ذلك ان الاسلوب المقترح ابدى قوته باختيار اقل عدد من المتغيرات المستقلة.

Keywords

Selection of variables; firefly algorithm; simulation; exponential regression model

Full Text

تعالج التقنيات الجديدة النمو الهائل للبيانات، اذ تساعد هذه التقنيات الباحثين على نقل كميات هائلة من البيانات إلى المعلومات. قد تحتوي البيانات الضخمة على متغيرات غير ذات صلة أو زائدة عن الحاجة. ولذلك يفضل الباحثون اختيار المهم من هذه المتغيرات عن طريق اختيار مجموعة فرعية صغيرة من المتغيرات المهمة المتوفرة من مجموعات البيانات.

تعتبر دراسة أي مشكلة أو ظاهرة من المجالات الاقتصادية، الاجتماعية، الطبية أو غيرها، من أهم أسس البحث العلمي. فالغاية الرئيسية من دراستها هي تحديد المعادلة الرئيسية التي تمثل تلك الظاهرة بدقة، وذلك عن طريق جمع البيانات المتعلقة بها من مختلف المصادر المتاحة. ومن ثم يتم تحليل تلك البيانات باستخدام تقنيات الإحصاء والتحليل الرياضي لتحديد العلاقات بين المتغيرات المختلفة وتصميم نماذج إحصائية تصف تلك العلاقات. وهذا يشكل المدخل الأساسي لفهمها بشكل أعمق وتحديد معالمها الرئيسية. ويشار إلى أن هذه العملية في علم الإحصاء بنمذجة الظواهر(Månsson, 2013). ومن بين جميع نماذج الانحدار الخطي المعممة، يمكن القول أن نموذج الانحدار اللوجستي هو أحد أشهر هذه النماذج ، حيث يتم استخدامه بشكل واسع في العديد من التطبيقات.

الانحدار اللوجستي هو احد نماذج المعتمد على التصنيف الثنائي من خلال التنبؤ باحتمالية حدوث نتيجة أو حدث. يقدم النموذج نتيجة ثنائية أو ثنائية التفرع تقتصر على نتيجتين محتملتين: نعم/لا، 0/1، أو صحيح/خطأ. يقوم الانحدار اللوجستي بتحليل العلاقة بين واحد أو أكثر من المتغيرات المستقلة ويصنف البيانات إلى فئات منفصلة. يتم استخدامه على نطاق واسع في النمذجة التنبؤية، حيث يقوم النموذج بتقدير الاحتمال الرياضي لما إذا كان المثيل ينتمي إلى فئة معينة أم لا (Alharthi, Lee, & Algamal, 2021).

غالبية البيانات في الواقع التطبيقي الحقيقي تحتوي على مشاكل مثل مشكلة العدد الكبير من المتغيرات المستقلة المدروسة، وهي من المشاكل المعروفة لدى الباحثين الإحصائيين، وتؤثر سلباً على عملية التقدير. في بعض الحالات، يمكن أن تؤدي هذه المشكلة إلى تجاهل بعض المتغيرات التوضيحية المهمة. حيث اصبحت الاساليب التقليدية لاختيار المجموعات الجزئية غير جيدة في اداء وظيفتها حيث اصبحت اكثر تكلفة في حسابها ، اضافة الى ذلك فان معايير المعلومات لاختيار المتغيرات مثل معيار أكاكي للمعلومات Akaike information( AIC))) ومعيار بيز للمعلومــات (Bayesian information criterion (BIC)) اصبحت غير عملية في اختيار المتغيرات التوضيحية وذلك بسبب تعقيدها الحسابي الذي ينمو بشكل طردي مع ازدياد عدد المتغيرات التوضيحية (Özkale & Arıcan, 2018).

يهدف هذا البحث إلى توظيف خوارزمية اليراعات المضيئة المعدلة ومقارنتها مع طرائق إختيار المتغيرات التوضيحية في أنموذج الانحدار اللوجستي الاخرى باستخدام المحاكاة والبيانات الحقيقة، من خلال تسليط الضوء على عدد من العوامل التي قد تؤثر على جودة هذه الطرائق ووجوب استخدامها ضمن شروط معينة دون غيرها من الطرائق.

يعتبر العالم Yang اول من استخدم خوارزمية اليراعات المضيئة عام 2007 وطورها في عام 2009 لاجراء التصنيفات للبيانات الهندسية وبعدها تم استخدامها في الكثير من المجالات الاحصائية مثل تنقيب البيانات و في جال تعلم الالة وغيرها من المجالات.

نموذج الانحدار اللوجستي (LRM)

يعرف الانحدار اللوجستي على انه نوع من انواع نماذج الانحدار اللاخطية الذي تكون فيه العلاقة بين المتغير التابع (الاستجابة) ومجموعة من المتغيرات التوضيحية علاقة غير خطية (Özkale & Arıcan, 2016)، اذ يكون فيها المتغير التابع (الاستجابة) متغير نوعي (Varathan & Wijekoon, 2018). قد يأخذ المتغير التابع في نموذج الانحدار اللوجستي صفتين فقط ويرمز لهاتين الصفتين بـــ ((0 او((1، وهو ما يطلق عليه بالانحدار اللوجستي الثنائي (Binary logistic regression). اما فيما يخص المتغيرات التوضيحية، فيمكن ان تكون هذه المتغيرات مستمرة او متقطعة سواءا وصفية كانت او عددية.

يبنى نموذج الانحدار اللوجستي على فرض أساسي هو أن المتغير التابع الذي نهتم بدراسته هو متغير ثنائي الصفة ويتبع توزيع برنولي وفق الدالة الاحتمالية المعرفة بالصيغة الاتية (Özkale & Arıcan, 2018)

(1)

اذ ان: : تمثل احتمال حدوث الاستجابة عندما و : تمثل احتمال عدم حدوث الاستجابة عندما .

يمكن تعريف الاحتمال ( ) رياضيا بدلالة المتغيرات التوضيحية والدالة اللوجستية وكما في الصيغة الاتية :

(2)

اذ ان: :متجه من المعلمات أبعاده (p´1) و : متجه صفي من المتغيرات التوضيحية أبعاده (1´p).

يكون الهدف الرئيس من الانحدار اللوجستي الثنائي هو تفسير التغير في قيم المتغير التابع من خلال تفسير حدوث الاستجابة باحتمال ( ) او عدم حدوث الاستجابة باحتمال ( ). بناءاً على ذلك، وكما هو معروف عند بناء نموذج الانحدار، فان من خلال المعادلة الاخيرة ((2 يتضح ان العلاقة بين المتغير التابع والمتغيرات التوضيحية علاقة غير خطية وغالبا ما تأخذ الدالة اللوجستية شكلاً منحنياً. ويلجأ الاحصائيون غالبا إلى التحويل الخطي لهذه النماذج لإزالة انحناءات معلماتها وذلك لتأثير هذه الانحناءات السلبي في حالة وجودها على خصائص المقدرات اذ بالإمكان افتراض علاقة معينة تربط بين المتغير التابع والمتغيرات التوضيحية الاخرى، لذلك تم اقترح تحويل دالة اللوجت (Logit Function) التي تقوم بتحويل علاقة الانحدار اللاخطية بين المتغيرات التوضيحية ودالة احتمال الاستجابة ( ) في نموذج الانحدار اللوجستي الى علاقة انحدار خطي، وذلك من خلال اخذ اللوغارتيم الطبيعي للمقدار ( ) (Steyerberg, Borsboom, van Houwelingen, Eijkemans, & Habbema, 2004; Varathan & Wijekoon, 2018) كما مبين في المعادلات الاتية:

(3)

(4)

(5)

اذ ان: : معالم مجهولة يتم تقديرها.

دالة الإمكان الأعظم لنموذج الانحدار اللوجستي الذي يتبع توزيع برنولي تكون بالصيغة الاتية

(6)

اذا:

(7)

(8)

وحسب خاصية التحويل اللوجستي (دالة اللوجستك) فان

(9)

فان تساوي:

(10)

وبأخذ اللوغاريتم إلى دالة الإمكان.

(11)

اذا:

(12)

وبأخذ المشتقة الأولى الى لوغاريتم دالة الإمكان الأعظم ثم مساواة المشتقة بالصفر.

(13)

فان المعادلات الناتجة من المشتقة الأولى هي معادلات غير خطية والتي ليس لها حل واضح, لذلك يتم حل هذه المعادلات عن طريق الطرق العددية والتي منها الطريقة العددية الأكثر شيوعا هي خوارزمية نيوتن رافسون .

خوارزمية اليراعات المضيئة (Firefly Algorithm (FFA

في السنوات الأخيرة أصبح الاهتمام متزايد بتصميم خوارزميات التحسين المستوحاة من الطبيعة وتطويرها، حاول الباحثون إيجاد الالهام من مصادر مختلفة في الطبيعة مثل النحل والنمل واليراعات والاسماك والطيور والنباتات وأنظمة الامواج والأنهار. يعد ذكاء السرب أداة مهمة لحل العديد من المشكلات المعقدة في البحث العلمي، إذ تمّت دراسة خوارزميات ذكاء السرب على نطاق واسع حيث تم تطبيقها بنجاح على مجموعة متنوعة من مشكلات التحسين المعقدة نظراً لتمتعها بالبساطة والمرونة والكفاءة العالي (Yang, 2010).

تعتمد معظم خوارزميات التحسين المستوحاة من الطبيعة على ذكاء السرب، وتشكل الخوارزميات القائمة على ذكاء السرب جزءاً كبيرا من الخوارزميات المعاصرة، وأصبحت هذه الخوارزميات مستخدمة على نطاق واسع في التحسين وتحليل البيانات وكذلك في التعلم الآلي والذكاء الإصطناعي. وتعُّد خوارزمية اليراعات المضيئة (Firefly Algorithm FA ) واحدة من أحدث أساليب ذكاء السرب الجديدة واقوى خوارزميات التحسين التي تم تطويرها لأول مرة من قبل الباحث Yangفي بداية عام 2008.

أثبتت الخوارزمية أنها فعالة وذات أداء جيد في حل مشكلات التحسين المختلفة. تم إيجاد خوارزمية اليراعات من محاكاة السلوك الاجتماعي لليراعات المضيئة على أساس جاذبية الفلاش (الأضواء الساطعة) من خلال تمثيل ميزة بعض الخصائص الوامضة لليراعات وكيفية التفاعل معها، إذ أن وميض اليراعة هو نظام إشارة يستخدم لجذب يراعة أخرى (Long Zhang, Shan, & Wang, 2016; Li Zhang, Srisukkham, Neoh, Lim, & Pandit, 2018).

حيث يمكن حساب المسافة بين اثنين من اليراعات في المواقع بالمسافة الديكارتية والتي يمكن حسابها بإستخدام المعادلة الآتية :

(14)

إذ أن : هو موقع اليراعة إذ ، وأن : موقع اليراعة إذ ، D عدد الابعاد وأن

يمكننا تلخيص آلية عمل خوارزمية اليراعات (FA) بالخطوات الآتية: ( Yang, 2010)

1- جميع اليراعات للجنسين، إذ يمكن أن تنجذب كل يراعة ِإلى كل اليراعات الأخرى. إذ أنّ اليراعات الأقل جاذبية (أشراقا) تنجذب إليها اليراعات الأكثر جاذبية(إشراقاً).

2- تتناسب جاذبية اليراعة مع شدة الضوء الذي يتناقص كلما زادت المسافة عن اليراعات الأخرى.

3- يتم تحديد جاذبية اليراعة من خلال موقعها داخل مساحة البحث.

4- تؤدي القيمة الأفضل لوظيفة اللياقة في موقع معين ِإلى زيادة جاذبية اليراعة.

لكل فراشة شدة ضوء أو سطوع يتم إستخدام قيمتهُ لتقييم جودتها. إن سطوع اليراعة iفي موقع معين x نستطيع أن نشير إليه بالآتي:

(15)

حيث أن شدة ضوء اليراعة تتناسب طردياً مع سطوعها وترتبط بالقيم الموضوعية. عند المقارنة بين اليراعات، تنجذب اليراعة التي لها شدة ضوء منخفضة نحو اليراعة الأخرى ذات الضوء الأعلى، شدة ضوء اليراعة تعتمد على من الضوء المنبعث من اليراعة والمسافة بين زوج من اليراعات. يمكن وصف شدة الضوء من خلال دالة متناقصة بشكل رتيب لـ والتي يمكن صياغتها كالآتي:

(16)

:هو عامل امتصاص تأثير الضوء.

ونظراً لأن الجاذبية لكل فراشة تتناسب مع شدة الضوء التي تراها اليراعات المجاورة، لذلك يجب السماح للجاذبية بالتنوع بإختلاف درجة الإمتصاص، حيث يمكن تحديد الشكل الرئيسي لتباين الجاذبيةZ بالمعادلة التالية: (Xu, Yu, Chen, & Zuo, 2018)

(17)

إذ أن تمثل دالة جاذبية اليراعة عند المسافة r و Z₀هي الجاذبية الأولية لليراعة عند مسافة (r = 0)

ويمكن أن تكون ثابتة. عند التنفيذ Z₀تساوي الواحد ولمعظم المشاكل. حيث يتم تحديث الحركة للفراشات حسب المعادلة الآتية:

(18)

إذ أن : هو معامل التوزيع العشوائي. : متجه لأرقام عشوائية مأخوذة من توزيع .Uniform

يعتمد تأثير هذه الحركة العشوائية في المعلمة فيما إذا تم إختياره ليكون كبيراً فإن الحل سيتحرك بشكل عشوائي مبتعداً عن الموقع، بخلاف إذا كان صغيرة جداً، فستتحرك في الموقع وقد تصبح ضئيلة مقارنة بالحركة نحو اليراعات الأكثر إشراقاً.

في BFFA ، تُستخدم وظيفة النقل لتعيين مساحة بحث مستمرة إلى مساحة ثنائية ، وتم تصميم عملية التحديث لتبديل مواقع النجوم بين 0 و 1 في مساحات البحث الثنائية. من أجل بناء هذا المتجه الثنائي ، وظيفة النقل في المعادلة. (18) يمكن استخدامها ، حيث يكون الحل الجديد مقيدًا بالقيم الثنائية فقط

(19)

اذ ان هي عبارة عن رقم عشوائي وان هي دالة تحويل. ان دالة التحويل تعرف بالشكل الاتي:

(20)

في هذا البحث تم اقتراح استخدام دالة تحويل متغيرة خلال الزمن. اي ان دالة التحويل هذه سوف تتغير خلال تكرار الحل. تم هذا الاقتراح من خلال اضافة معلمة تحكم وهي ، اذا تحتاج هذه المعلمة الى قيمة عليا وقيمة دنيا لها من خلال المعادلة الخاصة بها وهي:

(21)

وعليه سوف تصبح دالة التحويل المقترحة بالشكل التالي:

(22)

من أجل إتمام هدف البحث وتحقيقهُ، وبالاعتماد على هذه التقنية، فإن كل عنصر (يراعة) في المجموعة سيكون لديه d من المواقع التي تمثل عدد المتغيرات التوضيحية في انموذج الانحدار اللوجستي. بناءً على ذلك، فإن توظيف خوارزمية اليراعات المضيئة تكون وفق الخطوات التالية:

الخطوة الأولى: تحديد حجم المجموعة (عدد اليراعات) وهو 30 فراشة، حيث إن كل فراشة سيكون له متجه من عدد المتغيرات المستقلة فضلاً عن ذلك تحديد عدد التكرارات داخل خوارزمية اليراعات المضيئة حيث استقرت النتائج عند التكرار 500.

الخطوة الثانية: توليد القيم الأولية التي تحتاجها الخوارزمية، التي ستمثل القيم الأولية الافتراضية ، فإن توليدها سيكون من التوزيع المنتظم المستمر وفق الفترة [0,1].

الخطوة الثالثة: لغرض اختيار القيم المُثلى، تم الاعتماد على Fitness Function وفق الصيغة الآتية:

(23)

الخطوة الرابعة: بالاعتماد على أقل قيمة تحصل عليها أي فراشة وفق المعادلة (22) يتم تحديث مواقع باقي اليراعات.

الخطوة الخامسة: نستمر بالحل لحين الوصول الى أعلى تكرار للخوارزمية، الذي تم تحديده بالخطوة الأولى والذي سيمثل الحل الأمثل.

الشكل 1: الية اختيار المتغيرات حسب خوارزمية اليراعات المضيئة

3- معايير تقييم طرائق اختيار المتغيرات

3-1 معايير تقييم دقة التنبؤ

اولا: خطأ التنبؤ (PE) (Prediction Error)

ويعرف بانه مربع الفرق بين القيمة الحقيقية لمتغير الاستجابة والقيمة التنبؤية المرافقة له, ويعرف رياضيا بالمعادلة التالية :

وبالاعتماد على هذا المعيار يتم تحديد الطريقة الافضل التي تعطي اقل قيمة مقارنة بالطرائق الاخرى.

ثانيا: معايير تقييم دقة اختيار المتغيرات

بما ان الطرق المقترحة بصورة عامة تعمل على اختيار المتغيرات، لذلك من المهم تقييم وقياس قدرة هذه الطرائق وجودتها في كيفية اختيار المتغيرات المهمة. ولذلك، تم الاعتماد على معيارين في دراستنا لهذا الغرض وبالشكل التالي:

معيار التقييم"C"

هو معيار التقييم الذي يرمز له بــ(C) والذي يعرف بانه عدد المعاملات الحقيقية ذات القيم الصفرية والتي تم تقديرها بشكل صحيح على انها ذات قيم صفرية.

(2) معيار التقييم "I"

معيار التقييم الذي يرمز له بــ(I) وهو يعرف على انه عدد المعاملات الحقيقية ذات القيم غير الصفرية والذي تم تقديرها بشكل غير صحيح على انها ذات قيم صفرية. تعتمد جودة طرائق الجزاء من ناحية معايير تقييم دقة اختيار المتغيرات على من يعطي اعلى قيمة لــ (C) واقل قيمة لـــ (I) .

نتائج المحاكاة

لقد تم تصميم تجربة ومحاكاتها باستعمال لغة البرمجة (R) حيث تم توليد المتغير ( ) في انموذج انحدار كاوس المعكوس, حيث تم استخدام اسلوب مونت كارلو (Mont Carlo) في المحاكاة حيث تم تعيين قيم حجم العينات (n) حيث تم استخدام ثلاث احجام من العينات وهي ( 30,100,150,250 ) وذلك لأجل دراسة المقارنة وفق العينات باختلاف أنواعها. سوف تتم المقارنة مع كل من طريقة معيار بيز ومعيار اكاكي.

اولا : تم توليد بيانات المتغير التي تتبع انموذج الانحدار اللوجستي وكالاتي :

ثانياً : تم توليد مصفوفة المتغيرات التوضيحية ذات ابعاد ( ) التي تتبع التوزيع الطبيعي المتعدد (Multivariate Normal Distribution) كالاتي :

حيث ان هي مصفوفة التباين المشترك, حيث ان , عندما حيث ان المتغيرات التوضيحية تكون مرتبطة.

ثالثاً : تم تكرار التجربة ( 100 ) مرة وذلك لغرض تقليل التحيز في تجارب مونت كارلو (Mont Carlo).

رابعاً : تم توليد بيانات نموذج انحدار بواسون تبعا لقيم متجه معلمات الانحدار الذي ابعاده ( ) وكانت قيم متجه معلمات الانحدار كالاتي , حيث ان المعلمات غير الصفرية عددها , وان المعلمات الصفرية تساوي . اذ تم اعتبار p=10, 50, 100

الجداول الآتية توضح النتائج العملية:

جدول (1) : معدل معايير تقييم طرائق الاختيار عندما n=30

p	Method	PE	C	I
10	AIC	24.503	1	0
	BIC	22.955	2	0
	FFA	17.722	5	0
50	AIC	22.879	3	0
	BIC	21.331	3	0
	FFA	16.098	5	0
100	AIC	22.112	2	1
	BIC	20.564	3	0
	FFA	15.331	5	0

جدول (2) : معدل معايير تقييم طرائق الاختيار عندما n=100

p	Method	PE	C	I
10	AIC	23.465	1	0
	BIC	21.917	3	0
	FFA	16.684	5	0
50	AIC	21.841	3	0
	BIC	20.293	4	0
	FFA	15.06	5	0
100	AIC	21.074	2	1
	BIC	19.526	3	0
	FFA	14.293	5	0

جدول (3) : معدل معايير تقييم طرائق الاختيار عندما n=150

p	Method	PE	C	I
10	AIC	21.687	2	0
	BIC	20.139	3	0
	FFA	14.906	5	0
50	AIC	20.063	4	0
	BIC	18.515	4	0
	FFA	13.282	5	0
100	AIC	19.296	3	1
	BIC	17.748	3	0
	FFA	12.515	5	0

جدول (4) : معدل معايير تقييم طرائق الاختيار عندما n=250

p	Method	PE	C	I
10	AIC	20.649	1	0
	BIC	19.101	2	0
	FFA	13.868	5	0
50	AIC	19.025	3	0
	BIC	17.477	4	0
	FFA	12.244	5	0
100	AIC	18.258	3	1
	BIC	16.71	3	0
	FFA	11.477	5	0

سيتم تحليل وتفسير نتائج تجربة المحاكاة تبعا لمعايير دقة التنبؤ ومعيار دقة اختيار المتغيرات. من خلال ملاحظة الجدول (1) و (2) و (3) و (4) الذي يوضح قيم معايير كل من (PE, C, I ) للطرائق BIC و AIC والطريقة المقترحة FFA يمكن استخلاص ما يلي :

عندما تتغير قيمة معلمة التشتت وبغض النظر عن قيمة حجم العينة، يتبين ان طريقة (FFA) اعطت اقل قيم (PE) حيث بلغ مقدار التحسن بالتنبؤ بالاعتماد على المعيار PE)) بمقدار 14% و30.86% عند (n=50) و مقارنة بــAIC ) و (BICعلى الترتيب.
عندما يتغير حجم العينة وبغض النظر عن قيمة معلمة التشتت، اعطت طريقة (FFA )افضل النتائج مقارنة بالطرائق الاخرى حيث تحسن التنبؤ بالاعتماد على المعيار PE)).
بالاعتماد على معايير اختيار المتغيرات، فقد امتلكت طريقة (FFA) اعلى قيم C)) الذي هو عدد المعاملات الحقيقية ذات القيم الصفرية والتي تم تقديرها بشكل صحيح على انها ذات قيم صفرية, واعطت اقل قيم ( I ) الذي يعرف انه عدد المعاملات الحقيقية ذات القيم غير الصفرية والذي تم تقديرها بشكل غير صحيح على انها ذات قيم صفرية.
ظهرت طريقة AIC كأسوأ طريقة في اختيار المتغيرات لأنها تعطي أعلى قيم لــ (PE) وكذلك كأسوأ طريقة في اختيار المتغيرات كونها تميل الى اختيار متغيرات توضيحية غير مهمة.

الجانب التطبيقي

في هذا الجانب، يتم إجراء مقارنة بين أداء الطريقة المقترحة ومقدرات أخرى عن طريق استخدام البيانات الحقيقة. لغرض اتمام الفائدة المرجوة من البحث والطريقة المقترحة، تم التطبيق على بيانات تحتوي على تعدد خطي بين المتغيرات التوضيحية والتي أخذت من بيانات استخدمت من قبل (النعيمي، اسوان محمد طيب,2005) حول مرض الثلاسيميا الذي يصاب به الأطفال وبحجم 150 مريض. وقد تم اختيار عشرة متغيرات توضيحية وهي: العمر الحقيقي للطفل (بالشهر) (x1)، عمر المريض عند المرض مقاساً (بالشهر) (x2)، تضخم الكبد مقاساً (بالسنتمتر) (x3)، هيموكلوبين الدم (x4)، مكداس الدم (خلايا الدم المضغوط) (x5)، الخلايا الشبكية (x6)، ارومة حمراء (x7)، الهيموكلوبين الجيني (x8)، عدد وحدات الدم (x9)، بداية نقل الدم حسب العمر مقاساً (بالشهر) (x10). في حين يمثل متغير الاستجابة وهو متغير ثنائي الصفة: العمر من العظم مقاسا بالشهر اكبر من او يساوي 60 و العمر من العظم مقاسا بالشهر اقل من 60.

تم إجراء تقييم لنموذج الانحدار اللوجستي باستخدام طرائق اختيار المتغيرات المشار اليها من خلال حساب قيم متوسط مربعات الخطأ وكذلك عدد المتغيرات المستقلة التي تم اختيارها. توضح النتائج الملخصة في الجدول رقم 5 أن الاسلوب المقترح FFA تفوقت في الأداء على الطرائق الأخرى، حيث حققت أدنى قيمة لـــ MSE واقل عدد من المتغيرات المستقلة التي تم اختيارها.

جدول 5: نتائج الجانب التطبيقي

Method	MSE	Variables
AIC	39.561	7
BIC	37.248	6
CSA	27.931	4

References

Reference

Al-Naimi, Aswan Muhammad Tayyab Rashid, 2005, “Testing Variables in Letter Regression,” unpublished master’s thesis, College of Computer Science and Mathematics, University of Mosul, Iraq.
Alharthi, A. M., Lee, M. H., & Algamal, Z. Y. (2021). Gene selection and classification of microarray gene expression data based on a new adaptive L1-norm elastic net penalty. Informatics in Medicine Unlocked, 24. doi:10.1016/j.imu.2021.100622
Månsson, K. (2013). Developing a Liu estimator for the negative binomial regression model: method and application. Journal of Statistical Computation and Simulation, 83(9), 1773-1780.
Özkale, M. R., & Arıcan, E. (2016). A new biased estimator in logistic regression model. Statistics, 1-21. doi:10.1080/02331888.2015.1123711
Özkale, M. R., & Arıcan, E. (2018). A first-order approximated jackknifed ridge estimator in binary logistic regression. Computational Statistics, 34(2), 683-712. doi:10.1007/s00180-018-0851-6
Steyerberg, E. W., Borsboom, G. J., van Houwelingen, H. C., Eijkemans, M. J., & Habbema, J. D. (2004). Validation and updating of predictive logistic regression models: a study on sample size and shrinkage. Stat Med, 23(16), 2567-2586. doi:10.1002/sim.1844
Varathan, N., & Wijekoon, P. (2018). Liu-Type logistic estimator under Stochastic Linear Restrictions. Ceylon Journal of Science, 47(1). doi:10.4038/cjs.v47i1.7483
Xu, H., Yu, S., Chen, J., & Zuo, X. (2018). An Improved Firefly Algorithm for Feature Selection in Classification. Wireless Personal Communications, 102(4), 2823-2834. doi:10.1007/s11277-018-5309-1
Yang, X.-S. (2010). Nature-inspired metaheuristic algorithms: Luniver press.
Zhang, L., Shan, L., & Wang, J. (2016). Optimal feature selection using distance-based discrete firefly algorithm with mutual information criterion. Neural Computing and Applications, 28(9), 2795-2808. doi:10.1007/s00521-016-2204-0
Zhang, L., Srisukkham, W., Neoh, S. C., Lim, C. P., & Pandit, D. (2018). Classifier ensemble reduction using a modified firefly algorithm: An empirical evaluation. Expert Systems with Applications, 93, 395-422. doi:10.1016/j.eswa.2017.10.001

Statistics

Article View: 195

PDF Download: 177