مقدمة
من المعلوم أن التقدیر فی الطرائق الاحصائیة یعتمد على مجموعة من الفروض المهمة للحصول على نموذج انحدار دقیق ، وتعد معلومیة التوزیع الاحتمالی للبیانات أحدى أهم الأحیان تأخذ البیانات الموزعة نمطاً مختلفاً وقد لا تتمثل بنمط معین من التوزیعات والسبب یعود أحیاناً الى وجود القیم الشاذة (Outlier) وهو الأمر الذی یؤدی الى عدم التحقق فی فروض المربعات الصغرى وعندها ستفقد خصائصها الجیدة وعلیه یتم البحث عن طرق بدیلة حصینة لمعالجة هذه المشکلة وتعطینا مقدرات کفوءة ، وقد تم البحث عن طرق للکشف عن القیم الشاذة التی ظهرت فی البیانات منها طریقة الرسم الصندوقی ، وطریقة الـHat Matrix ، وطریقة حذف ستیودنت ، وقد وضعت أسالیب عدیدة لمعالجة هذه القیم عند تقدیر معلمات نموذج الانحدار أهمها أسلوب الحذف ، طریقة مقدر M الحصین الذی یعالج الخلل فی المتغیر التابع دون معالجة الخلل الموجود فی المتغیرات التوضیحیة ، کذلک استخدام طریقة مقدر MM الحصین الذی یعالج الخلل فی المتغیرات المستقلة والمتغیر التابع ، کذلک طریقة مقدر M الحصین الموزونة المقترحة من قبل(شاکر ، 2009) .
تضمن هذا البحث جانبین ، الأول مفهوم القیم الشاذة وطرق الکشف عنها وتشخیصها ، وطرق کشف التأثیر عن القیم الشاذة ، وأسالیب معالجة القیم الشاذة .أما الجانب الثانی تمثل بتطبیق الطرائق الثلاثة للکشف على بیانات حقیقیة المتمثلة بتلوث میاه الابار أطراف مدینة الموصل وتم الحصول على البیانات من مرکز بحوث السدود والموارد المائیة –جامعة الموصل وتم وضع معیار متوسط مربعات الخطأ MSE للمقارنة .
- نموذج الانحدار الخطی المتعدد :
تعد طریقة المربعات الصغرى الاعتیادیة أحد الطرق فی تقدیر معلمات النموذج التی تأخذ العلاقة :
…(1)
تشترط توفر عدد من الشروط من أجل الحصول على مقدرات دقیقة لمعلمات نموذج والذی یتمثل بالمعادلة الأتیة:
…(2)
ومن هذه الشروط هی التوزیع الطبیعی لمتجه الاخطاء وتجانس تباین الاخطاءHeteroscedastic) ( إلا أن هذه الشروط لاتتحقق فی کثیر من الحالات والسبب یعود إلى وجود القیم الشاذة فی متجه الأخطاء أو فی قیم المتغیرات التوضیحیة ، لذا فأن کشف هذه القیم ومعالجتها قبل تحلیل البیانات أمر فی غایة الأهمیة من أجل الحصول على نتائج واقعیة دقیقة Maronna and Martia ,2006)) وقد وضعت أسالیب للکشف عن هذه القیم منها:
- بعض طرق الکشف عن المشاهدات الشاذة:
a) الرسم الصندوقی :_هو أحد الطرائق الاستکشافیة الحدیثة لتعیین القیم الشاذة وهی طریقة العرض بالرسم الصندوقی Box_Plot بأستخدام خمس ملخصات المقترحة من قبل العالم (Tukey , 1977) ، وهو أحد الأسالیب الرسومیة التی توضح القیم ذات التطرف القوی (Extrem Outlier) والقیم ذات التطرف المعتدل وتحتویها البرامج والحزم الرسومیة (الصائغ ,2013).
b) فحص عناصر قطر المصفوفة (Hat- Matrix): هی أحدى الطرق الأحصائیة التی من خلالها یتم الکشف عن القیم الشاذة فی المتغیرات المستقلة والتی تسمى أحیاناً بقیم قوة الرفع (Leverage values) (یوسف ،2015)إذا إن:
…(3)
فإذا کانت or or فهذا یدل على ان المشاهدة ))هی مشاهدة متطرفة (Belsly and Walsch, 1980) .
v طرق تشخیص القیم الشاذة فی المتغیرات المستقلة:
هناک ثلاث طرق لتشخیص المتغیرات المستقلة:
- طریقة بلیسلی وآخرون:أوضح (1980( Belsly et al, فی هذه الطریقة عن المشاهدات الشاذة وبین فیما اذا کانت مؤثر ام لا على قوة الرافعة فی المعادلة (3) کالأتی :
…(4)
- o طریقة نیتر وآخرون: تشخیص القیمة الشاذة للمشاهدة حیث اعتبر (Neter et al.,1990) إن الرافعة التی تزید قیمتها عن 0.5 کبیرة کالاتی:
...(5)
- o طریقة جون فوکس: اقترح (Fox,1997) دراسة کل الحالات التی تزید قیم رافعاتها عن ثلاثة أضعاف متوسط الرافعة.
…(6)
c) طریقة بواقی ستیودنت المحذوفة:_ تمثل أحدى طرق الکشف عن القیم الشاذة فی المتغیر التابع ، والتی یتم الحصول علیها بایجاد القیمة المعیاریة للبواقی المحذوفة (Deleted Residual)، حیث ان البواقی المحذوفة للمشاهدة یساوی الفرق بین قیم ( ) الفعلیة والقیم المقدرة لها ( ) باستخدام نموذج الانحدار الخطی الذی تقدیره باستبعاد المشاهدة ( )، مما یجعل تحلیل البواقی أکثر فاعلیة فی الکشف عن المشاهدات القاصیة فی المتغیر التابع (y) وتم التوصل إلى أفضل معادلة تم الاعتماد علیها فی الدراسة حیث تم حساب بواقی ستیودنت أستناداً إلى المعادلة أدناه والتی تتبع توزیع t بدرجة حریة (n-k-1) وتستند فی حسلبها على الخطأ ومجموع مربعات الخطأ فضلاً عن قیم الرفع لمصفوفة الـ Hat-Matrix (المطیری، 2010):
…(7)
v طرق تشخیص القیم الشاذة فی المتغیر المعتمد:
یتم تشخیص القیم الشاذة لمتغیر التابع بمقارنة القیمة المطلقة لباقی ستیودنت المحذوفة بقیمة توزیع t عند درجة حریة n-k -1 ومستوى معنویة حیث تعتبر الحالة حالة شاذة لابد من دراستها وتحدید مدى تأثیرها على مقدرات المربعات الصغرى(المطیری ,2010) .
…(8)
- المشاهدات الشاذة المؤثرة وطرق الکشف عنها:
هنالک مقاییس یتم من خلالها معرفة إذا کانت المشاهدات الشاذة مؤثرة أم لا من هذه لمقاییس:
- مقیاس DFFITS لتأثیر القیم الشاذة:
یستخدم مقیاس DFFITS لقیاس اثر المشاهدة i على القیمة المقدرة ، وتم الاعتماد على الصیغة أدناه لقیاس أثر المشاهدة على القیم المقدرة
…(9)
v طرق کشف التأثیر لقیمة DFFITS على النموذج:
یمکن تشخیص المشاهدة i باعتبارها مؤثرة على نتائج نموذج تحلیل الانحدار الخطی المتعدد وهناک طرق کشف منها:-
- o طریقة بلیسلی وآخرون Belsley et al., 1980)):
أختبر بلیسلی الحالة مؤثرة على نتائج تحلیل الانحدار الخطی المتعدد أستناداً إلى عدد معلمات النموذج p الموضح بالصیغة الأتیة:
…(10)
- o طریقة شاترجی وهادی Chatterjee and Hadi, 1988)):
اقترح کل من شاترجی وهادی معیار لمقارنة القیمة المطلقة لـ DFFITS بقیمة اکبر قلیلاً من القیمة التی اقترحها بلیسلی واخرون تعرف کالآتی:
…(11)
- مقیاس COVRATIO لتأثیر القیم الشاذة:
نستخدم مقیاس الاثر على الأخطاء المعیاریة Influence on standard Error الذی طوره بلیسلی اثر على حالة مصفوفة تباین تغایر معاملات الانحدار المقدرة. وبعد مراحل من التطور تم التوصل إلى معادلة حسابیة تعتمد على قیم الرافعة وقیم بواقی ستیودنت المحذوفة وعدد معلمات النموذج وعدد المتغیرات وفق الصیغة الأتیة:
…(12)
نلاحظ فی المعادلة تزید قیمة COVRATIO بزیادة قیمة الرافعة وانخفاض بواقی ستیودنت المحذوفة ویکون ذلک مؤثر جید لاکتشاف قیم COVRATIO المؤثرة على الأخطاء المعیاریة.
v طریقة کشف التأثیر لقیمة (COVRATIO):
اقترح (Belsley et al. , 1980) مقارنة قیمة COVRATIO بالقیمة لتشخیص اثر الحالة رقم ( ) على الأخطاء المعیاریة لمعاملات الانحدار أی إذا کانت قیمة COVRATIO خارج هذه الفترة فان المشاهدة رقم ( ) تعتبر مؤثرة على قیم الأخطاء المعیاریة لمعاملات نموذج الانحدار أعتماداً على الفترة الاتیة:
…(13)
- مقیاس Cook's Distance لتأثیر القیم الشاذة:_
یستخدم مقیاس (مسافة کوک) لقیاس أثر المشاهدة ( ) على کل معاملات نموذج الانحدار المقدرة، وقد تم اعتماد مقیاس مسافة کوک على القیمة لأنه عندما تکون احد هاتان القیمتان کبیرة أو کلاهما فان قیمة مسافة کوک ستصبح کبیرة أیضاً.
…(14)
v طریقة کشف التأثیر لقیمة مسافة کوک Di :_
طریقة فوکس: حیث اقترح فوکس طریقة فی عملیة الکشف القیمة الشاذة مؤثرة على قیم معاملات الانحدار وبخلاف ذلک تکون القیمة غیر مؤثرة من خلال الصیغة الأتیة:_
…(15)
- مقیاس (DFBETAS) لتأثیر القیم الشاذة:
یستخدم مقیاس DFBETAS لقیاس الفرق بین معاملات الانحدار المقدرة باستخدام کل المشاهدات وقیم معاملات الانحدار المقدرة بعد حذف المشاهدة رقم (i) فی کل مرة. وهناک معادلة یجب حسابها فی کل مرة یتم فیها توفیق النموذج بعد حذف المشاهدة رقم i مستنداً إلى الخطأ المعیاری وعنصر القطر k من مصفوفة وفی الصیغة الاتیة :
for k=0,1,2,…,p ...(16)
v طریقة کشف التأثیر لقیمة(DFBETAS):
لتشخیص الحالات المؤثرة على قیمة معامل الانحدار .
- طریقة نیتر وأخرون (Neter et al,1990):
اقترح نیتر معیاراً لتحدید الحالات المؤثرة فی حالة العینات الصغیرة والمتوسطة أما فی حالة العینات الکبیرة
- طرق معالجة القیم الشاذة:
- طریقة حذف المشاهدات الشاذة : تستخدم هذه الطریقة أذا کان حجم العینة کبیرا (إسماعیل،2001) حیث یتم بناء نموذج جدید فی کل مرة یتم فیها حذف مشاهدة شاذة( ) لحین الحصول على نموذج یبلغ فیه قیمة الخطأMSE) ) أقل ما یمکن فضلاً عن قیمة معامل التحدید والمختبر الاحصائی .
- طریقة مقدر M الحصین : Robust M Estimation
هو أحد طرق المعالجة الذی یتم من خلاله معالجة القیم المتطرفة فی المتغیر المعتمد وذالک بأستعمال الاسالیب الحصینة التی أقترحها (Huber,1973) .وتم الاعتماد على الصیغة أدناه یمکن الحصول على معلمات النموذج وکما یلی:
…(17)
هدف أسلوب M الحصین هو أعطاء أوزان صغیرة للمشاهدات غیر الاعتیادیة (المتطرفة ) من خلال عناصر القطر للمصفوفة القطریة W، ولتطبیق أسلوب M یتطلب الأمر مقدر ابتدائی وأسلوب تکراری للوصول فی النهایة إلى تقارب فی مقدرات M للمعلمة ، ویدعى هذا الأسلوب بأسلوب المربعات الصغرى الموزونة (IRLS) (RousseeandLeroy,1987).
- طریقة مقدر MM الحصین:
هو أحد الأسالیب الحصینة ذات الخصائص الجیدة والأکثر استخداما ، وهو أحد طرق المعالجة یستخدم لمعالجة القیم المتطرفة فی المتغیرات المستقلة والمتغیر التابع وهو مقدر یجمع بین الکفاءة النسبیة المحاذیة العالیة لمقدر M مع نقطة انهیار عالیة لنوع معین من مقدرات S ، حیث أن مقدرMM یقوم بحساب تباین الأخطاء من مقدر ابتدائی ذو نقطة انهیار عالیة الا وهو مقدر S-Estimation ، بینما أسلوب M الذی کان یستخدم المربعات الصغرى الموزونة یأخذ الاخطاء من مقدر ابتدائی وهو مقدر المربعات الصغرى الاعتیادیة الذی تکون نقطة انهیاره 0%(شاکر,2017).
وقد وصف (Yohai , 1987) ثلاث مراحل للحصول على مقدر MM:
- استخدام مقدر ابتدائی ذو نقطة انهیار عالیة مثل مقدر S ، إذ یرمز له بالرمز ومن ثم استخدام أخطاء هذا المقدر من خلال المعادلة
- یتم أستخدام أخطاء المقدر والتی هی ویرمز لها بالرمز . وأن دالة الهدف المستخدمة فی هذه المرحلة یرمز لها ب .
- یتم فی هذه المرحلة ایجاد مقدر MM من خلال
،
إذ أن
کما أن دالة فی المرحلة الثالثة یجب أن لا تکون نفس دالة ، ولکن یجب أن تحقق الشروط الثلاثة (Yohai , 1987) .
والصیغة أدناه تمثل مقدر معلمات النموذج MM الحصین التی تم الاعتماد علیها فی العمل.
…(18)
- طریقة مقدرM الحصین الموزونة (R.M.W):
تعتبر هذه الطریقة أحد طرق معالجة القیم الشاذة الموجودة فی متجه الأخطاء الأ أنه فی حالة وجود مثل هذه القیم فی مصفوفة المتغیرات التوضیحیة یصبح هذا الأسلوب غیر قادر على معالجة هذه القیم والتخلص من أثرها ، لذا أقترح (شاکر،2009) أولاً تعدیل القیم المتطرفة الموجودة فی مصفوفة المتغیرات التوضیحیة باستعمال مصفوفة الأوزان لطریقة المربعات الصغرى الموزونة weighted least squares (W.L.S) ومن ثم معالجة القیم المتطرفة الموجودة فی متجه متغیر الاستجابة من خلال استخدام (متجه أخطاء المربعات الصغرى الموزونة ) باستعمال أسلوب M الحصین ثانیاً، وأخیراً إیجاد المقدرات الجدیدة بعد التعدیل الأخیر وهذه المقدرات سیطلق علیها اسمM الحصینة الموزونة (Robust M-Weighted Estimator(R.M.W.
وبنفس طریقة المربعات الصغرى الموزونة الاعتیادیة یمکن إیجاد M الحصین الموزون المقترح (شاکر،2009)،نحصل على المعادلة الأتیة:
…(19)
المعادلة(19) تمثل صیغة أسلوب Mالحصین الموزون المقترح ( R.W.M) والذی یتم بواسطته معالجة التطرف الموجود فی المتغیرات التوضیحیة أو متغیر الاستجابة أو کلیهما معاً.
- الجانب التطبیقی:
فی هذا الجانب من البحث تم تطبیق ما ورد فی الجانب النظری على بیانات الدراسة تتمثل عن تلوث میاه الابار والعناصر الداخلة فی الترکیب والتی تتمثل بمتغیرات X وعناصر اخرى تتمثل بالمتغیر Y والتى تحمل اعلى نسبة من الشواذ ( AL-Youzbakey and Sulaiman , 2020) ومن هذه العناصر التی تم اعتمادها فی الدراسة کمتغیرات مستقلة (الکالسیوم (Ca2+) والبیکربونات HCO3)) والمغنیسیوم (Mg+)) ،والاملاح الذائبة (T.D.S) کمتغیر معتمد. ومن خلال دراستنا استنتجنا بأن العلاقة بین کل متغیر مستقل مع متغیر معتمد علاقة طردیة موجبة.
- فی الخطوة الاولى تم اختبار وجود القیم الشاذة فی کلا المتغیرین ( المتغیرات المستقلة والمتغیر التابع ) بأستعمال الرسم الصندوقی وهو أفضل طرق الکشف کما موضح فی الشکل الاتی:
الشکل (1) یوضح القیم الشاذة فی المتغرات المستقلة X والمتغیر التابع Y
من خلال الشکل (1) تبین إن المتغیر ظهرت فیه قیمة شاذة واحدة أما فی المتغیر ظهرت فیه قیمتین شاذتین کذلک المتغیر ظهرت فیه تسعة قیم شاذة والمتغیر یحتوی احدى عشر قیمة شاذة .
- الخطوة الثانیة معالجة القیم الشاذة : یتم معالجة القیم الشاذة بعدة طرق منها
- طریقة الحذف حیث تبین أن افضل نموذج تم الحصول علیه عند حذف المشاهدتین (3)،(93).
نتائج النموذج المقدر بعد حذف المشاهدة رقم (3)(93):
حیث تم الحصول على أقل MSE عند حذف المشاهدتین (3)،(39) مقارنتةً بباقی النماذج .
- أما المعالجة بطریقة مقدر M الحصین : حیث تم اختیار نقطة انهیار مختلفة ولکل نقطة لها ثابت تولیف معین (شاکر،2017) ، وتم التوصل الى افضل نموذج مقدر عند نقطة انهیار 50% کما موضح فی الجدول الاتی:
جدول(1) :مقدر معلمات النموذج والجذر التربیعی لتباین الاخطاء ومعامل التحدید باستخدام مقدر Mالحصین
|
F
|
MSE
|
|
|
|
|
|
obs
|
|
2971.80
|
0.8730
|
0.9910
|
0.6272
|
0.2052
|
0.8951
|
0.0076-
|
1
|
حیث ظهرت قیمة ال MSE=0.8730 وهی قیمة صغیرة مقارنة بباقی النماذج کذالک قیمة =0.9910 وهی قیمة تفسیریة تبین أن متغیرات الانموذج (الکالسیوم ،والبیکربونات ، والمغنیسیوم) قد فسرت بنسبة (0.991) من أجمالی التغیرات الحاصلة بالمتغیر التابع (T.D.S الأملاح الذائبة الکلیة) .
- المعالجة بطریقة مقدر MM الحصین : تبین من هذه الطریقة التی تعالج مشکلة القیم الشاذة فی المتغیرات المستقلة والمتغیر التابع لتقلیل أثر القیم الشاذة کما تم دراستها فی الجانب النظری وفق المعادلة (18) حیث تم أختیار أنسب معالجة للقیم بناءا على الدراسات السابقة (شاکر،2017)عند نقطة أنهیار 50%وکفاءة قدرها 3.42 بمعامل تولیف قدره 1.547 وکانت النتائج کما موضح فی الشکل الاتی:
جدول(2): یوضح معاملات الانحدار ومتوسط مربعات الخطأ و معامل التحدید
| |
|
|
|
|
|
|
|
1.5638
|
1295.69
|
0.9626
|
0.5353
|
0.1891
|
1.2398
|
0.0906
|
حیث تم الحصول على نموذج تکون فیه قیمة الMSE=1.5638 وقیمة أقل ما یمکن وقیمة معامل التحدید وهی قیمة تفسیریة تبین أن متغیرات الثلاثة (الکالسیوم، البیکربونات ،المغنیسیوم) للنموذج قد فسرت ما نسبته (0.9626) من أجمالی التغیرات الحاصلة بالمتغیر التابع (الاملاح الذائبةT.D.S).
- المعالجة بطریقة مقدر M الحصین الموزونة: فی هذه الطریقة تم اختبار معلمات نموذج الانحدار M الموزونة استناداً إلى المعادلى (19) وفق أوزان وختبرات مختلفة فقد تم التوصل الى أفضل نموذج تم الحصول علیه عند أضافة الوزن حیث کانت قیمة الـ وهی قیمة صغیرة مقارنةً بباقی النماذج کما فی الجدول الاتی:
جدول(3):معلمات النموذج بطریقة المقدر M الحصین الموزونة عند
|
p-value
|
T
|
Std.Error
|
Coefficients
|
Dependent variable
|
|
0.329
|
0.981
|
0.049
|
0.048
|
Constant
|
|
0.000
|
4.869
|
0.121
|
0.587
|
|
|
0.000
|
7.368
|
0.047
|
0.347
|
|
|
0.000
|
13.953
|
0.047
|
0.659
|
|
v المقارنة بین طرق معالجة القیم الشاذة :
بعد عدة طرق معالجة اجریة على بیانات التلوث تم التوصول الى اربع نماذج أنحدار یتم المقارنة بین هذه النماذج للحصول على افضل مقدر ذو کفاءة عالیة تکون فیه قیمة الMSE أقل مایمکن کما هو مبین فی الجدول الاتی:
جدول (4) : نتائج المقارنة بین طرق معالجة القیم الشاذة
|
مقدرM الحصینة الموزونة/0.038
|
مقدرMM الحصین/عنده نقطة الانهیار وکفاءة (3.42)
|
مقدرM الحصین /عند نقطة أنهیار (50%)
|
طریقة الحذف/(3+93)
|
|
|
0.9772
|
0.9528
|
0.9910
|
0.7988
|
R-Squer
|
|
0.022
|
1.5638
|
0.8730
|
0.1851
|
MSE
|
|
117.646
|
1295.696
|
2971.805
|
134.98
|
F
|
من ملاحظة النتائج فی الجدول (4) یمکننا القول بأن R.M.W قد عالج نسبة کبیرة من القیم الشاذة مقارنة بکل من طریقة الحذف ومقدر M الحصین ومقدر MM الحصین .
- الأستنتاجات :
کل ما تم الحصول علیه من نتائج وأستنتاجات وکفاءة مقدر وفق معیار المقارنة حسب طبیعة البیانات المدروسة حالیاً والمأخوذة من مرکز بحوث السدود والموارد المائیة. أن أفضل طریقة لکشف المشاهدات الشاذة فی بیانات نموذج الانحدار المتعدد باستخدام الرسم الصندوقی Box-plot. وأن معالجة القیم الشاذة أدى الى تحسین کبیر جداً فی أداء نموذج الانحدار الخطی المتعدد بالتنبؤ بقیم المتغیر التابع بشکلها العام وتم التوصل الى أفضل نموذج عند معالجة القیم الشاذة بطریقة الحذف عند حذف المشاهدتین (3)،(93) حیث کانت قیمة MSE أقل مایمکن عند هذه الحالتین ، أما بطریقة مقدر M الحصین ظهر أفضل نموذج عند نقطة أنهیار قدرها 50% أما بطریقة مقدرM الحصین الموزونة حیث ظهر النموذج المفضل عند وظهر تفوق لـMM الحصین بکفاءة 3.42 ونقطة أنهیار قدرها %50 وهذا کان واضحا لحصوله على أقل MSE ، کما تبین أن أفضل طریقة لمعالجة القیم الشاذة والتی اظهرت کفاءتها العالیة عن باقی الطرق هی طریقة مقدرM الحصین الموزونة عند عن باقی المختبرات.