تعد سلاسل ماركوف Markov Chain من اهم العمليات التصادفية حيث قام العالم اندريه ماركوف بنشر مجموعة من الأوراق العلمية عام 1907، مثلت هذه الأوراق تطور لعملية كالتون-واتسون حيث تعتبر هي البداية لسلاسل ماركوف. ومن خلال هذه الأوراق التي قدمها ماركوف وضع شرط لاستخدام سلاسل ماركوف يمثل هذا الشرط الخاصية الماركوفية والتي تنص: " ان الأوضاع المستقبلية للعملية تعتمد فقط على الوضع الحالي للعملية ومستقلة عن الأوضاع السابقة "(Yang & Sha, 2011))وتوجد أربع حالات لسلاسل ماركوف كما هو في العمليات التصادفية حيث يمكن ان يكون كل من الزمن وفضاء الحالة مستمر او متقطع، ومن أكثر سلاسل ماركوف تطبيقاً وأشهرها هي التي يكون فيها كل من فضاء الحالة والزمن متقطع.
لذا يمكن ترميز عناصر فضاء الحالة بالأعداد الصحيحة (1,2,3,…). فاذا كان المتغير العشوائي المتقطع يمثل حالة ما مشاهدة عند الزمن فيمكن ترميز العملية التصادفية والتي تكون بفضاء حالة متقطع بالشكل ، حيث ان الدليل يرمز للزمن او الموقع في مكان ما، ويمكن ان يكون أي دليل اخر. وبما ان الدليل يمثل الزمن فأنه يمثل الحاضر، و يمثل الماضي قبل من وحداة الزمن و يمثل المستقبل بعد من وحداة الزمن.
وتسمى العملية التصادفية بعملية ماركوف اذ حققت الاتي:
(1)
حيث يوضح هذا الاحتمال الشرطي بأن العملية في الحالة سوف تنتقل للحالة بعد خطوة واحدة وباحتمال ، وقام الباحث G. Wang بتاريخ 2010 بنشر بحث حول تقدير الاحتمالات الانتقالية(Wang, 2010))، وقام الباحثون Junsheng Ma , واخرون في عام 2014 بنشر بحث حول أسلوب بيز في تقدير مصفوفة الاحتمالات الانتقالية للبيانات ذات الزمن المتقطع لعملية ماركوف (Ma, Yu, Symanski, Doody, & Chan, 2014))، وقام ايضاً Lee واخرون في عام 1968 بنشر بحث حول مقدر بيز والامكان الأعظم للاحتمالات الانتقالية(Lee, Judge, & Zellner, 1968))، وقدم ايضاً كل من KALBFLEISCH و LAWLESS في عام 1984 تقدير المربعات الصغرى للاحتمالات الانتقالية من تجميع البيانات(Kalbfleisch & Lawless, 1984)).
- الجانب النظري
بناء نموذج لسلسلة ماركوف من خلال افتراض سلسلة من المشاهدات فأن اول ما يتم ملاحظته هو مشاهدات تلك السلسلة، والتي قد تكون أحرف او اعداد صحيحة. ومن هذه المشاهدات يتم حساب الانتقالات من حالة الى أخرى لتكوين مصفوفة تضم هذه الانتقالات تسمى بمصفوفة التكرارات ويرمز لها بالرمز . وعلى فرض ان فضاء الحالة وبذلك تكون مصفوفة التكرارات بالشكل التالي:
(2)
بما ان فضاء الحالة متقطع ومنتهي بالإمكان التعبير عن احتمالات الانتقال من والى الحالات المختلفة بعد خطوة واحدة بشكل مصفوفة تسمى بالمصفوفة الانتقالية Transition Matrix ويرمز لها بالرمز ، ويمثل العنصر من هذه المصفوفة باحتمال الانتقال من الحالة الى الحالة باحتمالية . كما ان المصفوفة الانتقالية هي عبارة عن مصفوفة تصادفية Stochastic Matrix ويجب ان تحقق الشرطين:
1- جميع عناصرها غير سالبة واكبر من الصفر ( كونها قيم احتمالية).
2- مجموع كل صف من صفوفها يساوي الواحد ( كون مجموع الاحتمالات الكلية يساوي الواحد).
فاذا كان فضاء الحالة ، فأن الشكل العام للمصفوفة الانتقالية ذات الخطوة الواحدة يكون بالشكل:
(3)
- تقدير مصفوفة الاحتمالات الانتقالية Estimation of Probability Transition Matrix :
هناك العديد من الطرق التي تستخدم لتقدير مصفوفة الاحتمالات الانتقالية للحالات المختلفة، وسيتم تناول طريقة الإمكان الأعظم وطريقة بيز وطريقة مقترحة لتقدير مصفوفة الاحتمالات الانتقالية.
1.3 طريقة الإمكان الأعظم Maximum Likelihood Method (MLE) :
ليكن هي مشاهدات عينة عشوائية مسحوبة من مجتمع بدالة كثافة احتمالية . عندئذ يمكن تعريف دالة الامكان لمشاهدات العينة بانها التوزيع المشترك لتلك المشاهدات. ليكن هو رمز لدالة الامكان فان هذه الدالة تكون بالشكل(Guo, Liao, Zhao, & Mettas, 2007; Singer, Helic, Taraghi, & Strohmaier, 2014)):
(4)
(5)
وبعد اعادة كتابة احتمالات الانتقال للحصول على دالة الامكان لمصفوفة الانتقال
(6)
حيث ان عدد الانتقالات من الى
ومن خلال تعظيم المعادلة أعلاه بأخذ اللوغارتم الطبيعي نحصل على :
(7)
ولغرض إيجاد احتمالات الانتقال من معادلة الإمكان الأعظم اعلاه نتبع طريقة مضاعفات لاكرانج
(8)
: مضاعف لاكرانج ، : الاحتمالات الانتقالية ، ، وبأخذ الاشتقاق الجزئي للمعادلة (8) بالنسبة لـ ولـ نحصل على:
(9)
وبما ان
أي ان
(10)
وبمساواة المعادلة (10) بالصفر نحصل على:
(11)
وبأخذ المجموع لطرفي المعادلة اعلاه الى بالنسبة لـ نحصل
(12)
وبتعويض المعادلة (12) في المعادلة (11) نحصل على:
(13)
وعلية فأن الصيغة (31) تمثل مقدر لمصفوفة الاحتمالات الانتقالية لسلسلة ماركوف باستخدام طريقة الإمكان الأعظم.
2.3 طريقة بيز : Bayes method
ليكن لدينا تمثل البيانات المشاهدة لذا يمكن كتابة نظرية بيز بالشكل التالي:
(14)
حيث ان هو التوزيع اللاحق والتي تمثل احتمالية معلمات النموذج مشروطة بالبيانات المشاهدة . والمقدار الاحتمال الشرطي للبيانات بالنظر لمعلمات النموذج، ويمثل هذا المقدار دالة الإمكان . بينما المقدار احتمال بيانات النموذج . والمقدار يمثل الاحتمال الاولي ويعكس الاحتمال الاولي اعتقادنا حول المعلمات قبل ان نرى البيانات، في حالتنا هذه الاحتمال الاولي لكل صف من مصفوفة الانتقال هو توزيع Dirichlet distribution.
ليكن لدينا المتغيرات وان هذه المتغيرات يجب ان تحقق
و ، ومعلمات التوزيع ، ، لذلك فان توزيع Dirichlet distribution يكون بالشكل(Demirel & Çelik, 2018))(Lin, 2016)):
(15)
ان القيمة المتوقعة لتوزيع Dirichlet distribution هي:
(16)
كما ان تباين توزيع Dirichlet distribution هو:
(17)
حسب طريقة بيز لتقدير مصفوفة الاحتمالات الانتقالية، فأن الاحتمال الاولي للمصفوفة هو نتيجة توزيع Dirichlet distribution لكل صف والذي يكون بالشكل:
(18)
وان الاحتمال الشرطي للبيانات بالنظر لمعلمات النموذج يكون بالشكل:
(19)
وان احتمال بيانات النموذج يكون بالشكل:
(20)
وبتعويض المعادلة (18) والمعادلة (19) في المعادلة (20) نحصل على:
(21)
يتم الحصول على التوزيع اللاحق لطريقة بيز في تقدير مصفوفة الاحتمالات الانتقالية من خلال تعويض المعادلة (18) والمعادلة (19) والمعادلة (21) في المعادلة (14)
(22)
المعادلة (22) تمثل التوزيع اللاحق لطريقة بيز في تقدير مصفوفة الاحتمالات الانتقالية، وبتشبيه المعادلة (22) بتوزيع Dirichlet distribution بالمعلمات
وعلية فأن المعدل والتباين للتوزيع اللاحق هو:
(23)
(24)
ان الافتراض الشائع حسب طريقة بيز لتقدير مصفوفة الاحتمالات الانتقالية يكون بفرض
(25)
(26)
وبتعويض عن المعادلة (25) والمعادلة (26) في معادلة (23) والمعادلة (24) نحصل على المعدل والتباين لطريقة بيز بالشكل(Strelioff, Crutchfield, & Hübler, 2007)):
(27)
(28)
عندما تكون قيمة تقترب من قيمة ، علية فأن تباين طريقة الإمكان الأعظم MLEويكون بالشكل(Singer et al., 2014) ):
(29)
وعلية فأن مقدر طريقة بيز للمصفوفة الانتقالية لسلسلة ماركوف هو:
(30)
3.3 طريقة مقترحة لتقدير الاحتمالات الانتقالية : The Proposed Method for Estimating the Transition Probabilities
إن الأسلوب المقترح لتقدير الاحتمالات الانتقالية هو إجراء تعديل على طريقة بيز في تقدير الاحتمالات الانتقالية، وذلك للوصول الى احتمالات انتقالية بأقل تباين، وبالاعتماد على أسلوب بيز تفترض هذه الطريقة بان قيم في الاحتمال الأولي (والذي يتبع توزيع Dirichlet distribution) يتم تقديرها من خلال توزيع Dirichlet distribution ، لذا يكون الاحتمال الاولي على النحو الآتي(Singer et al., 2014)):
(31)
ويكون الاحتمال الشرطي للبيانات بالنظر لمعلمات الأنموذج على النحو الآتي:
(32)
واحتمال بيانات الأنموذج يكون على النحو الآتي:
(33)
وبتعويض المعادلة (31) والمعادلة (32) في المعادلة (33) يتم الحصول على:
(34)
يتم الحصول على التوزيع اللاحق للطريقة المقترحة في تقدير مصفوفة الاحتمالات الانتقالية من خلال تعويض المعادلة (31) والمعادلة (32) والمعادلة (34) في المعادلة (14):
(35)
إن المعادلة (35) تمثل التوزيع اللاحق للطريقة المقترحة في تقدير الاحتمالات الانتقالية، وبتشبيه المعادلة 35)) بتوزيع Dirichlet distribution بالمعلمات وعلية فأن المعدل والتباين للتوزيع اللاحق هما:
(36)
(37)
وعلية فأن مقدر الطريقة المقترحة للاحتمالات الانتقالية لسلسلة ماركوف هو:
(38)
وتم اقتراح طريقة ذكائية لتقدير المعلمة متمثلة بخوارزمية سرب الجسيمات(PSO) وكما يأتي:
1.3.3 استخدام خوارزمية سرب الجسيمات لتقدير
تعد خوارزمية سرب الجسيمات Particle Swarm Optimization (PSO) من الطرائق الذكائية، لما لها من فائدة كبيرة، وتم في الآونة الأخيرة استخدام هذه الخوارزمية في التطبيقات العملية من اجل الحصول على مقدر بدقة عالية وباقل جهد ووقت(Soyer & Tarimcilar, 2008)).
تم اقتراح خوارزمية (PSO) في عام 1995 من قبل الباحثين James Kennedy وRussel Eberhart لحل مشكلة التحسين المستمرة والغير مقيدة.
تعد خوارزمية سرب الجسيمات (PSO) من الطرق الذكائية، ولما لها فائدة كبيرة تم في الآونة الأخيرة استخدام هذه الخوارزمية في التطبيقات العملية من اجل الحصول على مقدر بدقة عالية وباقل جهد ووقت
تستلهم خوارزمية سرب الجسيمات من الأمثلة البيولوجية للسلوك الطبيعي والجماعي لمجتمع الحيوانات والحشرات والمخلوقات التي تعيش
في مجموعات، ومن هذه الكائنات الدبابير والنحل والنمل الأبيض والاوز ومن مجتمع الحيوانات مجاميع الأسماك واسراب الطيور. يتم استخدام ذكاء السرب لوصف الأنظمة لتحقيق الحالة المثلى، حيث يتم اتخاذ القرارات في السرب بشكل لامركزي من قبل الافراد على أساس المعلومات التي يتم الحصول عليها من البيئة المحيطة بهم(Fister, Fister Jr, Yang, & Brest, 2013)).
تهدف خوارزمية PSO إلى إيجاد الحل الأمثل من خلال التحديث المتكرر لموضع وسرعة كل جسيم بناءً على حركة الجسيمات في السرب
ويكون أساس عمل هذه الخوارزمية هي الجسيمات حيث تقوم بمحاكاة السلوك الطبيعي لأسراب الجسيمات في برنامج حاسوبي، حيث يتم في البداية تهيئة الجسيمات ويكون كل جسيم من هذه الجسيمات له سرعة وموضع خاص به، وتطير تلك الجسيمات في فضاء البحث ويتم تعديل السرعة الخاصة بالجسيمات عن طريق التحكم في موقعها الحالي ، وسرعتها ويتم تحديثها في كل تكرار للخوارزمية لذا تكون تلك الجسيمات لها ميل لتطير نحو الحل الأفضل في فضاء البحث وتكون معادلات التحديث لموضع وسرعة الجسيم هي كما يلي:
(39)
(40)
إذ إن:
وعلية فإن:
,
إذ إن
هي سرعة الجسيم عند التكرار
موضع الجسيم عند التكرار
معاملات تسريع تنظم إلى أي مدى يمكن للجسيم أن يتحرك في تكرار واحد
ارقام عشوائية من التوزيع المنتظم
: ثابت موجب يمثل وزن القصور الذاتي
لذا يمكن تلخيص الخطوات الرئيسة لخوارزمية PSO على النحو الآتي:
- تهيئة الموضع عن طريق تعيين موضع عشوائي لكل جسيم.
- حساب قيمة ملائمة لكل جسيم ضمن السرب.
- يتم تحديث أفضل وضع محلي إذا كان أفضل من السابق.
- يتم تحديث أفضل مركز عالمي إذا كان أفضل من السابق.
- حساب سرعة كل جسيم باستخدام المعادلة (39).
- تحديث موضع الجسيمات باستخدام المعادلة (40).
- يتم تكرار الخطوات (2-6) حتى يتم تحقق شرط الانتهاء.
- الجانب التطبيقي:
للمعلوماتية الحيوية استخدام واسع النطاق في دراسة الجينوم للكائنات الحية في تحديد سلسلة الحامض النووي الرايبوزي منقوص الاوكسجين DNA. وان علم المعلوماتية الحيوية Bioinformatics يعتمد على كل من علم الإحصاء والرياضيات والحاسوب والكيمياء والطب في تحليل البيانات. واستخدم علم المعلوماتية الحيوية Bioinformatics في تحديد متسلسلات الحامض النووي الرايبوزي منقوص الاوكسجين DNA، والحامض النووي هو مركب كيميائي معقد التركيب مسؤول عن تحديد الصفات الوراثية وموجود في جميع الكائنات الحية. يوجد الحامض النووي الرايبوزي منقوص الاوكسجين DNA في نواة الخلية ضمن الكروموسومات التي تتكون من الشبكة الكروماتينية، وعرف الحمض النووي الرايبوزي منقوص الاوكسجين في عام 1900 بأنه شريط طويل متكون من أربع قواعد نيتروجينية والتي تكون على نوعين هي:
- قواعد بيورين Purines وهي :
- ادنين Adenine ويرمز له بالرمز A.
- كوانين Guanine ويرمز له بالرمز G.
- قواعد بيرميدين Pyrimidines وهي :
- سايتوسين Cytosine ويرمز له بالرمز C.
- الثايمين Thiamin ويرمز له بالرمز T.
ويتكون شريط الـ DNA من ارتباط القواعد النيتروجينية فيما بينها اذ يرتبط الثايمين مع الادنين، ويرتبط السايتوسين مع الكوانين. تم الحصول على بيانات بكتيريا القولون الاشريكية Escherichia Coli (E.Coli) من الموقع الالكتروني الخاص بالمركز الوطني لمعلومات التكنولوجيا الحيوية من خلال الرابط https://www.ncbi.nlm.nih.gov ، حيث يوفر هذا الموقع قاعدة من البيانات والتي تكون متاحة للباحثين لأغراض التطوير والبحث العلمي، وتم اختيار سلسلة الجين الخاصة بـ E.Coli بطول 1039 قاعدة نيتروجينية
كجانب تطبيقي للدراسة وذلك لاهميتها في الأبحاث الطبية ولغرض اكتشاف وتصنيع العلاجات من خلال معرفة الشكل النهائي لسلسلة الجين الخاص بها.
وباستخدام البرنامج المعد لهذا الغرض باللغة البرمجية MATLAB R2021a تم تكوين مصفوفة التكرارات لسلسلة جين E.Coli ، والتي تضم اعداد الانتقالات بين القواعد النيتروجينية الأربع.
وتم اختبار سلسلة جين E.Coli وبفرض كل من فرضية العدم والفرضية البديلة والتي تنص:
لا تمثل سلسلة ماركوف E.Coli سلسلة جين
تمثل سلسلة ماركوف E.Coli سلسلة جين
وان المختبر الاحصائي الذي يختبر هل ان سلسلة جين E.Coli تمثل سلسلة ماركوف ام لا يتبع توزيع بدرجة حرية
حيث
: تمثل عدد الحالات في مصفوفة التكرارات
: تمثل المشاهدة في مصفوفة التكرارات
: تمثل مجموع الصف في مصفوفة التكرارات
: تمثل مجموع مصفوفة التكرارات
: تمثل مجموع العمود في مصفوفة التكرارات
وبمقارنة قيمة المحسوبة والتي تساوي (1361.4) مع قيمة الجدولية والتي تساوي (27.88)، نرفض فرضية العدم ونقبل الفرضية البديلة، أي ان سلسلة جين E.Coli تمثل سلسلة ماركوف.
- مناقشة النتائج
تم تقدير مصفوفة الاحتمالات الانتقالية لسلسلة الجين E.Coli باستخدام طريقة الإمكان الأعظم وطريقة بيز والطريقة المقترحة، الجدول التالي يبين احتمالات الانتقال بكل من طريقة الإمكان الأعظم وطريقة بيز والطريقة المقترحة.
جدول (1) : الاحتمالات الانتقالية لسلسلة جين E.Coli باستخدام طرائق تقدير مختلفة
|
probability of Transition
|
Transition
|
|
Method
|
|
Bayes
|
Proposed Method
|
MLE
|
|
|
|
|
|
|
AA
|
|
|
|
|
|
AT
|
|
|
|
|
|
AC
|
|
|
|
|
|
AG
|
|
|
|
|
|
TA
|
|
|
|
|
|
TT
|
|
|
|
|
|
TC
|
|
|
|
|
|
TG
|
|
|
|
|
|
CA
|
|
|
|
|
|
CT
|
|
|
|
|
|
CC
|
|
|
|
|
|
CG
|
|
|
|
|
|
GA
|
|
|
|
|
|
GT
|
|
|
|
|
|
GC
|
|
|
|
|
|
GG
|
|
| |
|
|
|
|
|
والجدول التالي يبين تباين احتمالات الانتقال بكل من طريقة الإمكان الأعظم وطريقة بيز والطريقة المقترحة.
جدول (2) : تباين احتمالات الانتقال لسلسلة جين E.Coli باستخدام طرائق تقدير مختلفة
|
Minimum of Variance
|
Variance of Transition
|
Transition
|
|
Method
|
|
Bayes
|
Proposed Method
|
MLE
|
|
|
Proposed Method
|
|
|
|
AA
|
|
Proposed Method
|
|
|
|
AT
|
|
Proposed Method
|
|
|
|
AC
|
|
Proposed Method
|
|
|
|
AG
|
|
Proposed Method
|
|
|
|
TA
|
|
Proposed Method
|
|
|
|
TT
|
|
Proposed Method
|
|
|
|
TC
|
|
Proposed Method
|
|
|
|
TG
|
|
Proposed Method
|
|
|
|
CA
|
|
Proposed Method
|
|
|
|
CT
|
|
Proposed Method
|
|
|
|
CC
|
|
Proposed Method
|
|
|
|
CG
|
|
Proposed Method
|
|
|
|
GA
|
|
Proposed Method
|
|
|
|
GT
|
|
Proposed Method
|
|
|
|
GC
|
|
Proposed Method
|
|
|
|
GG
|