شهد القرن العشرين تقدماً هائلاً في الأساليب العلمية المستخدمة في البحث العلمي في ميادين المعرفة كافة، وأصبح الاهتمام ملحوظاً بشكل أوسع في دراسة الانظمة التي تتغير مع الزمن بشكل عشوائي. ويطلق على النماذج الرياضية لمثل هذه الانظمة بالعمليات التصادفية والتي تضم مجموعة كبيرة من النماذج منها نموذج ماركوف المخفي Hidden Markov Model (HMM)، الذي يعد من النماذج التصادفية المهمة والذي تم تطبيقه في البدء كنموذج احصائي لتمييز الكلام Speech Recognition والكتابة اليدوية Handwriting، بسبب قدرته الكبيرة على التكيف مع المشكلة فضلا عن البراعة في التعامل مع الاشارات المتسلسلة [3].
- نموذج ماركوف المخفي Hidden Markov Model (HMM)
إن مفهوم نموذج ماركوف المخفي HMM وخوارزمياته مستلهم أساساً من نماذج رياضية معروفة باسم العالم الذي اكتشفها وهو Andrei Markov. وقد ظهرت هذه النماذج في مستهل القرن العشرين وأطلق عليها نماذج ماركوف Markov Models، وهذا يدل على أن نموذج ماركوف المخفي ما هو إلا امتداد لنموذج ماركوف الاعتيادي 7] [1, . ويعد نموذج ماركوف المخفي مجموعة منتهية من الحالات، وكل حالة تقترن بتوزيع احتمالي. وبشكل عام تتولد الحالة الناتجة طبقاً للاحتمالات المقترنة بالحالة حيث توجد احتمالات ناجحة فقط ولا توجد حالة ظاهرة يمكن مشاهدتها، لذا تكون الحالات مخفية، أي ان نموذج ماركوف المخفي أداة احصائية قوية تستخدم للتنبؤ بسلسلة الحالة من خلال سلسلة المشاهدات. وتعد معلمة نموذج ماركوف المخفي امتداد لمعلمة نموذج ماركوف الاعتيادي . وقد بدأ استخدام نموذج ماركوف المخفي في النصف الثاني من ثمانينيات القرن العشرين بتحليل المتتابعات الحيوية Biological Sequences، وبخاصة متتابعات الـ DNA. ومنذ ذلك الحين فرض نموذج ماركوف المخفي وجوده في مجال المعلوماتية الحيوية Bioinformatics الذي يهتم بقواعد البيانات الحيوية والوراثية وادارتها وتطويرها [10]. والعناصر المهمة لنموذج ماركوف المخفي هي: [6]
1) سلسلة المشاهدات :
اذ ان تمثل طول سلسلة المشاهدات، ومؤشر رموز المشاهدات هو ، إذ ان:
و هو عدد رموز المشاهدات
2) سلسلة الحالات المخفية :
اذ ان تمثل عدد الحالات المخفية في النموذج والتي تكافئ فضاء الحالة في نموذج ماركوف وكما يأتي:
3) مصفوفة الاحتمالات الانتقالية Transition Probability Matrix : وتمثل عناصرها التوزيع الشرطي للحالة الانتقالية، اذ ان:
اذ ان تمثل عناصر المصفوفة وتحقق الشروط الاتية:
-
-
4) مصفوفة الإصدارات Emission Matrix : وتمثل مصفوفة احتمالية رابطة بين الحالات المخفية والمشاهدات.
إذ ان يمثل رمز المشاهدة ، وتحقق الشروط الاتية:
-
-
5) متجه الحالة الابتدائية The Initial State : وتمثل الحالات الابتدائية لنموذج ماركوف المخفي، إذ ان:
إذ ان تمثل عناصر المتجه وتحقق الشروط الاتية:
-
-
- المسائل الاساسية لنموذج ماركوف المخفيThe Basic Problems for HMM
هناك ثلاث مسائل أساسية عند دراسة نموذج ماركوف المخفي:
- مسالة التقييم Evaluation Problem
تعمل مسألة التقييم على حساب احتمالية سلسلة المشاهدات للنموذج عندما يكون النموذج هو المعطى. أي يتم دراسة إمكانية احتمالية سلسلة المشاهدة بشكل كفوء عندما يكون النموذج معطى، وتحل عن طريق الخوارزمية الأمامية – الخلفية Forward- Backward Algorithm [5].
- مسألة الشفرة Decoding Problem
تعمل مسألة الشفرة على إيجاد سلسلة الحالة المثلى عندما تكون سلسلة المشاهدات والنموذج معطى. وتحل هذه المسألة عن طريق خوارزمية فيتربي Algorithm Viterbi [2].
- مسألة التدريب Training Problem
تعمل مسألة التدريب على إعادة تقدير معلمات النموذج التي تعظم من إمكانية عندما تكون سلسلة المشاهدة معطى. وتحل هذه المسألة عن طريق خوارزمية بوم ولتشBaum-Welch Algorithm [8].
- حل مسالة الشفرة باستخدام خوارزمية فيتربي Viterbi
خوارزمية Viterbi هي خوارزمية تعمل على إيجاد أفضل سلسلة حالة بشكل وحيد، والمتغيرات الأساسية لهذه الخوارزمية هي [4,9]:
- المتغير : يمثل أعلى احتمالية على طول المسار الوحيد في الحالة عند الزمن والذي يساوي احتمالية سلسلة الحالة الجزئية الأكثر احتمالاً بالنسبة لسلسلة المشاهدات المنتهية في الحالة ويمكن التعبير عنه رياضيا وكما يأتي:
(1)
إذ ان
;
- المتغير : يعمل هذا المتغير على حفظ تتابع الأثر للمسار الفعلي.
إن خطوات سير خوارزمية Viterbi يمكن أن تمثل بالشكل الآتي [2]:
(2)
(3)
(4)
(5)
الوسيط الاعظمي يعرف في الرياضيات على انه وسيط ( دخل الدالة ) التي نعطي اكبر قيمة ( حدود عليا:
وحدود دنيا (الحد الأدنى ) للدالة في الخرج.
(6)
(7)
- تراجع سلسلة الحالة المثالية Optimal State Sequence Backtracking
(8)
- الجانب التطبيقي: تحديد نوعية القاعدة النتروجينة المستبدلة لسلسلة الجين MT-ND5
يمكن تعريف الجين MT-ND5 بانه جين لترميز الجينوم الميتوكوندري للبروتين الخامس NADH-Ubiquinone Oxidoreductase Chain 5، اذا ان البروتينND5 هو وحدة فرعية لـ NADH dehydrogenase، والذي يقع في الغشاء الداخلي للميتوكوندريا ويمثل اكبر المجمعات الخمسة في سلسلة نقل الالكترون. والشكل الآتي يوضح الاستبدال بين القواعد النتروجينية الأربعة حيث ان اضلاع المربع تمثل طفرات التحول وأقطاره تمثل طفرات الانتقال، أي ان هنالك 12 نوعا من الطفرات .
|
الشكل (1): الاستبدال بين القواعد النيتروجينية حيث ان اضلاع المربع تمثل طفرات التحول والاقطار تمثل طفرات الانتقال
|
وقد تم التطبيق على طفرات الاستبدال على سلسلة الجين MT-ND5 الخاصة بالإنسان والفئران وذلك للمقارنة بين نسبة التطابق للسلسلتين والتي يمكن الحصول عليهما من عملية الاستبدال، وقد تم استخدام خوارزمية Viterbi لتحديد نوعية القاعدة النيتروجينية المستبدلة لسلسلة الجين MT-ND5. كما تم اقتراح خوارزمية لتحديد نوعية القاعدة النتروجينية المستبدلة لسلسلة الجين MT-ND5 لكل من الإنسان والفئران وكما يأتي:
الخوارزمية المقترحة The Suggested Algorithm
الخطوة (1): ترميز القواعد النيتروجينية الأربعة من خلال تحويل الرموز الحرفية إلى أرقام والتي تشكل سلسلة الحامض النووي الرايبي منقوص الأوكسجين وكما يأتي:
الخطوة (2): تعريف عناصر نموذج ماركوف المخفي ، اذ ان تمثل متجه الحالة الابتدائية والذي أبعاده ، وان يمثل عدد الحالات. أما فتمثل مصفوفة الاحتمالات الانتقالية بين الحالات المخفية والتي تكون أبعادها بشكل عام . و تمثل مصفوفة احتمالية رابطة بين الحالات المخفية والمشاهدات (مصفوفة الإصدارات) والتي أبعادها ( )، إذ أن .
الخطوة (3): تتضمن هذه الخطوة 12 مرحلة، وعلى النحو الآتي:
المرحلة الأولى: استبدال القاعدة النيتروجينية A ووضع بدل هذه القاعدة المستبدلة الرمز T.
المرحلة الثانية: استبدال القاعدة النيتروجينية A ووضع بدل هذه القاعدة المستبدلة الرمزC.
المرحلة الثالثة: استبدال القاعدة النيتروجينية A ووضع بدل هذه القاعدة المستبدلة الرمز G.
المرحلة االرابعة: استبدال القاعدة النيتروجينية T ووضع بدل هذه القاعدة المستبدلة الرمز C.
المرحلة الخامسة: استبدال القاعدة النيتروجينية T ووضع بدل هذه القاعدة المستبدلة االرمز G.
المرحلة السادسة: استبدال القاعدة النيتروجينية T ووضع بدل هذه القاعدة المستبدلة الرمز A.
المرحلة السابعة: استبدال القاعدة النيتروجينية C ووضع بدل هذه القاعدة المستبدلة الرمز A.
المرحلة الثامنة: استبدال القاعدة النيتروجينية C ووضع بدل هذه القاعدة المستبدلة الرمز T.
المرحلة التاسعة: استبدال القاعدة النيتروجينية C ووضع بدل هذه القاعدة المستبدلة الرمز G.
المرحلة العاشرة: استبدال القاعدة النيتروجينية G ووضع بدل هذه القاعدة المستبدلة الرمز A.
المرحلة الحادية عشر: استبدال القاعدة النيتروجينية G ووضع بدل هذه القاعدة المستبدلة الرمز C.
المرحلة الثانية عشر: استبدال القاعدة النيتروجينية G ووضع بدل هذه القاعدة المستبدلة الرمز T.
الخطوة (4): إيجاد الحالات المخفية المرجحة وذلك باستخدام خوارزمية Viterbi .
الخطوة (5): تقارن سلسلة الحالات الناتجة من الخطوة (4) مع سلسلة الحالات الحقيقة، حيث يتم في هذه الخطوة تقدير نوعية القاعدة النيتروجينية المستبدلة بما يقابلها بسلسلة الحالات الناتجة من الخطوة (4)، ويتم إيجاد متوسط مجموع مربعات خطأ Mean Squares Error ( ) حسب الصيغة
(9)
إذ إن : تمثل الحالات المخفية الحقيقية
: تمثل الحالات المخفية المشفرة، : تمثل طول السلسلة.
والنسبة المئوية للتطابق Match Ratio ( ) حسب الصيغة
(10)
إذ إن:
: يمثل متجه الأخطاء ذو البعد ( )، ويمثل متجه التعبير المنطقي logical(اما 0 او (1.
والشكل التالي يوضح المخطط الانسيابي للخوارزمية المقترحة لتحديد نوعية القاعدة النتروجينية المستبدلة لسلسلة الجين MT-ND5 الخاصة بالإنسان والفئران:
الشكل (2): المخطط الانسيابي للخوارزمية المقترحة لتحديد نوعية القاعدة النيتروجينية المستبدلة للجين MT-ND5
اولاً: نتائج تطبيق خوارزمية المقترحة على سلسلة الجين MT-ND5 الخاصة بالإنسان
تم اختيار سلسلة الجين MT-ND5 الخاصة بالإنسان من الموقع MT-ND5 mitochondrially encoded NADH dehydrogenase 5 Homo sapiens (human) والتي تتكون من 1812 قاعدة نيتروجينية وذلك لتحديد نوعية القاعدة النتروجينة المستبدلة لسلسلة الجين والتي تم الحصول عليها من موقع NCBI ضمن قاعدة بيانات Data Base في مراكز عالمية متخصصة في الهندسة الوراثية ودراسة عمل الجينات، وباستخدام الخوارزمية المقترحة لتحديد نوعية القاعدة النيتروجينية المستبدلة لسلسة الجين MT-ND5 ، والتي تم برمجتها باستخدام اللغة البرمجية MATLAB R2017b ، وتم استبدال القواعد النتروجينية وكما يأتي:
- استبدال القاعدة النتروجينية والتي عددها 551 من سلسلة الجين MT-ND5 بالرمز T، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
السطر الأول : استبدال A بـ T هو (1) واستبدال A بـ C,G هو (0)
السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0)
السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
واستبدالها بالرمز ، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
السطر الأول : استبدال A بـ T هو (0) واستبدال A بـ C هو (1) واستبدال A بـ G هو (0)
السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0)
السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
واستبدالها بالرمز ، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
السطر الأول : استبدال A بـ T هو (0) واستبدال A بـ C هو (0) واستبدال A بـG هو (1)
السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0)
السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
- استبدال القاعدة النتروجينية T والتي عددها 447 من سلسلة الجين MT-ND5 بالرمز C، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ C,G هو (0)
السطر الثاني : استبدال T بـ C هو (1) واستبدال T بـ A,G هو (0)
السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ A,G هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,A هو (0)
واستبدالها بالرمز G، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ C,G هو (0)
السطر الثاني : استبدال T بـ G هو (1) واستبدال T بـ A,C هو (0)
السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ A,G هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,A هو (0)
- استبدال القاعدة النتروجينية C والتي عددها 622 من سلسلة الجين MT-ND5 بالرمز G، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ T,G هو (0)
السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ A,G هو (0)
السطر الثالث: استبدال C بـ G هو (1) واستبدال C بـ A,T هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ T,A هو (0)
ثانياً: نتائج تطبيق الخوارزمية المقترحة على سلسلة الجين MT-ND5 الخاصة بالفئران
تم اختيار سلسلة الجين MT-ND5 الخاص بالفئران من الموقع MT-Nd5 NADH
dehydrogenase 5, mitochondrial [ Mus musculus (house mouse)] والتي تتكون من 1822 قاعدة نيتروجينية وذلك لتحديد نوعية القاعدة النتروجينة المستبدلة لسلسة الجين والتي تم الحصول عليها من موقع NCBI ضمن قاعدة بيانات Data Base في مراكز عالمية متخصصة في الهندسة الوراثية ودراسة عمل الجينات، وباستخدام الخوارزمية المقترحة لتحديد نوعية القاعدة النيتروجينية المستبدلة لسلسلة الجين MT-ND5 ، والتي تم برمجتها باستخدام اللغة البرمجية MATLAB R2017b ، وتم استبدال القواعد النتروجينية وكما يأتي:
- استبدال القاعدة النتروجينية والتي عددها 625 من سلسلة الجين MT-ND5 بالرمز T، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
السطر الأول : استبدال A بـ T هو (1) واستبدال A بـ C,G هو (0)
السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0)
السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
واستبدالها بالرمز ، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
لسطر الأول : استبدال A بـ T هو (0) واستبدال A بـ C هو (1) واستبدال A بـ G هو (0)
السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0)
السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
واستبدالها بالرمز ، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
السطر الأول : استبدال A بـ T هو (0) واستبدال A بـ C هو (0) واستبدال A بـG هو (1)
السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ C,G هو (0)
السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ T,G هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,T هو (0)
- استبدال القاعدة النتروجينية T والتي عددها 520 من سلسلة الجين MT-ND5 بالرمز C، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ C,G هو (0)
السطر الثاني : استبدال T بـ C هو (1) واستبدال T بـ A,G هو (0)
السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ A,G هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,A هو (0)
واستبدالها بالرمز G، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ C,G هو (0)
السطر الثاني : استبدال T بـ G هو (1) واستبدال T بـ A,C هو (0)
السطر الثالث: استبدال C بـ C هو (1) واستبدال C بـ A,G هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ C,A هو (0)
- استبدال القاعدة النتروجينية C والتي عددها 495 من سلسلة الجين MT-ND5 بالرمز G، وتم معالجتها باستخدام الخوارزمية المعدة لهذا الغرض، وكانت النتائج كما يأتي:
مصفوفة الاحتمالات الانتقالية هي:
مصفوفة الإصدارات هي:
السطر الأول : استبدال A بـ A هو (1) واستبدال A بـ T,G هو (0)
السطر الثاني : استبدال T بـ T هو (1) واستبدال T بـ A,G هو (0)
السطر الثالث: استبدال C بـ G هو (1) واستبدال C بـ A,T هو (0)
السطر الرابع: استبدال G بـ G هو (1) واستبدال G بـ T,A هو (0)
والجدول (1 (التالي يوضح نتائج عمليات الاستبدال للقواعد النتروجينية الأربع لسلسلة الجين MT-ND5 الخاصة بالإنسان والفئران من خلال متوسط مربعات الخطأ والنسبة المئوية للتطابق لكل عملية استبدال.
الجدول (1): عمليات الاستبدال للقواعد النتروجينية الاربع من سلسلة الجين MT-ND5 الخاصة بالإنسان والفئران.
|
Mice
|
Mice
|
Human
|
Human
|
Substituted Nitrogenous Base
|
Original Nitrogenous Base
|
|
71.7738
|
0.2823
|
75.6071*
|
0.2439*
|
T
|
A
|
|
73.3114*
|
1.0675*
|
71.9095
|
1.1236
|
C
|
|
90.0055*
|
0.8995*
|
89.4040
|
0.9536
|
G
|
|
74.9039
|
0.2510
|
75.4415*
|
0.2456*
|
C
|
T
|
|
90.0055*
|
0.3998*
|
89.4040
|
0.4238
|
G
|
|
71.7738
|
0.2823
|
75.6071*
|
0.2439*
|
A
|
|
73.3114*
|
1.0675*
|
71.9095
|
1.1236
|
A
|
C
|
|
74.9039
|
0.2510
|
75.4415*
|
0.2456*
|
T
|
|
90.0055*
|
0.0999*
|
89.4040
|
0.1060
|
G
|
|
90.0055*
|
0.8995*
|
89.4040
|
0.9536
|
A
|
G
|
|
90.0055*
|
0.0999*
|
89.4040
|
0.1060
|
C
|
|
90.0055*
|
0.3998*
|
89.4040
|
0.4238
|
T
|
من الجدول (1) اثبتت الخوارزمية المقترحة في استخدام خوارزمية Viterbi في نموذج ماركوف المخفي انها دقيقة في تحديد نوعية القاعدة النتروجينية المستبدلة لسلسلة الجينND5-MT الخاصة بالإنسان والفئران وذلك بالاعتماد على النسب العالية للتطابق التي تم الحصول عليها وعلى مجموع مربعات الخطأ المنخفضة. وظهرت من الجدول ان الخوارزمية كانت أفضل في تحديد نوعية القاعدة النتروجينية من سلسلة الجين ND5-MT الخاصة بالفئران مقارنة مع سلسلة الجين الخاصة بالإنسان.