עימוד רצפים

בביואינפורמטיקה, עימוד רצפים היא שיטה לסידור המידע על אודות רצפי DNA ,RNA או חלבונים, בצורה כזו שיהיה ניתן לזהות אזורים דומים, אשר ייתכן כי הם תוצאה של קשרים פונקציונאלים, מבניים או התפתחותיים.

עימוד רצפי של נוקלאוטידים או שיירי חומצות אמינו מיוצגים לרוב על ידי שורות במטריצה. רווחים מוכנסים בין הרצפים כך שרצפים דומים מעומדים בעמודות. ההשוואה בין הרצפים המעומדים מקבלת ציון הומולוגיה אשר עשוי להעיד על פעילות ביולוגית דומה של הרצפים. לרישום הרצפים פותח פורמט FASTA.

עימוד רצפים שנוצר על ידי ClustalW של שני חלבוני zinc finger אשר פוענחו.
מפתח: אותיות בודדות: חומצות אמינו. אדום: קטנות, הידרופוביות, ארומטיות, לא Y. כחול: חומציות. סגול: בסיסיות. ירוק: הידרוקסיל, אמין, אמיד, בסיסיות. אפור: אחרות.
"*" : זהות .":": שינויים שמורים (אותה קבוצת צבעים). ".": שינויים שמורים-למחצה (מבנה דומה).
דוגמה לתוצאות של Multiple sequence alignment

אלגוריתמים נפוצים לעימוד רצפים המבוססים על תכנון דינמי הם אלגוריתם נידלמן וונש (Needleman-Wunsch), המיועד לעימוד רצפים גלובלי, ואלגוריתם סמית-ווטרמן (Smith-Waterman) המיועד לעימוד רצפים לוקלי (מציאת אזורים דומים במחרוזות של דנ"א או חומצות אמינו).

עימוד רצפים באמצעות תכנון דינמי

עימוד רצפים גלובלי

כאשר נתונה מטריצת החלפות (כדוגמת BLOSUM62 או PAM250), המגדירה את ציון לכל החלפה של אותיות וכאשר ניתן ציון חוסר באות, הציון לעימוד של שני רצפים מוגדר כסכום הציונים לכל העמדות. בעיית עימוד רצפים גלובלי היא בעיה שבה מתאימים בין כל אות ברצף אחד לאות ברצף השני כאשר שני הרצפים דומים, במטרה למצוא את העימוד הטוב ביותר, במובן שציון העימוד יהיה מקסימלי.

לדוגמה כאשר הציון של אות חסרה הוא -5 ונעשה שימוש במטריצת החלפות הבאה:

A G C T
A 10-1-3-4
G -17-5-3
C -3-590
T -4-308

ניתן לחשב ציון עבור עימוד של שני רצפים:

רצף א' AGACTAGTTAC
רצף ב' CGA---GACGT
ציון -3710-5-5-57-40-10

הציון הכולל המתקבל מסכימת הציונים על כל העמדות בדוגמה לעיל 1.

אלגוריתם נידלמן וונש (Needleman-Wunsch)[1] מיועד לפתור בעיה זו ביעילות (סיבוכיות זמן ומקום של - עבור רצפים באורך n) תוך שימוש בתכנון דינמי, באמצעות מילוי מטריצת , המגדירה את ציון העימוד המיטבי עבור תת-המחרוזת מ-A המתחילה מהאות האפס (מחרוזת ריקה) ונגמרת באות ה- ותת המחרוזת ב-B המתחילה באפס ונגמרת באות ה-. הטבלה מוגדרת על פי הבסיס (שורה אפס ועמודה אפס):

והרקורסיה (יתר המטריצה) מאותחלת על פי ערך העימוד המיטבי:


כאשר: מגדיר את הציון להחלפה ו-d מציין ציון לרווח.


ציון העימוד המיטבי עבור הרצף A והרצף B מוגדר על פי , כאשר את העימוד המתאים לציון זה (העימוד המיטבי) ניתן למצוא באמצעות מילוי טבלה נוספת המגדירה מצביעים בהתאם לבחירה ובסיום לפעול בעקיבה לאחור (Backtracking) החל מהתא המתאים -.

עימוד רצפים מקומי

בבעיית עימוד רצפים מקומי המטרה היא למצוא אזור (תת רצף) המתאים ביותר בין שני רצפים (אך לא נדרש עימוד לרצף המלא). אלגוריתם סמית-וטרמן (Smith-Waterman) [2] פותר בעיה זו בסיבוכיות זמן ומקום של (עבור רצפים באורך n). באלגוריתם זה ממלאים טבלה המגדירה את העימוד המיטבי לסיפא של הרצף A מ-0 (מחרוזת ריקה) ועד האות i, ולסיפא של הרצף B מ-0 ועד האות j. הטבלה מוגדרת על פי הבסיס:

then then

כאשר:

  • - ציון להחלפה, כאשר '–' הוא מציין רווח

אלגוריתם זה דומה לאלגוריתם נידלמן וונש, אך ציון שלילי מוחלף ב-0 (כלומר מוטב להתחיל עימוד חדש מהמקום מאשר להמשיך את העימוד הקודם), והעימוד הטוב ביותר נבחר כמקסימום במטריצת הציונים (ולא המיקום האחרון).

ראו גם

לקריאה נוספת

  • Richard Durbin, Sean R. Eddy, Anders Krogh, Graeme Mitchison (1999). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press. ISBN 0-521-62971-3.

קישורים חיצוניים

ראו מדיה וקבצים בנושא זה בוויקישיתוף.

הערות שוליים

  1. Needleman, Saul B.; and Wunsch, Christian D. (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". Journal of Molecular Biology 48 (3): 443–53. PMID 5420325. doi:10.1016/0022-2836(70)90057-4. 
  2. Smith, Temple F.; and Waterman, Michael S. (1981). "Identification of Common Molecular Subsequences". Journal of Molecular Biology 147: 195–197. PMID 7265238. doi:10.1016/0022-2836(81)90087-5. 


הערך באדיבות ויקיפדיה העברית, קרדיט,
רישיון cc-by-sa 3.0
This article is issued from Hamichlol. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.