ניתוח אשכולות
בכריית מידע, סטטיסטיקה ולמידה חישובית, ניתוח אשכולות (באנגלית: Cluster Analysis) מתייחס למשימה של קיבוץ אובייקטים לקבוצות (אשכולות) כך שהאובייקטים הנמצאים באותה קבוצה דומים זה לזה יותר מאשר לאובייקטים השייכים לקבוצות אחרות.[1][2]
לניתוח אשכולות יש שימושים רבים במגוון תחומים. לדוגמה במחקר שיווקי, ניתוח אשכולות משמש לביצוע פילוח של הלקוחות לפי התנהגות צרכנים ותכונות דמוגרפיות. ביולוגים מקבצים מידע גנטי לאשכולות כדי לאתר תתי אוכלוסיות או זנים. בסוציולוגיה נעזרים בניתוח אשכולות כדי לחלק את החברה לתת-קבוצות על בסיס קשרים בין-אישיים.
הקיבוץ לאשכולות יכול להיות משני סוגים:
- קיבוץ קשה (באנגלית: Hard Clustering) – שבו כל אובייקט שייך לאשכול אחד בלבד.
- קיבוץ רך (באנגלית: Soft Clustering) – שבו כל אובייקט שייך למספר אשכולות בדרגות שייכות שונות.
במהלך השנים פותחו אלגוריתמים מסוגים שונים לניתוח אשכולות. להלן המודלים הטיפוסיים:
- מודל מבוסס קישוריות – בהתאם להגדרת מרחק בין האובייקטיים, המודל מאתר אשכולות באופן היררכי.
- מודל מבוסס מרכז הכובד – שבו כל אשכול מיוצג על ידי מרכז הכובד של כל החברים שבו.
- מודל המבוסס על התפלגות סטטיסטית.
- מודל מבוסס צפיפות – שבו אשכול מוגדר כאזור צפוף שבו מתקבצים מספר גדול של אובייקטיים.
- מודל המבוסס על תורת הגרפים שבו אשכול מיוצג על ידי תת-קבוצה של צמתים בגרף כך שכל שני צמתים בתת-קבוצה מחוברים באמצעות קשתות.
ראו גם
קישורים חיצוניים
הערות שוליים
This article is issued from Hamichlol. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.