خوشه‌بندي

پديده‌ي خوشه‌بندي كه يكي ديگر از اهداف داده‌کاوي مي‌باشد، به فرآيند تقسيم مجموعه‌اي از داده‌ها (يا اشيا) به زير كلاس‌هايي با مفهوم خوشه‌ اتلاق مي‌شود. به اين ترتيب يك خوشه‌، يك‌ سري داده‌هاي مشابه مي‌باشد كه همانند يك گروه واحد رفتار مي‌كنند. لازم به ذكر است خوشه‌بندي همان کلاسه‌بندي است، با اين تفاوت كه كلاس‌ها از پيش‌تعريف‌شده و معين نمي‌باشند و عمل گروه‌بندي داده‌ها بدون نظارت انجام مي‌گيرد.

فرض كنيد كه مجموعه داده‌هاي X موردنظر ما از نقاط داده‌اي (يا مترادف آن اشيا، موارد، الگوها، تراكنش‌ها، گروه‌ها يا ركوردها)، در فضاي ويژگي A تشكيل شده باشند. يعني  كه در ان i=1..N  و هر جز  يك داده عددي يا ويژگي طبقه‌بندي شده‌ي اسمي‌ باشد. اين فرمت داده-‌‌‌ ويژگي مفهوما متناظراست با يك ماتريس N×D. هدف خوشه‌بندي پيدا كردن سگمنت‌هايي در ماتريس فوق مي‌‌باشد، كه اجتماع همه‌ي آن‌ها كل ماتريس باشد و دو بدوي آن‌ها نقطه اشتراكي نداشته باشند.

X=C1υC2υ…υCk      ,Cj1∩Cj2 = ø

بر خلاف کلاسه‌بندي و پيشگويي كه اشيا داده‌ها را براساس كلاس‌ها تحليل مي كنند، خوشه‌بندي اشيا داده‌ها را بدون در نظر گرفتن برچسب‌هاي كلاس، تحليل و آناليز مي نمايد. عمدتا برچسب كلاس‌ها در داده‌هاي آموزشي به آساني مشخص نيست زيرا اين كلاس‌ها شناخته شده نمي‌باشند. خوشه‌بندي گاهي براي تعيين و توليد چنين برچسب هايي بكار مي رود. اشياي خوشه‌بندي‌ شده بر اساس اصل ماكزيمم شباهت بين اعضاي هر کلاس و مينيمم شباهت بين کلاس‌هاي مختلف گروه‌بندي مي‌شوند، يعني خوشه‌ها به‌گونه‌اي تنظيم مي‌شوند که اشياي داخل هر خوشه‌ بيشترين شباهت را با يكديگر داشته باشند. هر خوشه‌ به عنوان يك كلاس مي‌باشد كه قوانين از آن مشتق مي شوند. ضمنا خوشه‌بندي مي تواند امكان طبقه‌بندي تشكيلات[1] را فراهم كند، يعني سازماندهي مذكور، به صورت سلسله‌مراتبي از كلاس‌هاست كه هر كلاس شامل حوادث مشابه يكديگر مي‌باشد.


برای مشاهده متن کامل مقاله اینجا کلیک کنید