با توسعه ی روزافزون سخت افزار ها و نرم افزار­های کامپیوتری، مجموعه داده های ظرفیت­ بالا را میتوان بدون زحمت، ذخیره کرد. اما، این مجموعه داده ها به گونه هستند که کاربران نمی توانند بدون انجام عمل پیش پردازش از آنها استفاده کند و یا آن ها را به صورت دقیق مشخص کنند. یکی از موضوعات میان رشته ای در علوم کامپیوتر به نام داده کاوی، به بررسی مجموعه داده ها میپردازد و در اصل سعی دارد تا از میان مجموعه داده ها، اطلاعات معنی داری را به دست آورده و آن ها را با استفاده از تکنیک هایی چون خوشه بندی، استخراج ویژگی، تست­های آماری و غیره، به صورت خلاصه و مفید ارائه دهد.


انگیزه ی اصلی در این مطالعه، بر روی خوشه بندی تمرکز دارد که یکی از مهمترین سوژه هایی است که محققان به آن پرداخته اند و کاربرد زیادی در دنیای واقعی دارد از جمله در علوم بیوانفورماتیک، یادگیری ماشین، تحلیل تصویر، و شناسایی الگو و تحلیل­های بازاری. در خوشه بندی ها، هدف اصلی تقسیم داده ها به گروه ها و یا خوشه هایی است که بر اساس اندازه گیری شباهت هایی مانند فاصله و یا وقفه بین داده های چند بعدی، صورت میگیرند. از طریق خوشه بندی، میتوان اطلاعات مفیدی را از حجم بسیار زیادی داده ها به دست آورد.


الگوریتم­های خوشه بندی به دو دسته ی کلی تقسیم میشوند، سلسله مراتبی و پارتیشن بندی. الگوریتم­های سلسله مراتبی مبتنی بر استفاده از ماتریس­های همسایگی  هستند که این ماتریس ها تعیین کننده ی شباهت بین هر جفت از نقاط داده­ ای هستند که باید خوشه بندی شوند و نتیجه ی این ماتریس ها به صورت نمودار “دندروگرام” نشان داده میشود که نشان دهنده ی گروه بندی­های تو در تو الگو ها و سطوح شباهت هستند که تغییرات گروه بندی و سطوم از طریق روش­های پایین به بالا و یا بالا به پایین، ایجاد میشود.


برای دانلود مقاله اینجا کلیک نمایید