با توسعه ی روزافزون سخت افزار ها و نرم افزارهای کامپیوتری، مجموعه داده های ظرفیت بالا را میتوان بدون زحمت، ذخیره کرد. اما، این مجموعه داده ها به گونه هستند که کاربران نمی توانند بدون انجام عمل پیش پردازش از آنها استفاده کند و یا آن ها را به صورت دقیق مشخص کنند. یکی از موضوعات میان رشته ای در علوم کامپیوتر به نام داده کاوی، به بررسی مجموعه داده ها میپردازد و در اصل سعی دارد تا از میان مجموعه داده ها، اطلاعات معنی داری را به دست آورده و آن ها را با استفاده از تکنیک هایی چون خوشه بندی، استخراج ویژگی، تستهای آماری و غیره، به صورت خلاصه و مفید ارائه دهد.
انگیزه ی اصلی در این مطالعه، بر روی خوشه بندی تمرکز دارد که یکی از مهمترین سوژه هایی است که محققان به آن پرداخته اند و کاربرد زیادی در دنیای واقعی دارد از جمله در علوم بیوانفورماتیک، یادگیری ماشین، تحلیل تصویر، و شناسایی الگو و تحلیلهای بازاری. در خوشه بندی ها، هدف اصلی تقسیم داده ها به گروه ها و یا خوشه هایی است که بر اساس اندازه گیری شباهت هایی مانند فاصله و یا وقفه بین داده های چند بعدی، صورت میگیرند. از طریق خوشه بندی، میتوان اطلاعات مفیدی را از حجم بسیار زیادی داده ها به دست آورد.
الگوریتمهای خوشه بندی به دو دسته ی کلی تقسیم میشوند، سلسله مراتبی و پارتیشن بندی. الگوریتمهای سلسله مراتبی مبتنی بر استفاده از ماتریسهای همسایگی هستند که این ماتریس ها تعیین کننده ی شباهت بین هر جفت از نقاط داده ای هستند که باید خوشه بندی شوند و نتیجه ی این ماتریس ها به صورت نمودار “دندروگرام” نشان داده میشود که نشان دهنده ی گروه بندیهای تو در تو الگو ها و سطوح شباهت هستند که تغییرات گروه بندی و سطوم از طریق روشهای پایین به بالا و یا بالا به پایین، ایجاد میشود.