دسته بندی یکی از عملیات رایج و مورد استفاده در داده کاوی است. دسته بندی عملیاتی است که سازمان ها را قادر میسازد که در حل مسائل خاص در مجموعه های بزرگ و پیچیده به کشف الگوهایی دست یابند. دسته بندی فرآیندی میباشد که مجموعه داده ها را به قسمت های مشخص تقسیم میکند. برای مثال مشتریان یک شرکت بیمه را بر اساس خصوصیاتشان به دو گروه با ریسک بالا و ریسک پایین تقسیم میشوند. با این کار در واقع مشتریان این شرکت را دسته بندی شده اند.
ساده ترین روشی که برای دسته بندی به نظر می رسد گذاشتن حدی برای دسته ها می باشد، مثلاً افراد با درآمد بالای مقداری مشخص را به یک دسته و افراد با درآمد پایین تر از آن را به یک دسته ی دیگر تخصیص دهیم.
تعدادی از روش هایی که میتوانند جهت داده کاوی مسائل دسته بندی به کار برده شوند، شامل: درخت تصمیم و شبکه های عصبی و نظیراین ها را ارایه کردند. این روش ها بر دامنه گستردهای از زمینه های مهندسی به کار برده می شوند.
برای نمونه، شبکه های عصبی در کنترل بازخوردها برای کشف الگوها و آشکارسازی خروجی مناسب کنترل شده به کار برده میشوند.
اندازه مناسب test set و training set در classification