داده کاوی، استخراج خودکار اطلاعات ضمنی و بالقوه و مفیدی از دادهها است. که به طور فزایندهای در زمینه تجاری، علمی و سایر زمینهها مورد استفاده قرار میگیرد. داده کاوی (Data Mining) فرایندی است که به وظیفه کشف الگوها را در مجموعه دادههای بزرگ برعهده دارد. روش داده کاوی در تقاطع یادگیری ماشین، آمار و سیستم های پایگاه داده است. اصول داده کاوی، تکنیکهای اصلی داده کاوی را توضیح داده و کاوش میکند.
برای طبقه بندی، قانون استخراج قانون و خوشهبندی داده کاوی یکی از محبوبترین و موثرترین ابزارها برای کشف دانش است. این دانش شامل تجزیه، تحلیل و خلاصه کردن داده ها از دیدگاههای مختلف و استخراج خودکار اطلاعات مفید است. داده کاوی (Data Mining) روندها، الگوها و سایر اطلاعات پنهان شده در حجم عظیمی از داده ها را نشان میدهد. امروزه از آن در زمینههای تجاری، پزشکی، علمی، جغرافیایی، هواشناسی و سایر مواردی استفاده میشود که حجم زیادی از اطلاعات را تولید میکند که برای استفاده واقعی به روشهای پردازش خودکار نیاز دارند.
روش داده کاوی چیست؟
هر موضوع با تمرکز بر الگوریتمها به جای فرمگرایی ریاضی، به روشنی با مثالهای مفصل توضیح داده شده و نشان داده شده است. داده کاوی (Data Mining) به دنبال الگوهایی در ذخیرهسازی دادههای بسیار بزرگ است. این فرآیند الگوهای مفیدی را به ارمغان میآورد و بنابراین میتوانیم درمورد دادهها به درستی نتیجهگیری کنیم. همچنین اطلاعات جدیدی را درباره دادههایی که قبلاً در اختیار داریم تولید میکند.
مراحل داده کاوی در این روشها شامل الگوهای ردیابی، طبقه بندی، تداعی، تشخیص دور، خوشه بندی، رگرسیون و پیش بینی است. تشخیص الگوها آسان است زیرا ممکن است یک تغییر ناگهانی در داده های داده شده ایجاد شود. ما داده ها را بر اساس بخشهای مختلف جمعآوری و دستهبندی کردهایم تا بتوان داده ها را با دستهها تحلیل کرد. خوشهبندی داده ها را بر اساس شباهتهای داده ها گروهبندی می کند.
بیشتر بخوانید: داده کاوی و کاربرد آن در تصمیم گیریهای تجاری
روشهای مختلفی برای انواع داده کاوی وجود دارد که بنابر کاربرد و سازمان انتخاب و مورد استفاده قرار میگیرد. در اینجا به مهمترین آنها میپردازیم.
-
روش داده کاوی بصورت قوانین ارتباط ( Association)
قوانین ارتباط عبارتی است که به کمک آن میتوان روابط بین دادههایی را که به نظر میرسد در مخزن اطلاعات ارتباطی ندارند، کشف کرد. مفاهیم اساسی استخراج قاعده ارتباط، همراه با الگوریتمها و معیارهای مختلف برای انتخاب بهترین الگوریتمها را پوشش میدهد. همچنین بحث جامعی در مورد الگوریتمهای استخراج قاعده ارتباطات، مانند Apriori، تجزیه و تحلیل سبد بازار و رشد الگوی فرکانس وجود دارد.
در واقع این روشی است که برای شناسایی همبستگی بین دو یا چند مورد با شناسایی الگوی پنهان در مجموعه داده ها استفاده میشود و از این رو آنالیز رابطه نیز نامیده میشود. این روش در تجزیه و تحلیل سبد بازار برای پیش بینی رفتار مشتری استفاده میشود. قوانین انجمن دو نوع است:
قانون ارتباط تکبعدی: این قوانین حاوی یک ویژگی واحد هستند که تکرار میشود.
قانون ارتباط چندبعدی: این قوانین حاوی ویژگیهای متعددی هستند که تکرار میشوند.
-
روش داده کاوی بصورت طبقه بندی ( Classification )
طبقهبندی یک روش داده کاوی (Data Mining) است که موارد موجود در یک مجموعه را به دستهها یا کلاسهای هدف اختصاص میدهد. تکنیکهای مختلف طبقهبندی(سادهلوح بیز،نزدیکترین همسایه ،درختان تصمیم گیری) و الگوریتم القای درخت تصمیم(TDIDT) از بالا به پایین و معیارهای مختلف برای انتخاب ویژگی(آنتروپی ،شاخص جینی تنوع، مجذور کای) را توضیح میدهد.
به دنبال این بحث در مورد موضوعات مرتبط، از جمله برآورد دقت پیش بینی طبقه بندی، اندازهگیری عملکرد طبقهبندی، مقایسه طبقه بندی، تبدیل ویژگیهای مداوم به ویژگیهای طبقهبندی شده(گسسته سازی) باید بدانیم. همچنین کاهش بیش از حد درختان تصمیم، قوانین مدولار برای طبقهبندی، مقابله با حجم زیادی از داده ها و طبقهبندی گروه (استفاده از مجموعهای از طبقهبندیها به جای یک طبقهبندی واحد برای طبقهبندی داده های دیده نشده) باید توجه کنید.
روش داده کاوی بصورت طبقهبندی برای تشخیص موارد موجود در مجموعه داده ها به کلاسها یا گروهها استفاده میشود. به پیشبینی دقیق رفتار موارد درون گروه کمک میکند. به عنوان مثال، یک شرکت بانکی برای شناسایی متقاضیان وام در معرض ریسکهای اعتباری کم، متوسط یا زیاد از این روش استفاده میکند. به همین ترتیب، یک محقق پزشکی دادههای سرطان را تجزیه و تحلیل میکند تا پیشبینی کند که چه دارویی را برای بیمار تجویز کند. این یک فرایند دو مرحلهای است:
- مرحله یادگیری (مرحله آموزش): در این مرحله، یک الگوریتم طبقهبندی با تجزیه و تحلیل یک مجموعه آموزشی، طبقهبندی کننده را ایجاد میکند.
- مرحله طبقه بندی: از دادههای آزمون برای تخمین صحت یا دقت قوانین طبقهبندی استفاده میشود.
-
روش داده کاوی بصورت تجزیه و تحلیل خوشه بندی (Clustering)
روش خوشه بندی تقریباً شبیه طبقهبندی است اما در این روش، خوشه بسته به شباهت موارد داده ساخته میشود. خوشههای مختلف اجسام متفاوت و غیرمرتبط دارند. همچنین به عنوان تقسیمبندی داده ها فراخوانی میشود. زیرا مجموعه داده های عظیم را با توجه به شباهتها به خوشه تقسیم می کند.
روش های خوشه بندی مختلفی وجود دارد که استفاده میشود:
- روشهای جمعبندی سلسله مراتبی
- روشهای مبتنی بر شبکه
- روشهای پارتیشن بندی
- روشهای مبتنی بر مدل
- روشهای مبتنی بر تراکم
نمونه مشابه متقاضیان وام را میتوان در اینجا نیز در نظر گرفت.
-
روش داده کاوی بصورت پیش بینی (Prediction)
این روش برای پیش بینی آینده بر اساس روند یا مجموعه داده های گذشته و حال استفاده میشود. پیش بینی بیشتر با ترکیبی از سایر روشهای استخراج مانند طبقهبندی، تطبیق الگو، تجزیه و تحلیل روند و رابطه استفاده میشود. به عنوان مثال، اگر مدیر فروش یک سوپرمارکت بخواهد میزان درآمد حاصل از هر کالا را براساس داده های فروش گذشته پیش بینی کند. این یک تابع با ارزش پیوسته را مدل میکند که مقادیر دادههای عددی از دست رفته را پیش بینی میکند.
-
روش داده کاوی بصورت الگوهای پی در پی یا ردیابی الگو (Sequential patterns or Pattern tracking)
این روش برای شناسایی الگوهایی استفاده میشود که به طور مکرر در مدت زمان مشخصی رخ میدهند. به عنوان مثال، مدیر فروش شرکت پوشاک میبیند که به نظر میرسد فروش کاپشن و لباسهای گرم درست قبل از فصل زمستان افزایش می یابد یا فروش در نانوایی در طول تعطیلات یا شب عید افزایش می یابد.
-
روش داده کاوی بصورت درختان تصمیم ( decision tree )
درخت تصمیم، ساختاری درختی است (همانطور که از نام آن پیداست) که:
- هر گره داخلی نمایانگر آزمایشی بر روی ویژگی است.
- Branch نتیجه آزمون را نشان میدهد.
- گرههای ترمینال برچسب کلاس را نگه میدارند.
گره بالاترین گره ریشه است که دارای یک سوال ساده است که دارای دو یا چند پاسخ است. بر این اساس، درخت رشد میکند و یک نمودار جریان مانند ساختار ایجاد میشود. به عنوان مثال در این تصمیم ، دولت درخت شهروندان زیر ۱۸ سال یا بالاتر از ۱۸ سال را طبقهبندی میکند. این به آنها کمک میکند تا تصمیم بگیرند که آیا مجوز برای یک شهر خاص صادر میشود یا خیر.
-
روش داده کاوی بصورت تجزیه و تحلیل Outlier یا تجزیه و تحلیل ناهنجاری (Outlier Analysis or Anomaly Analysis )
این روش برای شناسایی موارد دادهای استفاده میشود که با الگوی مورد انتظار یا رفتار مورد انتظار مطابقت ندارند. این موارد داده غیرمنتظره به عنوان دور از دسترس یا نویز در نظر گرفته میشوند. آنها در بسیاری از دامنهها مانند شناسایی تقلب در کارتهای اعتباری، تشخیص نفوذ، تشخیص خطا و غیره مفید هستند. به این کار Outlier Mining نیز میگویند. این امر به تشخیص ناهنجاریها و انجام اقدامات احتمالی بر اساس آن کمک میکند.
-
روش داده کاوی بصورت شبکه عصبی. ( Neural Network )
این روش یا مدل مبتنی بر شبکه های عصبی بیولوژیکی است. مجموعهای از نورون ها مانند واحدهای پردازشی است که ارتباطات وزنی بین آنها وجود دارد. از آنها برای مدل سازی رابطه بین ورودی و خروجی استفاده میشود. این روش برای طبقهبندی، تجزیه و تحلیل رگرسیون، پردازش داده ها و غیره استفاده میشود. این روش با سه رکن کار میکند:
- مدل
- الگوریتم یادگیری (نظارت شده یا بدون نظارت)
- عملکرد فعالسازی
در کل تکنیکهای داده کاوی (Data Mining) میتواند برای کاربردهای بسیاری بکار رود.