صفحه اصلی > داده کاوی : روش‌ها و اصول داده کاوی (Data Mining) چیست؟

روش‌ها و اصول داده کاوی (Data Mining) چیست؟

داده کاوی

داده کاوی، استخراج خودکار اطلاعات ضمنی و بالقوه و مفیدی از داده‌ها است. که به طور فزاینده‌ای در زمینه تجاری، علمی و سایر زمینه‌ها مورد استفاده قرار می‌گیرد. داده کاوی (Data Mining) فرایندی است که به وظیفه کشف الگوها را در مجموعه داده‌های بزرگ برعهده دارد. روش داده کاوی در تقاطع یادگیری ماشین، آمار و سیستم های پایگاه داده است. اصول داده کاوی، تکنیک‌های اصلی داده کاوی را توضیح داده و کاوش می‌کند.

برای طبقه بندی، قانون استخراج قانون و خوشه‌بندی داده کاوی یکی از محبوب‌ترین و موثرترین ابزارها برای کشف دانش است. این دانش شامل تجزیه، تحلیل و خلاصه کردن داده ها از دیدگاه‌های مختلف و استخراج خودکار اطلاعات مفید است. داده کاوی (Data Mining) روندها، الگوها و سایر اطلاعات پنهان شده در حجم عظیمی از داده ها را نشان می‌دهد. امروزه از آن در زمینه‌های تجاری، پزشکی، علمی، جغرافیایی، هواشناسی و سایر مواردی استفاده می‌شود که حجم زیادی از اطلاعات را تولید می‌کند که برای استفاده واقعی به روش‌های پردازش خودکار نیاز دارند.

روش داده کاوی چیست؟

هر موضوع با تمرکز بر الگوریتم‌ها به جای فرم‌گرایی ریاضی، به روشنی با مثال‌های مفصل توضیح داده شده و نشان داده شده است. داده کاوی (Data Mining) به دنبال الگوهایی در ذخیره‌سازی داده‌های بسیار بزرگ است. این فرآیند الگوهای مفیدی را به ارمغان می‌آورد و بنابراین می‌توانیم درمورد داده‌ها به درستی نتیجه‌گیری کنیم. همچنین اطلاعات جدیدی را درباره داده‌هایی که قبلاً در اختیار داریم تولید می‌کند.

مراحل داده کاوی در این روش‌ها شامل الگوهای ردیابی، طبقه بندی، تداعی، تشخیص دور، خوشه بندی، رگرسیون و پیش بینی است. تشخیص الگوها آسان است زیرا ممکن است یک تغییر ناگهانی در داده های داده شده ایجاد شود. ما داده ها را بر اساس بخش‌های مختلف جمع‌آوری و دسته‌بندی کرده‌ایم تا بتوان داده ها را با دسته‌ها تحلیل کرد. خوشه‌بندی داده ها را بر اساس شباهت‌های داده ها گروه‌بندی می کند.

بیشتر بخوانید: داده کاوی و کاربرد آن در تصمیم گیری‌های تجاری

روش‌های مختلفی برای انواع داده کاوی وجود دارد که بنابر کاربرد و سازمان انتخاب و مورد استفاده قرار می‌گیرد. در اینجا به مهم‌ترین آنها می‌پردازیم.

  • روش داده کاوی بصورت قوانین ارتباط ( Association)

قوانین ارتباط عبارتی است که به کمک آن می‌توان روابط بین داده‌هایی را که به نظر می‌رسد در مخزن اطلاعات ارتباطی ندارند، کشف کرد. مفاهیم اساسی استخراج قاعده ارتباط، همراه با الگوریتم‌ها و معیارهای مختلف برای انتخاب بهترین الگوریتم‌ها را پوشش می‌دهد. همچنین بحث جامعی در مورد الگوریتم‌های استخراج قاعده ارتباطات، مانند Apriori، تجزیه و تحلیل سبد بازار و رشد الگوی فرکانس وجود دارد.

در واقع این روشی است که برای شناسایی همبستگی بین دو یا چند مورد با شناسایی الگوی پنهان در مجموعه داده ها استفاده می‌شود و از این رو آنالیز رابطه نیز نامیده می‌شود. این روش در تجزیه و تحلیل سبد بازار برای پیش بینی رفتار مشتری استفاده می‌شود. قوانین انجمن دو نوع است:

قانون ارتباط تک‌بعدی: این قوانین حاوی یک ویژگی واحد هستند که تکرار می‌شود.

قانون ارتباط چندبعدی: این قوانین حاوی ویژگی‌های متعددی هستند که تکرار می‌شوند.

  • روش داده کاوی بصورت طبقه بندی ( Classification )

طبقه‌بندی یک روش داده کاوی (Data Mining) است که موارد موجود در یک مجموعه را به دسته‌ها یا کلاس‌های هدف اختصاص می‌دهد. تکنیک‌های مختلف طبقه‌بندی(ساده‌لوح بیز،نزدیکترین همسایه ،درختان تصمیم گیری) و الگوریتم القای درخت تصمیم(TDIDT) از بالا به پایین و معیارهای مختلف برای انتخاب ویژگی(آنتروپی ،شاخص جینی تنوع، مجذور کای) را توضیح می‌دهد.

به دنبال این بحث در مورد موضوعات مرتبط، از جمله برآورد دقت پیش بینی طبقه بندی، اندازه‌گیری عملکرد طبقه‌بندی، مقایسه طبقه بندی، تبدیل ویژگی‌های مداوم به ویژگی‌های طبقه‌بندی شده(گسسته سازی) باید بدانیم. همچنین کاهش بیش از حد درختان تصمیم، قوانین مدولار برای طبقه‌بندی، مقابله با حجم زیادی از داده ها و طبقه‌بندی گروه (استفاده از مجموعه‌ای از طبقه‌بندی‌ها به جای یک طبقه‌بندی واحد برای طبقه‌بندی داده های دیده نشده) باید توجه کنید.

روش داده کاوی بصورت طبقه‌بندی برای تشخیص موارد موجود در مجموعه داده ها به کلاس‌ها یا گروه‌ها استفاده می‌شود. به پیش‌بینی دقیق رفتار موارد درون گروه کمک می‌کند. به عنوان مثال، یک شرکت بانکی برای شناسایی متقاضیان وام در معرض ریسک‌های اعتباری کم، متوسط یا زیاد از این روش استفاده می‌کند. به همین ترتیب، یک محقق پزشکی داده‌های سرطان را تجزیه و تحلیل می‌کند تا پیش‌بینی کند که چه دارویی را برای بیمار تجویز کند. این یک فرایند دو مرحله‌ای است:

  • مرحله یادگیری (مرحله آموزش): در این مرحله، یک الگوریتم طبقه‌بندی با تجزیه و تحلیل یک مجموعه آموزشی، طبقه‌بندی کننده را ایجاد می‌کند.
  • مرحله طبقه بندی: از داده‌های آزمون برای تخمین صحت یا دقت قوانین طبقه‌بندی استفاده می‌شود.
  • روش داده کاوی بصورت تجزیه و تحلیل خوشه بندی (Clustering)

روش خوشه بندی تقریباً شبیه طبقه‌بندی است اما در این روش، خوشه بسته به شباهت موارد داده ساخته می‌شود. خوشه‌های مختلف اجسام متفاوت و غیرمرتبط دارند. همچنین به عنوان تقسیم‌بندی داده ها فراخوانی می‌شود. زیرا مجموعه داده های عظیم را با توجه به شباهت‌ها به خوشه تقسیم می کند.

روش های خوشه بندی مختلفی وجود دارد که استفاده می‌شود:

  • روش‌های جمع‌بندی سلسله مراتبی
  • روش‌های مبتنی بر شبکه
  • روش‌های پارتیشن بندی
  • روش‌های مبتنی بر مدل
  • روش‌های مبتنی بر تراکم

نمونه مشابه متقاضیان وام را می‌توان در اینجا نیز در نظر گرفت.

  • روش داده کاوی بصورت پیش بینی (Prediction)

این روش برای پیش بینی آینده بر اساس روند یا مجموعه داده های گذشته و حال استفاده می‌شود. پیش بینی بیشتر با ترکیبی از سایر روش‌های استخراج مانند طبقه‌بندی، تطبیق الگو، تجزیه و تحلیل روند و رابطه استفاده می‌شود. به عنوان مثال، اگر مدیر فروش یک سوپرمارکت بخواهد میزان درآمد حاصل از هر کالا را براساس داده های فروش گذشته پیش بینی کند. این یک تابع با ارزش پیوسته را مدل می‌کند که مقادیر داده‌های عددی از دست رفته را پیش بینی می‌کند.

  • روش داده کاوی بصورت الگوهای پی در پی یا ردیابی الگو (Sequential patterns or Pattern tracking)

این روش برای شناسایی الگوهایی استفاده می‌شود که به طور مکرر در مدت زمان مشخصی رخ می‌دهند. به عنوان مثال، مدیر فروش شرکت پوشاک می‌بیند که به نظر می‌رسد فروش کاپشن و لباس‌های گرم درست قبل از فصل زمستان افزایش می یابد یا فروش در نانوایی در طول تعطیلات یا شب عید افزایش می یابد.

داده کاوی
روش داده کاوی بصورت الگوهای پی در پی
  • روش داده کاوی بصورت درختان تصمیم ( decision tree )

درخت تصمیم، ساختاری درختی است (همانطور که از نام آن پیداست) که:

  • هر گره داخلی نمایانگر آزمایشی بر روی ویژگی است.
  • Branch نتیجه آزمون را نشان می‌دهد.
  • گره‌های ترمینال برچسب کلاس را نگه می‌دارند.

گره بالاترین گره ریشه است که دارای یک سوال ساده است که دارای دو یا چند پاسخ است. بر این اساس، درخت رشد می‌کند و یک نمودار جریان مانند ساختار ایجاد می‌شود. به عنوان مثال در این تصمیم ، دولت درخت شهروندان زیر ۱۸ سال یا بالاتر از ۱۸ سال را طبقه‌بندی می‌کند. این به آن‌ها کمک می‌کند تا تصمیم بگیرند که آیا مجوز برای یک شهر خاص صادر می‌شود یا خیر.

  • روش داده کاوی بصورت تجزیه و تحلیل Outlier یا تجزیه و تحلیل ناهنجاری  (Outlier Analysis or Anomaly Analysis )

این روش برای شناسایی موارد داده‌ای استفاده می‌شود که با الگوی مورد انتظار یا رفتار مورد انتظار مطابقت ندارند. این موارد داده غیرمنتظره به عنوان دور از دسترس یا نویز در نظر گرفته می‌شوند. آن‌ها در بسیاری از دامنه‌ها مانند شناسایی تقلب در کارت‌های اعتباری، تشخیص نفوذ، تشخیص خطا و غیره مفید هستند. به این کار Outlier Mining نیز می‌گویند. این امر به تشخیص ناهنجاری‌ها و انجام اقدامات احتمالی بر اساس آن کمک می‌کند.

  • روش داده کاوی بصورت شبکه عصبی. ( Neural Network )

این روش یا مدل مبتنی بر شبکه های عصبی بیولوژیکی است. مجموعه‌ای از نورون ها مانند واحدهای پردازشی است که ارتباطات وزنی بین آن‌ها وجود دارد. از آن‌ها برای مدل سازی رابطه بین ورودی و خروجی استفاده می‌شود. این روش برای طبقه‌بندی، تجزیه و تحلیل رگرسیون، پردازش داده ها و غیره استفاده می‌شود. این روش با سه رکن کار می‌کند:

  • مدل
  • الگوریتم یادگیری (نظارت شده یا بدون نظارت)
  • عملکرد فعال‌سازی

در کل تکنیک‌های داده کاوی (Data Mining) می‌تواند برای کاربردهای بسیاری بکار رود.

من پانتـه‌آ پایـدار کارشناس ارشد مهندسی آی تی در گرایش کسب و کار الکترونیکی هستم. علاقمند به هر فناوری و تکنیک جدیدی در حوزه آی‌تی و هر چه به این حوزه کمک می‌کند. به تحقیق و پژوهش و تولید محتوا در زمینه دنیای دیجیتال و آی تی مشغولم.
مقالات مرتبط

گزارش دیتاک از صنعت لوازم خانگی در ایران

کلان‌داده شبکه اجتماعی درباره نگرش ایرانیان به برندهای لوازم خانگی ایرانی و…

واکاوی نگرش ایرانیان به اتباع افغان بر اساس داده‌کاوی شبکه‌های اجتماعی (افکارسنجی و رسانه‌سنجی)

موضوع حضور مهاجران یا اتباع افغان در ایران در یکی دو سال گذشته تبدیل به یک بحران اجتماعی شده و بخش بزرگی از جامعه ایران و مهاجران را درگیر خود کرده است.

دیدگاهتان را بنویسید