صفحه اصلی > داده کاوی : ۴ مورد از الگوریتم‌های پرکاربرد در داده کاوی

۴ مورد از الگوریتم‌های پرکاربرد در داده کاوی

الگوریتم‌های پرکاربرد در داده کاوی data mining algorithms

داده کاوی به معنی تلاش برای پیدا کردن الگویی مشخص از بین داده‌ها به کمک ‌الگوریتم‌ها است. برخی از الگوریتم‌های پرکاربرد در داده کاوی وجود دارند که متخصصان بیشتری آن‌ها را تایید می‌کنند. داده کاوی مجموعه‌ای از اعمالی است که توسط کامپیوتر روی حجم زیادی از داده‌ها انجام می‌شود تا یک الگوی مشخص از بین دیتای پراکنده پیدا شود.

این عمل باعث می‌شود در اطلاعاتی که به ظاهر نظمی ندارند، نظمی نهفته برای دسته‌بندی یافت شود و نتیجه آن به شیوه‌ای قابل فهم برای انسان نمایش داده شود تا بتوان از آن برای تصمیم‌گیری و برنامه‌ریزی استفاده کرد. روش‌های گوناگونی برای داده کاوی وجود دارند، مانند خوشه بندی، کلاس‌بندی و … که برای هرکدام از الگوریتم‌های خاصی استفاده می‌شود.

در بین داده‌ها اطلاعات بسیار مفیدی برای بهبود کیفیت بخش‌های مختلف زندگی انسان نهفته است. از تشخیص احتمال بیماری در افراد، تا پیدا کردن الگوهای بهتر فروش در کسب و کار اینترنتی و حتی تشخیص چهره‌ی فرد خلافکار از طریق دوربین‌های مداربسته، همه جنبه‌های متفاوتی هستند که داده کاوی می‌تواند در آن‌ها به انسان کمک کند.

معرفی الگوریتم‌های پرکاربرد در داده کاوی

در داده کاوی، الگوریتم به مجموعه دستوراتی می‌گویند که به زبان‌های کامپیوتری تعریف شده‌اند و قابل اجرا توسط کامپیوتر هستند. در داده کاوی الگوریتم‌‌های زیادی وجود دارد که دیتای بزرگی را تحلیل کرده و الگوی معناداری از آن‌ها استخراج می‌کند. برخی از پرکاربردترین‌های آن را اینجا معرفی می‌کنیم.

  • الگوریتم K-means

این الگوریتم یک نوع خوشه بندی است که اول به طور تصادفی به اندازه K نقطه را در نظر می‌گیرد، در اینجا به تعداد K خوشه داریم که نقطه‌های تصادفی مرکز آن‌ها هستند. بعد از بررسی داده‌ها هر کدام که به هر مرکز نزدیک‌تر باشند در خوشه مربوط به خود قرار می‌گیرند. سپس میانگینی از هر خوشه گرفته می‌شود، این بار مرکز دسته‌ها میانگین‌ها هستند و هر داده‌ای که از این میانگین دور و به خوشه‌ی دیگری نزدیک‌تر باشد تغییر خوشه می‌دهد. این چرخه آنقدر ادامه پیدا می‌کند که همه‌ی خوشه‌ها به ثبات برسند و دیگر امکان تغییری در داده‌های آن‌ها وجود نداشته نباشد.

عدد K می‌تواند هر رقمی باشد. این الگوریتم دیتاها را به دسته‌هایی که بیشترین شباهت را به هم دارند تقسیم کرده و برای بهترین نتیجه آن را چند بار با نقاط شروع متفاوت اجرا می‌کند، نتیجه‌ای که اجزای خوشه‌های آن منجسم‌تر هستند احتمالا نتیجه‌ی بهتری است.

بیشتر بخوانید : خوشه بندی در داده کاوی برای مدیریت ارتباط با مشتری

  •  الگوریتم C4.5

الگوریتم C4.5، یکی از الگوریتم‌های پرکاربرد در داده کاوی است و اساس درخت تصمیم کلاس بندی انجام می‌دهد. هر داده مجموعه‌ای ویژگی دارد. الگوریتم C4.5 داده‌هایی کلاس بندی شده را می‌گیرد. هر کدام از این دسته‌ها نماینده‌ی یکی از ویژگی‌های مد نظر ما برای دسته‌بندی نهایی هستند. الگوریتم یکی از ویژگی‌ها را در نظر می‌گیرد و داده‌های جدید را بر اساس آن بررسی و تقسیم می‌کند. در واقع پس از بررسی داده‌های جدید، آن‌ها را بر اساس ویژگی‌های اولیه‌ی داده شده در گروه‌های مختلف قرار می‌دهد.

برای مثال مجموعه‌ای از اطلاعات کسانی که به سرطان مبتلا شدند به این الگوریتم داده می‌شود، در اطلاعات موضوعاتی مثل سابقه خانوادگی، اضافه وزن و … به عنوان ویژگی برای الگوریتم تعیین شده، الگوریتم این اطلاعات را دسته بندی کرده و بر اساس آن‌ها امکان ابتلا به سرطان در افراد دیگر را مورد بررسی قرار می‌دهد.

 

  • الگوریتم SVM

SVM مخفف Support vector machines است و در اصول سطح بالا مشابه به C4.5 کار می‌کند با این تفاوت که در این الگوریتم از درخت تصمیم گیری استفاده نمی‌شود. این الگوریتم داده‌ها را بررسی می‌کند، یک هایپر پلین تعریف می‌کند و داده‌ها را در دو کلاس قرار می‌دهد. الگوریتم برای این تقسیم از معیارهای خود استفاده می‌کند. برای درک بهتر فرض کنید مجموعه‌ای از داده‌های مرتبط با خودرو به این الگوریتم داده شده است، این الگوریتم در ابتدا ممکن است داده‌های مرتبط با ارتفاع خودرو را در نظر بگیرد، تا آن‌ها را به دو دسته‌ی خودروهای سدان و شاسی بلند تقسیم کند. SVM را می‌توان خطی که بین داده‌ها در نمودار کشیده شده‌ است در نظر گرفت اما این نمودار همیشه هم یک خط صاف و ساده نیست. الگوریتم روش خود را دارد تا داده‌های مشابه را پیدا کند و این نمودار می‌تواند به شکلی دارای انحنا و یا اشکالی پیچیده‌تر هم باشد.

الگوریتم SVM
الگوریتم SVM در داده کاوی
  • الگوریتم Apriori

این الگوریتم به یادگیری مجموعه‌ای از قوانین تکرار شونده بین متغیرهای یک دیتابیس می‌پردازد. این قوانین تکرار شونده به قوانین انجمنی معروف هستند.

برای مثال یک فروشگاه تصور کنید، که متوجه می‌شود معمولا افرادی که قهوه می‌خرند، در لیست خریدشان شیر هم دیده می‌شود. این فروشگاه می‌تواند از این اطلاعات برای تغییر چیدمان قفسه‌ها استفاده کند و با قرار دادن قهوه در کنار شیر فروش خود را افزایش دهد.

بیشتر بخوانید: معرفی ۱۳ ابزار رایگان برتر داده کاوی در سال ۲۰۲۰

 

این الگوریتم معمولا در بین داده‌های کلاس‌بندی نشده یک الگو پیدا می‌کند و آن‌هایی که مشابه هستند را در یک دسته قرار می‌دهد اما می‌توان آن را با شیوه‌ی کلاس‌بندی هم مورد استفاده قرار داد.

هر کدام از این الگوریتم‌های داده کاوی برای یک نوع داده با هدفی خاص مناسب هستند تا بهترین و اثربخش‌ترین نتیجه را برای مخاطب به همراه داشته باشند. شرکت دیتاک بصورت حرفه‌ای در زمینه داده کاوی به شرکت‌ها و کسب و کارها کمک می‌کند تا از داده‌ها، اطلاعاتی مفید برای کسب و کار خود به دست آورند و از آن‌ها به عنوان مزیتی رقابتی بهتره ببرند.

[box type=”shadow” align=”aligncenter” class=”” width=”700″]برای کسب اطلاعات بیشتر و دریافت مشاوره با کارشناسان دیتاک در ارتباط باشید.

[button color=”red” size=”big” link=”https://dataak.com/%d8%a7%d8%b1%d8%aa%d8%a8%d8%a7%d8%b7-%d8%a8%d8%a7-%d8%af%db%8c%d8%aa%d8%a7%da%a9/” icon=”” target=”true” nofollow=”false”]تماس با دیتاک[/button][/box]

مقالات مرتبط

گزارش دیتاک از صنعت لوازم خانگی در ایران

کلان‌داده شبکه اجتماعی درباره نگرش ایرانیان به برندهای لوازم خانگی ایرانی و…

واکاوی نگرش ایرانیان به اتباع افغان بر اساس داده‌کاوی شبکه‌های اجتماعی (افکارسنجی و رسانه‌سنجی)

موضوع حضور مهاجران یا اتباع افغان در ایران در یکی دو سال گذشته تبدیل به یک بحران اجتماعی شده و بخش بزرگی از جامعه ایران و مهاجران را درگیر خود کرده است.

دیدگاهتان را بنویسید