اگر به دنیای الگوریتمها، هوش مصنوعی و فناوری نانو علاقمند باشید، حتما در مورد داده کاوی و یادگیری ماشین چیزهایی شنیدهاید. شاید کنجکاو شوید که چرا در این دوره مبحث یادگیری ماشین یا ماشین لرنینگ داغ است و خیلیها سعی در پیشرفت در این زمینه دارند.
انسانها از بدو خلقت تا به حال همواره در حال واکاوی، جستجو و تحلیل اطلاعاتی هستند که از محیط اطراف خود بدست میآورند. ما هر روز از راههای متفاوت همچون لامسه، بینایی، شنوایی و بخصوص اعصاب، اطلاعات و دادههای زیادی دریافت و در مغز ذخیره میکنیم.
انسان نخستین قادر به تکلم نبود و مجبور بود با ترسیم اشکال منظور خود را برساند. کم کم بشر با رشد مغزش، یاد گرفت که با حرف زدن، احساسات و واکنشهای خود را بروز دهد و سپس برای انتقال و ذخیره این حالات و همچنین ثبت مشاهدات خود از نوشتن استفاده کرد. تمام این مراحل نشان از تحولاتی است که در مغز بشر رخ داده، که ما به آن هوش می گوییم. هوش یادگیری انسانها، در رایانهها و سیستمهای دیگر امروز بصورت هوش مصنوعی ملموس است.
یادگیری ماشین یا ماشین لرنینگ چیست؟
هوش مصنوعی قابلیت یادگیری دارد. این یادگیری به وسیله الگوریتمهایی که انسان به سیستم میدهد، صورت میگیرد. الگوریتمها از چند دستورالعملی که درکنار هم قرار میگیرند تشکیل میشوند و یک یا چند هدف را دنبال میکنند. اگر تنها یک هدف، تمام کاری باشد که سیستم انجام میدهد هوش مصنوعی محدود خواهد بود.
اما ماشینها و رباتهای امروز چگونه یاد میگیرند که به هدف نهایی برسند؟ پاسخ این سوال در مفهوم ماشین لرنینگ نهفته است.
اگر در مورد مفاهیم، ساختار و کاربردهای داده کاوی و یادگیری ماشین (Machine Learning) اطلاعات کافی ندارید همراه ما باشید. در این مطلب به شما خواهیم گفت که این عبارات چه مفهومی را به همراه دارند. از ماشین لرنینگ یا یادگیری ماشین و داده کاوی چه استفادهای میتوان برد. کاربرد هر یک چیست؟ داده کاوی و یادگیری ماشین چه تفاوتهایی باهم دارند؟
چرا انسان به رشد علم داده کاوی علاقمند است؟
رشد داده کاوی به معنای رشد سیستمهاست و رشد سیستمهای یادگیرنده یعنی اینکه انسان مجبور نیست برای هر محاسبهای مقدار زیادی اطلاعات را آنالیز کند و هزینه زیادی برای ذخیره کردن دادههای بینهایت خود بپردازد. استفاده از فناوری ابری و تعدد کاربران سیستم در دنیای اینترنت نیز از جمله دلایل علاقهی انسان به رشد داده کاوی است.
بیشتر بخوانید: با ابزارهای داده کاوی در سال ۲۰۲۰ آشنا شوید
چرا به یادگیری ماشین نیاز داریم؟
یادگیری ماشین نوعی زمینه مطالعاتی در فناوری هوش مصنوعی است. انسان به کمک هوش مصنوعی موفق به ساخت ماشینهای بهتر و هوشمند شد. اما دانشمندان اوایل از انجام کارهای پیچیدهتری که مداوم با چالش همراه بود ناتوان بودند و فقط قادر به انجام کارهای جزئی، مانند پیدا کردن کوتاهترین مسیر بین دو نقطه A و B بودند. پس از مدتی به این درک رسیدند که اگر نیاز به انجام کارهای بزرگتر دارند تنها راه ممکن، طراحی ماشینهایی است که بتوانند از خودشان یاد بگیرند. مانند کودکی که از خودش میآموزد. بنابراین، یادگیری ماشین بهعنوان یک توانایی جدید برای رایانهها مطرح شد.
از گذشته تا حال؛ داده کاوی و یادگیری ماشین
دو مبحث ماشین لرنینگ و داده کاوی از زیرشاخههای هوش مصنوعی هستند که باید جداگانه در موردشان توضیح داد:
نگاهی به داده کاوی:
- دهه ۱۹۳۰ پدیده داده کاوی مطرح شد. از داده کاوی با تعریف کشف علم در پایگاههای داده یاد میشد.
- داده کاوی اطلاعات و دادههایی که برای سیستم و هوش مصنوعی مورد نیاز است را کشف و مورد بررسی قرار میدهد.
- برای ساخت الگوریتمها به آن نیاز داریم.
- با وجود داده کاوی میتوان دادههای زیادی را فرا گرفت.
نگاهی به یادگیری ماشین:
- یادگیری ماشین از دهه ۱۹۵۰ مطرح شده و با ساخت نخستین برنامه یادگیری Samuel’s checker معروف شد.
- یادگیری ماشین همچون داده کاوی یک فرآیند تحلیل کننده است که برای هوش مصنوعی حیاتی خواهد بود.
- الگوریتمهای لازم را تشخیص میدهد.
- دادههای بهتر را بررسی و بهترین را به سیستم معرفی میکند.
در واقع یادگیری ماشین دوست دارد که الگوریتمهای تعریف شده را بهبود ببخشد تا واکنشها و عملکردهای سیستم هوشمندانهتر شود. با یادگیری ماشین دیگر سیستم ملزم نیست که بارها روشهای مختلف را تکرار کند.
[box type=”shadow” align=”aligncenter” class=”” width=”770″]شما میتوانید بیگ دیتای شبکههای اجتماعی و سایتهای خبری را در یک بستر به صورت کامل و جامع در سامانه دیتاک در اختیار داشته باشید و از آن برای بهبود کسب و کار خود در هر صنعتی استفاده کنید.
[button color=”red” size=”big” link=”https://dataak.com/%D8%A7%D8%B1%D8%AA%D8%A8%D8%A7%D8%B7-%D8%A8%D8%A7-%D8%AF%DB%8C%D8%AA%D8%A7%DA%A9/” icon=”” target=”true” nofollow=”false”]تماس با کارشناسان دیتاک[/button][/box]
تفاوت داده کاوی و یادگیری ماشین در چیست؟
داده کاوی فرآیند تجزیه و تحلیلی است که بر آموزش دادن سیستم تاکید دارد. داده کاوی اختلالات و ناهنجاریهای موجود را در بین هزاران داده پیدا میکند (در این موارد انسان نیز مداخله دارد). در این فرآیند حتی میتوان دستورها و الگوریتمهای هوشمند دیگری نیز افزود تا عملکرد بهتری از خود نشان دهد.
در واقع در مباحث تجاری میتوانید با استفاده از علم داده کاوی اطلاعات مشتریان و بازار کار خود را رصد کنید، عمده نیازهای بازار را شناسایی کنید و طبق آن محصولات و خدمات خود را تبلیغ و عرضه نمایید. مثل کاری که موتورهای جستجوی گوگل انجام میدهند.
با کاربردهای ماشین لرنینگ آشنا شوید: ۵ کاربرد ماشین لرنینگ در دیجیتال مارکتینگ
اما یادگیری ماشین علاوه بر اینکه بر آموزش سیستم تمرکز دارد، سعی میکند با تجزیه تحلیل الگوریتمهای برتر الگوهای تازهتری ارائه دهد و دادههای بهتری پیشنهاد کند.
جالب است بدانید بعد از تنظیمات، برنامه نویسیها و شروع بکار، یادگیری ماشین احتیاجی به مداخله انسان ندارد و خود میتواند به تنهایی دادهها را واکاوی کند و بهترین پیشبینیها را انجام دهد. چرا که یادگیری ماشین اطلاعات و دادههای بیشتری در خود دارد بنابراین روز به روز بیشتر رشد میکند.
یادگیری ماشین میتواند ترجیحات کاربر و یا کاربران را تشخیص دهد، مثلا اگر شما با نام کاربری مشخصی محصولی را مرتبا سرچ کنید در دفعات بعد الگوریتمهای سیستم همان محصول و محصولات مشابه آن را ابتدا به شما نشان خواهند داد.
اقسام یادگیری ماشین
- نظارت شده: در این حالت سیستم از پیشبینیهایی که با الگوریتمها به آن تزریق شده سعی میکند الگوها را بیاموزد.
- نظارت نشده: در این حالت خود الگوریتم به صورتی برنامه نویسی شده که به تنهایی و مستقل دنبال الگوهای مناسب بگردد. در این الگو از قبل پاسخ و هدف مناسب به سیستم داده نشده و خود سیستم باید بهترین هدف و راه موفقیت را پیدا کند.
- تقویتی: در این حالت به سیستم یاد داده می شود که چگونه در یک محیط تشویق و تنبیه اهداف را درست تجزیه، تحلیل و انتخاب کند.
الگوریتم های ماشین لرنینگ
در این مطلب از دیتاک میتوانیم الگوریتمهای ماشین لرنینگ را به این صورت تعریف کنیم که برنامههای ریاضی و منطقی هستند که زمانی که در معرض دادههای بیشتر قرار میگیرند، خود را برای عملکرد بهتر تنظیم میکنند. قسمت یادگیری ماشینی لرنینگ به این معنی است که این برنامهها شیوه پردازش دادهها را در طول زمان تغییر میدهد، همانطور که نحوه پردازش دادهها را با یادگیری عوض میکنند. پس الگوریتمهای ماشین لرنینگ یا الگوریتمهای یادگیری ماشین نوعی برنامه است که پارامترهای خود را با نگاهی به بازخوردهای عملکرد قبلی در یک مجموعه داده پیشبینی کرده و بهبود میدهد.
الگوریتمهای ماشین لرنینگ امروزه در خیلی از جنبههای زندگی انسانها حضور فعال دارد تا آنجا که میتوانید مطالعه کنید که چطور میتوان خرید انجام داد یا چطور میتوان سفر کرد. برای مثال، کشف تقلب را در نظر بگیرید. هر بار که فردی با استفاده از کارت اعتباری خود خرید میکند، الگوریتمهای ماشین لرنینگ خیلی سریع خرید را بررسی میکنند تا مشخص شود که آیا این تراکنش تقلبی بوده است یا نه. آنها بر اساس سازگاری آن خرید با ویژگیهای خریدهای قبلی فرد، تقلبی بودن یا نبودن آن را پیشبینی میکنند.
الگوریتمهای ماشین لرنینگ در موارد زیادی استفاده میشوند. این الگوریتمها در مرکز موتورهای جستوجوی تجاری قرار دارند. درست از زمانی که شروع به تایپ کردن میکنید، علاوهبر این موتور جستوجو از دادههای شما در خصوص نحوه تعامل با سایت استفاده میکند. برای مثال، صفحاتی که کلیک میکنید، مدت زمانی که شخص در هر صفحه وقت میگذراند و غیره. از این دادههای قدیمی استفاده میکنند تا بتوانند اطلاعات بهتری را برای شما به نمایش بگذارند.
محبوبترین الگوریتمهای ماشین لرنینگ
رگرسیون لجستیک
رگرسیون لجستیک به عنوان یکی از محبوبترین الگوریتمهای ماشین لرنینگ تکنیکی آماری برای مشخص کردن تاثیر متغیرهای کمی یا کیفی روی متغیر وابسته دو وجهی است. تحلیل رگرسیون لجستیک شبیه تحلیل رگرسیون خطی است ولی با این تفاوت که در رگرسیون خطی متغیر وابسته یک متغیر کمی است اما در رگرسیون لجستیک وابسته متغیری کیفی و دو وجهی است. یعنی نمیتوان آن را با عدد مشخص نمود.
در رگرسیون لجستیک هم متغیرهای مستقل کیفی یا باید متغیری دو وجهی باشند یا به متغیر دو وجهی تبدیل میشوند. متغیرهای وابسته دوسویی یا دو وجهی مانند بیماری یا سلامتی، مرگ یا زندگی و اگر 3 متغیر بیمار، سالم و در کنار داشته باشیم، باید به متغیر سوم برچسب بیمار را بدهیم تا متغیرها به دو وجهی تغییر کنند.
درخت تصمیم
الگوریتم درخت تصمیم در یادگیری ماشین یکی از محبوبترین الگوریتمهای ماشین لرنینگ است که امروزه استفاده میشود. ااین الگوریتم یکی از الگوریتمهای ماشین لرنینگ نظارت شده است که برای طبقهبندی و دستهبندی مسائل استفاده میشود. ای این الگوریتم، دادهها را بر اساس مهمترین ویژگیها به دو یا چند مجموعه همگن دستهبندی میکنند.
الگوریتم SVM (Support Vector Machine)
الگوریتم SVM یکی از الگوریتمهای یادگیری ماشین برای دستهبندی دادهها است که در آن دادههای خام را به صورت نقاط در یک فضای ان بعدی رسم میکنید که در آن ان تعداد ویژگی وجود دارد. سپس هر ویژگی به یک مختصات خاص در صفحه گرهخورده و طبقهبندی دادهها را ساده میکند.
الگوریتم ساده بیز Naive Bayes
یک دستهبندی ساده بیز را تصور کنید که وجود یک ویژگی خاص در یک کلاس، با وجود هیچ ویژگی دیگری ارتباط نداشته باشد. حتی اگر این ویژگیها به هم مرتبط باشند، طبقهبندی کننده Naive Bayes این ویژگی به صورت جداگانه زمان محاسبه احتمال یک نمونه خاص مد نظر قرار میگیرد. ساخت یک مدل ساده بیزی ساده و برای دستههای داده بزرگ مفید و کاربردی است.
الگوریتم K-Means
الگوریتم K-Means یکی از الگورتیمهای ماشین لرنینگ بدون نظارت است که برای حل مشکلات خوشهبندی در علم از ان استفاده میشود. خوشهبندی یک روش برای کمیسازی بردارها است که در اصل از پردازش سیگنالها گرفته شده و برای آنالیز خوشهبندی در داده کاری کاربرد دارد. هدف این الگوریتم خوشهبندی یک تعداد مشخص نمونه به یک تعداد مشخص خوشه است که در ان هر یک از نمونهها به یک خوشه با نزدیکترین میانگین تعلق دارند.
الگوریتم جنگل تصادفی
الگوریتم جنگل تصادفی یکی از انواع الگوریتم های یادگیری ماشین تحت نظارت است که هم برای طبقه بندی و هم برای رگرسیون کاربرد دارد اما با این وجود عمدتا برای مشکلات طبقهبندی از آن استفاده میشود. همانطور که میدانید یک جنگل از درختان تشکیل شده است و تعداد بیشتر درختان به معنی جنگل مقاومتر است. به همین ترتیب الگوریتم جنگل تصادفی، درختان تصمیمگیری را با استفاده از نمونههای داده ایجاد مینماید و در نهایت بهترین راه حل را با استفاده از رایگیری انتخاب میکند.
الگوریتم کاهش ابعاد
یکی دیگر از انواع الگوریتمهای یادگیری ماشین الگوریتم کاهش ابعاد است. در دنیای امروز، حجم زیادی از دادهها توسط شرکتها، سازمانهای دولتی و سازمانهای تحقیقاتی ذخیره و آنالیز میشوند. به عنوان یک دانشمند میدانید که ان دادهها خام یک سری اطلاعات زیاد در خود دارند که الگوریتم کاهش ابعاد برای پیدا کردن جزئیات مرتبط به شما کمک میکند.
الگوریتم تقویت گرادیان (Gradient boosting) و الگوریتم AdaBoosting
اینها الگوریتمهای تقویت کنندهای هستند که برای پیشبینی با دقت بالا استفاده میشوند. Boosting یک الگوریتم الگوریتم یادگیری گروهی است که چندین گرو الگوریتم پایه را برای بهبود پیشبینی با دقت بالا ترکیب میکنند.
شبکههای عصب مصنوعی
یکی دیگر از الگوریتمهای یادگیری ماشین شبکههای عصب مصنوعی نام دارد. شبکههای عصب مصنوعی اساس کار نورونها در سیستم عصبی ما را شبیه سازی میکنند. آنها حاوی نورونهایی هستند که به عنوان واحدهای انباشته شده در لایهها کار میکنند که اطلاعات را از لایه ورودی به لایه خروجی نهایی انتقال میدهند. این شبکههای عصبی یک لایه ورودی، یک لایه پنهان و یک لایه خروجی نهایی دارند. این شبکهها به شکل بشکه عصبی تک لایهای یا یک شبکه عصبی چند لایهای وجود دارند.
در این نمودار یک لایه ورودی وجود دارد که ورودی را که در قالب یک خروجی است، میگیرد. بعد از آن ورودی به لایه پنهان منتقل میشود که چندین عملیات ریاضی برای انجام محاسبات و رسیدن به خروجی مورد نظر انجام میدهد. برای مثال، با توجه به تصویری از گربهها و سگها، لایههای پنهان حداکثر احتمال دستهای را که تصویر ما به آن تعلق دارد، محاسبه نمینماید. این مثالی از کلاسبندی باینری است که در آن برای گربه یا سگ یک جایگاه مشخص میکنند.
تشخیص ناهنجاری
در تشخیص ناهنجاری از یک تکنیک برای شناسایی الگوهای غیر عادی که مانند الگوهای عمومی، استفاده میشود. این الگوهای غیر عادی یا نقاط داده به عنوان پرت شناخته میشوند. تشخیص این نقاط پرت یک هدف اساسی برای خیلی از مشاغل است که نیازمند تشخیص نفوذ، تشخیص تقلب، پایش سیستم بهداشتی و تشخیص خطا در محیطهای عملیاتی هستند.
Outlier یک پدیه نادر است. در واقع یک مشاهده خیلی متفاوت است که میتواند ناشی از برخی از تغییرات در اندازهگیری یا صرفا شکلی از خطا باشد.
مدل مخلوط گوسی
برای نشان دادن یک زیر جمعیت با توزیع نرمال بین کل جمیعت از مدل مخلوط گوسی استفاده میشود. این مدل به دادههای مرتبط با زیر جمعیت نیاز ندارد پس این مدل میتواند زیر جمعیتها را به صورت خودکار یاد بگیرد. با توجه به این که تخصیص جمعیت مشخص نیست، مدل مخلوط گوسی در کتگوری یادگیری بدون نظارت قرار دارد.
به عنوان مثال، تصور کنید که شما باید یک مدل از دادههای قد انسان مشخص کنید. میانگین قد مردان 1.76 متر و برای زنان ۱٫۶۴ است. ما فقط دادههای قد را داریم اما دادههای جنسیت را نداریم. این توزیع از مجموعه دو توزیع مقیاسبندی شده و دو توزیع نرمال انتقالی تبعیت میکند. ما این فرض را با کمک مدل مخلوط گوسی به دست میاوریم.
برای آشنایی بیشتر با مباحث داده کاوی، هوش مصنوعی، بیگ دیتا، شبکه عصبی و ماشین لرنینگ دیگر پستهای بلاگ ما را بخوانید.