داده کاویهوش مصنوعی

یادگیری ماشین یا ماشین لرنینگ چیست؟ | کاربردها و ویژگی‌ها

Machine Learning

اگر به دنیای الگوریتم‌ها، هوش مصنوعی و فناوری نانو علاقمند باشید، حتما در مورد داده کاوی و یادگیری ماشین چیزهایی شنیده‌اید. شاید کنجکاو شوید که چرا در این دوره مبحث یادگیری ماشین یا ماشین لرنینگ داغ است و خیلی‌ها سعی در پیشرفت در این زمینه دارند.

انسان‌ها از بدو خلقت تا به حال همواره در حال واکاوی، جستجو و تحلیل اطلاعاتی هستند که از محیط اطراف خود بدست می‌آورند. ما هر روز از راه‌های متفاوت همچون لامسه، بینایی، شنوایی و بخصوص اعصاب، اطلاعات و داده‌های زیادی دریافت و در مغز ذخیره می‌کنیم.

انسان نخستین قادر به تکلم نبود و مجبور بود با ترسیم اشکال منظور خود را برساند. کم کم بشر با رشد مغزش، یاد گرفت که با حرف زدن، احساسات و واکنش‌های خود را بروز دهد و سپس برای انتقال و ذخیره این حالات و همچنین ثبت مشاهدات خود از نوشتن استفاده کرد. تمام این مراحل نشان از تحولاتی است که در مغز بشر رخ داده، که ما به آن هوش می گوییم. هوش یادگیری انسان‌ها، در رایانه‌ها و سیستم‌های دیگر امروز بصورت هوش مصنوعی ملموس است.

یادگیری ماشین یا ماشین لرنینگ چیست؟

هوش مصنوعی قابلیت یادگیری دارد. این یادگیری به وسیله الگوریتم‌هایی که انسان به سیستم می‌دهد، صورت می‌گیرد. الگوریتم‌ها از چند دستورالعملی که درکنار هم قرار می‌گیرند تشکیل می‌شوند و یک یا چند هدف را دنبال می‌کنند. اگر تنها یک هدف، تمام کاری باشد که سیستم انجام می‌دهد هوش مصنوعی محدود خواهد بود.

اما ماشین‌ها و ربات‌های امروز چگونه یاد می‌گیرند که به هدف نهایی برسند؟ پاسخ این سوال در مفهوم ماشین لرنینگ نهفته است.

اگر در مورد مفاهیم، ساختار و کاربردهای داده کاوی و یادگیری ماشین (Machine Learning) اطلاعات کافی ندارید همراه ما باشید. در این مطلب به شما خواهیم گفت که این عبارات چه مفهومی را به همراه دارند. از ماشین لرنینگ یا یادگیری ماشین و داده کاوی چه استفاده‌ای می‌توان برد. کاربرد هر یک چیست؟ داده کاوی و یادگیری ماشین چه تفاوت‌هایی باهم دارند؟

چرا انسان به رشد علم داده کاوی علاقمند است؟

رشد داده کاوی به معنای رشد سیستم‌هاست و رشد سیستم‌های یادگیرنده یعنی اینکه انسان مجبور نیست برای هر محاسبه‌ای مقدار زیادی اطلاعات را آنالیز کند و هزینه زیادی برای ذخیره کردن داده‌های بی‌نهایت خود بپردازد. استفاده از فناوری ابری و تعدد کاربران سیستم در دنیای اینترنت نیز از جمله دلایل علاقه‌ی انسان به رشد داده کاوی است.

بیشتر بخوانید: با ابزارهای داده کاوی در سال ۲۰۲۰ آشنا شوید

 

چرا به یادگیری ماشین نیاز داریم؟

یادگیری ماشین نوعی زمینه مطالعاتی در فناوری هوش مصنوعی است. انسان به کمک هوش مصنوعی موفق به ساخت ماشین‌های بهتر و هوشمند شد. اما دانشمندان اوایل از انجام کارهای پیچیده‌تری که مداوم با چالش همراه بود ناتوان بودند و فقط قادر به انجام کارهای جزئی، مانند پیدا کردن کوتاه‌ترین مسیر بین دو نقطه A و B بودند. پس از مدتی به این درک رسیدند که اگر نیاز به انجام کارهای بزرگتر دارند تنها راه ممکن، طراحی ماشین‌هایی است که بتوانند از خودشان یاد بگیرند. مانند کودکی که از خودش می‌آموزد. بنابراین، یادگیری ماشین به‌عنوان یک توانایی جدید برای رایانه‌ها مطرح شد.

از گذشته تا حال؛ داده کاوی و یادگیری ماشین

دو مبحث ماشین لرنینگ و داده کاوی از زیرشاخه‌های هوش مصنوعی هستند که باید جداگانه در موردشان توضیح داد:

نگاهی به داده کاوی:

  • دهه ۱۹۳۰ پدیده داده کاوی مطرح شد. از داده کاوی با تعریف کشف علم در پایگاه‌های داده یاد می‌شد.
  • داده کاوی اطلاعات و داده‌هایی که برای سیستم و هوش مصنوعی مورد نیاز است را کشف و مورد بررسی قرار می‌دهد.
  • برای ساخت الگوریتم‌ها به آن نیاز داریم.
  • با وجود داده کاوی می‌توان داده‌های زیادی را فرا گرفت.

نگاهی به یادگیری ماشین:

  • یادگیری ماشین از دهه ۱۹۵۰ مطرح شده و با ساخت نخستین برنامه یادگیری Samuel’s checker معروف شد.
  • یادگیری ماشین همچون داده کاوی یک فرآیند تحلیل کننده است که برای هوش مصنوعی حیاتی خواهد بود.
  • الگوریتم‌های لازم را تشخیص می‌دهد.
  • داده‌های بهتر را بررسی و بهترین را به سیستم معرفی می‌کند.

در واقع یادگیری ماشین دوست دارد که الگوریتم‌های تعریف شده را بهبود ببخشد تا واکنش‌ها و عملکردهای سیستم هوشمندانه‌تر شود. با یادگیری ماشین دیگر سیستم ملزم نیست که بارها روش‌های مختلف را تکرار کند.

[box type=”shadow” align=”aligncenter” class=”” width=”770″]شما می‌توانید بیگ دیتای شبکه‌های اجتماعی و سایت‌های خبری را در یک بستر به صورت کامل و جامع در سامانه دیتاک در اختیار داشته باشید و از آن برای بهبود کسب و کار خود در هر صنعتی استفاده کنید.

[button color=”red” size=”big” link=”https://dataak.com/%D8%A7%D8%B1%D8%AA%D8%A8%D8%A7%D8%B7-%D8%A8%D8%A7-%D8%AF%DB%8C%D8%AA%D8%A7%DA%A9/” icon=”” target=”true” nofollow=”false”]تماس با کارشناسان دیتاک[/button][/box]

تفاوت داده کاوی و یادگیری ماشین در چیست؟

داده کاوی فرآیند تجزیه و تحلیلی است که بر آموزش دادن سیستم تاکید دارد. داده کاوی اختلالات و ناهنجاری‌های موجود را در بین هزاران داده پیدا می‌کند (در این موارد انسان نیز مداخله دارد). در این فرآیند حتی می‌توان دستورها و الگوریتم‌های هوشمند دیگری نیز افزود تا عملکرد بهتری از خود نشان دهد.

در واقع در مباحث تجاری می‌توانید با استفاده از علم داده کاوی اطلاعات مشتریان و بازار کار خود را رصد کنید، عمده نیازهای بازار را شناسایی کنید و طبق آن محصولات و خدمات خود را تبلیغ و عرضه نمایید. مثل کاری که موتورهای جستجوی گوگل انجام می‌دهند.

با کاربردهای ماشین لرنینگ آشنا شوید: ۵ کاربرد ماشین لرنینگ در دیجیتال مارکتینگ

 

اما یادگیری ماشین علاوه بر اینکه بر آموزش سیستم تمرکز دارد، سعی می‌کند با تجزیه تحلیل الگوریتم‌های برتر الگوهای تازه‌تری ارائه دهد و داده‌های بهتری پیشنهاد کند.

جالب است بدانید بعد از تنظیمات، برنامه نویسی‌ها و شروع بکار، یادگیری ماشین احتیاجی به مداخله انسان ندارد و خود می‌تواند به تنهایی داده‌ها را واکاوی کند و بهترین پیش‌بینی‌ها را انجام دهد. چرا که یادگیری ماشین اطلاعات و داده‌های بیشتری در خود دارد بنابراین روز به روز بیشتر رشد می‌کند.

یادگیری ماشین می‌تواند ترجیحات کاربر و یا کاربران را تشخیص دهد، مثلا اگر شما با نام کاربری مشخصی محصولی را مرتبا سرچ کنید در دفعات بعد الگوریتم‌های سیستم همان محصول و محصولات مشابه آن را ابتدا به شما نشان خواهند داد.

اقسام یادگیری ماشین

  • نظارت شده: در این حالت سیستم از پیش‌بینی‌هایی که با الگوریتم‌ها به آن تزریق شده سعی می‌کند الگوها را بیاموزد.
  • نظارت نشده: در این حالت خود الگوریتم به صورتی برنامه نویسی شده که به تنهایی و مستقل دنبال الگوهای مناسب بگردد. در این الگو از قبل پاسخ و هدف مناسب به سیستم داده نشده و خود سیستم باید بهترین هدف و راه موفقیت را پیدا کند.
  • تقویتی: در این حالت به سیستم یاد داده می شود که چگونه در یک محیط تشویق و تنبیه اهداف را درست تجزیه، تحلیل و انتخاب کند.

الگوریتم‌های ماشین لرنینگ

الگوریتم های ماشین لرنینگ

در این مطلب از دیتاک می‌توانیم الگوریتم‌های ماشین لرنینگ را به این صورت تعریف کنیم که برنامه‌های ریاضی و منطقی هستند که زمانی که در معرض داده‌های بیشتر قرار می‌گیرند، خود را برای عملکرد بهتر تنظیم می‌کنند. قسمت یادگیری ماشینی لرنینگ به این معنی است که این برنامه‌ها شیوه پردازش داده‌ها را در طول زمان تغییر می‌دهد، همانطور که نحوه پردازش داده‌ها را با یادگیری عوض می‌کنند. پس الگوریتم‌های ماشین لرنینگ یا الگوریتم‌های یادگیری ماشین نوعی برنامه است که پارامترهای خود را با نگاهی به بازخوردهای عملکرد قبلی در یک مجموعه داده پیش‌بینی کرده و بهبود می‌دهد.

الگوریتم‌های ماشین لرنینگ امروزه در خیلی از جنبه‌های زندگی انسان‌ها حضور فعال دارد تا آنجا که می‌توانید مطالعه کنید که چطور می‌توان خرید انجام داد یا چطور می‌توان سفر کرد. برای مثال، کشف تقلب را در نظر بگیرید. هر بار که فردی با استفاده از کارت اعتباری خود خرید می‌کند، الگوریتم‌های ماشین لرنینگ خیلی سریع خرید را بررسی می‌کنند تا مشخص شود که آیا این تراکنش تقلبی بوده است یا نه. آن‌ها بر اساس سازگاری آن خرید با ویژگی‌های خریدهای قبلی فرد، تقلبی بودن یا نبودن آن را پیش‌بینی می‌کنند.

الگوریتم‌های ماشین لرنینگ در موارد زیادی استفاده می‌شوند. این الگوریتم‌ها در مرکز موتورهای جست‌و‌جوی تجاری قرار دارند. درست از زمانی که شروع به تایپ کردن می‌کنید، علاوه‌بر این موتور جست‌وجو از داده‌های شما در خصوص نحوه تعامل با سایت استفاده می‌کند. برای مثال، صفحاتی که کلیک می‌کنید، مدت زمانی که شخص در هر صفحه وقت می‌گذراند و غیره. از این داده‌های قدیمی استفاده می‌کنند تا بتوانند اطلاعات بهتری را برای شما به نمایش بگذارند.

محبوب‌ترین الگوریتم‌های ماشین لرنینگ

محبوب‌ترین الگوریتم‌های ماشین لرنینگ

رگرسیون لجستیک

رگرسیون لجستیک به عنوان یکی از محبوب‌ترین الگوریتم‌های ماشین لرنینگ تکنیکی آماری برای مشخص کردن تاثیر متغیرهای کمی یا کیفی روی متغیر وابسته دو وجهی است. تحلیل رگرسیون لجستیک شبیه تحلیل رگرسیون خطی است ولی با این تفاوت که در رگرسیون خطی متغیر وابسته یک متغیر کمی است اما در رگرسیون لجستیک وابسته متغیری کیفی و دو وجهی است. یعنی نمی‌توان آن را با عدد مشخص نمود.

در رگرسیون لجستیک هم متغیرهای مستقل کیفی یا باید متغیری دو وجهی باشند یا به متغیر دو وجهی تبدیل می‌شوند. متغیرهای وابسته دوسویی یا دو وجهی مانند بیماری یا سلامتی، مرگ یا زندگی و اگر 3 متغیر بیمار، سالم و در کنار داشته باشیم، باید به متغیر سوم برچسب بیمار را بدهیم تا متغیرها به دو وجهی تغییر کنند.

درخت تصمیم

الگوریتم درخت تصمیم در یادگیری ماشین یکی از محبوب‌ترین الگوریتم‌های ماشین لرنینگ است که امروزه استفاده می‌شود. ااین الگوریتم یکی از الگوریتم‌های ماشین لرنینگ نظارت شده است که برای طبقه‌بندی و دسته‌بندی مسائل استفاده می‌شود. ای این الگوریتم، داده‌ها را بر اساس مهم‌ترین ویژگی‌ها به دو یا چند مجموعه همگن دسته‌بندی می‌کنند.

الگوریتم SVM (Support Vector Machine)

الگوریتم SVM یکی از الگوریتم‌های یادگیری ماشین برای دسته‌بندی داده‌ها است که در آن داده‌های خام را به صورت نقاط در یک فضای ان بعدی رسم می‌کنید که در آن ان تعداد ویژگی وجود دارد. سپس هر ویژگی به یک مختصات خاص در صفحه گره‌خورده و طبقه‌بندی داده‌ها را ساده می‌کند.

الگوریتم ساده بیز Naive Bayes

یک دسته‌بندی ساده بیز را تصور کنید که وجود یک ویژگی خاص در یک کلاس، با وجود هیچ ویژگی دیگری ارتباط نداشته باشد. حتی اگر این ویژگی‌ها به هم مرتبط باشند، طبقه‌بندی کننده Naive Bayes این ویژگی به صورت جداگانه زمان محاسبه احتمال یک نمونه خاص مد نظر قرار می‌گیرد. ساخت یک مدل ساده بیزی ساده و برای دسته‌های داده بزرگ مفید و کاربردی است.

الگوریتم K-Means

الگوریتم K-Means یکی از الگورتیم‌های ماشین لرنینگ بدون نظارت است که برای حل مشکلات خوشه‌بندی در علم از ان استفاده می‌شود. خوشه‌بندی یک روش برای کمی‌سازی بردارها است که در اصل از پردازش سیگنال‌ها گرفته شده و برای آنالیز خوشه‌بندی در داده کاری کاربرد دارد. هدف این الگوریتم خوشه‌بندی یک تعداد مشخص نمونه به یک تعداد مشخص خوشه است که در ان هر یک از نمونه‌ها به یک خوشه با نزدیک‌ترین میانگین تعلق دارند.

الگوریتم جنگل تصادفی

الگوریتم جنگل تصادفی یکی از انواع الگوریتم های یادگیری ماشین تحت نظارت است که هم برای طبقه بندی و هم برای رگرسیون کاربرد دارد اما با این وجود عمدتا برای مشکلات طبقه‌بندی از آن استفاده می‌شود. همانطور که می‌دانید یک جنگل از درختان تشکیل شده است و تعداد بیشتر درختان به معنی جنگل مقاوم‌تر است. به همین ترتیب الگوریتم جنگل تصادفی، درختان تصمیم‌گیری را با استفاده از نمونه‌های داده ایجاد می‌نماید و در نهایت بهترین راه حل را با استفاده از رای‌گیری انتخاب می‌کند.

الگوریتم کاهش ابعاد

یکی دیگر از انواع الگوریتم‌های یادگیری ماشین  الگوریتم کاهش ابعاد است. در دنیای امروز، حجم زیادی از داده‌ها توسط شرکت‌ها، سازمان‌های دولتی و سازمان‌های تحقیقاتی ذخیره و آنالیز می‌شوند. به عنوان یک دانشمند می‌دانید که ان داده‌ها خام یک سری اطلاعات زیاد در خود دارند که الگوریتم کاهش ابعاد برای پیدا کردن جزئیات مرتبط به شما کمک می‌کند.

الگوریتم تقویت گرادیان (Gradient boosting) و الگوریتم AdaBoosting

این‌ها الگوریتم‌های تقویت کننده‌ای هستند که برای پیش‌بینی با دقت بالا استفاده می‌شوند. Boosting یک الگوریتم الگوریتم یادگیری گروهی است که چندین گرو الگوریتم پایه را برای بهبود پیش‌بینی با دقت بالا ترکیب می‌کنند.

شبکه‌های عصب مصنوعی

یکی دیگر از الگوریتم‌های یادگیری ماشین شبکه‌های عصب مصنوعی نام دارد. شبکه‌های عصب مصنوعی اساس کار نورون‌ها در سیستم عصبی ما را شبیه سازی می‌کنند. آن‌ها حاوی نورون‌هایی هستند که به عنوان واحد‌های انباشته شده در لایه‌ها کار می‌کنند که اطلاعات را از لایه ورودی به لایه خروجی نهایی انتقال می‌دهند. این شبکه‌های عصبی یک لایه ورودی، یک لایه پنهان و یک لایه خروجی نهایی دارند. این شبکه‌ها به شکل بشکه عصبی تک لایه‌ای یا یک شبکه عصبی چند لایه‌ای وجود دارند.

در این نمودار یک لایه ورودی وجود دارد که ورودی را که در قالب یک خروجی است، می‌گیرد. بعد از آن ورودی به لایه پنهان منتقل می‌شود که چندین عملیات ریاضی برای انجام محاسبات و رسیدن به خروجی مورد نظر انجام می‌دهد. برای مثال، با توجه به تصویری از گربه‌ها و سگ‌ها، لایه‌های پنهان حداکثر احتمال دسته‌ای را که تصویر ما به آن تعلق دارد، محاسبه نمی‌نماید. این مثالی از کلاس‌بندی باینری است که در آن برای گربه یا سگ یک جایگاه مشخص می‌کنند.

تشخیص ناهنجاری

در تشخیص ناهنجاری از یک تکنیک برای شناسایی الگوهای غیر عادی که مانند الگوهای عمومی، استفاده می‌شود. این الگوهای غیر عادی یا نقاط داده به عنوان پرت شناخته می‌شوند. تشخیص این نقاط پرت یک هدف اساسی برای خیلی از مشاغل است که نیازمند تشخیص نفوذ، تشخیص تقلب، پایش سیستم بهداشتی و تشخیص خطا در محیط‌های عملیاتی هستند.

Outlier یک پدیه نادر است. در واقع یک مشاهده خیلی متفاوت است که می‌تواند ناشی از برخی از تغییرات در اندازه‌گیری یا صرفا شکلی از خطا باشد.

مدل مخلوط گوسی

برای نشان دادن یک زیر جمعیت با توزیع نرمال بین کل جمیعت از مدل مخلوط گوسی استفاده می‌شود. این مدل به داده‌های مرتبط با زیر جمعیت نیاز ندارد پس این مدل می‌تواند زیر جمعیت‌ها را به صورت خودکار یاد بگیرد. با توجه به این که تخصیص جمعیت مشخص نیست، مدل مخلوط گوسی در کتگوری یادگیری بدون نظارت قرار دارد.

به عنوان مثال، تصور کنید که شما باید یک مدل از داده‌های قد انسان مشخص کنید. میانگین قد مردان 1.76 متر و برای زنان ۱٫۶۴ است. ما فقط داده‌های قد را داریم اما داده‌های جنسیت را نداریم. این توزیع از مجموعه دو توزیع مقیاس‌بندی شده و دو توزیع نرمال انتقالی تبعیت می‌کند. ما این فرض را با کمک مدل مخلوط گوسی به دست می‌اوریم.

برای آشنایی بیشتر با مباحث داده کاوی، هوش مصنوعی، بیگ دیتا، شبکه عصبی و ماشین لرنینگ دیگر پست‌های بلاگ ما را بخوانید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا