برای موفقیت در مدل یادگیری ماشین، کیفیت داده ها باید ارزشمند (با کیفیت بالا، دارای برچسب و سازمان یافته) باشند. در این مطلب برخی از چالش هایی را که رهبران داده با کیفیت داده ها روبرو هستند و همچنین تمرکز ویژه بر نیاز به برچسبگذاری داده ها از طریق یادگیری فعال را شرح خواهیم داد.
داده ها یک نیاز اساسی برای هر پروژه یادگیری ماشین موفق بوده اما منابع داده متنوعی در دسترس سازمانهای امروز نیست. آنها از داده ها برای دامنههای مختلف پروژه اعم از روزمره و بلند مدت استفاده میکنند. اما سازمانها در راستای کیفیت داده ها با چالشهای بیشماری روبرو هستند که میتوان به داده های بدون برچسب، داده های دارای برچسب ضعیف، داده های ناسازگار یا نامنظم، سرریزی منابع داده و موارد این چنینی دیگر اشاره کرد.
بسیاری از این نگرانیها برای، از عدم حاکمیت داده ها در داخل سازمان ناشی میشود و این نشاندهنده نیاز به یک استراتژی حاکم بر داده های سالم است که به سیستمهای ذخیره سازی داده موجود اجازه میدهد تا به یک محیط متمرکز و کنترل شده، متصل شوند و امنیت سطح شرکتی را فراهم کند.
بیشتر بخوانید: تجزیه و تحلیل داده ها برای دریافت نتیجهای بهتر
روش کار با داده ها
روش کار افراد با داده ها باید یکپارچه و ایمن باشد و کیفیت داده ها باید بالا و دارای برچسب مناسب باشند تا زمان کمتری تلف شود و مراحل تکراری و غیر ضروری حذف گردند. در واقع اطمینان از یک فرآیند کامل، تمیز کردن دادهها، کاهش بهم ریختگی داده ها، گردش کار بهتر و فرآیندهای استقرار مدل را برای شما فراهم میکند. همچنین با استفاده از ابزارها و فرآیندهای هوش مصنوعی میتوان در بهبود کیفیت داده ها تاثیر بسیار خوبی گذاشت و هوش مصنوعی در این حوزه میتواند خدمات و امکانات خوبی را ارائه دهد.
بخش قابل توجهی از علم داده شامل شناسایی حدود داده با بینش عمیق است که در آن میتوان کاراییها را شناسایی کرد. یادگیری فعال، در واقع فرآیندی است که برچسبگذاری دادهها را از طریق الگوریتمهای یادگیری ماشین به طور خودکار انجام میدهد و به رفع ناکارآمدیها کمک میکند. این فرآیندها از حجم و زمان زیادی صرفه جویی میکنند و باعث میشوند تا تیم بتواند مدل های بعدی یادگیری ماشین خود را بسازند یا مدلهایی را به سمت تولید سوق دهند. در واقع میتوان از یادگیری فعال برای به حداقل رساندن تعداد برچسب گذاری در کیفیت داده ها نیز استفاده کرد.
برچسب گذاری داده ها هرگز یک کار بودجه پسند نیست، بنابراین سازمان ها تلاش میکنند تا هزینههای مرتبط با برچسب گذاری داده ها را کاهش دهند و با وجود حجم بالای داده ها، این تصمیم سازمانها بسیار درست است و به کاهش هزینهها کمک زیادی خواهد کرد. از سوی دیگر اجرای یک استراتژی یادگیری فعال برای شناسایی اینکه کدام ردیف کیفیت داده ها باید بر چسب گذاری شوند، میتواند به حداکثر رساندن عملکرد و کاهش هزینهها کمک کند.
یادگیری فعال (Active learning) چیست؟
در اوایل دهه ۲۰۰۰، بر چسب گذاری کیفیت داده ها موضوعی بود که به طور مکرر مورد بحث قرار گرفت. با این حال، با گذشت زمان، به تدریج از بین رفت، زیرا به سازمانها راهحلهای عملی برای مرتب کردن و بر چسب گذاری داده ها، ارائه نشد. شرکتهای بزرگی مانند گوگل و فیس بوک، بودجه و زیرساختهایی را در اختیار داشتند تا داده های خود را برچسبگذاری کنند. اما این موضوع برای شرکتهای کوچکتر هزینهی زیادی داشت. با این حال، اگر سازمانهای بیشتری از استراتژیهای هوش مصنوعی در طرح اولیه شرکت خود استفاده کنند، برچسب گذاری کیفیت داده ها دوباره احیا خواهد شد.
قبل از اجرای هر الگوریتم یادگیری ماشین پیشرفته یا به کارگیری هر مدل، کیفیت داده های مربوطه باید فوق العاده بالا و با برچسبگذاری ارائه شوند. با این حال، جمعآوری داده ها و مرتب کردن آنها، یک فرایند خستهکننده، وقتگیر و تکراری است. طبق نظرسنجی سال ۲۰۱۹، وظایف آمادهسازی و مهندسی داده ها بیش از ۸۰٪ زمان مصرف شده در بیشتر پروژههای یادگیری هوش مصنوعی و یادگیری ماشین را تلف میکند.
یادگیری فعال، در واقع چارچوبی است که به کاربران این امکان را میدهد تا هزینه برچسب گذاری کیفیت داده های لازم برای مدل را کاهش دهند. یادگیری فعال میتواند در شرایط مختلفی مورد استفاده قرار گیرد که در ادامه به این موارد اشاره خواهیم کرد:
- وقتی همه داده ها قابل حاشیه نویسی نیستند زیرا بسیار پرهزینه یا پیچیده هستند.
- برای سرعت بخشیدن به روند برچسب زدن با استفاده از داده های برچسب زده شده قبلی.
- برای بهینه سازی ترتیب پردازش داده های بدون برچسب.
الگوریتم یادگیری فعال میتواند در مراحل زیر خلاصه شود:
- برای آموزش مدل اولیه، داده را برچسب گذاری کنید.
- مدل اولیه را روی داده های دارای برچسب، آموزش دهید.
- نمونههایی از داده را انتخاب کنید که مدل نسبت به آنها “نامشخص” است.
- هر نمونه را برچسب زده و به مجموعه آموزشی اضافه کنید.
- مدل را در یک مجموعه آموزشی جدید دوباره آموزش دهید.
- روند برچسب زدن و دقت عملکرد را کنترل کنید.
- این مرحله را از مرحله دو به بعد تکرار کنید تا به دقت مورد نیاز برسید.
به عنوان مثال وقتی نوبت به فیلتر کردن ایمیل شما میرسد، یادگیری ماشین میتواند به طور موثر هرزنامه را با دقت ۸۰-۹۰٪ فیلتر کند. وقتی کاربر با برچسب گذاری مجدد، پیامهایی که در واقع هرزنامه نیستند را تصحیح کند، این سطح از دقت بهینه خواهد شد. در نهایت با گذشت زمان، طبقه بندی و بایدها و نبایدها در بخش هرزنامه بهتر خواهد شد و کیفیت داده ها به طور موثرتری شناسایی میشود.
در سطح بنیادی، الگوریتمهای یادگیری فعال، اگر توانایی انتخاب داده هایی را که میخواهند از آنها یاد بگیرند را داشته باشند، میتوانند به طور بالقوه به دقت بالاتری دست یابند و از برچسبهای آموزشی کمتری استفاده کنند. یادگیری فعال میتواند فوقالعاده مفید باشد، خصوصاً در مواردی که مقدار قابل توجهی از دادههای بدون برچسب وجود داشته باشند. همچنین در شرایطی که برچسبگذاری کیفیت داده ها بسیار گران و پرهزینه است، بسیار کاربردی و مفید خواهد بود.
یکی از مشکلات اصلی یادگیری فعال، حول آسیب پذیری آن در برابر تعصبات، مانند تعصبات نمونهبرداری است. در حالی که امروزه یادگیری فعال در حال آزمایش و توسعه است، میتوان آن را به عنوان یک پایه برای تعیین و اولویت بندی کیفیت داده هایی که باید دارای برچسب باشند، دانست. همچنین میتوان گفت که یادگیری فعال، دستورالعملهای داخلی را برای زمان استفاده و عدم استفاده از منابع برای برچسب زدن را اعمال میکند.