هادوپ یک چارچوب نرم افزاری به صورت منبع باز میباشد که عمل پردازش بیگ دیتا یا دادههای بزرگ را به اندازه گیگا بایت یا پتا بایت ممکن میسازد. در واقع این نرم افزار با استفاده از چندین کامپیوتر به جای یک کامپیوتر دادههای بزرگ را به صورت موازی تجزیه و تحلیل میکند. به این معنا که از سیستم سرور برای پخش اطلاعات بین چندین دستگاه استفاده میکند تا همزمان بتواند دادههای بزرگ را تجزیه و تحلیل نماید. زبان برنامه نویسی هادوپ جاوا بوده و استفاده کنندگان برجسته آن فیسبوک و یاهو میباشند. هادوپ از چهار ماژول اصلی تشکیل شده است:
-
سیستم فایل توزیع شده هادوپ (HDFS)
HDFS یک سیستم فایل توزیع شده میباشد که با استفاده از سخت افزار استاندارد یا سطح متوسط انجام میشود. به این معنی که دادهها را بر روی مجموعهای از کامپیوترهای زیر مجموعه سرور ذخیره کرده و پهنای باند وسیعی را ایجاد میکند.
-
YARN
یک پلتفرم مدیریت منابع میباشد که وظیفه آن مدیریت و نظارت منابع محاسباتی در کامپیوترهای زیر مجموعه میباشد.
-
Map/Reduce
این ماژول چارچوب و مدلی از برنامه نویسی است که جهت تجزیه و تحلیل دادههای بزرگ در مقیاس بالا استفاده میشود. در واقع این ماژول دادههای ورودی را گرفته و آنها را به یک مجموعه داده تبدیل میکند و تجزیه و تحلیل این مجموعه داده را انجام میدهد.
-
بخش مشترکات هادوپ
شامل کتابخانههای جاوا است که برای همه ماژولها استفاده میشود.
هادوپ چگونه کار میکند؟
هادوپ استفاده از تمام ظرفیت ذخیره سازی و پردازش در زیر مجموعههای سرور، اجرای فرایندهای توزیع شده در برابر حجم عظیمی از دادهها را آسانتر میکند. هادوپ بلوکهای سازندهای را فراهم میکند که خدمات و برنامههای دیگری بر روی آنها ساخته میشود. برنامههایی که دادهها را در قالبهای مختلف جمع آوری میکنند، میتوانند دادهها را با استفاده از یک API برای اتصال به NameNode (گره نام) در سرور هادوپ قرار دهند.
سیستم هادوپ دارای معماری ارباب برده (Master-Slave) است به این معنی که یک سرور در نقش ارباب بوده و وظیفه مدیریت فضای نام فایل سیستم را بر عهده دارد و دسترسی کلاینتها به فایلها را تنظیم میکند. NameNode ها نیز کارهایی همچون باز کردن و بستن و تغییر نام فایلها و دایرکتوریها را از طریق یک واسط برای فضای فایل سیستم ممکن میسازد.
اکوسیستم هادوپ به دلیل قابلیت گسترش در سالهای اخیر رشد چشمگیری داشته است. امروزه هادوپ شامل ابزارها و برنامههای زیادی جهت جمع آوری، ذخیره، پردازش، تجزیه و تحلیل و مدیریت دادههای بزرگ است.
برنامههای هادوپ :
برخی از این برنامههای محبوب عبارتند از:
SPARK :
SPARK سیستم پردازش منبع باز یا کد باز توزیع شدهای است که معمولا برای دادههای با ظریف بالا استفاده میشود. Apache Spark از حافظه پنهان و بهینه شده برای عملکرد سریع استفاده میکند و از پردازش دستهای عمومی ، تجزیه و تحلیل جریان ، یادگیری ماشین ، پایگاه داده های نمودار و پرس و جوهای موقت پشتیبانی میکند.
PRESTO :
PRESTO یک موتور جستجوگر منبع باز SQL است که برای تجزیه و تحلیل موقت دادههای بهینه سازی شده است. این موتور جستجوگر از استاندارد ANSI SQL پشتیبانی میکند و شامل موتورهای جستجوگر پیچیده و توابع مختلف است. این موتور جستجوگر میتواند چندین منبع داده را از جمله هادوپ، آمازون و سیستم HDFS را پردازش کند.
Hive :
Hive به کاربران اجازه میدهد تا با استفاده از یک رابط SQL از Hadoop MapReduce استفاده کنند. تجزیه و تحلیل را در مقیاس گسترده علاوه بر ذخیره دادههای توزیع شده و تحمل خطا ، امکان پذیر میکند.
HBase:
یک پایگاه داده منبع باز ، غیر رابطه ای و نسخه ای که در بالای آمازون S3 (با استفاده از (EMRFS یا سیستم پرونده توزیع شده Hadoop (HDFS) اجرا میشود. این پایگاه منبع باز برای ذخیره سازی داده بزرگ است که جهت دسترسی تصادفی ، کاملاً سازگار و بی درنگ برای جداول با میلیاردها ردیف و میلیون ها ستون ساخته شده است.
Zeppelin :
Zeppelin یک دفترچه یادداشت تعاملی است که امکان کشف دادههای تعاملی را فراهم میکند.
بیشتر بخوانید: برترین ابزارهای نگهداری و پردازش بیگ دیتا
اجرای Hadoop در AWS
Amazon EMR یک سرویس مدیریت شده است که به شما امکان میدهد مجموعه دادههای بزرگ را با استفاده از آخرین نسخههای چارچوب پردازش دادههای بزرگ مانند Apache Hadoop ، Spark ، HBase و Presto در سرورهای کاملاً قابل تنظیم، پردازش و تجزیه و تحلیل کنید.
مزایای استفاده از هادوپ :
در ادامه مزایای اجرای هادوپ در AWS را بررسی میکنیم:
استفاده آسان:
می توانید در عرض چند دقیقه سرور EMR آمازون راه اندازی کنید. لازم نیست نگران تهیه گره، پیکربندی Hadoop یا تنظیم سرور باشید.
کم هزینه:
قیمت گذاری EMR آمازون ساده و قابل پیش بینی است. شما به ازای هر ساعتی که استفاده میکنید نرخ ساعتی پرداخت میکنید و برای صرفه جویی بیشتر میتوانید از نمونه های Spot استفاده کنید.
الاستیک:
با Amazon EMR میتوانید یک نمونه، صدها یا هزاران نمونه محاسبه را برای پردازش دادهها در هر مقیاس تهیه کنید.
فراگذر:
میتوانید برای اجرای سرورهای درخواستی مبتنی بر داده های HDFS که به طور مداوم در Amazon S3 ذخیره میشوند، از EMRFS استفاده کنید. با پایان یافتن مشاغل، میتوانید یک سرور را خاموش کرده و دادهها را در Amazon S3 ذخیره کنید. شما فقط زمانی که سرور در حال اجرا است هزینه آن را پرداخت میکنید.
آمازون EMR از تمام ویژگیهای امنیتی مشترک خدمات AWS استفاده میکند:
- نقشها و خط مشیهای مدیریت هویت و دسترسی ( IAMبرای مدیریت مجوزها) .
- رمزگذاری در حین انتقال و استراحت برای کمک به شما در محافظت از دادههای خود و مطابقت با استانداردها، مانند HIPAA .
- گروههای امنیتی برای کنترل ترافیک شبکه ورودی و خروجی به گرههای سرور شما.