هادوپ چیست؟

هادوپ (Hadoop)

هادوپ یک چارچوب نرم افزاری به صورت منبع باز می‌باشد که عمل پردازش بیگ دیتا یا داده‌های بزرگ را به اندازه گیگا بایت یا پتا بایت ممکن می‌سازد. در واقع این نرم افزار با استفاده از چندین کامپیوتر به جای یک کامپیوتر داده‌های بزرگ را به صورت موازی تجزیه و تحلیل می‌کند. به این معنا که از سیستم سرور برای پخش اطلاعات بین چندین دستگاه استفاده می‌کند تا همزمان بتواند داده‌های بزرگ را تجزیه و تحلیل نماید. زبان برنامه نویسی هادوپ جاوا بوده و استفاده کنندگان برجسته آن فیسبوک و یاهو می‌باشند. هادوپ از چهار ماژول اصلی تشکیل شده است:

سیستم فایل توزیع شده هادوپ (HDFS)

HDFS یک سیستم فایل توزیع شده می‌باشد که با استفاده از سخت افزار استاندارد یا سطح متوسط انجام می‌شود. به این معنی که داده‌ها را بر روی مجموعه‌ای از کامپیوترهای زیر مجموعه سرور ذخیره کرده و پهنای باند وسیعی را ایجاد می‌کند.

YARN

یک پلتفرم مدیریت منابع می‌باشد که وظیفه آن مدیریت و نظارت منابع محاسباتی در کامپیوترهای زیر مجموعه می‌باشد.

Map/Reduce

این ماژول چارچوب و مدلی از برنامه نویسی است که جهت تجزیه و تحلیل داده‌های بزرگ در مقیاس بالا استفاده می‌شود. در واقع این ماژول داده‌های ورودی را گرفته و آنها را به یک مجموعه داده تبدیل می‌کند و تجزیه و تحلیل این مجموعه داده را انجام می‌دهد.

بخش مشترکات هادوپ

شامل کتابخانه‌های جاوا است که برای همه ماژول‌ها استفاده می‌شود.

هادوپ چگونه کار می‌کند؟

هادوپ استفاده از تمام ظرفیت ذخیره سازی و پردازش در زیر مجموعه‌های سرور، اجرای فرایندهای توزیع شده در برابر حجم عظیمی از داده‌ها را آسان‌تر می‌کند. هادوپ بلوک‌های سازنده‌ای را فراهم می‌کند که خدمات و برنامه‌های دیگری بر روی آنها ساخته می‌شود. برنامه‌هایی که داده‌ها را در قالب‌های مختلف جمع آوری می‌کنند، می‌توانند داده‌ها را با استفاده از یک API برای اتصال به NameNode (گره نام) در سرور هادوپ قرار دهند.

سیستم هادوپ دارای معماری ارباب برده (Master-Slave) است به این معنی که یک سرور در نقش ارباب بوده و وظیفه مدیریت فضای نام فایل سیستم را بر عهده دارد و دسترسی کلاینت‌ها به فایل‌ها را تنظیم می‌کند. NameNode ها نیز کارهایی همچون باز کردن و بستن و تغییر نام فایل‌ها و دایرکتوری‌ها را از طریق یک واسط برای فضای فایل سیستم ممکن می‌سازد.

اکوسیستم هادوپ به دلیل قابلیت گسترش در سال‌های اخیر رشد چشمگیری داشته است. امروزه هادوپ شامل ابزارها و برنامه‌های زیادی جهت جمع آوری، ذخیره، پردازش، تجزیه و تحلیل و مدیریت داده‌های بزرگ است.

hadoop

برنامه‌های هادوپ :

برخی از این برنامه‌های محبوب عبارتند از:

SPARK :

SPARK سیستم پردازش منبع باز یا کد باز توزیع شده‌ای است که معمولا برای داده‌های با ظریف بالا استفاده می‌شود. Apache Spark از حافظه پنهان و بهینه شده برای عملکرد سریع استفاده می‌کند و از پردازش دسته‌ای عمومی ، تجزیه و تحلیل جریان ، یادگیری ماشین ، پایگاه داده های نمودار و پرس و جوهای موقت پشتیبانی می‌کند.

PRESTO :

PRESTO یک موتور جستجوگر منبع باز SQL است که برای تجزیه و تحلیل موقت داده‌های بهینه سازی شده است. این موتور جستجوگر از استاندارد ANSI SQL پشتیبانی می‌کند و شامل موتورهای جستجوگر پیچیده و توابع مختلف است. این موتور جستجوگر می‌تواند چندین منبع داده را از جمله هادوپ، آمازون و سیستم HDFS را پردازش کند.

Hive :

Hive به کاربران اجازه می‌دهد تا با استفاده از یک رابط SQL از Hadoop MapReduce استفاده کنند. تجزیه و تحلیل را در مقیاس گسترده علاوه بر ذخیره داده‌های توزیع شده و تحمل خطا ، امکان پذیر می‌کند.

HBase:

یک پایگاه داده منبع باز ، غیر رابطه ای و نسخه ای که در بالای آمازون S3 (با استفاده از (EMRFS یا سیستم پرونده توزیع شده Hadoop (HDFS) اجرا می‌شود. این پایگاه منبع باز برای ذخیره سازی داده بزرگ است که جهت دسترسی تصادفی ، کاملاً سازگار و بی درنگ برای جداول با میلیاردها ردیف و میلیون ها ستون ساخته شده است.

Zeppelin :

Zeppelin یک دفترچه یادداشت تعاملی است که امکان کشف داده‌های تعاملی را فراهم می‌کند.

بیشتر بخوانید: برترین ابزارهای نگهداری و پردازش بیگ دیتا

اجرای Hadoop در AWS

Amazon EMR یک سرویس مدیریت شده است که به شما امکان می‌دهد مجموعه داده‌های بزرگ را با استفاده از آخرین نسخه‌های چارچوب پردازش داده‌های بزرگ مانند Apache Hadoop ، Spark ، HBase و Presto در سرورهای کاملاً قابل تنظیم، پردازش و تجزیه و تحلیل کنید.

مزایای استفاده از هادوپ :

در ادامه مزایای اجرای هادوپ در AWS را بررسی می‌کنیم:

استفاده آسان:

می توانید در عرض چند دقیقه سرور EMR آمازون راه اندازی کنید. لازم نیست نگران تهیه گره، پیکربندی Hadoop یا تنظیم سرور باشید.

کم هزینه:

قیمت گذاری EMR آمازون ساده و قابل پیش بینی است. شما به ازای هر ساعتی که استفاده می‌کنید نرخ ساعتی پرداخت می‌کنید و برای صرفه جویی بیشتر می‌توانید از نمونه های Spot استفاده کنید.

الاستیک:

با Amazon EMR می‌توانید یک نمونه، صدها یا هزاران نمونه محاسبه را برای پردازش داده‌ها در هر مقیاس تهیه کنید.

فراگذر:

می‌توانید برای اجرای سرورهای درخواستی مبتنی بر داده های HDFS که به طور مداوم در Amazon S3 ذخیره می‌شوند، از EMRFS استفاده کنید. با پایان یافتن مشاغل، می‌توانید یک سرور را خاموش کرده و داده‌ها را در Amazon S3 ذخیره کنید. شما فقط زمانی که سرور در حال اجرا است هزینه آن را پرداخت می‌کنید.

آمازون EMR از تمام ویژگی‌های امنیتی مشترک خدمات AWS استفاده می‌کند:

نقش‌ها و خط مشی‌های مدیریت هویت و دسترسی ( IAMبرای مدیریت مجوزها) .
رمزگذاری در حین انتقال و استراحت برای کمک به شما در محافظت از داده‌های خود و مطابقت با استانداردها، مانند HIPAA .
گروه‌های امنیتی برای کنترل ترافیک شبکه ورودی و خروجی به گره‌های سرور شما.

ابزار سوشال لیسنینگ دیتاک را رایگان امتحان کنید

منبع

برچسب ها

هادوپ چیست؟

هادوپ (Hadoop)

سیستم فایل توزیع شده هادوپ (HDFS)

YARN

Map/Reduce

بخش مشترکات هادوپ