آموزش کلان داده (قسمت دوم)

آپاچی هدوپ چیست؟

امروزه داده‌ها با نرخ عظیمی در حال تولید هستند. از این‌رو رشته‌های تحلیل کلان داده و علوم داده ظهور پیدا کردند. در تجارت و کسب‌وکارها تکنیک‌های قدیمی و سنتی علوم داده و تحلیل داده به‌کارگرفته می‌شود. اما روش‌های پردازش داده سنتی مناسب پردازش کلان داده نیستند. هدوپ تکنولوژی ایجاد شده برای پردازش و تحلیل کلان داده و علوم داده است.


آپاچی هدوپ یک پروژه متن باز برای مدیریت کلان داده است. در واقع یک پروژه تنها و مجزا نیست، بلکه مجموعه‌ای از چندین پروژه است که با یکدیگر کار می‌کنند. هدوپ با سه مشخصه اصلی کلان داده (حجم داده، نرخ تولید و تنوع) سروکار دارد. آپاچی هدوپ سخت‌افزار متداول بازار را به سرویس‌های ذخیره‌سازی منسجمی که امکان ذخیره‌سازی داده با حجم پتابایت را دارند و همچنین سرویس‌های پردازشی منسجمی که داده را به شکل مؤثر و کارا پردازش می‌کنند، تبدیل می‌نمایند.

مشخصات کلیدی هدوپ

- افزونگی و قابلیت اطمینان:

هدوپ به صورت خودکار داده‌ها را تکثیر می‌کند. بنابراین، زمانی‌که در سیستم خرابی رخ دهد هیچ داده‌ای از بین نمی‌رود.

- سهولت در ایجاد برنامه‌های کاربردی توزیع‌شده:

هدوپ این امکان را فراهم می‌کند تا برنامه‌ای برای اجرا روی یک ماشین نوشته شود و سپس همان برنامه بدون هیچ‌گونه تغییری قابل توزین بر روی هزاران ماشین دیگر باشد.

- اجرا برروی سخت‌افزارهای متداول:

با استفاده از هدوپ نیازی به خرید سخت‌افزار خاص و ویژه، به‌کارگیری تکنولوژی‌های RAID گران قیمت و یا سخت‌افزارهای دارای افزونگی نیست و قابلیت اطمینان از طریق نرم‌افزار ایجاد می‌شود.

اصول کلیدی معماری هدوپ

- از بین بردن موانع خواندن دیسک:

اگرچه ظرفیت ذخیره‌سازی به طور بالقوه رشد کرد، اما سرعت خواندن تغییری نکرد. به عبارت دیگر، پردازش داده به سرعت صورت می‌گرفت، اما خواندن داده به اندازه کافی سریع نبود و تنها راه‌کار خواندن به شکل موازی بود. هدوپ امکان خواندن 1 ترابایت داده را در 2 دقیقه برای صدها ماشینی که به طور هم‌زمان کار می‌کنند، فراهم می نماید.

- توزیع کردن به جای افزایش مقیاس:

افزایش مقیاس کاری به مراتب سخت‌تر و گران‌تر نسبت به توزیع کردن خواهد بود. افزودن منابع بیشتر به گره‌های موجود (از جمله CPU و RAM) با رشد داده‌ها نمی‌تواند ادامه یابد و احتمالا به خرید و اضافه کردن واحدهای جدیدی نیاز خواهد بود. توزیع کردن، گره‌ها و یا ماشین‌های بیشتری را به برنامه‌های کاربردی موجود در لایه نرم‌افزاری اضافه می‌کند. هدوپ از این راه‌کار استفاده می‌کند و در آن مجموعه‌ای از گره‌ها با یکدیگر یک سیستم توزیع‌شده مجزا را تشکیل می‌دهند. به‌کارگیری این راه‌کار امکان کاهش مقیاس را فراهم می‌کند.

- مقابله با خرابی‌ها:

با توجه به تعداد زیاد ماشین‌ها، خرابی یک امر عادی است. هدوپ به گونه‌ای طراحی شده است که از طریق تکثیر داده و تکرار کردن وظایف و کارها با خرابی‌های گره‌ها مقابله می‌کند.

- پیچیدگی انتزاعی برنامه‌های کاربردی توزیع‌شده و هم‌روند:

با توجه به این ویژگی هدوپ، امکان تعریف تعداد کم‌تری مولفه و ارائه رابط‌های ساده و خوش‌تعریفی از تعاملات بین مولفه‌ها وجود دارد. در واقع توسعه‌دهنده‌ها نگرانی در رابطه با چالش‌های سطح سیستم از جمله شرایط رقابتی، توزیع کد، بخش‌بندی داده و غیره ندارند. هم‌چنین به توسعه‌دهنده‌ها اجازه می‌دهد برروی توسعه و ایجاد برنامه کاربردی و منطق تجاری متمرکز باشند.

ارسال نظر

ارسال نظر

عکس خوانده نمی شود