آموزش کلان داده (قسمت دوم)

آپاچی هدوپ چیست؟

امروزه داده‌ها با نرخ عظیمی در حال تولید هستند. از این‌رو رشته‌های تحلیل کلان داده و علوم داده ظهور پیدا کردند. در تجارت و کسب‌وکارها تکنیک‌های قدیمی و سنتی علوم داده و تحلیل داده به‌کارگرفته می‌شود. اما روش‌های پردازش داده سنتی مناسب پردازش کلان داده نیستند. هدوپ تکنولوژی ایجاد شده برای پردازش و تحلیل کلان داده و علوم داده است.



آپاچی هدوپ یک پروژه متن باز برای مدیریت کلان داده است. در واقع یک پروژه تنها و مجزا نیست، بلکه مجموعه‌ای از چندین پروژه است که با یکدیگر کار می‌کنند. هدوپ با سه مشخصه اصلی کلان داده (حجم داده، نرخ تولید و تنوع) سروکار دارد. آپاچی هدوپ سخت‌افزار متداول بازار را به سرویس‌های ذخیره‌سازی منسجمی که امکان ذخیره‌سازی داده با حجم پتابایت را دارند و همچنین سرویس‌های پردازشی منسجمی که داده را به شکل مؤثر و کارا پردازش می‌کنند، تبدیل می‌نمایند.

ادامه خبر

آموزش کلان داده (قسمت اول)

علم داده، کلان داده و تجزیه و تحلیل‌های کلان

علم داده چیست؟ این مفهوم در حال تکامل است و با یک جستجوی اینترنتی ده‌ها تعریف متنوع به دست می‌آید. یک تعریف ساده و کاربردی عبارت است از: علم استخراج دانش از داده. براساس تحقیقات اخیر نشریات علمی، علم داده یک رشته جدید است. چندین دهه است که خبره‌های حوزه تجزیه و تحلیل داده، به ویژه آمارگران، از داده‌ها دانش استخراج می‌نمایند. تجزیه وتحلیل داده ذاتاً یک علم تجربی است.

اگرچه چندین دهه قبل علم داده مدرن قابل پیش‌بینی بود، اما ابزاری برای تولید، ذخیره‌سازی و اشتراک‌گذاری حجم انبوه داده مورد نیاز بسیاری از برنامه‌های کاربردی، با نیازهای جدید و مدرن در اختیار نبود.

کلان داده (Big Data)

کلان داده اصطلاح دیگری است که سال‌های اخیر در رسانه‌ها و محافل علمی مورد توجه قرار گرفته است. ما اکنون به دوران داده‌های کلان ورود کرده‌ایم و مورد اهمیت واقع شدن علم داده، برگرفته از دغدغه‌های مربوط به دسترس‌پذیری کلان داده است. داده‌هایی که به طور معمول دارای ویژگی‌های زیر هستند:

حجم داده (Volume): پیش‌بینی می‌شود روزانه ده‌ها اگزابایت داده در سرتاسر جهان جمع‌آوری می‌گردد و این مقدار هر چهل ماه دو برابر خواهد شد.

نرخ تولید (Velocity): در بسیاری از برنامه‌های کاربردی، سرعت تولید داده مهم‌تر از حجم داده است. اطلاعات زمان-حقیقی به چابکی شرکت‌ها نسبت به رقبایشان کمک خواهد کرد.

تنوع (Variety): کلان داده طیف گسترده‌ای از انواع داده را دربرمی‌گیرد، از جمله: پست‌های کاربران در فیس‌بوک، تصاویر موجود در Picasa، مقالات موجود در ویکی‌پدیا، توییت‌های کاربران در توییتر، اطلاعات خوانده‌شده توسط حس‌گرهای مختلف، فیلم‌های موجود در یوتیوب و غیره. همه این‌ها منابعی از داده‌های بدون ساختار هستند که مناسب ذخیره‌سازی در پایگاه‌داده‌های رابطه‌ای قدیمی نیستند. زیرا در این پایگاه‌داده‌ها لازم است داده‌ها دارای ساختاری مشخص باشند.

ادامه خبر