عصر شکوفایی داده‌های بزرگ در کسب‌وکار

onia$

دستیار مدیر تالار مدیریت
عصر شکوفایی داده‌های بزرگ در کسب‌وکار

مترجم: محمدجعفر نظری
در صنعت فناوری اطلاعات، سال 2012 سال داده‌های بزرگ بوده است. در سراسر دهه‌ گذشته مقوله‌ داده‌های بزرگ یکی از داغ‌ترین بحث‌‌ها در فناوری اطلاعات بوده است که تحلیلگران مختلف مواضع متفاوتی در مورد آن داشته‌اند.



به ندرت می‌توان فروشنده‌ای را در حوزه‌ فناوری اطلاعات یافت که راهکاری نرم‌افزاری در این زمینه نداشته یا حداقل استراتژی برای ورود به بازار نداشته باشد. فراتر از بخش فناوری اطلاعات و حتی در صنعت مالی و رسانه‌ها و انتشارات نیز در خصوص مزایای داده‌های بزرگ و موانع آن بحث‌های زیادی می‌شود. اما با این حال همچنان در خصوص تعریف داده‌های بزرگ بین صاحبنظران توافق نظر وجود ندارد. در پایان سال 2012 روشن است که داده‌های بزرگ به سرعت به این تلقی نزدیک می‌شود که تمامی اطلاعات دیجیتال که در طول تاریخ جمع‌آوری، تولید و پردازش شده‌اند را در برگیرد.
داده‌هایی که تحت این عنوان (داده‌های بزرگ) قرار می‌گیرند بسیار فراتر از داده‌های استخراج‌شده از رسانه‌های اجتماعی و داده‌های تولید شده به‌وسیله‌ ماشین‌ها هستند و تمامی داده‌های تراکنشی تجاری را نیز در بر می‌گیرند. در واقع، هرگونه بحث در خصوص داده‌های بزرگ تمامی بایت‌های اطلاعات دیجیتالی را که در شبکه‌های جهان جاری است یا در مخازن ابری داده‌ها ذخیره‌سازی می‌شود یا حتی داده‌های موجود در لوح‌های فشرده در‌سازمان‌ها و حتی گوشی‌های هوشمند را نیز شامل می‌شود. در آوریل 2012 مجله‌ مدیریت اطلاعات گزارش داد:
«ما 1018 بایت از داده‌ها را در روز تولید می‌کنیم که 90 درصد آن تنها طی دو سال گذشته تولید شده است. هر ساعت، والمارت یک میلیون تراکنش را دارد که در پایگاه داده‌‌ای با گنجایش 5/2 پتا بایت (1015 × 5/2 بایت) ذخیره می‌شود. حجمی که تقریبا 170 برابر داده‌هایی است که در کتابخانه‌ کنگره آمریکا وجود دارد. کل داده‌های خدمات پستی آمریکا در یک سال برابر 5 پتا بایت است که گوگل این میزان از داده‌ها را تنها در یک ساعت پردازش می‌کند. کل میزان اطلاعاتی که وجود دارد تخمین زده شده است که‌اندکی بیش از یک زتا بایت (1021 بایت) باشد.»
اگرچه مساله‌ تعریف واحد از داده‌های بزرگ همچنان وجود دارد، اما پاسخ این مساله روز به روز کم اهمیت‌تر می‌شود. مفهوم داده‌های بزرگ از دو جهت کلیدی تکامل یافته است؛ نخست، فهم رو به رشد از اینکه اندازه مهم است. دوم، تاثیرات ناظر به فناوری حاصل از ساختار داده‌ها و سرعت پردازش نیز (اگر مهم‌تر نباشند) به همان‌اندازه مهم هستند. آنچه واقعا در زمینه‌ داده‌های بزرگ اهمیت دارد موضوعات تجاری‌ای است که می‌توانند به صورت نظام‌مند مورد پشتیبانی داده‌های بزرگ قرار گیرند و ارزش عملیاتی و تحلیلی‌ای که می‌توان از آن استخراج کرد.

توسعه و تکامل فناوری‌های مربوط به داده‌های بزرگ
اصطلاح داده‌های بزرگ ابتدا در اواخر دهه 1990 در میان دانشمندانی رواج پیدا کرد که نمی‌توانستند مقادیر رو به رشد داده‌های تولید شده به‌وسیله‌ فناوری دیجیتال را به مقدار بسیار زیادی ذخیره‌سازی و تحلیل کنند. داده‌هایی که از علومی همچون فیزیک ذرات، ژنتیک، هواشناسی و حتی ستاره‌شناسی ایجاد شده بود. این روند رشد امروزه هم ادامه دارد. در حدود سال 2005 داده‌های بزرگ تبدیل به یک زمینه‌ پژوهشی در شرکت‌های بزرگی همچون گوگل، یاهو، آمازون و نتفلیکس شد؛ زیرا این شرکت‌ها مقادیر عظیمی از داده‌های مبتنی بر وب را در اختیار داشتند. این شرکت‌ها با دو چالش روبه رو بودند یکی حجم عظیم داده‌ها و یکی سرعت ایجاد شدن آنها که ثبت و پردازش آنها را دشوار می‌کرد. افزون بر اینها داده‌ها در ساختاری مختلف دریافت می‌شدند و مهم‌تر از آن نیازهای پردازشی غیرمنتظره و متغیری داشتند که توانایی راهکارهای سنتی مدیریت داده‌ها برای پرداختن به آنها محدود بود. به موازات این مسائل، رشد وسایل RFIDو تجهیزات مربوط به آن و همچنین معرفی نخستین گوشی‌های نیازمندی‌های افزون‌تری را نیز برای پردازش اطلاعات ورودی با سرعتی بیشتر ایجاد کرد. این روندها منجر به معرفی چارچوب مپ ردیوس در سال 2004 شد.
در سال 2008، هادوپ که یک سیستم پردازش موازی فایل‌های بزرگ به صورت دسته‌ای و با استفاده از چارچوب مپ ردیوس و یک سیستم پرونده‌ای به عنوان مخزن داده‌ها است، یک پروژه‌ منبع باز را به نام آپاچی در سطح بالایی طراحی کرد.
به شکلی که این پروژه تا حدی مترادف داده‌های بزرگ دانسته شد. اما گستره‌ داده‌های بزرگ بسیار بیشتر از اینهاست. پروژه‌های بسیار متعدد دیگری هم پیرامون این پروژه تشکیل شد تا جنبه‌های مختلف مربوط به این امر را تحت پوشش قرار دهد.
با وجود اینکه رویکرد پرونده‌ مبنای هدوپ بسیار همه گیر بود، اما این نیز روشن بود که این سیستم در کارکرد پایگاه داده‌ای خود برای مدیریت انواع خاصی از داده‌های بزرگ، به خصوص آنهایی که دارای تنوع ساختار و تنوع پردازش هستند دچار کمبود است. با رشد سریع شبکه‌های اجتماعی مانند لینکدین، فیس‌بوک و تویيتر و رشد همزمان غول‌های اینترنی همچون گوگل و آمازون در اواخر دهه‌ 2000، پایگاه داده‌ غیررابطه‌ای و روش‌های پردازش غیررابطه‌ای که اغلب با نام NoSQL شناخته می‌شوند پدیدار شدند. BigTable از شرکت گوگل در سال 2006 و Dynamo از شرکت آمازون در سال 2007 پیشگام این رویکرد شدند.
در سال 2010 رسانه‌های جمعی در اوج استفاده از این فناوری‌ها قرار گرفتند. حتی مجله‌ اکونومیست هم یک گزارش ویژه درباره‌ داده‌های بزرگ در فوریه سال2010 ارائه کرد و فروشندگان و بازاریابان نرم‌افزار و سخت‌افزار نیز همه‌ محصولات و راهکارهای خود را با نام «داده‌های بزرگ» برچسب‌گذاری کردند. راهکارهایی که هم روش‌های رابطه‌ای را همزمان با سایر روش‌های سنتی پردازش دنبال می‌کردند. تا سال‌ها گفته می‌شد که این داده‌های سنتی کمتر از ده درصد داده‌هایی را که به‌وسیله‌ کسب‌وکارها مورد مدیریت قرار می‌گیرند را تشکیل می‌دهد. اما کاوشی عمیق که در قالب مطالعه‌ گسترده‌ موسسه‌ IDC با عنوان «گسترش جهان دیجیتال» انجام گرفت نشان داد که این درصد در مجموع چیزی کمتر از یک درصد است. اگر چه بخش‌های آن به خاطر گستردگی در میان شرکت‌های مختلف مبتنی بر وب یا پراکنده
متفاوت است.
نتایج این پیمایش به شدت با این درصدها متناقض است. نقش فناوری‌های رابطه‌ای سنتی در پروژه‌های فناوری اطلاعات در حال کاهش است. اما همچنان بیشتر از میزان استفاده از فناوری‌های NoSQL می‌باشد. تاریخچه‌ چگونگی مواجهه‌ سکوهای مختلف فناوری اطلاعات با داده‌های بزرگ با ویژگی گسترده‌ داده‌های بزرگ که معمولا با کلماتی همچون حجم، میزان انتقال و مانند اینها بیان می‌شود، یک روند روشن را نشان داد و حال اینکه تمرکز پردازشگردان از مقادیر زیاد داده‌ها در شرایط خاص به سوی دیدگاهی شامل و جامع نسبت به محیط جهانی اطلاعات دیجیتال پیش رفته است که توانایی ثبت و ضبط همه‌ جنبه‌های واقعیت فیزیکی و همه‌ رخدادهایی که درون این عرصه رخ می‌دهند را دارد و اگر داده‌های بزرگ مترادف با همه‌ داده‌ها باشد در این صورت باید تمام طیف ویژگی‌های ساختاری، پردازشی، مسائل مربوط به حاکمیت داده‌ها و استفاده از آنها را در بر بگیرد.
داده‌های بزرگ: پیدایش ارزش نظام‌مند کسب‌وکار
داده‌های بزرگ نوین، که اغلب داده‌های چندساختاری خوانده می‌شود، فرصت‌هایی را در زمینه‌ بهینه‌سازی فرآیندهای عملیاتی و ابداع فرآیندهای نوین و همچنین در علم تحلیل و هوش کسب‌وکار به وجود آورده است. این فرصت‌ها را می‌توان در قالب چهار گونه‌ گسترده از کارکردهای کسب‌وکار که به‌وسیله‌ داده‌های بزرگ توانمند شده‌اند دسته‌بندی کرد:
1- توسعه مدل کسب‌وکار با استفاده از داده‌های بزرگ
ایجاد درآمد و توسعه‌ مدل کسب‌وکار، به خصوص در صنعت خرده فروشی و کالاهای مصرفی که در آن یک تعامل گسترده‌ مستقیم بین‌سازمان‌ها و بازارهای مصرفی بزرگ وجود دارد، از طریق دسترسی به داده‌های بزرگ بسیار آسان می‌شود. بخش بازاریابی در شرکت‌های پیشرو از اطلاعات رسانه‌های اجتماعی هم از جهت محتوایی و هم از جهت رابطه‌ای استفاده می‌کنند و رویکرد خود را از نمونه‌گیری به سمت دربرگرفتن تمامی داده‌ها تغییر داده‌اند. آنها شیوه‌ بخش‌بندی بازار خود را تغییر داده و از تحلیل درازمدت روندهای داده‌های تاریخی عدول کرده و روی به واکنش فوری به رخدادهای تازه آورده‌اند. پیش‌بینی رفتار مشتریان و نتایج اقدامات پیشنهادی اجازه‌ خلق شدن و آزمون شدن را به مدل‌های تازه‌ کسب‌وکار می‌دهد.
2. مدیریت قیمت‌ها به صورت فوری با استفاده از داده‌های بزرگ
با کمک داده‌های بزرگ امکان پایش رخدادها به صورت همراه در گوشی‌های همراه فراهم شده و پی بردن به کلاهبرداری‌ها در داده‌های تراکنش‌های مالی آسان‌تر شده است و زمان کمتری نسبت به گذشته می‌برد. استفاده از فنون تحلیل داده‌های بزرگ و پی بردن به جریان داده‌ها پیش از ذخیره‌سازی آنها به یک هنجار تبدیل شده و واکنش سریع به مشکلات خاص را پیش از اینکه اوج بگیرند و گسترش یابند فراهم می‌کند.
3. پیش‌بینی همزمان
شرکت‌های پیشرو با استفاده از فناوری‌های پردازش داده‌های بزرگ و با استفاده از سنسورهای پیشرفته در وسایلی همچون تامین برق و آب و تجهيزات ارتباطات از راه دور، از‌اندازه‌گیری‌های کلی و کلان به سمت‌اندازه‌گیری‌های خرد و دقیق رو آورده‌اند. این امر امکان پیش‌بینی روندهای خرد را فراهم می‌آورد و با افزایش مصرف باعث افزایش ارزش کسب شده به‌وسیله‌ این گونه شرکت‌ها می‌شود.
4. بازآفرینی فرآیندهای کسب‌وکار
داده‌های بزرگ از جهت استفاده‌ نوآورانه از داده‌های خلق شده به‌وسیله‌ حسگرهای دقیق، امکان بازآفرینی همه‌ صنایع را فراهم آورده است. مثلا در بیمه‌ خودروها می‌توان بیمه نامه‌هایی را بر مبنای رفتار واقعی مشتریان تنظیم کرد و نه بر اساس میانگین‌های آماری از مخاطرات و ریسک‌ها. دسترس‌پذیری داده‌های ژنتیکی مربوط به افراد و سوابق الکترونیکی پزشکی افراد فرصت‌های چشمگیری را برای صنایع بیمه پیش آورده است. هر چند که این مساله از نظر اخلاقی مورد اختلاف است.
نتایج پیمایش ما نسبت به چالش‌هایی که به‌وسیله‌ پیاده‌سازی داده‌های بزرگ از‌سازمان‌ها زدوده می‌شود به شدت به نفع علم داده‌های عملیاتی بود که نوع پردازش مورد نیاز برای تحقق این اهداف را در گستره زمانی کوتاهی میسر و تقویت می‌كند.
در حالی که تاثیر داده‌های بزرگ بر فناوری اطلاعات قابل تشکیک نیست، اما داده‌های سنتی عملیاتی و اطلاعاتی نیز دورریختنی نیستند. بلکه این نوع داده‌ها همچنان محور مدیریت و اداره‌ روزانه‌ کسب‌وکارها هستند و همچنین برای استفاده‌ معنادار و مرتبط به شرایط خاص از داده‌های غیرسنتی نیز کاربرد دارند. به عنوان مثال، ارزش داده‌های مربوط به رسانه‌های اجتماعی وقتی با تراکنش‌های مربوط به مشتریان واقعی و قابل تعیین متصل می‌شوند بسیار بیشتر می‌شود. استفاده از علم تحلیل داده‌ها که در شرایط تازه‌ محیط داده‌های بزرگ و با استفاده از ده‌ها هزار خدمت‌دهنده‌ وب انجام می‌شود، تنها در صورتی ارزش دارد که در روندهای عملیاتی‌سازمان به شکلی مستقیم و عملی دخالت داشته باشد. این کار با همراه شدن فناوری‌های تازه در داده‌های بزرگ با داده‌های سنتی امکان‌پذیر است.
بنابراین، تاثیر‌سازمانی داده‌های بزرگ را نمی‌توان نادیده گرفت. در این شرایط، نقشی تازه به نام نقش دانشمند داده‌ها در‌سازمان‌های پیشرو به شدت در حال شناخته شدن است. دانشمندی که همزمان دارای مهارت‌های مربوط به کسب‌وکار و مهارت‌های مربوط به فناوری اطلاعات است و در زمینه‌های بسیاری همچون تحلیل آماری، مدل‌سازی دیداری، دستکاری داده‌ها و گردآوری یا پالایش داده‌ها و حتی ذخیره‌سازی و کدگذاری داده‌ها تخصص دارد.
نتایج پیمایش ما نشان می‌دهد که این نقش در اغلب صنایع در حال بروز و قوت گرفتن است مهم‌تر اینکه سازمان‌ها باید برای درگیرشدن در فرآیندی که آگاهی‌های حاصل از داده‌های بزرگ را به شکل رفتارها و فرآیندهای تازه تبدیل می‌کند منسجم و دارای انگیزه کافی باشند و آنها را در فرآیندهای کنونی خود یکپارچه‌ کنند یا اینکه فرآیندهای تازه‌ای برای یکپارچه‌سازی این امر در فرآیندهای خود را طراحی نمایند. نتایج پیمایش ما نشان داد که مسائل مربوط به ذی‌نفعان و استراتژی‌سازمان مهم‌ترین موانع پیاده‌سازی موفق راهکارهای مربوط به داده‌های بزرگ هستند.
تا سال اخیر، اغلب تحلیلگران و فروشندگان راهکارهای داده‌های بزرگ متمرکز بر نو بودن داده‌های بزرگ بودند. یعنی به مسائلی همچون انواع داده‌ها، ابزارهای تازه و فناوری‌های لازم برای مدیریت داده‌ها و حصول سرعت و انعطاف پذیری مورد نیاز و مهارت لازم برای ساختن و استفاده از چنین سیستم‌هایی توجه داشتند. اما پس از به نتیجه رسیدن بحث ابزارها و فناوری‌ها، تمرکز تحلیلگران و فروشندگان در سال 2012 به سمت دیدگاهی یکپارچه‌تر نسبت به همه اطلاعات دیجیتال گرایش پیدا کرده و نیاز به یک رویکرد کلی‌تر برای پشتیبانی و پیاده‌سازی مبتنی بر کسب‌وکار پروژه‌های داده‌های بزرگ را پدیدار ساخته است.
 
بالا