[داده حجیم - بیگ دیتا] تاریخچه هدوپ

دانشجوي كامپيوتر

دستیار مدیر تالار هنر
کاربر ممتاز
هدوپ توسط آقای Doug Cutting اختراع شده است، ایشان پیش تر Apache Lucene را که به عنوان یک کتابخانه پرکاربرد جستجوی متن می باشد، ایجاد کرده است. اصل هدوپ به Apache Nutch ، موتور جستجوی تحت وب متن بازی که خودش قسمتی از پروژه Lucene است، برمی گردد. هدوپ یک کلمه اختصاری نیست، نامی است که فرزند ایشان بروی یک فیل عروسکی زرد رنگ توپولو گذاشته است.

ساخت کامل یک موتور جستجوی وب، کار دشواری می باشد. نه تنها تولید نرم افزاری که بتواند وب سایت های متعددی را بررسی نموده و برای آنها شاخص تولید نماید مشکل است، بلکه این کار بدون همراهی یک تیم عملیاتی کارآمد امکان پذیر نمی باشد. Mike Cafarella و Doug Cutting برآورد کرده بودند سیستمی که بتواند شاخص میلیاردی تولید و نگهداری نماید در حدود نیم میلیون دلار هزینه سخت افزاری دارد و در حدود سی هزار دلار هزینه نگهداری آن بصورت ماهانه می باشد. اما با همه این مسائل، آنها معتقد بودند که کار بسیار ارزنده ای خواهد بود زیرا می تواند باعث هر چه بهتر شدن الگوریتم های موتورهای جستجو گردد.
در سال 2002 پروژه Nutch شروع شد، و بلافاصله یک موتور جستجو وارد عرصه وب گردید.

البته سازندگان آن می دانستند که زیر ساخت فعلی قابلیت نگهداری چند میلیون شاخص را ندارد. تا اینکه در سال 2003، Google معماری فایل سیستم توزیع شده (GFS) خود را منتشر نمود. این معماری مسئله کمبود فضای فایل های حجیم تولید شده توسط موتور های جستجو را مدیریت و برطرف می نمود. در سال 2004، آنها تصمیم گرفتند تا یک نسخه پیاده سازی شده متن باز از آن معماری را ایجاد نمایند و آن را فایل سیستم توزیع شده NDFS) Nutch) نامیدند.

در سال 2004، Google مقاله ای را با عنوان MapReduce مطرح نمود. خیلی زود در سال 2005، توسعه دهندگان Nutch شروع به پیاده سازی یک نسخه از آن نمودند، و طولی نکشید در اواسط همان سال، تمامی الگوریتم ها Nutch برای استفاده از MapReduce و NDFS تغییر ساختار دادند.

از آنجایی که NDFS و MapReduce در Nutch با موفقیت تثبیت شده بودند، در اوایل سال 2006 از Nutch نقل مکان کرده و هدوپ را به عنوان یک زیر پروژه مستقل در Lucene مطرح نمودند. در همان زمان، Doug Cutting به !Yahoo ملحق شد، جایی که در آن تیم و امکاناتی را برای عملیاتی نمودن هدوپ در سطح وب اختصاص داده بودند. این محصول در ابتدای سال 2008 رسماً توسط !Yahoo رونمایی شد، و اینگونه مطرح شد که شاخص جستجوی محصول این شرکت توسط هدوپ با یک کلاستری 10,000 تایی در حال تولید می باشد.

در ابتدای سال 2008، هدوپ تبدیل به یک پروژه سطح بالا و مستقل در Apache شد، در آن زمان از هدوپ نه تنها !Yahoo بلکه شرکت هایی نظیر Last.fm، Facebook و New York Times استفاده می کردند. برای مثال، New York Times با استفاده از سرویس Cloud شرکت آمازون با نام EC2، چهار ترابایت از آرشیو مستندات اسکن شده خود را تبدیل به PDF نمود. این پردازش در حدود کمتر از 24 ساعت با استفاده از 100 ماشین صورت گرفت.
در اوایل 2008، هدوپ به عنوان سریع ترین سیستم مرتب سازی یک ترابایت داده، رکورد دار شد. با استفاده از یک کلاستر 910 تایی، هدوپ یک ترابایت داده را در 209 ثانیه مرتب سازی نمود. در اواخر همان سال، Google ادعا کرد که می تواند همان حجم داده را در 68 ثانیه مرتب سازی نماید. در اواسط 2009 اعلان شد تیمی از !Yahoo توانسته همان حجم داده را در 62 ثانیه مرتب سازی نماید.
Hadoop: The Definitive Guide by Tom White

هدوپ در !Yahoo

برای ساخت یک موتور جستجو اینترنتی نیاز به حجم زیادی داده و تعداد زیادی ماشین به منظور پردازش آن می باشد. موتور جستجوی !Yahoo از چهار مولفه اصلی تشکیل شده است: Crawler، دانلود کردن صفحات وب از سرورهای گوناگون؛ WebMap، ساختن گراف از مسیرهای شناخته شده وب؛ Indexer، ساختن شاخص معکوس از بهترین صفحات؛ Runtime، پاسخ دادن به درخواست های کاربر.WebMap گرافی است که از حدودا یک تریلیون یال که هر کدام بیانگر یک Web Link و یکصد میلیارد نود که هر کدام بیانگر URLهای منحصر به فرد می باشد، تشکیل شده است.
ساخت و تحلیل گرافی با این وسعت مستلزم صرف وقت و هزینه بسیاری است. در اوایل 2005، زیرساخت WebMap که Dreadnaught نامیده می شد، نیاز به طراحی مجدد به منظور نگهداری نودهای بیشتر داشت. طراحی فعلی آن بدون هیچگونه تغییری از 20 نود به 600 نود با موفقیت ارتقاء پیدا کرده بود. Dreadnaught از جهات بسیاری شبیه به MapReduce می باشد، اما بسیار منعطف تر است. بنابراین، برنامه های تحت WebMap با حداقل تغییرات می توانستند از MapReduce استفاده نمایند.



Eric Baldeschwieler تیم کوچکی را به منظور تولید نسخه جدیدی از Dreadnaught ایجاد نمود. این کار همزمان با ارائه مقالات GFS و MapReduce شرکت Google بود. در آن زمان شرکت !Yahoo وضعیت پیشرفت هدوپ را رصد می نمود. بعد از ملحق شدن Doug Cutting به این شرکت، تیم جدید Dreadnaught به این نتیجه رسید که بهتر است از هدوپ استفاده نماید. دلایل استفاده از هدوپ: در آن زمان هدوپ با 20 نود به صورت جدی عملیاتی شده بود؛ دیگر اینکه هدوپ بصورت متن باز پیاده سازی شده بود.



روند تکاملی هدوپ:

سال 2004 : نسخه های اولیه فایل سیستم توزیع شده هدوپ (HDFS) و MapReduce توسط Doug Cutting و Mike Cafarella معرفی گردید.
سال 2005 : Nutch زیر ساخت خود را به معماری جدید تغییر داد. در آن زمان هدوپ بروی 20 نود با موفقیت اجرا شد.
سال 2006 :
• Doug Cutting به شرکت !Yahoo پیوست.
• پروژه Apache Hadoop رسما حمایت خود را برای توسعه HDFS و MapReduce آغاز نمود.
• پذیرفته شدن هدوپ توسط شرکت !Yahoo.
• مرتب سازی (Ten GB/node)، اجرا بروی 188 نود در 47.9 ساعت.
• تحقیق و بررسی یک کلاستر 300 تایی توسط شرکت !Yahoo.
• مرتب سازی بروی 500 نود در 42 ساعت (با سخت افزار بهتر از دفعه قبل).
• رسیدن به یک کلاستر 600 تایی در تحقیقات.
• مرتب سازی بروی 20 نود در 1.8 ساعت، 100 نود در 3.3 ساعت، 500 نود در 5.2 ساعت، 900 نود در 7.8 ساعت.
سال 2007 :
• رسیدن به یک کلاستر 900 تایی در تحقیقات.
• رسیدن به دو کلاستر 1000 تایی در تحقیقات.
سال 2008 :
• بدست آوردن رکورد مرتب سازی یک ترا بایت داده در 209 ثانیه بروی یک کلاستر 910 تایی.
• بارگذاری ده ترابایت داده به ازای هر روز در کلاسترهای تحقیقاتی.
سال 2009 :
• ایجاد 17 کلاستر جمعا با 24,000 نود.
• بدست آوردن رکورد مرتب سازی دقیقه ای 500 گیگابات داده در 59 ثانیه (کلاستر 1,400 تایی) و بعد از آن 100 ترابایت داده در 173 دقیقه (کلاستر 3,400 تایی).



برگرفته شده از hadoopera.blog.ir

 

Similar threads

بالا