صفحه 2 از 3 نخستنخست 123 آخرينآخرين
نمايش نتايج 11 تا 20 از 23

تاپیک: آموزش داده کاوی از صفر تا صد

  1. #11
    عضو آواتار MrMining
    رشته
    مهندسی کامپیوتر
    تاريخ عضويت
    2016/10
    امتیاز
    44
    پست ها
    38

    پيش فرض

    پیش پردازش داده ها : نکات تکمیلی در مورد داده های ناقص، ناسازگار و غیر دقیق

    در این قسمت آخرین بخش مربوط به این حوزه پیش پردازش داده ها را ارائه خواهیم دارد
    •داده‌های که با سایر داده‌های ناسازگاری دارند باید از مجموعه داده هاحذف شوند.
    •در بعضی از مواقع پیشینه (تاریخچه) مربوط به داده‌ها و یا اطلاعات مربوط به زمان تغییرات داده‌ها نیز نگهداری می شود. در صورت عدم نیاز به آنها ، این اطلاعات را حذف کنیم.
    •داده‌های که مقادیر گم شده دارند یا به عبارت دیگر برای آنها مقادیری وجود ندارد باید بر اساس سایر ویژگی‌های مرتبط با آنها استنتاج شوند و مقادیر مناسب برای آنها تولید گردد.

    اهمیت کاربر استفاده کننده از داده ها : نکته دیگر در مورد داده‌های این است که کیفیت داده های تولید شده بسیار به کسی که می خواهد از آن استفاده کند وابسته است. به عنوان مثال فرض کنید ما اطلاعات مربوط به آدرس مشتریان را در اختیار داریم. فرض کنیددر داده های موجود، اطلاعات آدرس 80 مشتریان وجود دارد و 20 درصد از آدرس مربوط به مشتریان یا دیگر معتبر نیست (مثلا مشتری نقل مکان کرده است) و یا اشتباه ثبت شده است. میزان کیفیت این اطلاعات را می اوانیم از دیدگاه دو دسته متقاضی بررسی کنیم
    •تحلیل‌گر بازار: این حجم داده (80 درصد آدرس مشتریان) برای تحلیل گران می تواند حجم مناسبی از داده ها باشد و از لحاظ آنها، این مقدار داده هم کافی است و هم دقیق
    •مدیر فروش: از دید مدیر فروش این داده ولی ممکن است ناقص و غیر کاربردی باشد.
    در نتیجه در نظر گرفته کسی که به دادها نیاز دارد یک اصل مهم در تعیین داده ها ناقص، ناسازگار و غیر دقیق است.

    دوتا معیار دیگر که بسیار به کاربر واسته است به شرح زیر است
    1- Believability : به معنای این است که کاربر چقدر باور دارد که داده‌های موجود درست است.
    2- Interpretability : اینکه داده های موجود از دید کاربر چقدر قابل فهم است.
    از آنجایی که این دو معیار چندان به تکنیک های داده کاوی ارتباطی ندارد در این بخش تنها به آنها اشاره داشتیم.


    منبع (اطلاعات بیشتر)
    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]
    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

  2. تشكر از اين پست


  3. #12
    عضو آواتار MrMining
    رشته
    مهندسی کامپیوتر
    تاريخ عضويت
    2016/10
    امتیاز
    44
    پست ها
    38

    پيش فرض

    چرخه داده کاوی
    توی مطالب که تا اینجا در مورد داده کاوی گفتیم هدف ما این بود که یک سری پیش نیاز از داده کاوی رو ارائه بدیم. این پیش نیاز ها برای ادامه مسیر بسیار ضروری است پس نیاز است تا یک نگاهی به اونها داشته باشید.

    از اینجا به بعد قصد داریم گام های داده کاوی رو معرفی و بررسی کنیم. در واقع قصد داریم هر یک از گام های داده کاوی رو به صورت جزیی تر همراه با معرفی تکنیک های هر گام و مثال های متنوع بیان کنیم. گام های یا چرخه داده کاوی توی شکل زیر نشان داده شده است

    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

    یک تفسیر ساده از چرخه داده کاوی (تصویر بالا) به این صورت است

    گام اول : معمولا داده های که ما برای داده کاوی نیاز داریم در منابع و پایگاه داده های مختلف وجود دارد. در نتیجه در اولین گام نیاز است تا این داده ها یکپارچه سازی بشن. یکی دیگر از فعالیت های مهم در گام اول پاکسازی داده ها است. معمولا داده ها در منابع اطلاعاتی بزرگ ناقص، غیر دقیق و ناسازگار هستند در نتیجه نیاز است تا داده های معتبر برای فعالیت های بعدی ایجاد گردد. خروجی این گام داده های معتبر و یکپارچه است.
    گام دوم : یک نکته مهم در مورد داده ها این است که همیشه، همه داده ها مورد نیاز نیست و بسته به اهدافی که داریم ممکن است بخش های از داده ها مورد نیاز باشد. از این رو گام دوم نیاز است تا تنها داده های مفید و مناسب کارمون رو از بین حجم زیاد داده انتخاب کنیم.
    گام سوم : اجرای تکنیک های داده کاوی بر روی داده ها است. خروجی این گام همانطور که بارها گفته ایم یک سری الگو و اطلاعات است که در نگاه اول در حجم بالای داده غیر قابل تشخیص است
    گام چهارم : ارزیابی الگوهای استخراج شده در گام سوم ، آخرین گام از داده کاوی می باشد. خروجی این گام اطلاعات مفید و معتبر است که در اختیار تصمیم گیرندگان قرار می گیرد.


    منتظر مطالب بعدی باشید.

    منبع
    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

  4. تشكر از اين پست


  5. #13
    عضو آواتار MrMining
    رشته
    مهندسی کامپیوتر
    تاريخ عضويت
    2016/10
    امتیاز
    44
    پست ها
    38

    پيش فرض

    پیش پردازش داده‌ها : پاکسازی داده، یکپارچه سازی داده، کاهش داده و تبدیل داده

    همانطور که توی قول داده بودیم قصد داریم مهمترین تکنیک های پیش پردازش داده‌ها رو با جزییات بیشتری بررسی کنیم. در مطلب قبل چرخه داده کاوی رو معرفی کردیم و گفتیم که پیش پردازش داده‌ها اولین گام در داده کاوی است. در این مطلب مهمترین تکنیک ها پیش پردازش داده ها را معرفی میکنم.

    مهمترین فعالیت های که در بخش پیش پردازش داده‌ها انجام می شود عبارت است از 1- پاکسازی داده (data cleaning) ، 2- یکپارچه سازی داده (data integration ) ، 3- کاهش داده (data reduction) و در نهایت تبدیل داده (data transformation)

    توی این مطلب یک تعریف مختصر از هر کدوم از 4 مفهوم بالا ارائه میدیم تا یک شناخت کلی از اونا حاصل بشه و در مطالب بعدی هر یک رو به جزییات بیشتر، تکنیک ها و مثل های متنوع بررسی میکنیم

    پاکسازی داده (data cleaning)
    مهمترین فعالیت های این بخش عبارت است تخمین مقادیر ناموجود در پایگاه داده ها، از بین بردن اختلال (noise) در داده ها، حذف کردن داده های پرت و نامربوط، از بین بردن ناسازگاری در داده ها. نکته مهم این است که هر چه این گام از داده کاوی بهتر انجام شود، خروجی الگوریتم ها و تکنیک های داده کاوی کیفیت بالاتری خواهد داشت

    یکپارچه سازی داده (data integration)
    در بسیاری از موارد ممکن است داده ها در فایل ها و منابع مختلف نگهداری شوند و در این صورت نیاز است تا داده ها پیش از اجرای تکنیک های داده کاوی با یکدیگر یکپارچه شوند. یکپارچه سازی هم فعالیتی سنگین است و هم چالش های فراوانی را به همراه دارد که در مفصل در مورد آن صحبت خواهیم کرد.

    کاهش داده (data reduction)
    یکی از مهمترین نکات در داده کاوی این است که ممکن است همیشه، همه داده ها مورد نیاز نباشند و تنها بخشی از داده ها که مورد نیاز است باید مورد پردازش قرار بگیرد. کاهش داده (data reduction) به این مباحث می پردازد.

    تبدیل داده (data transformation)
    فعالیت های مانند نرمال سازی داده ها و گسسته سازی داده ها در این حوزه جای میگیرند.



    تا اینجا با کلیات پیش پردازش داده‌ها آشنا شدید در مطالب بعدی هر یک از بخش ها را با جزییات بیشتری بیان خواهیم کرد. منتظر مطالب بعدی ما باشید.

    منبع (اطلاعات بیشتر)

    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

  6. تشكر از اين پست


  7. #14
    عضو آواتار MrMining
    رشته
    مهندسی کامپیوتر
    تاريخ عضويت
    2016/10
    امتیاز
    44
    پست ها
    38

    پيش فرض

    پاکسازی داده ها – تخمین داده های ناموجود Missing Values


    همانطور که در مطلب قبل بیان کردیم پیش پردازش داده ها دارای 4 گام اصلی می باشد 1- پاکسازی داده (data cleaning)، 2- یکپارچه سازی داده (data integration)، 3- کاهش داده (data reduction) و در نهایت تبدیل داده (data transformation).



    پاکسازی داده اولین بخشی که قصد درایم در مورد تکنیک های آن صحبت کنیم. مهمترین فعالیت های این بخش عبارتند از

    تخمین داده های ناموجود (Missing Values)
    هموار سازی نویز ها (smooth out noise) – این مفهوم رو بیشتر در مثال توضیح خواهیم داد
    مشخص کردن داده های پرت (outlier)
    تصحیح ناسازگاری ها در داده ها
    در چند مطلب آینده هر یک از زیر بخش های مربوط به پاکسازی داده ها را به صوت مفصل بررسی خواهیم نمود.
    بخش اول: تخمین داده های ناموجود (Missing Values)
    فرض کنید شما حجم زیادی از داده ها دراید اگر بخشی از اطلاعات وجود نداشته باشد چکار خواهید کرد؟ در ادامه راه حل های مقابله با این مشکل را بررسی خواهیم کرد

    راه حل اول برای تخمین داده های ناموجود ، حذف داده: ساده ترین تکنیک و روشی که می توانیم در این زمینه از آن استفاده کنیم این است که داده را به صورت کامل از مجموعه داده ای حذف کنیم. این تکنیک بسیار ساده می باشد، اما در استفاده از آن باید بسیار دقت نمود. این تکنیک چه زمانی استفاده خواهد شد.



    کاربرد اول: عدم وجود داده های ضروری

    داده های که ما با انها سر و کار داریم به دو بخش تقسیم می شود

    داده های ضروری و با اهمیت
    داده های غیر ضروری
    وقتی داده های ضروری ناموجود باشد، با توجه به اهمیت این داده ها اگر تخمین ما درست نباشد ممکن است خروجی تکنیک های داده کاوی را تحت تاثیر قرار بدهد، در نتیجه می تواند تکنیک مناسبی باشد. البته اگر تخمین ما قابل قبول باشد، تکنیک حذف چندان قابل قبول نخواهد بود.

    کاربرد دوم: زمانی که داده های ناموجود در یک قلم داده ای زیاد باشد، می توان آن داده را حذف نمود. فرض کنید در یک ردیف از فاکتور فروش، نام کالا و تعداد کالای فروش رفته ناموجود است. در این مورد بهتر است آن قلم داده ای را از فاکتور فروش حذف کنیم. چون تعداد داده های ناموجود زیاد است، حذف داده می تواند تکنیک مناسبی باشد.

    تکینک حذف وقتی زیاد انجام شود ممکن است کل داده ها را تحت تاثیر قرار دهد و در نتیجه خروجی داده کاوی را ناکارآمد کند. در نیتجه در استفاده از این روش باید دقت نمود که خروجی داده کاوی را تحت تاثیر قرار ندهد. در کل حذف داده ها چندان روش کار آمدی نمی باشد.

    روش دیگری نیز برای تخمین داده های ناموجود ، ارائه شده است که در مطالب بعدی به آنها می پردازیم.

    منبع (اطلاعات بیشتر)

    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

  8. تشكر از اين پست


  9. #15
    عضو آواتار MrMining
    رشته
    مهندسی کامپیوتر
    تاريخ عضويت
    2016/10
    امتیاز
    44
    پست ها
    38

    پيش فرض

    قبل از اینکه مطلب رو ادامه بدیم، ابتدا یک نگاه بندازیم ببینیم دقیقا ما کجا هستیم. در چرخه داده کاوی ما در گام پیش پردازش هستیم. و داریم تکنیک های مربوط به تخمین داده‌های گم شده (داده های ناموجود) یا داده های ناموجود رو بررسی می کنیم. دسته بندی کلی تکنیک های پیش پردازش داده به صورت زیر است
    • پاکسازی داده
      • تخمین داده های ناموجود
      • هموار سازی نویز ها
      • مشخص کردن داده های پرت
      • تصحیح ناسازگاری ها در داده ها

    • یکپارچه سازی داده
    • کاهش داده
    • تبدیل داده

    ما توی مطالب قبلی [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ] و [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ] رو بررسی کردیم. در این مطلب روش های دیگری را مورد بررسی قرار می دهیم.روش سوم : استفاده از یک مقدار کلی و ثابت برای داده های ناموجود.
    یکی دیگر از تکنیک های مربوط به پر کردن داده های ناموجود (داده‌های گم شده ) قرار دادن یک مقدار ثابت برای همه آن ها است. مثلا فرض کنید همه داده های غیر موجود را با یک مقدار مانند “نشناخته” یا Unknown پر کنیم. این روش بسیار ساده است، ولی چندان کارآمدی نیست، به همین خاطر کمتر از آن استفاده می شود.
    روس چهارم: استفاده از معیارهای مرکزیت (مانند میانه، میانگین و …)
    این روش را می‌توان بهبود یافته روش سوم دانست. در این روش یکی از معیارهای مرکزیت مانند میانگین، میانه، مد و یا هر معیار مرکزیت دیگری برای داده محاسبه می‌گردد و مقدار حاصله برای تمام داده‌های گم شده استفاده می‌گردد.
    یکی از محدودیت های این روش آن است که تنها در بین داده‌های عددی قابل استفاده است و داده‌های غیر عددی نمی‌توانند از آن استفاده کنند.
    یک نمونه از استفاده از این روش به شرح زیر است:
    فرض کنید بر اثر اشتباه انسانی تعدادی از قیمت‌های فروش “کالای شماره 1” از فاکتورهای سال گذشته پاک شده است. این روش می‌تواند در این مورد کاربرد داشته باشد. روش کار به این صورت است
    میانگین سالانه: میانگین قیمت کالای شماره 1 را در فاکتورهای سال گذشته محاسبه می‌کنیم و مقدار به‌دست آمده را برای فاکتورهای که قیمت کالای شماره 1 را ندارند وارد می‌کنیم. با توجه به نوع مسئله این روش می‌تواند یک نمونه قابل قبول باشد.
    منتظر سایر مطالب مرتبط با Missing Values باشید.

    منبع (اطلاعات بیشتر)
    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

  10. تشكر از اين پست


  11. #16
    عضو آواتار MrMining
    رشته
    مهندسی کامپیوتر
    تاريخ عضويت
    2016/10
    امتیاز
    44
    پست ها
    38

    پيش فرض

    قبل از اینکه مطلب رو ادامه بدیم، ابتدا یک نگاه بندازیم ببینیم دقیقا ما کجا هستیم. در چرخه داده کاوی ما در گام پیش پردازش هستیم. و داریم تکنیک های مربوط به تخمین داده های گم شده (داده های ناموجود) یا داده های ناموجود رو بررسی می کنیم. دسته بندی کلی تکنیک های پیش پردازش داده به صورت زیر است
    • پاکسازی داده
      • تخمین داده های ناموجود
      • هموار سازی نویز ها
      • مشخص کردن داده های پرت
      • تصحیح ناسازگاری ها در داده ها

    • یکپارچه سازی داده
    • کاهش داده
    • تبدیل داده

    ما توی مطالب قبلی [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ] ، [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ] ، [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]رو بررسی کردیم. در این مطلب سایر روش های رو را مورد بررسی قرار می دهیم.روش پنجم: استفاده از معیارهای مرکزیت (مانند میانه، میانگین و …) داده های دسته بندی شده. این روش رو میشه بهبود روش چهارم دونست ([مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]). در روش چهام اگر یک مقدار وجود نداشت، میانگین تمامی مقادیر موجود را حساب می کردیم و به جای مقدار نا موجود قرار می دادیم. در این روش سعی میکنیم که نزدیک‌ترین نمونه ها به مقدار ناموجود رو انتخاب کنیم و بر اساس اون مقدار رو مشخص کنیم. با یک مثال توضیح می دیم.فرض کنید ما صاحب یک کارخانه هستیم که تعدادی ربات بخشی از فعالیت های کارخانه را انجام می دهند. بعضی از ربات ها وظیفه جابجا کردن قطعات سنگین را بر عهده دارند، بعضی از ربات ها جوشکاری انجام می دهند و بعضی از ربات ها برشکاری انجام میدهند. هر ربات تعدادی قطعه دارد که پس از مدتی از کار می افتند و باید تعویض شوند. قصد داریم تحلیل را برای بازه های خرید این قطعات ارائه بدهیم به طوری که همیشه قطعه یدک در کارخانه وجود داشته باشد تا کار مختل نشود. در این تحلیل ما نیاز داریم تا طول عمر قطعات را داشته باشیم. متأسفانه طول عمر بعضی از قطعات استفاده شده در دست نیست و به علت خطای انسانی از بین رفته است. خوب حالا ما برای تخمین طول عمر دوتا کار می تونیم بکنیم (فرض کنید طول عمر قطعه 1 روی می خواهیم تخمین بزنیم)
    • استفاده از روش چهارم: طول عمر تمام قطعه 1 ها رو توی همه ربات ها حساب کنیم و میانگین اون رو برای مقادیر ناموجود قطعه 11 بزاریم.
    • استفاده از روش پنجم: ابتدا میاییم ربات ها رو سه دسته کنیم. ربات های حمل بار، ربات های جوشکار و ربات ها برش کار. برای هر کدوم از این دسته ها میانگین طول عمر قطعه 11 رو جداگانه حساب کنیم و مقادیر ناموجود رو بر اساس اینکه ماب کدوم ربات بوده مقادیر میانگین متناظر اون رو بزاریم. این کار رو به این دلیل انجام میدیم که تخمین ما دقیق تر باشه. از اونجای که ما سه دسته ربات داریم و هر کدام فعالیت های مختلفی انجام می دهند. از این ممکن است طول عمر یک قطعه در سه نوع ربات یکسان نباشد.

    روش ششم : استفاده از محتمل ترین مقدار (the most probable value) برای پر کردن برای داده های گم شده . the most probable valuee رو میشه بهترین مقدار نیز ترجمه کرد. در این روش از تکنیک های مانند رگرسیون regression، استنتاج، درخت تصمیم گیری و … استفاده می شود.
    به عنوان مثال فرض کنید ما میزان خرید یک مشتری را ندارد قصد دارین آن را حدس بزنید، می تواند از درخت تصمیم گیری یا استنتاج مبتنی بر شبکه بیزین استفاده کرد. (در مورد این مفاهیم و شیوه محاسبه اونا بعدا بیشتر توضیح می دیم)
    ما 6 روش تعیین داده های گم شده رو معرفی کردیم، توی مطلب بعدی یک مقایسه خواهیم داشت روی این 6 روش و معایب و مزایایی هر کدوم رو بیان می کنیم.

    منبع (اطلاعات بیشتر)
    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

  12. تشكر از اين پست


  13. #17
    عضو آواتار MrMining
    رشته
    مهندسی کامپیوتر
    تاريخ عضويت
    2016/10
    امتیاز
    44
    پست ها
    38

    پيش فرض

    تا اینجا ما 6 تا تکنیک های تعیین داده های گمشده (Missing Values) رو معرفی کردیم ،توی این مطلب قصد داریم مقایسه ای رو بین این تکنیک ها انجام بدیم و مزایا و معایب هر کذوم رو بررسی کنیم.
    1. [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]
    2. [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]
    3. [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]
    4. [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]
    5. [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]
    6. [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

    تکنیک های اول و سوم کمترین پردازش را برای تعیین داده گمشده را دارند و پردازش چندانی نیز برای تخمین داده های گمشده انجام نمی شود.تکنیک دوم : این تکنیک بیشترین دخالت انسانی را به همراه دارد و در حجم بالای داده ناکارآمد است.تکنیک های 3 تا 6 : در این تکنیک ها چون از الگوریتم های تخمین استفاده میکنیم، ممکن است مقدار تخمین زده شده درست نباشد. در بین این تکنیک ها، تکنیک 66 از همه محبوب تر و پر استفاده تر است و معمولا بهترین تخمین را نیز ارائه می دهد.تکنیک های 4 تا 6 : در مقایسه با تکنیک های اول و دوم، در این تکنیک های از اطلاعات موجود در منابع اطلاعاتی استفاده می شود تا بتوانیم بهترین تخمین را برای داده های گمشده بزنیم.تکنیک های 3 تا 6 : در حالت کلی مقادیر پیشنهادی بهتر و بهتر خواهند بود ولی محاسبات آن نیز پیچیده تر و سنگین تر می شود.در یک بررسی کلی می توان گفت، بهترین تکنیک برای تعیین داده های گشمده ، تکنیک استفاده از محتمل ترین مقدار است. البته نیاز پردازشی این تکنیک از سایر تکنیک ها بیشتراست اما مقدار تخمین زده شده بیشترین دقت را دارد.یک نکته مهم رو دقت داشته باشید که عدم وجود داده همیشه به معنای missing value نیست. به عنوان مثال فرض کنید شما به “شماره گواهینامه رانندگی” مشتریان خود نیاز دارد، وقتی این داده وجود نداشته باشید به معنای missing value نیست ممکن است داده اصلا وجود خارجی نداشته باشد. مثلا سن فرد کمتر از سن قانونی برای دریافت گواهی نامه رانندگی باشد.در اینجا تکنیک های تخمین داده های گمشده به پایان رسید و در گام بعدی بخش دوم تکنیک های پاکسازی داده ها (هموار سازی نویزها) را مورد بررسی قرار خواهیم داد.
    • پاکسازی داده
      • تخمین داده های ناموجود
      • هموار سازی نویز ها
      • مشخص کردن داده های پرت
      • تصحیح ناسازگاری ها در داده ها

    • یکپارچه سازی داده
    • کاهش داده
    • تبدیل داده


    منبع (اطلاعات بیشتر)
    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

  14. #18
    عضو آواتار MrMining
    رشته
    مهندسی کامپیوتر
    تاريخ عضويت
    2016/10
    امتیاز
    44
    پست ها
    38

    پيش فرض

    تکنیک های هموار سازی داده های نویزی -تکنیک Binning

    قبل از اینکه به بررسی تکینک های هموارسازی داده های نویزی بپردازیم، یک نگاه بندازیم به مسیری که تا حالا اومدیم. همانطور که بیان کردیم تکنیک های پیش پردازش 4 بخش اصلی دارد که ما تکنیک های پاکسازی داده ها را داریم بررسی میکنیم. در مطالب قبلی تکنیک های تخمین داده های گمشده رو بررسی کردیم . از این مطلب وارد مبحث جدید یعنی هموار سازی داده های نویزی می شویم

    • پاکسازی داده
      • تخمین داده های گمشده
      • هموار سازی داده های نویزی
      • مشخص کردن داده های پرت
      • تصحیح ناسازگاری ها در داده ها

    • یکپارچه سازی داده
    • کاهش داده
    • تبدیل داده

    قبل از شروع یک تعریف ار داده های نویزی ارائه می دیم. داده های نویزی به طور خلاصه میشه داده های که هنگام ثبت یا تغییر اون اشتباه یا خطای رخ داده است و مقدار آن نامعتبر است. توی [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]اطلاعات کامل انواع خطاهای که در هنگام ثبت داده ها رخ میدهد صحبت کردیم. همانطور که قول داده بودیم قصد داریم تا روش های از بین بردن داده های نویزی توی این مطلب و چند مطلب آینده بررسی کنیم.تکنیک های برطرف کردن داده های نویزی با عنوان تکنیک های هموار سازی (smoothing) شناخته میشن در این مطلب اولین روش رو بررسی میکنیم.تکنیک Binning : اولین روشی که بررسی میکنیم روش تکنیک Binning (میشه ترجمه کردن پیاله پیاله بندی)هستش:
    منطق این تکنیک اینکه داده ها رو میشه بر اساس همسایه هاش هموار سازی کرد. به عبارت دیگه این تکنیک نگاهمیکنه که همسایه های یک داده چطوری هست و سعی میکنه داده رو شبیه همسایه هاش کنه. اگر یک داده با همسایه هاش زیاد فرق داشته باشه نشون دهنده اینکه داده نویزی هستش و باید هموار سازی روش انچام بشه.
    نکته مهم در مورد این روش آن است که این روش در مورد داده های عددی کاربرد دارد (اطلاعات کامل در مورد انواعداده ها را می تواند در این مطلب مطالعه کنید)
    اولین گام در این تکنیک تعیین Bin ها است. برای این منظور ابتدا داده ها به ترتیب صعودی (یا نزولی) مرتب می شوند. وقتی این کار را انجام شده، داده ها را در یک سری پیاله یا bin قرار میدهیم.
    به عنوان مثال نمونه زیر را در نظر بگیرد
    4, 8, 15, 21, 21, 24, 25, 28, 34حالا فرض کنید می خواهیم داده ها را در 3 تا Bin قرار بدیم. از اونجا که ما 9 عدد داریم در نتیجه در سهم هر Bin میشه 3 عدد. نتیجه به صورت زیر میشهتا اینجا ما گام اول که تشکیل Bin است رو انجام دادیم در مطلب بعدی انواع رویکردهای مربوط به هموار سازی در Binning رو توضیح می دیم.

    منبع (اطلاعات بیشتر)
    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

  15. #19
    عضو آواتار MrMining
    رشته
    مهندسی کامپیوتر
    تاريخ عضويت
    2016/10
    امتیاز
    44
    پست ها
    38

    پيش فرض

    هموارسازی داده ها با کمک تکنیک Binning – قسمت دوم

    ما در [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]تکنیک پیاله بندی کردن (Binning) به عنوان یکی از الگوریتم های هموارسازی داده ها رو معرفی کردیم و با یک مثال نیز بخش اول تکنیک که ایجاد پیاله ها است رو بررسی کردیم (پیش از ادامه یک نگاهی به مطلب قبل بندازید تا ادامه ابهامی برای شما به وجود نیاد).
    توی مطلب قبل پیاله های که بهش رسیدیم شد
    Bin 1: 4, 8, 15
    Bin 2: 21, 21, 24
    Bin 3: 25, 28, 34
    خوب حالا می خواهیم هموارسازی داده ها رو انجام بدیم. همانطور که گفتیم این تکنیک از همسایه های یک داده برای هموار سازی استفاده میکنه. برای این منظور میشه دو رویکرد زیر رو در نظر گرفت:
    • استفاده از میانگین هر پیاله برای هموارسازی داده ها : در این روش میانگین مقادیر موجود در هر پیاله محاسبه می شود و مقدار آن جایگزین همه اعداد موجود در پیاله می شود.

    بزارید پیاله اول رو با این رویکرد بررسی کنیم: اعداد توی پیاله اول عیارتند از 4,5,15 که میانگین اونا میشه 9 در نتیجه مقدار 9 رو با تمام مقادیر موجود در پیاله جایگزین می‌کنیم.
    پس از هموارسازی پیاله ها به کمک این روش به صورت زیر در میان
    Bin 1: 9, 9, 9
    Bin 2: 22, 22, 22
    Bin 3: 29, 29, 29

    • استفاده از مرزهای هر پیاله برای هموارسازی داده ها : در این روش مقادیر ابتدا و انتهای پیاله به عنوان مرزهای پیاله در نظر گرفته می شوند و بقیه مقادیر موجود در پیاله رو بررسی میکنیم به کدوم از این دو عدد نزدیکتر هستند، به هر عدد که نزدیک بودن با اون جایگزین میشه.

    بزارید پیاله اول رو با این رویکرد بررسی کنیم : اعداد توی پیاله اول عیارتند از 4,5,15 که بیپشترین مقدار و کمترین مقدار عبارتند از 4 و 15. سایر اعداد توی پیاله فقط عدد 5 است. خوب 5 بین 4 و 15 به چه عددی نزدیک است؟ عدد 4 ، در نتیجه 5 با 4 جایگزین میشه
    پس از هموارسازی پیاله ها به کمک این روش به صورت زیر در میان
    Bin 1: 4, 4, 15
    Bin 2: 21, 21, 24
    Bin 3: 25, 25, 34
    توی این روش تکنیک هموار سازی پیاله بندی کردن رو با مثال بررسی کردیم، در مطلب بعدی کمی بیشتر در مورد این تکنیک توضیح میدیم.

    منبع
    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

  16. #20
    عضو آواتار MrMining
    رشته
    مهندسی کامپیوتر
    تاريخ عضويت
    2016/10
    امتیاز
    44
    پست ها
    38

    پيش فرض

    تکنیک های هموارسازی داده ها : محلی (Local) و سراسری (Global)

    قبل از اینکه بخواهیم سایر روش های مربوط به هموارسازی داده ها را بررسی کنیم، نیاز است تا یک مفهوم رو در مورد انواع تکنیک های هموارسازی داده ها بیان کنیم.
    ما می توانیم تکنیک های هموارسازی داده ها را بر اساس داده های که بر روی هموار سازی یک داده تاثیر می گذارند را به دو دسته کلی تقسیم نمود. 1- تکنیک های هموار سازی داده محلی (Local) و 2- تکنیک های هموار سازی داده سراسری (Global)
    مهمترین نقطه تمایز بین این دو روش، تعداد داده های است که در هموار سازی یک داده تاثیر می گذارند. در روش محلی معمولا تعداد داده های تاثیر گزار، کم است و این داده ها معمولا در همسایگی داده مورد نظر قرار دارند، ولی در روش سراسری معمولا سعی می شود از همه داده ها برای هموارسازی یک داده خاص استفاده شود.
    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]که بررسی نمودیم ، از نوع محلی بود است، چون دو معیار مربوط به روش های محلی را دارد:
    1. اینکه تعداد داده های که بر روی هموار سازی یک داده تاثیر دارد کم و محدود است
    2. داده های تاثیر گزار بر روی یک داده همسایه های یک داده هستند

    داده های که درون یک Bin روی هموار سازی همان Bin تاثیر گزار است. داده های یک Bin بر روی هموارسازی داده های Bin دیگری تاثیر نمی گذارند و همچنین داده های Bin های دیگر بر روی آنها تاثیر می گذارد.
    در کنار این روش های محلی، روش های نیز وجود دارند سراسری از تمام داده ها را در برای هموارسازی داده ها استفاده میکنند. این روش ها معمولا پرهزینه تر از روش های محلی هستند، و همچنین خروجی به دست آمده از این روش ها بهتر است. در مطالب بعدی دو نمونه از این روش ها را بررسی خواهیم کرد 1- روش رگرسیون (Regression) و 2- روش آنالیز داده های خارج از محدوده ( Outlier analysis)

    منبع (اطلاعات بیشتر)
    [مشاهده ی لینک ها فقط برای اعضا امکان پذیر است. ]

صفحه 2 از 3 نخستنخست 123 آخرينآخرين

تاپیک های مشابه

  1. داده کاوی (Data Mining)
    توسط Kaizen در تالار مهندسی صنایع
    پاسخ ها: 46
    آخرین ارسال: 2013/11/29, 04:15 AM
  2. استفاده از داده کاوی (DM) برای ازدواج! حتما ببنید!!!
    توسط Sir در تالار تاپیک های قدیمی
    پاسخ ها: 25
    آخرین ارسال: 2013/4/12, 12:45 PM
  3. پاسخ ها: 0
    آخرین ارسال: 2011/3/24, 06:38 PM

ثبت اين صفحه

ثبت اين صفحه

قوانين ارسال

  • شما نمی‌توانيد تاپيک جديد ارسال كنيد
  • شما نمی‌توانيد پاسخ ارسال كنيد
  • شما نمی‌توانید فایل ضمیمه ارسال كنيد
  • شما نمی‌توانيدنوشته‌های خود را ويرايش كنيد
  •