آماده سازی داده ها[۱۹]
در این مرحله داده های موجود جهت استفاده ی الگوریتم داده کاوی آماده می شود. هدف این مرحله رسیدن به چشم انداز قابل کاوش است. در این مرحله یکپارچگی، انتخاب، پاکسازی و تغییر شکل داده ها انجام می شود (هن و کمبر ۲۰۰۶).
گام های این مرحله عبارتند:

    • انتخاب داده ها
    • پاکسازی داده ها
    • ساختار دهی داده ها ( انتخاب برخی صفات و ایجاد رکوردها)
    • یکپارچه نمودن داده ها ( داده های ترکیبی)
    • فرمت کردن داده ها

مدل سازی[۲۰]
این مرحله شامل پیاده سازی تکنیک های مدل سازی یا داده کاوی بر روی دیدگاه قابل کاوش ایجاد شده در مرحله ی قبل است (هن و کمبر ۲۰۰۶).
گام های این مرحله عبارتند از:

    • انتخاب تکنیک مدل سازی (فرضیه ها و تکنیک های مدل سازی)
    • ارزیابی طراحی ( طراحی آزمایشی)
    • ساخت مدل (پارامترهای انتخاب شده و توصیف مدل)
    • ارزیابی مدل (سنجش مدل و بازنگری در پارامترهای انتخاب شده)

ارزیابی مدل[۲۱]
در این مرحله مدل طراحی شده مورد ارزیابی قرار می گیرد تا مشخص شود آیا اهداف داده کاوی تامین شده است . به عبارت دیگر باید مشخص شود که آیا مدل برای پاسخگویی به برخی از نیازهای کسب و کار مفید است یا خیر. بعد از ارزیابی مدل ممکن است به بازنگری در اهداف تعیین شده در مرحله ی اول منجر شود (هن و کمبر ۲۰۰۶).
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))

گام های این مرحله عبارتند از:

    • ارزیابی نتایج
    • تجدید نظر در فرایند
    • طراحی گام های بعدی (لیست فعالیت ها و تصمیم های ممکن)

توسعه ی مدل[۲۲]
ایده ی این مرحله به کارگیری پتانسیل های مدل استخراج شده، ترکیب آن با فرایند های تصمیم گیری سازمان، ارائه گزارش هایی در مورد دانش استخراج شده و … می باشد. در این مرحله مدل، پیاده سازی و اجرا می گردد و معمولاً یک رابط گرافیکی مناسب نیز برای کاربران طراحی می شود (هن و کمبر ۲۰۰۶).
گام های این مرحله عبارتند از:

    • برنامه ریزی برای توسعه
    • برنامه ریزی برای مانیتور و نگهداری
    • تولید گزارش نهایی
    • بازنگری مجدد پروژه

قابلیت های اساسی داده کاوی
طبقه بندی[۲۳]
طبقه بندی فرایند جستجوی مجموعه ای از مدل ها یا توابع است که کلاس های داده ها یا مفاهیم را توصیف یا تفکیک می نماید. تا بتوان از این مدل برای پیش بینی کلاس اشیا استفاده کرد. مدل استخراج شده بر پایه تحلیل مجموعه ای داده های آموزشی یا داده هایی که کلاس آن ها مشخص است می باشد(هن و کمبر ۲۰۰۶).
فرایند طبقه بندی در واقع نوعی یادگیری با ناظر می باشد که طی دو مرحله انجام می گیرد. در مرحله اول مجموعه ای از داده ها که در آن هر داده شامل تعدادی خصوصیتِ دارای مقدار و یک خصوصیت به نام خصوصیتِ کلاس می باشد، برای ایجاد یک مدل داده به کار می رود که این مدل داده در واقع توصیف کننده مفهوم و خصوصیات مجموعه داده هایی است که این مدل از روی آن ها ایجاد شده است. مرحله دوم اعمال فرایند طبقه بندی یا به کارگیری مدل داده ایجاد شده بر روی داده هایی است که شامل تمام خصوصیات داده هایی می شود که برای ایجاد مدل داده به کار گرفته شده اند، به جز خصوصیت کلاس این مقادیر، که هدف از عمل طبقه بندی نیز تخمین مقدار این خصوصیت می باشد(هن و کمبر ۲۰۰۶).
پیش بینی[۲۴]
پیش بینی به هر دو مورد پیش بینی مقادیر عددی و پیش بینی کلاس ها اشاره دارد. پیش بینی شامل شناسایی روند توزیع بر اساس اطلاعات در دسترس است. طبقه بندی و پیش بینی ممکن است نیاز به تجزیه و تحلیل مرتبط داشته باشند تا بتوانند صفاتی را که در فرایند طبقه بندی یا پیش بینی مشارکتی ندارند شناسایی و در صورت تمایل آن ها را حذف نمایند (هن و کمبر ۲۰۰۶).
تحلیل خوشه ای[۲۵]
خوشه بندی، یک جمعیت نامنظم را به مجموعه ای از زیرگروه های منظم تقسیم بندی می کند. برخلاف دسته بندی و پیش بینی که اشیا داده ها را بر اساس کلاس ها تحلیل می کنند، خوشه بندی اشیا داده ها را بدون در نظر گرفتن برچسب های کلاس تحلیل و آنالیز می نمایند. عمدتاً برچسب کلاس ها در داده های آموزشی به آسانی مشخص نیست زیرا این کلاس ها شناخته شده نمی باشند. خوشه بندی گاهی برای تعیین و تولید چنین برچسب هایی به کار می رود. به عبارت دیگر می توان خوشه بندی را به صورت دسته بندی تعریف کرد، با این تفاوت که دسته ها و برچسب آن ها از پیش تعریف شده نبوده و عمل دسته بندی، بدون نظارت انجام می گیرد.
اشیا خوشه بندی شده بر اساس اصل ماکزیمم شباهت بین اعضا هر خوشه و مینیمم شباهت بین خوشه های مختلف گروه بندی می شوند. یعنی خوشه ها به گونه ای تنظیم می شوند که اشیا داخل هر خوشه بیشترین شباهت را با یکدیگر داشته باشند. معیار شباهت وقتی که همه مشخصه ها پیوسته هستند، معمولا با فاصله اقلیدسی بیان می شود، در غیر این صورت یک معیار مناسب برای آن در نظر گرفته می شود.
به عنوان شاخه ای از آمار، خوشه بندی برای سال ها به صورت وسیعی مورد مطالعه قرار گرفته و بر روی تحلیل فاصله متمرکز شده است. ابزارهای خوشه بندی که مبتنی بر K-means و K-mediods و روش هایی مانند آن ها هستند در خیلی از بسته های آماری مانند Spss، S-plus و Sas وجود دارند. آنالیز خوشه ای کاربردهای گسترده ای دارد که عبارتند از: شناسایی متن، آنالیز داده، پردازش تصویر و تحقیقات بازار و … ( هن و کمبر، ۲۰۰۶، رومرو ۲۰۰۷)
تخمین[۲۶]
تخمین با نتایج مجزایی که با ارقام پیوسته نشان داده شده اند، سرو کار دارد. در تخمین، داده های ورودی در قالب متغیرهای ورودی به سیستم داده می شود و متغیرهای خروجی آن رقمی چون درآمد یا تراز کارت اغتباری می باشد.
در عمل، تخمین اغلب برای دسته بندی استفاده می شود. روش تخمین فواید زیادی دارد که مهم ترین آن این است که در آن اطلاعات را می توان مطابق تخمین به دست آمده مرتب نمود. برای پی بردن به اهمیت آن فرض کنید که یک شرکت تولید پوتین های اسکی برای ارسال پانصد هزار آگهی تبلیغاتی محصول جدید خود بودجه ریزی نموده است. فرض کنید از روش دسته بندی استفاده شده و یک و نیم میلیون نفر اسکی باز تعیین شده اند، پس به راحتی می توان به صورت تصادفی، تبلیغات را برای پانصد هزار نفر منتخب از آن افراد ارسال نمود؛ در حالی که اگر مدل تخمین، امتیاز تمایل به اسکی را برای کلیه افراد تعیین نماید شایسته است که تبلیغات را برای پانصد هزار نفر از محتمل ترین کاندیداها فرستاد. پر واضح است که احتمال پاسخ گیری و ارسال تبلیغات بر اساس مدل تخمین بسیار بیشتر از ارسال تصادفی تبلیغات می باشد
مدل های رگرسیون و شبکه های عصبی از جمله تکنیک های مناسب داده کاوی برای تخمین می باشد (شهرابی، ۱۳۹۰).
گروه بندی شباهت یا قوانین وابستگی[۲۷]
قوانین وابستگی برای تعیین ویژگی های هم زمانی هستند که در وقوع یک پدیده رخ می دهند. به عبارت دیگر عمل گروه بندی شباهت یا قوانین وابستگی احتمال وقوع و یا عدم وقوع هم زمان ویژگی ها را تعیین می نماید.به عبارت ساده تر گروه بندی شباهت تعیین می کند که چه چیزهایی با هم جورند؛ مثال معمول این موضوع تعیین کالاهایی است که با هم در یک چرخ دستی خرید در سوپرمارکت قرار می گیرند، چیزی که آن را تحلیل سبد بازار می نامیم[۲۸]
گروه بندی شباهت بک روش ساده برای ایجاد قوانین از داده هاست. اگر دو قلم کالا مثلا شیر خشک و پوشک نوزاد در یک قفسه و کنار هم چیده شوند، می توان دو قانون وابستگی ایجاد کرد(شهرابی، ۱۳۹۰):

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...