نوامبر 30, 2020

فايل دانشگاهی – پیش‌بینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیک‌های داده‌کاوی؛ مورد مطالعه اپراتور …

اگرچه عبارت داده‌کاوی اغلب به عنوان کشف دانش مورد استفاده قرار می‌گیرد، ولی فرآیند کشف دانش مفهومی گسترده‌تر دارد که در ادامه به توضیح آن خواهیم پرداخت.
فرآیند کشف دانش
فرآیند استخراج دانش در شکل ۲-۱ نشان داده شده است. همان‌طور که در شکل مشاهده می‌کنید، فرآیند کشف دانش یک فرآیند شش مرحله‌ای است که داده‌کاوی فقط گامی از این فرآیند است(Han, Kamber et al. 2011).
شکل ‏۲‑۱ : فرآیند کشف دانش
مراحل فرآیند استخراج دانش عبارت است از:
مرحله اول، انتخاب[۲۰] داده: ورودی این مرحله حجم عظیمی از داده‌ است. داده‌ها عموما در شکل‌های گوناگون و در مکان‌های مختلف نگه‌داری می‌شوند. ابتدا باید داده‌ها یک‌پارچه و در یکجا ذخیره شوند. پس انبارداده‌ای[۲۱] ایجاد می‌شود که مجموعه‌ای از مارت داده‌ها[۲۲] است. انبارداده مجموعه‌ای از اطلاعات درباره موضوعات مختلف در گستره یک سازمان است، اما مارت داده‌ها زیر مجموعه‌ای از انبار داده است. انبارداده مخاطبش کل سازمان است درحالی‌که مارت داده‌ها بر اساس موضوعی که جمع‌آوری شده است در همان بخش از سازمان مورد استفاده قرار می‌گیرد. انبار داده از طریق فرآیند پاکسازی داده، یکپارچه‌سازی داده‌ها، انتقال داده‌ها، بارگیری داده‌ها و داده‌های متناوب ساخته می‌شود. اما معمولاً انبار داده به‌وسیله پایگاه داده‌های چند بعدی مدل می‌شوند، که هر کدام از بعدهای انبار داده نشان دهنده یک یا مجموعه‌ای از صفات[۲۳] است. حال با توجه به مسئله مورد بحث و کاربردی که هدف فرآیند داده‌کاوی است؛ از این انبار داده، مجموعه‌ای از داده‌ها انتخاب می‌شود. پس خروجی مرحله انتخاب، یک مجموعه داده هدف[۲۴] است (Sumathi and Sivanandam 2006).
مرحله دوم، پیش‌پردازش[۲۵]داده‌های موجود در بانک‌های اطلاعاتی به‌خودی خود قابل استخراج شدن نیستند؛ زیرا کیفیت داده‌های اصلی پایین است. در این مرحله یک سری پردازش‌هایی بر روی داده انجام می‌شود تا داده‌ها آماده‌ی فرآیند داده‌کاوی شوند. خروجی این مرحله، داده‌های آمایش شده است. سه عامل بر روی کیفیت داده‌ها تاثیرگذار است که در ذیل به آن‌ها اشاره می‌کنیم:

  1. مقادیر مفقود شده[۲۶]: اگر مقادیر برخی از رکوردها در مجموعه داده مورد بررسی در بعضی از ویژگی‌ها موجود نباشد در این صورت در آن ویژگی در رکورد مورد نظر با مشکل مقدار مفقود شده مواجه خواهیم بود (Larose 2005). برای برطرف کردن مقادیر مفقود شده، شش رویکرد توسط هان و همکاران ارائه شده است که عبارت است از (Han, Kamber et al. 2011):
    برای دانلود فایل متن کامل پایان نامه به سایت 40y.ir مراجعه نمایید.

    1. حذف کردن رکوردهایی که دارای مقادیر مفقود شده هستند.
    2. پر کردن دستی مقادیر مفقود شده.
    3. پر کردن مقادیر با یک مقدار ثابت یا نامشخص.
    4. پر کردن خودکار با استفاده از میانگین و یا مد در رکوردهای موجود.
    5. پر کردن خودکار با استفاده از میانگین و یا مد آن ویژگی در رکوردهای موجود در کلاس مشابه با کلاس رکورد با مقادیر مفقود شده.
    6. پر کردن خودکار با استفاده از استنتاج از روی سایر ویژگی‎های موجود در مجموعه داده و استفاده از الگوریتم‌های داده‌کاوی.
  2. نویز : تغییراتی که در مقدار اصلی ویژگی ایجاد می‌شود را نویز گویند (Larose 2005). اگر مقادیر ویژگی در مقدار کوچکی مانند ε اضافه و یا از این مقدار کم شده باشد، در آن ویژگی نویز ایجاد شده است. مقادیر نویز در ویژگی‌ها قابل رفع شدن هستند.
  3. مقادیر دور افتاده[۲۷] : به مقادیری واقعی از ویژگی‌ها گفته می‌شود که با مقادیر دیگر ویژگی تفاوت معناداری داشته باشند. به‌عبارت دیگر، مقادیری که متفاوت از اکثریت مقادیر موجود باشند؛ مقادیر دور افتاده هستند (Larose 2005). در شکل ۲-۲ نقاط دور افتاده مشخص شده‌اند.
این مطلب را هم بخوانید :  تحقيق - پیش‌بینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیک‌های ...

شکل ‏۲‑۲ : داده‌های دور افتاده
تفاوت داده‌های دور افتاده با نویز در این است که داده‌های دور افتاده به مقادیر واقعی گفته می‌شود که هویت دارند و مقادیر ناخواسته نیستند، در حالی‌که نویز مقادیر ناخواسته‌ای هستند که مقادیر اصلی را تغییر داده‌اند. مقادیر نویز هر ویژگی قابل رفع شدن است و باید این مقادیر رفع شوند. اما روش برخورد با داده‌های دور افتاده بستگی به کاربرد مسئله دارد. در بعضی از کاربردها باید نقاط دور افتاده را از تحلیل‌ها حذف کرد و در بعضی از کاربردها باید تحلیلی روی نقاط دور افتاده انجام داد (Han, Kamber et al. 2011).
پس از آن که هر یک از مشکلات ذکر شده در بالا از میان داده‌ها شناسایی و برطرف شدند، پردازش‌هایی در جهت آماده‌سازی داده‌ها برای مدل‌سازی بر روی داده‌ها انجام می‌شود. نمونه‌ای از این پردازش‌ها عبارتند از:

  1. تجمیع:

در این مرحله بر اساس هدف مشخص شده چند ویژگی با هم ترکیب و یک ویژگی ایجاد می‌شود. به این نکته توجه داشته باشید زمانی که بعد یا مقیاس[۲۸] داده بالا باشد، باعث می‌شود دانشی از دست برود. به این منظور این مرحله قبل از اجرای الگوریتم‌های داده‌کاوی بر روی داده انجام می‌شود. اهداف فرآیند تجمیع عبارتند از:

  • کاهش ویژگی‌ها‌ و رکوردها،
  • تغییر دادن مقیاس داده؛ به‌عنوان مثال، می‌‌توان به‌جای ویژگی‌هایی مانند منطقه، ایالت و ناحیه، شهر را جایگزین کرد. این کار ممکن است دقت مسئله را کاهش دهد، اما باعث می‌شود فرآیند داده‌کاوی بر روی داده انجام شود.
  • پایدار[۲۹] کردن داده؛ اگر یک ویژگی، ویژگی باشد که تعداد مقادیر زیادی را اختیار کنند؛ در این صورت این ویژگی نمی‌تواند ویژگی موثری در فرآیند داده‌کاوی باشد. چنین ویژگی‌ای باعث می‌شود دقت الگوریتم به شدت کاهش یابد. حال اگر بتوان بازه تغییرات ویژگی‌ها را کاهش داد، می‌توان از ویژگی‌ای که تأثیر منفی بر فرآیند داده‌ کاوی می‌گذارد، ویژگی ایجاد کرد که تأثیر مثبتی بر روی الگوریتم‌ها داشته باشد.
این مطلب را هم بخوانید :  سايت مقالات فارسی - پیش‌بینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیک‌های داده‌کاوی؛ ...

  1. نمونه‌گیری[۳۰]:

فرآیند نمونه‌گیری گاهی برای پردازش داده‌ها مورد استفاده قرار می‌گیرد. زمانی‌که با مجموعه داده‌های ناآشنا کار می‌شود، می‌توان از این گام برای شناخت مجموعه داده استفاده کرد. نمونه‌گیری در داده‌کاوی با مفهوم نمونه‌گیری آماری متفاوت است. در آمار نمونه‌گیری انجام می‌شود، به سبب آن که دسترسی به تمام رکوردها بسیار گران و هزینه‌بر است. اما در داده‌کاوی نمونه‌گیری به دلیل در دسترس نبودن رکوردها نیست، بلکه به دلیل هزینه‌بر و زمان‌بر بودن اجرای الگوریتم‌های داده‌کاوی بر روی تمام رکوردها است. در این حالت اگر الگوریتم‌های داده کاوی بر روی تمام رکوردهای موجود در پایگاه داده اجرا شود، الگوریتم مرتبه زمانی بسیار بالای خواهد داشت. پس گاهی به سبب زمان‌بر و هزینه‌بر بودن و گاهی نیز به دلیل در دسترس نبودن سیستم‌هایی که بتواند با حجم بالای از داده‌ها کار کند، باید از رکوردها نمونه‌گیری شود. نمونه باید به گونه‌ای باشد که نماینده مناسبی از مجموعه داده باشد. برای انتخاب یک نمونه مناسب باید به مسئله‌ توجه شود و با توجه به مسئله، نمونه انتخاب شود. علاوه بر این در نمونه‌گیری باید به توزیع ویژگی‌‌های مهم‌تر توجه بیشتری شود. فرآیند نمونه‌گیری می‌تواند یکی از چهار روش زیر باشد: