نوامبر 30, 2020

پژوهش – پیش‌بینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیک‌های داده‌کاوی؛ مورد مطالعه اپراتور …

  • نمونه‌گیری به صورت تصادفی: زمانی از این روش استفاده می‌شود که مجموعه داده ناشناخته باشد و درکی از مجموعه داده موجود نباشد.
  • نمونه‌گیری بدون جایگزینی: زمانی از این روش استفاده می‌شود که مجموعه داده کوچک بوده و رکوردها شبیه به هم نباشد.
  • نمونه‌گیری با جایگزینی: در این روش هر رکورد می‌تواند بیش از یکبار در نمونه آورده شود. از این روش زمانی استفاده می‌شود که مجموعه داده بزرگ و رکوردها شبیه به هم باشند.
  • نمونه‌گیری از دسته: ابتدا رکوردها را بر اساس معیاری دسته‌بندی کرده و از هر دسته، تعدادی رکورد انتخاب می‌شود.

در مواقعی که معیارهایی مانند سرعت و پیچیدگی زمانی مهم نیستند، روش نمونه‌گیری بدون جایگزینی مناسب‌تر از نمونه‌گیری با جایگزینی است. در نمونه‌گیری هر چقدر تعداد رکوردها بیشتر باشد امکان به‌دست آوردن نظم موجود بیشتر خواهد بود. نباید نمونه خیلی کوچک باشد که نظم موجود در داده‌ها از بین برود.

  1. کاهش بعد[۳۱]:

زمانی که بعد داده‌ها بالا باشد در این صورت پراکندگی داده بیشتر و هر چقدر پراکندگی داده‌ها بیشتر، داده‌ها از هم دورتر خواهند بود. در این صورت نمی‌توان به‌خوبی نظم موجود در داده‌ها را پیدا کرد و ممکن است برخی از نظم‌ها با افزایش بعد داده از بین برود. پس بهتر است تا حد امکان ویژگی‌های نامربوط در مسئله مورد بررسی حذف شوند. اهداف این مرحله عبارت است از:

  • کاهش ابعاد: این کار باعث کاهش زمان و افزایش سرعت در الگوریتم مورد نظر می‌شود.
  • درک آسان‌تر: انسان می‌تواند تا چهار بعد را درک کند، پس هر چقدر ابعاد مسئله کوچک‌تر شود درک مسئله آسان‌تر می‌شود.
  • بالا رفتن دقت و سرعت الگوریتم: با حذف ویژگی‌هایی که نمی‌تواند اثر مثبتی بر روی هدف تعیین شده در مسئله داشته باشد، سرعت اجرا الگوریتم بالا می‌رود و الگوریتم درگیر ویژگی‌های غیرمفید نمی‌شود. علاوه بر این، حذف ویژگی‌های غیر مرتبط باعث می‌شود تشخیص داده‌های نویز راحت‌تر شود.
این مطلب را هم بخوانید :  سامانه پژوهشی - پیش‌بینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیک‌های داده‌کاوی؛ مورد مطالعه ...

  1. انتخاب زیرمجموعه‌ای از ویژگی‌ها[۳۲]:

تعداد زیاد ویژگی‌ها بر سرعت اجرای الگوریتم‌ها اثر منفی می‌گذارد. لازم است بنابر هدف، مجموعه‌ای از ویژگی‌ها انتخاب شود. بعضی از ویژگی‌ها در تمام مسائل ویژگی‌های هستند که کمکی به حل مسئله نمی‌کنند. برای هر هدفی می‌توان با استفاده از الگوریتم‌هایی مانند درخت تصمیم ویژگی‌های مهم‌تر را شناسایی کرد و از آن ویژگی‌ها برای ایجاد مدل‌ استفاده کرد.

برای دانلود فایل متن کامل پایان نامه به سایت 40y.ir مراجعه نمایید.

  1. ایجاد ویژگی:

با توجه به ویژگی‌های موجود می‌توان ویژگی جدیدی ایجاد کرد. به طوری که ویژگی ایجاد شده اطلاعات مهمی در مورد مجموعه داده در اختیار محقق قرار می‌دهد. سه روش برای ایجاد یک ویژگی وجود دارد که عبارت است از:

  • استخراج ویژگی[۳۳]: زمانی که مجموعه داده مورد بررسی شامل داده‌های چند رسانه‌ای باشد، استخراج ویژگی بسیار موثر خواهد بود.
  • نگاشت داده به یک فضای جدید: با استفاده از نگاشتی داده از یک بعد به بعد دیگر انتقال داده می‌شود. این کار در الگوریتم تحلیل مولفه‌های اصلی و همچنین نوعی از الگوریتم ماشین بردار پشتیبان انجام می‌شود.
  • ترکیب ویژگی‌ها: این کار در مرحله تجمیع داده‌ صورت می‌گیرد.

مرحله سوم، تبدیل[۳۴]در این مرحله داده‌ها در صورت نیاز از یک حوزه به حوزه دیگر منتقل می‌شوند و برای تحلیل آماده می‌شوند.
مرحله چهارم، داده‌کاویدر این مرحله از الگوریتم‌های داده‌کاوی برای ساخت مدل استفاده می‌شود. تعدادی از الگوریتم‌های داده‌کاوی در همین فصل توضیح داده شده‌اند.
مرحله پنجم، ارزیابی و بازنماییدر این مرحله دقت هر الگوریتم‌ ارزیابی می‌شود. به‌عبارت دیگر تشخیص الگوهای صحیح مورد نظر، از سایر الگوها در این مرحله انجام می‌شود و صحت الگوها بر اساس معیارهایی سنجیده می‌شود.
مرحله ششم، دانشدانش به‌دست آمده از الگوریتم‌ها به روشی که برای انسان قابل درک باشد، بیان می‌شود.
فرآیند CRISP – DM [۳۵]
روش‌های گوناگونی برای پیاده‌سازی و اجرای پروژ‌ه‌های داده‌کاوی وجود دارد. استفاده از این روش‌ها باعث می‌شود، داده‌کاو مدیریت بهتری بر روی پروژه مورد بررسی خود داشته باشد. یکی از روش‌های بسیار قوی و رایج در ادبیات داده‌کاوی فرآیند CRISP-DM است. این فرآیند استانداردی جهانی برای انجام پروژه‌های کاربردی در داده‌کاوی است که از شش فاز به صورت یک روند حلقه‌ای تشکیل شده است. شکل ۲-۳ نحوه قرار گرفتن این شش فاز را در این مدل نمایش می‌دهد (شهرابی ۱۳۹۰a).
شکل ‏۲‑۳ : فرآیند CRISP-DM
فاز اول – درک فضای کسب و کار[۳۶]
در این فاز تمرکز اصلی بر روی تعیین اهداف پروژه و نیازهای وابسته به آن است که از منظر کسب ‌وکار مطرح می‌شود. در واقع در این فاز سعی می‌شود با توجه به نیازهای سازمان و خواسته‌های مورد انتظار از سازمان مسئله‌ای تعریف گردد. سپس مسئله‌ی تعریف شده به صورتی تبدیل می‌شود تا تکنیک‌های داده‌کاوی در آن قابل اجرا باشد. به‌عبارت دیگر، برای این‌که داده‌کاو فعالیت خود را آغاز کند، نیاز دارد با محیط و فرآیندها آشنا شود. هدف تحلیل‌گر کشف شاخص مهمی در آغاز پروژه است که می‌تواند در خروجی نهایی تأثیرگذار باشد. این فاز از چهار زیرفاز زیر تشکیل شده است:

این مطلب را هم بخوانید :  دسته بندی علمی - پژوهشی : رابطه هوش هیجانی و مهارت‌های ارتباطی با سلامت روان کارکنان اداره کل ورزش ...