ژانویه 22, 2021

سامانه پژوهشی – پیش‌بینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیک‌های داده‌کاوی؛ مورد مطالعه …

  1. استقرار طرح
  2. نظارت و نگهداری
  3. آماده‌سازی گزارش نهایی
  4. مرور پروژه

پس از آشنا شدن با نحوه‌ی اجرای پروژه‌های داده‌کاوی و مراحل استخراج دانش، لازم است تمرکز بیشتری بر روی داده‌کاوی و وظایفی که توسط آن قابل انجام است، و همچنین ابزار و تکنیک‌های داده‌کاوی داشته باشیم.
وظایف داده‌کاوی
داده‌کاوی بطور کلی به دو شکل هدایت شده[۴۲] و غیرهدایت شده[۴۳] وجود دارد(شهرابی ۱۳۹۰a). در داده‌کاوی هدایت شده با داشتن یک متغیر هدف خاص و از پیش تعیین شده به دنبال الگویی خاص می‌گردیم، بطوری که در داده‌کاوی غیرهدایت شده هیچ متغیر هدفی وجود نخواهد داشت و هدف یافتن تشابهات بین گروه‌هایی از اطلاعات است. اگر بخواهیم تکنیک‌های داده‌کاوی را بر اساس فعالیت و وظیفه تقسیم‌بندی کنیم، شش عمل زیر را خواهیم داشت(Larose 2005):

  • دسته‌بندی[۴۴]
  • تخمین[۴۵]
  • پیش‌بینی[۴۶]
  • همبستگی[۴۷]
  • خوشه‌بندی[۴۸]
  • توصیف[۴۹]

در این تقسیم‌بندی سه مورد اول داده‌کاوی هدایت شده هستند، همبستگی و خوشه‌بندی جزو داده‌کاوی غیر هدایت شده است و توصیف و نمایه‌سازی نیز می‌تواند هم هدایت شده و هم غیر هدایت شده باشد. در ادامه به توضیح مختصری از هر یک از این وظیفه‌ها می‌پردازیم.
دسته‌بندی
تکنیک‌های دسته‌بندی از جمله تکنیک‌های رایج و پرکاربرد در داده‌کاوی است. دسته‌بندی شامل بررسی ویژگی‌های یک شی جدید و تخصیص آن به یکی از کلاس‌های از قبل تعیین شده است(شهرابی ۱۳۹۰a). به عبارت دیگر، در مسائل دسته‌بندی هدف شناسایی ویژگی‌هایی از داده‌ها است که گروهی که داده به آن تعلق دارد را نشان می‌دهند. از این مدل هم می‌توان برای درک داده‌های موجود استفاده کرد وهم می‌توان آن را برای پیش‌بینی اینکه داده‌های جدید به کدام گروه تعلق دارند بکار برد. به همین دلیل اغلب به ویژگی‌های شناسایی شده متغیرهای پیشگو[۵۰] و به برچسب کلاس‌ها متغیر هدف[۵۱] گفته می‌شود.
برای ایجاد یک مدل دسته‌بندی نیاز به مجموعه داده‌های تاریخی است. این مجموعه داده که مجموعه داده آموزشی[۵۲] نامیده می‌شود شامل هم متغیرهای پیشگو و هم متغیر هدف است. به این طریق، مدل یاد می‌گیرد که چه ترکیبی از متغیرهای پیشگو به کدام متغیر هدف مربوط می‌شوند. سپس، مدل آموزش دیده شده می‌تواند کلاس مجموعه داده‌های تست[۵۳] را که هیچ اطلاعی از متغیر هدف آن‌ها نداریم، پیش‌بینی کند. (معمولا کارایی مدل‌های دسته‌بندی را با مجموعه داده‌های اعتبارسنجی[۵۴] اندازه‌گیری می‌کنند.)
از جمله تکنیک‌های دسته‌بندی می‌توان به درخت تصمیم، دسته‌بند بیزین، k- نزدیکترین همسایه (KNN)، شبکه عصبی و SVM اشاره کرد.
تخمین
تخمین شبیه دسته‌بندی است با این تفاوت که متغیر هدف بجای این که دسته‌ای باشد بصورت عددی است (Larose 2005). مانند دسته‌بندی، یک مدل تخمین با استفاده از رکوردهای کاملی که حاوی مقادیر متغیر هدف و متغیرهای پیشگو است ساخته می‌شود. سپس، برای مشاهدات جدید، مقدار متغیر هدف بر اساس مقادیر متغیرهای پیشگو تخمین زده می‌شود.
مدل‌های رگرسیون و شبکه عصبی از جمله تکنیک‌های مناسب داده‌کاوی برای تخمین هستند.
پیش‌بینی
پیش‌بینی مانند تخمین و دسته‌بندی است بجز اینکه در پیش‌بینی نتایج به آینده مربوط می‌شود(Larose 2005). تمامی تکنیک‌های استفاده شده در دسته‌بندی و تخمین را می‌توان تحت شرایط خاص برای پیش‌بینی بکار گرفت. پیش‌بینی‌هایی که بر اساس مدل‌های دسته‌بندی ارائه می‌شوند دارای یک خروجی گسسته هستند که برچسب کلاس را برای آن مشاهده پیش‌بینی می‌کنند.
پیش‌بینی مقادیر پیوسته بر اساس یک سری خصوصیات داده شده، نوعی از پیش‌بینی است که به عنوان مثال می‌توان به پیش‌بینی درآمد یک فرد بر اساس مشخصات وی اشاره کرد. درخت تصمیم و شبکه‌های عصبی تکنیک‌هایی هستند که در این نوع پیش‌بینی‌ها قابل استفاده هستند. نوع دیگری از پیش‌بینی‌ها، پیش‌بینی یک یا چند مقدار بر اساس الگوهای تکراری و متوالی است. پیش‌بینی سطح سهام بازار در ۳۰ روز آینده بر اساس داده‌های ۶ ماه گذشته مثالی از این نوع پیش‌بینی‌ها است. این گونه پیش‌بینی‌ها به کمک سری‌های زمانی و تکنیک‌های رگرسیون انجام می‌شود.
همبستگی
قوانین همبستگی[۵۵] که گروه‌بندی شباهت[۵۶] نیز نامیده می‌شوند برای تعیین ویژگی‌های همزمانی هستند که در وقوع یک پدیده رخ می‌دهند. به عبارت دیگر، گروه‌بندی شباهت احتمال وقوع و یا عدم وقوع همزمان ویژگی‌ها را تعیین می‌نماید(شهرابی ۱۳۹۰a). با توجه به مقیاس‌پذیری الگوریتم‌های قوانین همبستگی و حجم داده‌ها که دائما در حال افزایش است، می‌توان قوانین همبستگی را یکی از ابزارهای ضروری داده‌کاوی جهت استخراج دانش از داده‌ها قلمداد کرد.
تحلیل سبد خرید[۵۷] یکی از بارزترین کاربردهای قوانین همبستگی بشمار می‌رود. در این تحلیل سعی می‌شود تا از طریق یافتن روابط و وابستگی‌های موجود بین اجناس خریداری شده توسط مشتری‌ها، الگوهای خرید شناسایی و تحلیل شوند(شهرابی and شجاعی ۱۳۸۸). به عنوان مثال، برای مشتری که شیر خریداری کرده چقدر احتمال دارد نان نیز خریداری کند. خروجی این تحلیل قوانینی به صورت قوانین اگر – آنگاه است که افراد را در رقابت‌های بازاریابی و نیز چیدمان مناسب اجناس در فروشگاه‌ها یاری می‌رساند. به منظور سنجش کیفیت یک قانون از مفاهیم پشتیبانی[۵۸] و اطمینان[۵۹] استفاده می‌شود.
پشتیبانی: درصدی از تراکنش‌هایی است که شامل هم مقدم و هم تالی قانون باشند (Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنش‌هایی که شامل مقدم و تالی هستند به تعداد کل تراکنش‌ها.
اطمینان: درصدی از تراکنش‌هایی است که وقتی مقدم قانون در آن ظاهر شده است، تالی نیز در آن وجود داشته باشد (Witten and Frank 2005). به عبارت دیگر، برابر است با نسبت تعداد تراکنش‌هایی که شامل مقدم و تالی هستند به تعداد تراکنش‌هایی که شامل مقدم هستند.
خوشه‌بندی
خوشه‌بندی به عمل تقسیم جمعیت ناهمگن به تعدادی زیر مجموعه یا خوشه‌های همگن گفته می‌شود(شهرابی ۱۳۹۰a). وجه تمایز خوشه‌بندی از دسته‌بندی این است که خوشه‌بندی به دسته‎‌های از پیش تعیین شده تکیه ندارد. در خوشه‌بندی هیچ دسته از پیش تعیین شده‌ای وجود ندارد و داده‌ها صرفا بر اساس تشابه گروه‌بندی می‌شوند. بنابراین، برای اینکه بتوانیم داده‌ها را خوشه‌بندی کنیم باید بتوانیم میزان شباهت آنها را بدست آوریم. اینکار معمولا با استفاده از مقیاس‌های اندازه‌گیری فاصله که معرفترین آنها فاصله اقلیدسی است، انجام می‌شود.
چنانچه مشخص است، تعداد حالت‌های زیادی برای خوشه‌بندی n داده در k خوشه وجود دارد؛ تعداد این حالات حتی با در اختیار نداشتن تعداد خوشه‌ها (k) نیز افزایش خواهد یافت. به همین دلیل نیاز به معیارهایی برای سنجش اعتبار خوشه‌بندی داریم. فشردگی و تفکیک‌پذیری دو ویژگی اساسی و جالب در مورد خوشه‌ها هستند که می‌توانند به عنوان شاخص اعتبار خوشه محاسبه شوند(شهرابی and شجاعی ۱۳۸۸).
فشردگی: فشردگی، بیان کننده این موضوع است که عناصر موجود در خوشه چقدر به یکدیگر نزدیک هستند. به عنوان مثال،واریانس عناصر نشان دهنده فشردگی داده‌ها است؛ بطوری که هرچه واریانس کمتر باشد، فشردگی داده‌ها بیشتر است. می‌توان فاصله میان عناصر موجود در خوشه را نیز محاسبه کرد.
تفکیک‌پذیری: بوسیله این ویژگی، مجزا بودن خوشه‌ها را ارزیابی می‌کنیم. یکی از روش‌های تعیین تفکیک‌پذیری، محاسبه فواصل بین خوشه‌ای است.
بنابر آنچه گفته شد، به دنبال ساختاری هستیم که عناصر درون خوشه‌ها بیشترین شباهت را با یکدیگر و بیشترین اختلاف را با دیگر خوشه‌ها داشته باشند. به عبارت دیگر، ساختاری را مطلوب می‌پنداریم که در آن مقادیر فواصل درون خوشه‌ای کم و مقادیر فواصل بین خوشه‌ای زیاد باشد.

برای دانلود فایل متن کامل پایان نامه به سایت 40y.ir مراجعه نمایید.