نوامبر 30, 2020

مقاله علمی با منبع : پیش‌بینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیک‌های داده‌کاوی؛ مورد مطالعه …

در کتاب هان و کرامبر روش‌های خوشه‌بندی به پنج دسته تقسیم شده است: روش‌های بخش‌بندی، روش‌های سلسله‌مراتبی، روش‌های مبتنی بر تراکم، روش‌های مبتنی بر Grid و روش‌های مبتنی بر مدل (Han, Kamber et al. 2011). در ادامه به توضیح مختصری از هر یک از دسته‌ها می‌پردازیم.
خوشه‌بندی مبتنی بر بخش‌بندی[۶۰]: در این نوع خوشه‌بندی اساس کار یک تابع هدف مشخص است که کمینه‌سازی آن، ما را به کشف ساختار موجود در مجموعه داده رهنمون می‌سازد (شهرابی and شجاعی ۱۳۸۸). با وجود آنکه ساختار الگوریتمی بسیار جذاب و متقاعدکننده است (مسئله بهینه‌سازی را می‌توان به خوبی فرموله کرد)؛ ولی، از آنجایی که شخص نمی‌داند چه نوع ساختاری را باید انتظار داشته باشد، تعیین مناسب‌ترین فرم برای تابع هدف با دشواری‌های فراوانی همراه است. بطور معمول، در این گروه از الگوریتم‌ها، تعداد خوشه‌ها را از قبل تعیین کرده و کار را با بهینه‌سازی تابع هدف ادامه می‌دهند.
الگوریتم‌هایی مانند [۶۱]CLARA، [۶۲]CLARANS، k – means، c – means و [۶۳]PAM نمونه‌هایی از الگوریتم‌های این گروه هستند (Mitra and Acharya 2003).
خوشه‌بندی سلسله‌مراتبی: در این نوع از روش‌های خوشه‌بندی، داده‌ها در درختی از خوشه‌ها گروه‌بندی می‌شوند. به طور کلی روش‌های سلسله‌مراتبی را می‌توان به دو دسته تقسیم کرد: روش‌های جمع‌کننده[۶۴] و روش‌های تقسیم‌کننده[۶۵] (شهرابی and شجاعی ۱۳۸۸). روش‌های جمع‌کننده در ابتدا هر داده را در خوشه‌ای جداگانه قرار می‌دهند. سپس خوشه‌ها را با هم ادغام کرده و خوشه‌های بزرگتری ایجاد می‌کنند. این کار تا زمانی ادامه می‌یابد که یا تمام داده‌ها در یک خوشه واحد قرار گیرند و یا شرط معینی برقرار شود، مثلاً تعداد خوشه‌ها به مقدار دلخواه برسد. در هر مرحله خوشه‌هایی به هم متصل می‌شوند که بیشترین شباهت را با هم دارند. برای بررسی میزان شباهت خوشه‌ها الگوریتم‌های مختلفی وجود دارد. دسته دوم که روش‌های تقسیم‌کننده نامیده می‌شوند عکس روش فوق را اعمال می‌کنند، یعنی درخت را از بالا به پایین می‌سازند.
برای بررسی میزان شباهت خوشه‌ها می‌توان فاصله بین خوشه‌ها را معیار مناسبی در نظر گرفت. روش‌های مختلفی مانند روش تک‌اتصالی[۶۶]، اتصالی کامل[۶۷] و اتصال میانگین گروهی[۶۸] برای محاسبه فاصله بین خوشه‌ها استفاده می‌شود (شهرابی and شجاعی ۱۳۸۸).
خوشه‌بندی مبتنی بر تراکم: بسیاری از روش‌های بخش‌بندی، داده‌ها را بر اساس فاصله آنها با یکدیگر خوشه‌بندی می‌کنند. چنین روش‌هایی فقط خوشه‌های کروی شکل را پیدا می‌کنند (مانند k – means). در خوشه‌بندهایی که بر اساس تراکم داده‌ها انجام می‌شود، می‌توان خوشه‌هایی پیدا کرد که دارای شکل‌های پیچیده‌تری هستند. ایده اصلی این روش‌ها به این صورت است که یک خوشه تا زمانی که تراکم همسایگی تمامی اشیاء مرزی آن از حد معینی کمتر نشده گسترش می‌یابد. منظور از تراکم همسایگی یک شیء، تعداد اشیائی است که در فاصله ε از آن شیء قرار گرفته‌اند. چنین روش‌هایی برای فیلتر کردن نویزها و یافتن خوشه‌هایی با شکل‌های دلخواه به کار می‌رود (Han, Kamber et al. 2011). الگوریتم‌های DBSCAN[69]، OPTICS[70]، DENCLUE و [۷۱]CLIQUE در این دسته از الگوریتم‌ها قرار می‌گیرند (شهرابی and شجاعی ۱۳۸۸).
خوشه‌بندی مبتنی بر Grid: در این نوع خوشه‌بندی فضای اشیاء را به تعداد محدودی سلول کوانتیزه می‌کنند که این سلول‌ها یک Grid را بوجود می‌آورند. تمامی اعمال خوشه‌بندی بر روی ساختار این Grid (ساختار مشبک) انجام می‌شود. مزیت مهم این روش سرعت بالای آن است که مستقل از تعداد اشیاء بوده و فقط به تعداد سلول‌ها در هر بعد از فضای کوانتیزه شده بستگی دارد. الگوریتم‌های [۷۲]STING و CLIQUE نمونه‌هایی از این الگوریتم‌ها هستند.
خوشه‌بندی مبتنی بر مدل: الگوریتم‌های این دسته، برای هر خوشه مدلی را در نظر گرفته و سعی می‌کنند به بهترین نحو داده‌ها را به آن مدل‌ها انطباق دهند. دو راه عمده برای این کار وجود دارد: راه اول روش‌های آماری مانند COBWEB و CLASSIT و راه دوم شبکه‌های عصبی مانند [۷۳]SOM است.
توصیف
گاهی اوقات هدف داده‌کاوی، تنها توصیف آن چیزی است که در یک پایگاه داده‌ای پیچیده در جریان است. توصیف الگوها و روندها اغلب توضیحات ممکنی برای آن الگوها و روندها ایجاب می‌کند و درک ما را از مردم، محصولات و یا فرآیندهایی که داده‌ها در مرحله اول تولید کرده‌اند، افزایش می‌دهد.
مدل‌های داده‌کاوی باید تا حد ممکن شفاف باشند؛ به این معنی که نتایج مدل‌های داده‌کاوی باید الگوهای روشنی را که تمایلی به توضیح و تفسیر شهودی دارند، توصیف کنند. برخی از مدل‌های داده‌کاوی دارای تفسیر شفاف‌تری نسبت به دیگر مدل‌ها دارند. به عنوان مثال، درخت تصمیم توضیحات شهودی و انسان دوستانه‌ای از نتایج خود فراهم می‌آورد؛ در حالی که شبکه‌های عصبی با ارائه‌ی مدل‌های پیچیده نیاز به تفسیر نتایج دارند، به همین دلیل گاهی به شبکه‌های عصبی جعبه سیاه گفته می‌شود.
درخت تصمیم و تکنیک‌های آماری ابزار مفیدی برای توصیف هستند؛ قوانین همبستگی و خوشه‌بندی را نیز می‌توان برای توصیف استفاده کرد.
ابزار و تکنیک‌های داده‌کاوی
ابزارها و تکنیک‌های بیشماری برای انجام پروژه‌های داده‌کاوی وجود دارد. بیشتر تکنیک‌های داده‌کاوی از سال‌ها و یا دهه‌های قبل وجود داشته‌اند و ریشه در علومی دیگر چون آمار و ریاضی و زیرشاخه‌های علوم کامپیوتر مانند هوش مصنوعی و یادگیری ماشین دارند. در این تحقیق سعی کرده‌ایم به معرفی تکنیک‌هایی بپردازیم که پرکاربرد بوده و یا در تحقیق مورد استفاده قرار گرفته است.
درخت تصمیم
درخت تصمیم از تکنیک‌های پرکاربرد و رایج داده‌کاوی است که برای اهداف دسته‌بندی و پیش‌بینی مورد استفاده قرار می‌گیرد. الگوریتم‌های این تکنیک در حیطه الگوریتم‌های یادگیری با ناظر بشمار می‌رود و بر اساس الگوریتم یادگیری مفهوم طراحی شده‌اند. یک درخت تصمیم از تعدادی گره[۷۴] و شاخه[۷۵] تشکیل شده است. شاخه‌ها، گره‌ها را به یکدیگر متصل می‌کنند. گره‌هایی که در انتهای درخت واقع هستند را برگ[۷۶] می‌نامیم. برگ‌ها بیانگر برچسب کلاس‌ها هستند. گره‌ای که در بالاترین سطح از درخت قرار دارد ریشه[۷۷] نامیده می‌شود. ریشه شامل تمام داده‌های آموزشی است که باید به کلاس‌های مختلف تقسیم شوند. تمامی گره‌ها، بجز برگ‌ها را گره‌های تصمیم[۷۸] می‌نامند. در هر کدام از این گره‌ها، تصمیم‌گیری در مورد فعالیتی که باید انجام شود با توجه به یک خصیصه صورت می‌گیرد. هر کدام از گره‌ها داری فرزندانی هستند که تعداد فرزندان هر گره برابر با تعداد مقادیری است که خصیصه مورد نظر می‌تواند اختیار کند (شهرابی and شجاعی ۱۳۸۸).
الگوریتم‌های مختلفی برای تولید درخت تصمیم وجود دارد. تمامی این الگوریتم‌ها بر اساس الگوریتم یادگیری مفهوم هانت طراحی شده‌اند. این الگوریتم، روشی را مد نظر قرار داده است که انسان‌ها از آن به منظور یادگیری مفاهیم ساده استفاده می‌کنند. در این روش خصیصه‌های اصلی که متمایزکننده دو گروه اصلی متفاوت هستند، مشخص می‌شوند. برای انجام این کار، از نمونه‌های آموزشی مثبت و منفی استفاده می‌شود. الگوریتم هانت بر پایه استراتژی تقسیم و غلبه[۷۹] بنا نهاده شده است. مجموعه‌های آموزشی به طور بازگشتی با انتخاب بهترین خصیصه به عنوان متمایز کننده به گونه‌ای به زیرمجموعه‌های کوچک‌تر افراز می‌شوند که هر زیر مجموعه تنها حاوی نمونه‌هایی باشد که به یک کلاس تعلق دارند (شهرابی and شجاعی ۱۳۸۸). به این ترتیب، با انتخاب پی در پی خصیصه‌های متمایز کننده، درخت تصمیم شکل می‌گیرد.
آنچه که باعث می‌شود الگوریتم‌های متفاوتی برای ایجاد درخت تصمیم وجود داشته باشد، عامل انتخاب خصیصه متمایزکننده است. معیارهای گوناگونی برای انتخاب خصیصه وجود دارد که مهم‌ترین آن عبارت است از:

این مطلب را هم بخوانید :  سايت مقالات فارسی - پیش‌بینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیک‌های داده‌کاوی؛ ...

دانلود متن کامل پایان نامه در سایت jemo.ir موجود است

  • شاخص جینی[۸۰]: یک شاخص رایج تقسیم‌بندی، جینی نام دارد که از نام کورادو جینی[۸۱]، متخصص آمار و اقتصاددان ایتالیایی گرفته شده است. این شاخص احتمال قرارگیری دو مورد انتخاب شده تصادفی از یک جمعیت یکسان را در یک دسته نشان می‌دهد. برای یک جمعیت خالص، این احتمال برابر یک است. اندازه‌گیری جینی یک گره، به صورت مجموع نسبت‌های دسته‌ها است. برای محاسبه تاثیر یک تقسیم، امتیاز جینی هر گره فرزند را محاسبه کرده و در نسبت اطلاعات که به آن گره می‌رسد ضرب کرده وسپس اعداد حاصل را با هم جمع می‌کنیم (شهرابی ۱۳۹۰b). الگوریتم CART[82] برای پیاده‌سازی از این معیار استفاده می‌کند.
  • بهره اطلاعات[۸۳]: در منظر بهره اطلاعات، اگر یک برگ کاملا خالص باشد آنگاه دسته‌های این برگ را می‌توان به راحتی اینگونه توصیف کرد که همگی آنها در یک دسته جای می‌گیرند. از طرف دیگر، اگر یک برگ دارای ناخالصی بالایی باشد آنگاه توصیف آن بسیار مشکل خواهد بود. برای بیان این وضعیت اندازه‌ای به نام آنتروپی[۸۴] تعریف می‌گردد. آنتروپی میزان بی‌نظمی یک سیستم است. آنتروپی یک گره خاص در یک درخت تصمیم عبارت است ازجمع نسبت‌های داده‌های متعلق به یک دسته خاص برای تمام دسته‌هایی که در گره نشان داده شده‌اند که در لگاریتم پایه دو آن نسبت ضرب شده است. آنتروپی یک تقسیم به صورت مجموع آنتروپی تمام گره‌های ناشی از تقسیم که بوسیله نسبت داده‌های هر گره وزن‌دهی شده است بدست می‌آید (شهرابی ۱۳۹۰b). الگوریتم [۸۵]ID3 از بهره اطلاعات برای انتخاب خصیصه استفاده می‌کند.
  • نسبت بهره[۸۶]: اندازه‌گیری آنتروپی زمانی با مشکل مواجه می‌شود که به یک تقسیم‌بندی با متغیرهای دسته‌ای مواجه شویم. مشکل در اینجا کاهش تعداد دسته‌های نمایش داده شده در هر گره و متعاقب آن کاهش آنتروپی است که صرفا از شکستن مجموعه داده‌های بزرگ‌تر به زیرمجموعه‌های کوچک‌تر ناشی می‌شود. کاهش آنتروپی که مربوط به تعداد شاخه‌ها باشد را اطلاعات نهادی[۸۷] یک تقسیم‌بندی می‌نامند. اطلاعات نهادی موجب می‌شود تا درخت تصمیم ایجاد شده پر برگ و بار شود. درخت‌های پر برگ با تقسیمات متعدد چند مسیری مطلوب نیستند چرا که این تقسیمات به تعداد کم داده‌ها در هر گره منجر شده و مدل‌های حاصله از این طریق ناپایدار خواهند بود. برای رفع این مشکل، از نسبت کل بهره اطلاعاتی استفاده می‌کنند (شهرابی ۱۳۹۰b). الگوریتم‌ C4.5 از نسبت بهره برای انتخاب خصیصه استفاده می‌کند.
این مطلب را هم بخوانید :  پژوهش دانشگاهی - پیش‌بینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیک‌های ...

معیارهای انتخاب خصیصه دیگری هم وجود دارد، که می‌توان به درخت تصمیم CHAID، که برای انتخاب خصیصه از آزمون χ^۲ استفاده می‌کند و یا C-SEP که برای انتخاب خصیصه از آماره G (که بسیار نزدیک به توزیع χ^۲ است) استفاده می‌کند، اشاره کرد.
از درخت تصمیم ایجاد شده می‌توان برای پیش‌بینی برچسب نمونه‌های جدید بر اساس مقادیر خصیصه‌های آنها استفاده کرد. درخت تصمیم همچنین قوانین همبستگی میان خصیصه‌ها را آشکار می‌سازد. برخی از نقاط ضعف و قوت درخت‌های تصمیم عبارتند از:

  • قوانین تولید شده توسط آنها، تمامی کلاس‌های موجود در مجموعه داده آموزشی را به بهترین شکل توصیف می‌کند.
  • روابط موجود میان قوانین را آشکار ساخته؛ در نتیجه، درک ساختار داده‌ها را ساده می‌سازد.
  • از نظر محاسباتی ساده هستند.
  • این امکان وجود دارد که قوانین بسیار پیچیده‌ای را تولید کنند که در نتیجه آن، هرس کردن با دشواری‌هایی مواجه خواهد بود.
  • قادر هستند تا تعداد زیادی از قوانین متناظر را تولید کنند که در صورت عدم استفاده از تکنیک‌های هرس، درک آنها سخت خواهد بود.
  • به منظور ذخیره‌سازی کل درخت و استخراج قوانین، به حافظه زیادی نیاز است.

شبکه‌های عصبی
شبکه‌های عصبی مصنوعی (ANN) شبکه‌ای عظیم از نرون‌های محاسباتی به هم پیوسته هستند که باساختار فرایندی بصورت موازی توزیع شده نشان داده می‌شوند. ایده اصلی این شبکه‌ها از ساختار شبکه‌های عصبی بیولوژیک الهام گرفته شده است؛ زمانی که در سال ۱۹۴۳، وارن مک کالچ[۸۸] به همراه والتر پیتس[۸۹] برای توضیح نحوه عملکرد نرون‌های بیولوژیک به مدل‌سازی پرداختند (شهرابی ۱۳۹۰b). اگرچه این مدل فقط دارای یک نرون بود و توانایی محاسباتی محدودی داشت، ولی نقطه عطفی بود برای توسعه و پیشرفت شبکه‌های عصبی قوی‌تر و پیچیده‌تر؛ به گونه‌ای که امروزه شبکه‌های عصبی کاربرد گسترده‌ای در مسائل پیش‌بینی، دسته‌بندی و خوشه‌بندی دارد.
به طور کلی، شبکه‌های عصبی توسط سه مولفه زیر معرفی می‌شوند (Karray and Silva 2004):