- نمونهگیری به صورت تصادفی: زمانی از این روش استفاده میشود که مجموعه داده ناشناخته باشد و درکی از مجموعه داده موجود نباشد.
- نمونهگیری بدون جایگزینی: زمانی از این روش استفاده میشود که مجموعه داده کوچک بوده و رکوردها شبیه به هم نباشد.
- نمونهگیری با جایگزینی: در این روش هر رکورد میتواند بیش از یکبار در نمونه آورده شود. از این روش زمانی استفاده میشود که مجموعه داده بزرگ و رکوردها شبیه به هم باشند.
- نمونهگیری از دسته: ابتدا رکوردها را بر اساس معیاری دستهبندی کرده و از هر دسته، تعدادی رکورد انتخاب میشود.
در مواقعی که معیارهایی مانند سرعت و پیچیدگی زمانی مهم نیستند، روش نمونهگیری بدون جایگزینی مناسبتر از نمونهگیری با جایگزینی است. در نمونهگیری هر چقدر تعداد رکوردها بیشتر باشد امکان بهدست آوردن نظم موجود بیشتر خواهد بود. نباید نمونه خیلی کوچک باشد که نظم موجود در دادهها از بین برود.
- کاهش بعد[۳۱]:
زمانی که بعد دادهها بالا باشد در این صورت پراکندگی داده بیشتر و هر چقدر پراکندگی دادهها بیشتر، دادهها از هم دورتر خواهند بود. در این صورت نمیتوان بهخوبی نظم موجود در دادهها را پیدا کرد و ممکن است برخی از نظمها با افزایش بعد داده از بین برود. پس بهتر است تا حد امکان ویژگیهای نامربوط در مسئله مورد بررسی حذف شوند. اهداف این مرحله عبارت است از:
- کاهش ابعاد: این کار باعث کاهش زمان و افزایش سرعت در الگوریتم مورد نظر میشود.
- درک آسانتر: انسان میتواند تا چهار بعد را درک کند، پس هر چقدر ابعاد مسئله کوچکتر شود درک مسئله آسانتر میشود.
- بالا رفتن دقت و سرعت الگوریتم: با حذف ویژگیهایی که نمیتواند اثر مثبتی بر روی هدف تعیین شده در مسئله داشته باشد، سرعت اجرا الگوریتم بالا میرود و الگوریتم درگیر ویژگیهای غیرمفید نمیشود. علاوه بر این، حذف ویژگیهای غیر مرتبط باعث میشود تشخیص دادههای نویز راحتتر شود.
- انتخاب زیرمجموعهای از ویژگیها[۳۲]:
تعداد زیاد ویژگیها بر سرعت اجرای الگوریتمها اثر منفی میگذارد. لازم است بنابر هدف، مجموعهای از ویژگیها انتخاب شود. بعضی از ویژگیها در تمام مسائل ویژگیهای هستند که کمکی به حل مسئله نمیکنند. برای هر هدفی میتوان با استفاده از الگوریتمهایی مانند درخت تصمیم ویژگیهای مهمتر را شناسایی کرد و از آن ویژگیها برای ایجاد مدل استفاده کرد.
برای دانلود فایل متن کامل پایان نامه به سایت 40y.ir مراجعه نمایید. |
- ایجاد ویژگی:
با توجه به ویژگیهای موجود میتوان ویژگی جدیدی ایجاد کرد. به طوری که ویژگی ایجاد شده اطلاعات مهمی در مورد مجموعه داده در اختیار محقق قرار میدهد. سه روش برای ایجاد یک ویژگی وجود دارد که عبارت است از:
- استخراج ویژگی[۳۳]: زمانی که مجموعه داده مورد بررسی شامل دادههای چند رسانهای باشد، استخراج ویژگی بسیار موثر خواهد بود.
- نگاشت داده به یک فضای جدید: با استفاده از نگاشتی داده از یک بعد به بعد دیگر انتقال داده میشود. این کار در الگوریتم تحلیل مولفههای اصلی و همچنین نوعی از الگوریتم ماشین بردار پشتیبان انجام میشود.
- ترکیب ویژگیها: این کار در مرحله تجمیع داده صورت میگیرد.
مرحله سوم، تبدیل[۳۴]: در این مرحله دادهها در صورت نیاز از یک حوزه به حوزه دیگر منتقل میشوند و برای تحلیل آماده میشوند.
مرحله چهارم، دادهکاوی: در این مرحله از الگوریتمهای دادهکاوی برای ساخت مدل استفاده میشود. تعدادی از الگوریتمهای دادهکاوی در همین فصل توضیح داده شدهاند.
مرحله پنجم، ارزیابی و بازنمایی: در این مرحله دقت هر الگوریتم ارزیابی میشود. بهعبارت دیگر تشخیص الگوهای صحیح مورد نظر، از سایر الگوها در این مرحله انجام میشود و صحت الگوها بر اساس معیارهایی سنجیده میشود.
مرحله ششم، دانش: دانش بهدست آمده از الگوریتمها به روشی که برای انسان قابل درک باشد، بیان میشود.
فرآیند CRISP – DM [۳۵]
روشهای گوناگونی برای پیادهسازی و اجرای پروژههای دادهکاوی وجود دارد. استفاده از این روشها باعث میشود، دادهکاو مدیریت بهتری بر روی پروژه مورد بررسی خود داشته باشد. یکی از روشهای بسیار قوی و رایج در ادبیات دادهکاوی فرآیند CRISP-DM است. این فرآیند استانداردی جهانی برای انجام پروژههای کاربردی در دادهکاوی است که از شش فاز به صورت یک روند حلقهای تشکیل شده است. شکل ۲-۳ نحوه قرار گرفتن این شش فاز را در این مدل نمایش میدهد (شهرابی ۱۳۹۰a).
شکل ۲‑۳ : فرآیند CRISP-DM
فاز اول – درک فضای کسب و کار[۳۶]
در این فاز تمرکز اصلی بر روی تعیین اهداف پروژه و نیازهای وابسته به آن است که از منظر کسب وکار مطرح میشود. در واقع در این فاز سعی میشود با توجه به نیازهای سازمان و خواستههای مورد انتظار از سازمان مسئلهای تعریف گردد. سپس مسئلهی تعریف شده به صورتی تبدیل میشود تا تکنیکهای دادهکاوی در آن قابل اجرا باشد. بهعبارت دیگر، برای اینکه دادهکاو فعالیت خود را آغاز کند، نیاز دارد با محیط و فرآیندها آشنا شود. هدف تحلیلگر کشف شاخص مهمی در آغاز پروژه است که میتواند در خروجی نهایی تأثیرگذار باشد. این فاز از چهار زیرفاز زیر تشکیل شده است:
More Stories
پیشبینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیکهای دادهکاوی؛ مورد مطالعه …
سايت مقالات فارسی – پیشبینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیکهای دادهکاوی؛ …
پژوهش دانشگاهی – پیشبینی رویگردانی مشتریان در مدیریت ارتباط با مشتری با استفاده از تکنیکهای …