این پروژه با استفاده از نرم افزار رپیدماینر یا rapidminer با توجه به یک سری داده که در قالب
فایل اکسل و متنی موجود هست ، بیماری سرطان را با استفاده از نمونه برداری طبقه
بندی متوازن تشخیص میدهد.
در این پروژه که مربوط به درس داده کاوی یا مباحث پیشرفته در مقطع کارشناسی
ارشد میباشد از 3 نوع داده با تعداد بالای 100 هزار نمونه استفاده شده اند. این
داده ها مربوط به انواع سرطانهای سینه، سرطان ریوی و ترکیبی از این دو نوع دیتا.
لذا داده های فوق با استفاده از نرم افزار داده کاوی Rapidminer مدل سازی شده است . در این پروژه از
3 نوع نمونه برداری یا sampling
استفاده شده است که عبارتند از :
·
Random Sampling
·
Stratified
Sampling
·
Balance
Stratified Sampling
کلیه ی داده ها با استفاده از 3 نمونه برداری فوق و با بکار گیری از انواع
الگوریتم های طبقه بندی، مدل سازی شده و دقت هر کدام در قالب جداولی که در
داکیومنت مربوطه میباشد مورد ارزیابی قرار گرفته اند.
در این پروژه به طور کلی سه نوع کلاس بندی داریم که عبارتند از کلاسهای Survival
, stage , metastasis که برای هر
کدام میبایست یک دیتاست مجزا تولید نمود .
با توجه به مفروضات و بیانات مقاله، به ترتیب کلاسهای Survival , stage
, metastasis دارای تعداد نوع کلاس 10 و 4 و 2
میباشد . نوع کلاس نیز از نوع عددی میباشد که هر عدد بیانگر مفهوم مربوط به خود
میباشد.
در این پروژه اهداف اصلی در قالب موارد ذیل میباشد که عبارتند از :
v جدا سازی داده ها با استفاده از توضیحات موجود در فایل
راهنمای مربوطه
v حذف خصوصیات بلا استفاده از داده های اصلی
v تعیین عنوان برای هر فیچر
v ترکیب داده های بیماران سرطانی و تنفسی
v نمونه برداری بروش تصادفی
v نمونه برداری بروش طبقه بندی شده
v نمونه برداری بروش طبه بندی متوازن
v مدل سازی و طبقه بندی داده های آموزشی به سه روش زیر
o
Decision Tree
o
Naïve Bayes
o
KNN
v پیش بینی و ارزیابی داده های تست
v مقایسه روش ها
v نتیحه گیری
تجزیه و تحلیل داده ها و داده های بزرگ امروزه در پژوهشهای صنعتی ، تحقیقات
دانشگاهی ، صنعت و غیره بسیار مورد استفاده قرار میگیرد که استفاده از تکنیک های
داده کاوی ، کاوش بروی داده و شناخت داده ها را برای ما بسیار آسان کرده است.
بیماری سرطان دومین عامل مرگ و میر در دنیای امروزی میباشد. لذا در این مقاله
با استفاده از تکنیک های محتلف طبقه بندی در داده کاوی سعی بر این داریم که بهترین
دقت و پیش بینی را در بیماریهای سرطانی داشته باشیم.
این پروژه مناسب درس مباحث پیشرفته یا داده کاوی پیشرفته در مقطع ارشد و سایر
دروس مرتبط میباشد.