در این داکیومنت بصورت مرحله به مرحله و همچنین به صورت تصوری یک پروژه عملی
مدل سازی شده است. این داکیومنت به مدل سازی داده های مربوط به تشخیص بیماریهای
سرطانی با استفاده از الگوریتم های مدل سازی طبقه بندی decision Tree ,
Naïve Bayes , KNN پرداخته است .
در این داکیومنت نیز آموزش انواع نمونه برداری یا Sampling داده ها با استفاده از نرم افزار
داده کاوی rapidminer
بصورت تصویری قرار داده شده است.
نمونه برداری های موجود در داکیومنت عبارتند از :
·
Random Sampling
·
Stratified
Sampling
·
Balance Sampling
در این داکیومنت از 3 نوع داده نیز استفاده شده است که عبارتند از :
·
Survival
·
stage
·
metastasis
که برای هر کدام از انواع داده ها انواع نمونه برداری و مدل سازی انجام شده
است و در قالب جداول دقت هر الگوریتم مورد ارزیابی قرار گرفته است .
همچنین در این داکیومنت 3 نوع داده مورد اریابی و مدل سازی و بررسی قرار گرفته
اند که عبارتند از :
·
دیتاست سرطان
سینه
·
دیتاست سرطان
ریوی
·
دیتاست ترکیبی/
ترکیبی از دیتا ست سرطان سینه و ریه
همچنین کلیه فایلهای مربوط به پیاده سازی این پروژه در نرم
افزار داده کاوی رپید ماینر و همچنین کلیه دیتاست نامبرده در قالب فایل اکسل موجود
میباشد که در صورت نیاز میتوانید با ما تماس گرفته تا با توافق ، موارد ذکر شده
برایتان ارسال گردد.
فهرست مطالب:
مقدمه
توضیحاتی در مورد داده ها
معماری سیستم
جدا کردن داده ها
اعمال عملیات پیش پردازش یا PreProccessing بروی داده ها
انتساب فیلد کلاس برای داده ها
نمونه برداری از داده ها
مدل سازی بروی داده ها
1. Decision Tree
2. Naïve Bayes
3. KNN
مقایسه روش ها
دقت الگوریتم درخت تصمیم بروی داده های سرطانی با تعداد 1400 رکورد با نمونه برداری
تصادفی
خطای الگوریتم درخت تصمیم بروی داده های سرطانی با تعداد 1400 رکورد با نمونه
برداری تصادفی
دقت الگوریتم درخت تصمیم بروی داده های سرطانی با تعداد 1700 رکورد با نمونه
برداری تصادفی
خطای الگوریتم درخت تصمیم بروی داده های سرطانی با تعداد 1700 رکورد با نمونه
برداری تصادفی
دقت الگوریتم درخت تصمیم بروی داده های سرطانی با تعداد 3100 رکورد با نمونه
برداری تصادفی
خطای الگوریتم درخت تصمیم بروی داده های سرطانی با تعداد 3100 رکورد با نمونه
برداری تصادفی
دقت الگوریتم نایو بیز بروی داده های تنفسی با تعداد 1400 رکورد با نمونه
برداری stratified
خطای الگوریتم نایو بیز بروی داده های تنفسی با تعداد 1400 رکورد با نمونه برداری stratified
دقت الگوریتم نایو بیز بروی داده های تنفسی با تعداد 1700 رکورد با نمونه
برداری stratified
خطای الگوریتم نایو بیز بروی داده های تنفسی با تعداد 1700 رکورد با نمونه
برداری stratified
دقت الگوریتم نایو بیز بروی داده های تنفسی با تعداد 3100 رکورد با نمونه برداری stratified
خطای الگوریتم نایو بیز بروی داده های تنفسی با تعداد 3100 رکورد با نمونه برداری stratified
دقت الگوریتم نزدیکترین همسایه بروی داده های ترکیبی با تعداد 1400 رکورد با نمونه برداری stratified
خطای الگوریتم نزدیکترین همسایه بروی داده های ترکیبی با تعداد 1400 رکورد با نمونه برداری stratified
دقت الگوریتم نزدیکترین همسایه بروی داده های ترکیبی با تعداد 1700 رکورد با نمونه برداری stratified
خطای الگوریتم نزدیکترین همسایه بروی داده های ترکیبی با تعداد 1700 رکورد با نمونه برداری stratified
دقت الگوریتم نزدیکترین همسایه بروی داده های ترکیبی با تعداد 3100 رکورد با نمونه برداری stratified
خطای الگوریتم نزدیکترین همسایه بروی داده های ترکیبی با تعداد 3100 رکورد با نمونه برداری stratified
مقایسه الگوریتم درخت تصمیم بروی داده های سرطانی، تنفسی و ترکیبی
نمودار میله ای
نمودار دایره ای
مقایسه الگوریتم نایو بیز بروی داده های سرطانی، تنفسی و ترکیبی
نمودار میله ای
نمودار دایره ای
مقایسه الگوریتم نزدیکترین همسایه
بروی داده های سرطانی، تنفسی و ترکیبی
نمودار میله ای
نمودار دایره ای
نتیحه گیری نهایی