Bootstrap

R语言基础| 机器学习

写在前面

R语言中基础的机器学习主要有:分类、聚类、降维、回归(预测,自变量和因变量)这积累问题。拿到数据和问题首先要会判定是这4类中的哪一种。

此前我们也用专门的教程介绍过在Python中的机器学习:机器学习基础手册

本章学习Logistic 回归、决策树、随机森林、支持向量机

1) 概念

监督机器学习基于一组包含自变量和因变量的观测值。将全部数据集分为一个训练集和一个测试集;训练集用于预测模型,测试集用于测试模型的准确度。

本章将会用到rpart,rpart.plot和partykit包进行决策树模型及可视化;randomForest包拟合随机森林;通过e1071包构造支持向量机。

2) 机器学习乳腺数据癌步骤:

1.读取数据和预处理(筛选需要的变量)

2.拆分数据集:训练集和预测集(7:3或8:2)

3.建模,数据单位一致则不需要标准化,否则需要scale

4.预测结果不好则重新调整算法

5.预测结果好则应用于新数据(新观测值)

16.1 数据准备 

本章数据集使用威斯康星州乳腺癌数据集,该数据集共11个变量:ID、肿块厚度clumpThickness、细胞大小的均匀性sizeUniformity、细胞形状的均匀性shapeUniformity、边际附着力maginalAdhesion、单个上皮细胞大小singleEpithelialCellSize、裸核bareNuclei、乏味染色体blandChromatin、正常核normalNucleoli、有丝分裂mitosis和类别class.

16.1.1 数据在MASS包中,数据集名字为biopsy

library(MASS)
head(biopsy)
##        ID V1 V2 V3 V4 V5 V6 V7 V8 V9     class
## 1 1000025  5  1  1  1  2  1  3  1  1    benign
## 2 1002945  5  4  4  5  7 10  3  2  1    benign
## 3 1015425  3  1  1  1  2  2  3  1  1    benign
## 4 1016277  6  8  8  1  3  4  3  7  1    benign
## 5 1017023  4  1  1  3  2  1  3  1  1    benign
## 6 1017122  8 10 10  8  7 10  9  7  1 malignant
df <- biopsy
df <- df[-1]
head(df)
##   V1 V2 V3 V4 V5 V6 V7 V8 V9     class
## 1  5  1  1  1  2  1  3  1  1    benign
## 2  5  4  4  5  7 10  3  2  1    benign
## 3  3  1  1  1  2  2  3  1  1    benign
## 4  6  8  8  1  3  4  3  7  1    benign
## 5  4  1  1  3  2  1  3  1  1    benign
## 6  8 10 10  8  7 10  9  7  1 malignant
names(df) <- c("clumpThickness","sizeUniformity","shapeUniformity","maginalAdhesion","singleEpithelialCellSize","bareNuclei","blandChromatin","normalNucleoli","mitosis","class")

class中benign为良性,malignant为恶性。

16.1.2 去除NA值

df <- na.omit(df)

16.1.3 抽样(sample),抽训练集(train)和测试集(test)

抽样前先加一个set.seed(1234),可以确保每次运行程序时生成的随机数序列是相同的,从而实现结果的可重复性。需要注意的是,set.seed()函数应该在随机数生成之前调用,以确保种子在生成随机数之前被设置。

只有set.seed()函数中的设置的数字相同则随机抽样的结果相同

set.seed(1234)
train <- sample(nrow(df),0.7*nrow(df),replace = F)
df.train <- df[train,]
View(df.train)
df.test <- df[-train,]
View(df.test)

这里的0.7也可以改成0.8。一般是7:3或8:2

16.1.4 table检查数据的拆分情况

table(df.train$class)
## 
##    benign malignant 
##       302       176
table(df.test$class)
## 
##    benign malignant 
##       142        63

这步骤还有一个作用,可与后面模型预测的结果对比,观察模型预测的效果。

16.2 建模

16.2.1 方法一:Logistic回归(glm())

Logistic回归即逻辑回归,属于广义线性回归的一种。根据一组变量预测二元输出(例如是否,好和坏)。

  • 16.2.1.1 建模
fit.logit <- glm(class~.,data = df.train,family = binomial())
summary(fit.logit)
## 
## Call:
## glm(formula = class ~ ., family = binomial(), data = df.train)
## 
## Coefficients:
##                          Estimate Std. Error z value Pr(>|z|)    
## (Intercept)              -9.68650    1.29722  -7.467 8.20e-14 ***
## clumpThickness            0.48002    0.15244   3.149  0.00164 ** 
## sizeUniformity            0.05643    0.29272   0.193  0.84714    
## shapeUniformity           0.13180    0.31643   0.417  0.67703    
## maginalAdhesion           0.40721    0.14038   2.901  0.00372 ** 
## singleEpithelialCellSize -0.03274    0.18095  -0.181  0.85643    
## bareNuclei                0.44744    0.11176   4.004 6.24e-05 ***
## blandChromatin            0.48257    0.19220   2.511  0.01205 *  
## normalNucleoli            0.23550    0.12903   1.825  0.06798 .  
## mitosis                   0.66184    0.28785   2.299  0.02149 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 629.040  on 477  degrees of freedom
## Residual deviance:  80.054  on 468  degrees of freedom
## AIC: 100.05
## 
## Number of Fisher Scoring iterations: 8

注:AIC(Akaike Information Criterion)是一种模型选择准则,用于比较不同模型的拟合优度和复杂度。在统计学中,AIC值是一种用于评估统计模型的相对优劣的指标。

AIC值越低,表示模型对数据的拟合越好且复杂度较低,因此更优于AIC值较高的模型。

结果中显示9个自变量的P值并不都小于0.05,因此可以将不显著的sizeUniformity和shapeUniformity、singleEpithelialCellSize去除后再次拟合模型。

  • 16.2.1.2 验证模型predict()

具体用法可以参考?predict()-predict.glm

prob <- predict(object = fit.logit,newdata = df.test,type = "response")
prob
##            3            5            6            8            9           16 
## 0.0112449317 0.0258431337 0.9999625461 0.0051061434 0.0236199749 0.4672106476 
##           17           21           25           27           28           30 
## 0.0071994974 0.9997948553 0.0027758628 0.0048816533 0.0115838020 0.0013782551 
##           33           38           39           46           49           50 
## 0.9973585454 0.1877874448 0.9975955959 0.0033190843 0.0258431337 0.9814047180 
##           57           58           59           64           71           74 
## 0.9629829469 0.8156184585 0.7715802512 0.3224788592 0.0150250656 0.9997623868 
##           75           82           83           84           87           92 
## 0.8789463614 0.0107790970 0.0196950113 0.0726793680 0.7845629625 0.0041441570 
##           93           94           95           98          111          112 
## 0.0116130282 0.0017150684 0.0044784421 0.0186346093 0.0563315554 0.9205175298 
##          113          114          119          126          130          131 
## 0.9999639103 0.9980298628 0.0024243798 0.0017150684 0.0008153674 0.0150250656 
##          132          134          135          136          139          142 
## 0.0044784421 0.0056466030 0.0043238397 0.0454130370 0.0082054400 0.0017107090 
##          143          152          155          157          163          173 
## 0.9807771867 0.9871222852 0.0010592254 0.0020695344 0.0072177426 0.0017150684 
##          178          179          182          186          191          193 
## 0.9402769641 0.0116130282 0.0010592254 0.0046267909 0.9999560154 0.0115838020 
##          196          199          203          206          210          215 
## 0.0116130282 0.0010592254 0.0027758628 0.9999906580 0.0192428183 0.9999956479 
##          228          231          232          239          240          244 
## 0.9967019235 0.9928787724 0.9993185258 0.9999986898 0.9953604613 0.0419223255 
##          245          246          253          254          255          261 
## 0.0027758628 0.0427263017 0.9916847043 0.9979190679 0.9521833608 0.9999275421 
##          272          274          275          277          284          287 
## 0.0186346093 0.3161619709 0.0091169000 0.0044670902 0.9912296828 0.9999999001 
##          288          291          297          299          301          304 
## 0.0043238397 0.0010592254 0.7268339179 0.0284488362 0.9969425517 0.0027758628 
##          311          312          313          314          317          319 
## 0.0026798777 0.0010592254 0.9240485470 0.0010592254 0.8887971682 0.0025168532 
##          326          329          332          335          339          341 
## 0.0086003882 0.8792851364 0.0354998923 0.9912165606 0.0017720431 0.9973941797 
##          343          344          346          351          354          368 
## 0.0017107090 0.0010592254 0.0010592254 0.0160692402 0.9996650004 0.9999796693 
##          369          373          381          383          395          405 
## 0.0013782551 0.0082054400 0.0010592254 0.0164146326 0.0023604022 0.0031955036 
##          407          408          413          416          417          425 
## 0.0086776181 0.0017150684 0.9987294489 0.3017208118 0.9981615411 0.0027617842 
##          426          429          430          431          434          437 
## 0.9999965519 0.0017150684 0.0027688146 0.0024280604 0.0074914917 0.7622791536 
##          448          450          452          453          463          466 
## 0.0071812979 0.9998347506 0.0071812979 0.0062141459 0.0257150794 0.9998549548 
##          467          469          470          479          480          481 
## 0.9996824181 0.0044557670 0.0019562146 0.0075949935 0.9992835627 0.0074185118 
##          488          498          502          505          509          511 
## 0.9999971016 0.0047131973 0.0071994974 0.0010592254 0.0071812979 0.0010592254 
##          519          520          522          524          529          532 
## 0.0047252271 0.9888878694 0.0043128780 0.9990358935 0.0223519515 0.0086776181 
##          536          539          540          546          548          551 
## 0.0054147208 0.0071994974 0.0185880445 0.0115838020 0.0017675392 0.0044670902 
##          554          557          560          564          566          570 
## 0.1021246709 0.0214925224 0.0115838020 0.0044670902 0.9999763468 0.9998813632 
##          573          574          575          578          579          580 
## 0.0044670902 0.0017150684 0.9854868522 0.0017150684 0.0017150684 0.0027758628 
##          583          596          598          600          601          603 
## 0.9987812279 0.0115838020 0.0241193817 0.0116066211 0.0044670902 0.0071994974 
##          605          606          608          609          611          613 
## 0.9978381918 0.9998157200 0.0010592254 0.9998041683 0.9998905908 0.9999999873 
##          628          629          632          638          640          641 
## 0.0101570805 0.0017107090 0.0115838020 0.0386856158 0.0160692402 0.0100044442 
##          646          648          655          656          658          660 
## 0.0044670902 0.0023884049 0.0072177426 0.0044670902 0.0922590347 0.0010592254 
##          665          667          668          670          672          676 
## 0.0100297260 0.0248002530 0.0072177426 0.9982067529 0.0114264349 0.0066024464 
##          678          679          680          681          684          686 
## 0.0071812979 0.0010592254 0.0017107090 0.9999999658 0.0010592254 0.0010592254 
##          694 
## 0.0086227000

type= “response” 返回一个概率值。结果得到了预测肿瘤为恶性的概率,概率大于0.5的病例被分为恶性肿瘤,概率小于或等于0.5的被分为良性。

prob>0.5
##     3     5     6     8     9    16    17    21    25    27    28    30    33 
## FALSE FALSE  TRUE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE  TRUE 
##    38    39    46    49    50    57    58    59    64    71    74    75    82 
## FALSE  TRUE FALSE FALSE  TRUE  TRUE  TRUE  TRUE FALSE FALSE  TRUE  TRUE FALSE 
##    83    84    87    92    93    94    95    98   111   112   113   114   119 
## FALSE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE FALSE 
##   126   130   131   132   134   135   136   139   142   143   152   155   157 
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE FALSE FALSE 
##   163   173   178   179   182   186   191   193   196   199   203   206   210 
## FALSE FALSE  TRUE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE  TRUE FALSE 
##   215   228   231   232   239   240   244   245   246   253   254   255   261 
##  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE FALSE  TRUE  TRUE  TRUE  TRUE 
##   272   274   275   277   284   287   288   291   297   299   301   304   311 
## FALSE FALSE FALSE FALSE  TRUE  TRUE FALSE FALSE  TRUE FALSE  TRUE FALSE FALSE 
##   312   313   314   317   319   326   329   332   335   339   341   343   344 
## FALSE  TRUE FALSE  TRUE FALSE FALSE  TRUE FALSE  TRUE FALSE  TRUE FALSE FALSE 
##   346   351   354   368   369   373   381   383   395   405   407   408   413 
## FALSE FALSE  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE  TRUE 
##   416   417   425   426   429   430   431   434   437   448   450   452   453 
## FALSE  TRUE FALSE  TRUE FALSE FALSE FALSE FALSE  TRUE FALSE  TRUE FALSE FALSE 
##   463   466   467   469   470   479   480   481   488   498   502   505   509 
## FALSE  TRUE  TRUE FALSE FALSE FALSE  TRUE FALSE  TRUE FALSE FALSE FALSE FALSE 
##   511   519   520   522   524   529   532   536   539   540   546   548   551 
## FALSE FALSE  TRUE FALSE  TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
##   554   557   560   564   566   570   573   574   575   578   579   580   583 
## FALSE FALSE FALSE FALSE  TRUE  TRUE FALSE FALSE  TRUE FALSE FALSE FALSE  TRUE 
##   596   598   600   601   603   605   606   608   609   611   613   628   629 
## FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE FALSE FALSE 
##   632   638   640   641   646   648   655   656   658   660   665   667   668 
## FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE 
##   670   672   676   678   679   680   681   684   686   694 
##  TRUE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE
logit.pred <- factor(prob>0.5,levels = c(FALSE,TRUE),labels=c("benign","malignant"))

转换为因子,并且用良性和恶性作为标签来标记

比较真实和预测的结果:

data.frame(Actual=df.test$class,Predict=logit.pred)#比较真实的和预测的结果
##        Actual   Predict
## 3      benign    benign
## 5      benign    benign
## 6   malignant malignant
## 8      benign    benign
## 9      benign    benign
## 16  malignant    benign
## 17     benign    benign
## 21  malignant malignant
## 25     benign    benign
## 27     benign    benign
## 28     benign    benign
## 30     benign    benign
## 33  malignant malignant
## 38     benign    benign
## 39  malignant malignant
## 46     benign    benign
## 49     benign    benign
## 50  malignant malignant
## 57  malignant malignant
## 58  malignant malignant
## 59  malignant malignant
## 64  malignant    benign
## 71     benign    benign
## 74  malignant malignant
## 75  malignant malignant
## 82     benign    benign
## 83     benign    benign
## 84     benign    benign
## 87  malignant malignant
## 92     benign    benign
## 93     benign    benign
## 94     benign    benign
## 95     benign    benign
## 98     benign    benign
## 111    benign    benign
## 112 malignant malignant
## 113 malignant malignant
## 114 malignant malignant
## 119    benign    benign
## 126    benign    benign
## 130    benign    benign
## 131    benign    benign
## 132    benign    benign
## 134    benign    benign
## 135    benign    benign
## 136    benign    benign
## 139    benign    benign
## 142    benign    benign
## 143 malignant malignant
## 152 malignant malignant
## 155    benign    benign
## 157    benign    benign
## 163    benign    benign
## 173    benign    benign
## 178 malignant malignant
## 179    benign    benign
## 182    benign    benign
## 186    benign    benign
## 191 malignant malignant
## 193    benign    benign
## 196    benign    benign
## 199    benign    benign
## 203    benign    benign
## 206 malignant malignant
## 210    benign    benign
## 215 malignant malignant
## 228 malignant malignant
## 231 malignant malignant
## 232 malignant malignant
## 239 malignant malignant
## 240 malignant malignant
## 244    benign    benign
## 245    benign    benign
## 246    benign    benign
## 253    benign malignant
## 254 malignant malignant
## 255 malignant malignant
## 261 malignant malignant
## 272    benign    benign
## 274 malignant    benign
## 275    benign    benign
## 277    benign    benign
## 284 malignant malignant
## 287 malignant malignant
## 288    benign    benign
## 291    benign    benign
## 297    benign malignant
## 299    benign    benign
## 301 malignant malignant
## 304    benign    benign
## 311    benign    benign
## 312    benign    benign
## 313 malignant malignant
## 314    benign    benign
## 317 malignant malignant
## 319    benign    benign
## 326    benign    benign
## 329 malignant malignant
## 332    benign    benign
## 335 malignant malignant
## 339    benign    benign
## 341 malignant malignant
## 343    benign    benign
## 344    benign    benign
## 346    benign    benign
## 351    benign    benign
## 354 malignant malignant
## 368 malignant malignant
## 369    benign    benign
## 373    benign    benign
## 381    benign    benign
## 383    benign    benign
## 395    benign    benign
## 405    benign    benign
## 407    benign    benign
## 408    benign    benign
## 413 malignant malignant
## 416    benign    benign
## 417 malignant malignant
## 425    benign    benign
## 426 malignant malignant
## 429    benign    benign
## 430    benign    benign
## 431    benign    benign
## 434    benign    benign
## 437 malignant malignant
## 448    benign    benign
## 450 malignant malignant
## 452    benign    benign
## 453    benign    benign
## 463    benign    benign
## 466 malignant malignant
## 467 malignant malignant
## 469    benign    benign
## 470    benign    benign
## 479    benign    benign
## 480 malignant malignant
## 481    benign    benign
## 488 malignant malignant
## 498    benign    benign
## 502    benign    benign
## 505    benign    benign
## 509    benign    benign
## 511    benign    benign
## 519    benign    benign
## 520 malignant malignant
## 522    benign    benign
## 524 malignant malignant
## 529    benign    benign
## 532    benign    benign
## 536    benign    benign
## 539    benign    benign
## 540    benign    benign
## 546    benign    benign
## 548    benign    benign
## 551    benign    benign
## 554    benign    benign
## 557    benign    benign
## 560    benign    benign
## 564    benign    benign
## 566 malignant malignant
## 570 malignant malignant
## 573    benign    benign
## 574    benign    benign
## 575 malignant malignant
## 578    benign    benign
## 579    benign    benign
## 580    benign    benign
## 583 malignant malignant
## 596    benign    benign
## 598    benign    benign
## 600    benign    benign
## 601    benign    benign
## 603    benign    benign
## 605 malignant malignant
## 606 malignant malignant
## 608    benign    benign
## 609 malignant malignant
## 611 malignant malignant
## 613 malignant malignant
## 628    benign    benign
## 629    benign    benign
## 632    benign    benign
## 638    benign    benign
## 640    benign    benign
## 641    benign    benign
## 646    benign    benign
## 648    benign    benign
## 655    benign    benign
## 656    benign    benign
## 658    benign    benign
## 660    benign    benign
## 665    benign    benign
## 667    benign    benign
## 668    benign    benign
## 670 malignant malignant
## 672    benign    benign
## 676    benign    benign
## 678    benign    benign
## 679    benign    benign
## 680    benign    benign
## 681 malignant malignant
## 684    benign    benign
## 686    benign    benign
## 694    benign    benign
logistic.pref <- table(df.test$class,logit.pred,dnn = c("Acutal","Predict"))#生成混淆矩阵
logistic.pref
##            Predict
## Acutal      benign malignant
##   benign       140         2
##   malignant      3        60

注:

table()函数中的参数dnn代表”dimnames”,它用于指定结果表格的维度名称。在特定情况下,dnn参数允许您为结果表的行和列提供自定义名称,以便更好地描述数据。

这里结果表的行名称将被命名为”Actual”,列名称将被命名为”Predict”。这样,生成的表格将具有更直观的标签来表示实际值和预测值之间的关系。

混淆矩阵解读:

预测中有140个为良性,其中2个预测错了,实际为142个为良性;60个为恶性,其中3个预测错了,实际上63个为恶性。

准确度计算

在该例子中,准确度为(140+60)/205=98%。

  • 16.2.1.3 优化模型

在该例子中模型预测的准确度还不错,可以不用优化。如果要优化,可以将P值不显著的那3个变量删除后重新预测模型。

16.2.2 方法二:决策树 rpart()

决策树的基本思想是对自变量进行二元分离,从而构造一颗可用于预测新观测值所属类别的树。包括经典决策树和条件推断树。

  • 16.2.2.1 经典决策树

1)建模-语法

library(rpart)
library(rpart.plot)
dtree <- rpart(formula, data=, method = "class", control = rpart.control(), ...)
dtree$cptable
dtree.pruned <- prune(dtree,cp=)#可选项,用于修剪决策树
summary(dtree)
rpart.plot(dtree,type=2)

rpart()参数:

formula: 用于指定模型的公式,通常采用自变量和因变量的关系描述。

data: 包含数据的数据框或其他可用于模型拟合的对象。

method: 用于指定分裂规则的方法。默认值为”anova”,表示采用方差分析进行分裂。其他可选值包括”class”(分类问题)和”exp”(指数损失函数)。

control: 控制决策树构建过程的参数设置。可以使用rpart.control()函数创建一个控制参数对象,也可以直接提供参数的值。

…: 其他可选参数,用于进一步控制模型拟合过程。

rpart.plot()参数:

type: 可视化类型的选择。默认值为2,表示绘制带有节点标签和箭头的决策树。其他可选值包括0(只绘制决策树的框架)和1(绘制带有节点标签但没有箭头的决策树)。…: 其他可选参数,用于进一步控制图形的外观和布局。

dtree$cptable

返回的结果中,cp为复杂度参数,用于惩罚过大的树;nsplit为分支的数量,确定树的大小,有n个分支则说明该树有n+1个终端节点;rel error 为训练集中各种树对应的误差率;xerror为交叉验证误差,即基于训练集所得的10折交叉验证误差;xstd为交叉验证误差的标准差。

2)验证模型

方法如上。

3)举例

library(rpart)
library(rpart.plot)
## Warning: 程辑包'rpart.plot'是用R版本4.3.2 来建造的
dtree <- rpart(class~., data=df.train, method = "class")
dtree$cptable
##           CP nsplit  rel error    xerror       xstd
## 1 0.79545455      0 1.00000000 1.0000000 0.05991467
## 2 0.07954545      1 0.20454545 0.2386364 0.03516748
## 3 0.01704545      2 0.12500000 0.1818182 0.03104673
## 4 0.01000000      5 0.07386364 0.1647727 0.02965484
summary(dtree)
## Call:
## rpart(formula = class ~ ., data = df.train, method = "class")
##   n= 478 
## 
##           CP nsplit  rel error    xerror       xstd
## 1 0.79545455      0 1.00000000 1.0000000 0.05991467
## 2 0.07954545      1 0.20454545 0.2386364 0.03516748
## 3 0.01704545      2 0.12500000 0.1818182 0.03104673
## 4 0.01000000      5 0.07386364 0.1647727 0.02965484
## 
## Variable importance
##           sizeUniformity          shapeUniformity           blandChromatin 
##                       21                       18                       15 
## singleEpithelialCellSize           normalNucleoli          maginalAdhesion 
##                       14                       14                       13 
##               bareNuclei           clumpThickness 
##                        4                        2 
## 
## Node number 1: 478 observations,    complexity param=0.7954545
##   predicted class=benign     expected loss=0.3682008  P(node) =1
##     class counts:   302   176
##    probabilities: 0.632 0.368 
##   left son=2 (320 obs) right son=3 (158 obs)
##   Primary splits:
##       sizeUniformity           < 3.5 to the left,  improve=155.9749, (0 missing)
##       shapeUniformity          < 3.5 to the left,  improve=152.4471, (0 missing)
##       bareNuclei               < 2.5 to the left,  improve=141.3332, (0 missing)
##       blandChromatin           < 3.5 to the left,  improve=139.3239, (0 missing)
##       singleEpithelialCellSize < 2.5 to the left,  improve=132.7007, (0 missing)
##   Surrogate splits:
##       shapeUniformity          < 3.5 to the left,  agree=0.937, adj=0.810, (0 split)
##       blandChromatin           < 3.5 to the left,  agree=0.900, adj=0.696, (0 split)
##       singleEpithelialCellSize < 3.5 to the left,  agree=0.893, adj=0.677, (0 split)
##       normalNucleoli           < 2.5 to the left,  agree=0.879, adj=0.633, (0 split)
##       maginalAdhesion          < 3.5 to the left,  agree=0.874, adj=0.620, (0 split)
## 
## Node number 2: 320 observations,    complexity param=0.07954545
##   predicted class=benign     expected loss=0.084375  P(node) =0.6694561
##     class counts:   293    27
##    probabilities: 0.916 0.084 
##   left son=4 (294 obs) right son=5 (26 obs)
##   Primary splits:
##       bareNuclei      < 4.5 to the left,  improve=26.54631, (0 missing)
##       normalNucleoli  < 3.5 to the left,  improve=20.08477, (0 missing)
##       clumpThickness  < 6.5 to the left,  improve=17.48577, (0 missing)
##       shapeUniformity < 3.5 to the left,  improve=17.19825, (0 missing)
##       blandChromatin  < 3.5 to the left,  improve=15.97866, (0 missing)
##   Surrogate splits:
##       clumpThickness           < 7.5 to the left,  agree=0.944, adj=0.308, (0 split)
##       shapeUniformity          < 4.5 to the left,  agree=0.938, adj=0.231, (0 split)
##       normalNucleoli           < 4.5 to the left,  agree=0.938, adj=0.231, (0 split)
##       blandChromatin           < 4.5 to the left,  agree=0.931, adj=0.154, (0 split)
##       singleEpithelialCellSize < 3.5 to the left,  agree=0.928, adj=0.115, (0 split)
## 
## Node number 3: 158 observations
##   predicted class=malignant  expected loss=0.05696203  P(node) =0.3305439
##     class counts:     9   149
##    probabilities: 0.057 0.943 
## 
## Node number 4: 294 observations,    complexity param=0.01704545
##   predicted class=benign     expected loss=0.02380952  P(node) =0.6150628
##     class counts:   287     7
##    probabilities: 0.976 0.024 
##   left son=8 (272 obs) right son=9 (22 obs)
##   Primary splits:
##       bareNuclei      < 2.5 to the left,  improve=4.121212, (0 missing)
##       blandChromatin  < 3.5 to the left,  improve=2.639362, (0 missing)
##       normalNucleoli  < 3.5 to the left,  improve=2.349593, (0 missing)
##       sizeUniformity  < 2.5 to the left,  improve=2.245614, (0 missing)
##       shapeUniformity < 2.5 to the left,  improve=1.924300, (0 missing)
##   Surrogate splits:
##       mitosis < 2.5 to the left,  agree=0.929, adj=0.045, (0 split)
## 
## Node number 5: 26 observations,    complexity param=0.01704545
##   predicted class=malignant  expected loss=0.2307692  P(node) =0.05439331
##     class counts:     6    20
##    probabilities: 0.231 0.769 
##   left son=10 (7 obs) right son=11 (19 obs)
##   Primary splits:
##       shapeUniformity          < 1.5 to the left,  improve=4.478890, (0 missing)
##       sizeUniformity           < 1.5 to the left,  improve=4.430769, (0 missing)
##       clumpThickness           < 3.5 to the left,  improve=3.591880, (0 missing)
##       normalNucleoli           < 2   to the left,  improve=3.230769, (0 missing)
##       singleEpithelialCellSize < 2.5 to the left,  improve=2.355769, (0 missing)
##   Surrogate splits:
##       sizeUniformity           < 1.5 to the left,  agree=0.885, adj=0.571, (0 split)
##       singleEpithelialCellSize < 2.5 to the left,  agree=0.885, adj=0.571, (0 split)
##       clumpThickness           < 1.5 to the left,  agree=0.846, adj=0.429, (0 split)
##       maginalAdhesion          < 1.5 to the left,  agree=0.769, adj=0.143, (0 split)
##       blandChromatin           < 1.5 to the left,  agree=0.769, adj=0.143, (0 split)
## 
## Node number 8: 272 observations
##   predicted class=benign     expected loss=0  P(node) =0.5690377
##     class counts:   272     0
##    probabilities: 1.000 0.000 
## 
## Node number 9: 22 observations,    complexity param=0.01704545
##   predicted class=benign     expected loss=0.3181818  P(node) =0.0460251
##     class counts:    15     7
##    probabilities: 0.682 0.318 
##   left son=18 (14 obs) right son=19 (8 obs)
##   Primary splits:
##       clumpThickness           < 4.5 to the left,  improve=7.795455, (0 missing)
##       sizeUniformity           < 2.5 to the left,  improve=5.964502, (0 missing)
##       shapeUniformity          < 2.5 to the left,  improve=5.964502, (0 missing)
##       blandChromatin           < 2.5 to the left,  improve=4.454545, (0 missing)
##       singleEpithelialCellSize < 2.5 to the left,  improve=2.366883, (0 missing)
##   Surrogate splits:
##       sizeUniformity  < 1.5 to the left,  agree=0.864, adj=0.625, (0 split)
##       shapeUniformity < 2.5 to the left,  agree=0.864, adj=0.625, (0 split)
##       normalNucleoli  < 1.5 to the left,  agree=0.864, adj=0.625, (0 split)
##       maginalAdhesion < 3.5 to the left,  agree=0.818, adj=0.500, (0 split)
##       blandChromatin  < 3.5 to the left,  agree=0.818, adj=0.500, (0 split)
## 
## Node number 10: 7 observations
##   predicted class=benign     expected loss=0.2857143  P(node) =0.01464435
##     class counts:     5     2
##    probabilities: 0.714 0.286 
## 
## Node number 11: 19 observations
##   predicted class=malignant  expected loss=0.05263158  P(node) =0.03974895
##     class counts:     1    18
##    probabilities: 0.053 0.947 
## 
## Node number 18: 14 observations
##   predicted class=benign     expected loss=0  P(node) =0.0292887
##     class counts:    14     0
##    probabilities: 1.000 0.000 
## 
## Node number 19: 8 observations
##   predicted class=malignant  expected loss=0.125  P(node) =0.0167364
##     class counts:     1     7
##    probabilities: 0.125 0.875
rpart.plot(dtree,type=2)

图片

class <- predict(object = dtree,newdata = df.test,type = "class")
data.frame(Actual=df.test$class,Predict=class)#比较真实的和预测的结果
##        Actual   Predict
## 3      benign    benign
## 5      benign    benign
## 6   malignant malignant
## 8      benign    benign
## 9      benign    benign
## 16  malignant malignant
## 17     benign    benign
## 21  malignant malignant
## 25     benign    benign
## 27     benign    benign
## 28     benign    benign
## 30     benign    benign
## 33  malignant malignant
## 38     benign    benign
## 39  malignant malignant
## 46     benign    benign
## 49     benign    benign
## 50  malignant malignant
## 57  malignant malignant
## 58  malignant    benign
## 59  malignant malignant
## 64  malignant    benign
## 71     benign    benign
## 74  malignant malignant
## 75  malignant malignant
## 82     benign    benign
## 83     benign    benign
## 84     benign    benign
## 87  malignant malignant
## 92     benign    benign
## 93     benign    benign
## 94     benign    benign
## 95     benign    benign
## 98     benign    benign
## 111    benign    benign
## 112 malignant malignant
## 113 malignant malignant
## 114 malignant malignant
## 119    benign    benign
## 126    benign    benign
## 130    benign    benign
## 131    benign    benign
## 132    benign    benign
## 134    benign    benign
## 135    benign    benign
## 136    benign    benign
## 139    benign    benign
## 142    benign    benign
## 143 malignant malignant
## 152 malignant malignant
## 155    benign    benign
## 157    benign    benign
## 163    benign    benign
## 173    benign    benign
## 178 malignant malignant
## 179    benign    benign
## 182    benign    benign
## 186    benign    benign
## 191 malignant malignant
## 193    benign    benign
## 196    benign    benign
## 199    benign    benign
## 203    benign    benign
## 206 malignant malignant
## 210    benign    benign
## 215 malignant malignant
## 228 malignant malignant
## 231 malignant malignant
## 232 malignant malignant
## 239 malignant malignant
## 240 malignant malignant
## 244    benign    benign
## 245    benign    benign
## 246    benign    benign
## 253    benign malignant
## 254 malignant malignant
## 255 malignant malignant
## 261 malignant malignant
## 272    benign    benign
## 274 malignant malignant
## 275    benign    benign
## 277    benign    benign
## 284 malignant malignant
## 287 malignant malignant
## 288    benign    benign
## 291    benign    benign
## 297    benign malignant
## 299    benign    benign
## 301 malignant malignant
## 304    benign    benign
## 311    benign    benign
## 312    benign    benign
## 313 malignant malignant
## 314    benign    benign
## 317 malignant malignant
## 319    benign    benign
## 326    benign    benign
## 329 malignant malignant
## 332    benign    benign
## 335 malignant malignant
## 339    benign    benign
## 341 malignant malignant
## 343    benign    benign
## 344    benign    benign
## 346    benign    benign
## 351    benign    benign
## 354 malignant malignant
## 368 malignant malignant
## 369    benign    benign
## 373    benign    benign
## 381    benign    benign
## 383    benign    benign
## 395    benign    benign
## 405    benign    benign
## 407    benign    benign
## 408    benign    benign
## 413 malignant malignant
## 416    benign    benign
## 417 malignant malignant
## 425    benign    benign
## 426 malignant malignant
## 429    benign    benign
## 430    benign    benign
## 431    benign    benign
## 434    benign    benign
## 437 malignant malignant
## 448    benign    benign
## 450 malignant malignant
## 452    benign    benign
## 453    benign    benign
## 463    benign    benign
## 466 malignant malignant
## 467 malignant malignant
## 469    benign    benign
## 470    benign    benign
## 479    benign    benign
## 480 malignant malignant
## 481    benign    benign
## 488 malignant malignant
## 498    benign    benign
## 502    benign    benign
## 505    benign    benign
## 509    benign    benign
## 511    benign    benign
## 519    benign    benign
## 520 malignant malignant
## 522    benign    benign
## 524 malignant malignant
## 529    benign    benign
## 532    benign    benign
## 536    benign    benign
## 539    benign    benign
## 540    benign    benign
## 546    benign    benign
## 548    benign    benign
## 551    benign    benign
## 554    benign malignant
## 557    benign    benign
## 560    benign    benign
## 564    benign    benign
## 566 malignant malignant
## 570 malignant malignant
## 573    benign    benign
## 574    benign    benign
## 575 malignant malignant
## 578    benign    benign
## 579    benign    benign
## 580    benign    benign
## 583 malignant malignant
## 596    benign    benign
## 598    benign    benign
## 600    benign    benign
## 601    benign    benign
## 603    benign    benign
## 605 malignant malignant
## 606 malignant malignant
## 608    benign    benign
## 609 malignant malignant
## 611 malignant malignant
## 613 malignant malignant
## 628    benign    benign
## 629    benign    benign
## 632    benign    benign
## 638    benign    benign
## 640    benign    benign
## 641    benign    benign
## 646    benign    benign
## 648    benign    benign
## 655    benign    benign
## 656    benign    benign
## 658    benign malignant
## 660    benign    benign
## 665    benign    benign
## 667    benign    benign
## 668    benign    benign
## 670 malignant malignant
## 672    benign    benign
## 676    benign    benign
## 678    benign    benign
## 679    benign    benign
## 680    benign    benign
## 681 malignant malignant
## 684    benign    benign
## 686    benign    benign
## 694    benign    benign

dtree.pref <- table(df.test$class,class,dnn = c("Acutal","Predict"))#生成混淆矩阵
acc <- sum(diag(dtree.pref))/nrow(df.test)*100 #计算准确度
print(acc)
## [1] 97.07317

结果显示准确率达到97%

  • 16.2.2.2 条件决策树Conditional Inference Tree(ctree)

1)建模-语法

library(partykit)
fit.ctree <- ctree(formula, data=, control = rpart.control(), ...)
plot(fit.ctree)

2)举例

library(partykit)
## Warning: 程辑包'partykit'是用R版本4.3.2 来建造的
## 载入需要的程辑包:libcoin
## Warning: 程辑包'libcoin'是用R版本4.3.2 来建造的
fit.ctree <- ctree(class~., data=df.train)
plot(fit.ctree)

图片

pred <- predict(object = fit.ctree,newdata = df.test,type = "response")
pred
##         3         5         6         8         9        16        17        21 
##    benign    benign malignant    benign    benign malignant    benign malignant 
##        25        27        28        30        33        38        39        46 
##    benign    benign    benign    benign malignant    benign malignant    benign 
##        49        50        57        58        59        64        71        74 
##    benign malignant malignant    benign malignant    benign    benign malignant 
##        75        82        83        84        87        92        93        94 
## malignant    benign    benign    benign malignant    benign    benign    benign 
##        95        98       111       112       113       114       119       126 
##    benign    benign    benign malignant malignant malignant    benign    benign 
##       130       131       132       134       135       136       139       142 
##    benign    benign    benign    benign    benign    benign    benign    benign 
##       143       152       155       157       163       173       178       179 
## malignant malignant    benign    benign    benign    benign malignant    benign 
##       182       186       191       193       196       199       203       206 
##    benign    benign malignant    benign    benign    benign    benign malignant 
##       210       215       228       231       232       239       240       244 
##    benign malignant malignant malignant malignant malignant malignant    benign 
##       245       246       253       254       255       261       272       274 
##    benign    benign malignant malignant malignant malignant    benign malignant 
##       275       277       284       287       288       291       297       299 
##    benign    benign malignant malignant    benign    benign malignant    benign 
##       301       304       311       312       313       314       317       319 
## malignant    benign    benign    benign malignant    benign malignant    benign 
##       326       329       332       335       339       341       343       344 
##    benign malignant    benign malignant    benign malignant    benign    benign 
##       346       351       354       368       369       373       381       383 
##    benign    benign malignant malignant    benign    benign    benign    benign 
##       395       405       407       408       413       416       417       425 
##    benign    benign    benign    benign malignant    benign malignant    benign 
##       426       429       430       431       434       437       448       450 
## malignant    benign    benign    benign    benign malignant    benign malignant 
##       452       453       463       466       467       469       470       479 
##    benign    benign    benign malignant malignant    benign    benign    benign 
##       480       481       488       498       502       505       509       511 
## malignant    benign malignant    benign    benign    benign    benign    benign 
##       519       520       522       524       529       532       536       539 
##    benign malignant    benign malignant    benign    benign    benign    benign 
##       540       546       548       551       554       557       560       564 
##    benign    benign    benign    benign malignant    benign    benign    benign 
##       566       570       573       574       575       578       579       580 
## malignant malignant    benign    benign malignant    benign    benign    benign 
##       583       596       598       600       601       603       605       606 
## malignant    benign    benign    benign    benign    benign malignant malignant 
##       608       609       611       613       628       629       632       638 
##    benign malignant malignant malignant    benign    benign    benign    benign 
##       640       641       646       648       655       656       658       660 
##    benign    benign    benign    benign    benign    benign malignant    benign 
##       665       667       668       670       672       676       678       679 
##    benign    benign    benign malignant    benign    benign    benign    benign 
##       680       681       684       686       694 
##    benign malignant    benign    benign    benign 
## Levels: benign malignant
data.frame(Actual=df.test$class,Predict=pred)#比较真实的和预测的结果
##        Actual   Predict
## 3      benign    benign
## 5      benign    benign
## 6   malignant malignant
## 8      benign    benign
## 9      benign    benign
## 16  malignant malignant
## 17     benign    benign
## 21  malignant malignant
## 25     benign    benign
## 27     benign    benign
## 28     benign    benign
## 30     benign    benign
## 33  malignant malignant
## 38     benign    benign
## 39  malignant malignant
## 46     benign    benign
## 49     benign    benign
## 50  malignant malignant
## 57  malignant malignant
## 58  malignant    benign
## 59  malignant malignant
## 64  malignant    benign
## 71     benign    benign
## 74  malignant malignant
## 75  malignant malignant
## 82     benign    benign
## 83     benign    benign
## 84     benign    benign
## 87  malignant malignant
## 92     benign    benign
## 93     benign    benign
## 94     benign    benign
## 95     benign    benign
## 98     benign    benign
## 111    benign    benign
## 112 malignant malignant
## 113 malignant malignant
## 114 malignant malignant
## 119    benign    benign
## 126    benign    benign
## 130    benign    benign
## 131    benign    benign
## 132    benign    benign
## 134    benign    benign
## 135    benign    benign
## 136    benign    benign
## 139    benign    benign
## 142    benign    benign
## 143 malignant malignant
## 152 malignant malignant
## 155    benign    benign
## 157    benign    benign
## 163    benign    benign
## 173    benign    benign
## 178 malignant malignant
## 179    benign    benign
## 182    benign    benign
## 186    benign    benign
## 191 malignant malignant
## 193    benign    benign
## 196    benign    benign
## 199    benign    benign
## 203    benign    benign
## 206 malignant malignant
## 210    benign    benign
## 215 malignant malignant
## 228 malignant malignant
## 231 malignant malignant
## 232 malignant malignant
## 239 malignant malignant
## 240 malignant malignant
## 244    benign    benign
## 245    benign    benign
## 246    benign    benign
## 253    benign malignant
## 254 malignant malignant
## 255 malignant malignant
## 261 malignant malignant
## 272    benign    benign
## 274 malignant malignant
## 275    benign    benign
## 277    benign    benign
## 284 malignant malignant
## 287 malignant malignant
## 288    benign    benign
## 291    benign    benign
## 297    benign malignant
## 299    benign    benign
## 301 malignant malignant
## 304    benign    benign
## 311    benign    benign
## 312    benign    benign
## 313 malignant malignant
## 314    benign    benign
## 317 malignant malignant
## 319    benign    benign
## 326    benign    benign
## 329 malignant malignant
## 332    benign    benign
## 335 malignant malignant
## 339    benign    benign
## 341 malignant malignant
## 343    benign    benign
## 344    benign    benign
## 346    benign    benign
## 351    benign    benign
## 354 malignant malignant
## 368 malignant malignant
## 369    benign    benign
## 373    benign    benign
## 381    benign    benign
## 383    benign    benign
## 395    benign    benign
## 405    benign    benign
## 407    benign    benign
## 408    benign    benign
## 413 malignant malignant
## 416    benign    benign
## 417 malignant malignant
## 425    benign    benign
## 426 malignant malignant
## 429    benign    benign
## 430    benign    benign
## 431    benign    benign
## 434    benign    benign
## 437 malignant malignant
## 448    benign    benign
## 450 malignant malignant
## 452    benign    benign
## 453    benign    benign
## 463    benign    benign
## 466 malignant malignant
## 467 malignant malignant
## 469    benign    benign
## 470    benign    benign
## 479    benign    benign
## 480 malignant malignant
## 481    benign    benign
## 488 malignant malignant
## 498    benign    benign
## 502    benign    benign
## 505    benign    benign
## 509    benign    benign
## 511    benign    benign
## 519    benign    benign
## 520 malignant malignant
## 522    benign    benign
## 524 malignant malignant
## 529    benign    benign
## 532    benign    benign
## 536    benign    benign
## 539    benign    benign
## 540    benign    benign
## 546    benign    benign
## 548    benign    benign
## 551    benign    benign
## 554    benign malignant
## 557    benign    benign
## 560    benign    benign
## 564    benign    benign
## 566 malignant malignant
## 570 malignant malignant
## 573    benign    benign
## 574    benign    benign
## 575 malignant malignant
## 578    benign    benign
## 579    benign    benign
## 580    benign    benign
## 583 malignant malignant
## 596    benign    benign
## 598    benign    benign
## 600    benign    benign
## 601    benign    benign
## 603    benign    benign
## 605 malignant malignant
## 606 malignant malignant
## 608    benign    benign
## 609 malignant malignant
## 611 malignant malignant
## 613 malignant malignant
## 628    benign    benign
## 629    benign    benign
## 632    benign    benign
## 638    benign    benign
## 640    benign    benign
## 641    benign    benign
## 646    benign    benign
## 648    benign    benign
## 655    benign    benign
## 656    benign    benign
## 658    benign malignant
## 660    benign    benign
## 665    benign    benign
## 667    benign    benign
## 668    benign    benign
## 670 malignant malignant
## 672    benign    benign
## 676    benign    benign
## 678    benign    benign
## 679    benign    benign
## 680    benign    benign
## 681 malignant malignant
## 684    benign    benign
## 686    benign    benign
## 694    benign    benign
t <- table(df.test$class,pred,dnn = c("Acutal","Predict"))#生成混淆矩阵
acc <- sum(diag(t))/nrow(df.test)*100 #计算准确度
print(acc)
## [1] 97.07317

结果显示条件决策树方法下的结果准确率也是97%

16.2.3 随机森林(random forest, RF)

需要用的R包是randomForest,该包是基于经典决策树生成随机森林。

  • 16.2.3.1 语法

randomForest()函数的用法可以参考??randomForest()-randomForest::randomForest

library(randomForest)
set.seed()
fit.forest <- randomForest(y~.,data=train, importance= )
fit.forest
importance(fit.forest,type=2)

forest.pred <- predict(fit.forest,test)
data.frame(Actual=test$y,Predict=forest.pred)#比较真实的和预测的结果
randomForest.pref <- table(test$y,forest.pred,dnn = c("Acutal","Predict"))#生成混淆矩阵
acc <- sum(diag(randomForest.pref))/nrow(test)*100 #计算准确度
print(acc)

注:

1)随机森林可以计算/度量变量的重要性,即设置importance=TRUE

importance: 这是一个逻辑值,用于指定是否计算变量的重要性。设置为TRUE表示计算变量的重要性,设置为FALSE表示不计算。变量的重要性指标可以帮助了解哪些变量对于模型的预测性能最为关键。

2)type的设置:

type = 1:使用MeanDecreaseAccuracy方法计算变量重要性。该方法通过对每个决策树进行预测,并比较预测准确率的变化来评估变量的重要性。它衡量的是每个变量在模型预测中对准确率的影响。

type = 2:使用MeanDecreaseGini方法计算变量重要性。该方法通过测量每个变量在决策树节点中用于分割样本的不纯度减少来评估变量的重要性。它衡量的是每个变量在模型中的分割能力。

type = 3:使用MeanDecreaseImpurity方法计算变量重要性。该方法与MeanDecreaseGini方法类似,但在计算每个变量的重要性时,考虑了每个变量在树的分割中使用的权重。

type = “node”:计算每个变量在每个节点上被使用的次数。

  • 16.2.3.2 举例
library(randomForest)
## Warning: 程辑包'randomForest'是用R版本4.3.2 来建造的
## randomForest 4.7-1.1
## Type rfNews() to see new features/changes/bug fixes.
## 
## 载入程辑包:'randomForest'
## The following object is masked from 'package:rattle':
## 
##     importance
## The following object is masked from 'package:psych':
## 
##     outlier
## The following object is masked from 'package:ggplot2':
## 
##     margin
## The following object is masked from 'package:dplyr':
## 
##     combine
set.seed(1234)
fit.forest <- randomForest(class~.,data=df.train, importance=TRUE)
fit.forest
## 
## Call:
##  randomForest(formula = class ~ ., data = df.train, importance = TRUE) 
##                Type of random forest: classification
##                      Number of trees: 500
## No. of variables tried at each split: 3
## 
##         OOB estimate of  error rate: 2.93%
## Confusion matrix:
##           benign malignant class.error
## benign       293         9  0.02980132
## malignant      5       171  0.02840909
importance(fit.forest,type = 2)
##                          MeanDecreaseGini
## clumpThickness                   9.794852
## sizeUniformity                  58.635963
## shapeUniformity                 49.754466
## maginalAdhesion                  8.373530
## singleEpithelialCellSize        16.814313
## bareNuclei                      36.621347
## blandChromatin                  25.179804
## normalNucleoli                  14.177153
## mitosis                          2.015803

可以看到sizeUniformity是最重要的变量,mitosis 是最不重要的变量。

forest.pred <- predict(fit.forest,df.test)
data.frame(Actual=df.test$class,Predict=forest.pred)#比较真实的和预测的结果
##        Actual   Predict
## 3      benign    benign
## 5      benign    benign
## 6   malignant malignant
## 8      benign    benign
## 9      benign    benign
## 16  malignant    benign
## 17     benign    benign
## 21  malignant malignant
## 25     benign    benign
## 27     benign    benign
## 28     benign    benign
## 30     benign    benign
## 33  malignant malignant
## 38     benign    benign
## 39  malignant malignant
## 46     benign    benign
## 49     benign    benign
## 50  malignant malignant
## 57  malignant malignant
## 58  malignant    benign
## 59  malignant malignant
## 64  malignant    benign
## 71     benign    benign
## 74  malignant malignant
## 75  malignant malignant
## 82     benign    benign
## 83     benign    benign
## 84     benign    benign
## 87  malignant malignant
## 92     benign    benign
## 93     benign    benign
## 94     benign    benign
## 95     benign    benign
## 98     benign    benign
## 111    benign    benign
## 112 malignant malignant
## 113 malignant malignant
## 114 malignant malignant
## 119    benign    benign
## 126    benign    benign
## 130    benign    benign
## 131    benign    benign
## 132    benign    benign
## 134    benign    benign
## 135    benign    benign
## 136    benign    benign
## 139    benign    benign
## 142    benign    benign
## 143 malignant malignant
## 152 malignant malignant
## 155    benign    benign
## 157    benign    benign
## 163    benign    benign
## 173    benign    benign
## 178 malignant malignant
## 179    benign    benign
## 182    benign    benign
## 186    benign    benign
## 191 malignant malignant
## 193    benign    benign
## 196    benign    benign
## 199    benign    benign
## 203    benign    benign
## 206 malignant malignant
## 210    benign    benign
## 215 malignant malignant
## 228 malignant malignant
## 231 malignant malignant
## 232 malignant malignant
## 239 malignant malignant
## 240 malignant malignant
## 244    benign    benign
## 245    benign    benign
## 246    benign    benign
## 253    benign malignant
## 254 malignant malignant
## 255 malignant malignant
## 261 malignant malignant
## 272    benign    benign
## 274 malignant malignant
## 275    benign    benign
## 277    benign    benign
## 284 malignant malignant
## 287 malignant malignant
## 288    benign    benign
## 291    benign    benign
## 297    benign malignant
## 299    benign    benign
## 301 malignant malignant
## 304    benign    benign
## 311    benign    benign
## 312    benign    benign
## 313 malignant malignant
## 314    benign    benign
## 317 malignant malignant
## 319    benign    benign
## 326    benign    benign
## 329 malignant malignant
## 332    benign    benign
## 335 malignant malignant
## 339    benign    benign
## 341 malignant malignant
## 343    benign    benign
## 344    benign    benign
## 346    benign    benign
## 351    benign    benign
## 354 malignant malignant
## 368 malignant malignant
## 369    benign    benign
## 373    benign    benign
## 381    benign    benign
## 383    benign    benign
## 395    benign    benign
## 405    benign    benign
## 407    benign    benign
## 408    benign    benign
## 413 malignant malignant
## 416    benign    benign
## 417 malignant malignant
## 425    benign    benign
## 426 malignant malignant
## 429    benign    benign
## 430    benign    benign
## 431    benign    benign
## 434    benign    benign
## 437 malignant malignant
## 448    benign    benign
## 450 malignant malignant
## 452    benign    benign
## 453    benign    benign
## 463    benign    benign
## 466 malignant malignant
## 467 malignant malignant
## 469    benign    benign
## 470    benign    benign
## 479    benign    benign
## 480 malignant malignant
## 481    benign    benign
## 488 malignant malignant
## 498    benign    benign
## 502    benign    benign
## 505    benign    benign
## 509    benign    benign
## 511    benign    benign
## 519    benign    benign
## 520 malignant malignant
## 522    benign    benign
## 524 malignant malignant
## 529    benign    benign
## 532    benign    benign
## 536    benign    benign
## 539    benign    benign
## 540    benign    benign
## 546    benign    benign
## 548    benign    benign
## 551    benign    benign
## 554    benign    benign
## 557    benign    benign
## 560    benign    benign
## 564    benign    benign
## 566 malignant malignant
## 570 malignant malignant
## 573    benign    benign
## 574    benign    benign
## 575 malignant malignant
## 578    benign    benign
## 579    benign    benign
## 580    benign    benign
## 583 malignant malignant
## 596    benign    benign
## 598    benign    benign
## 600    benign    benign
## 601    benign    benign
## 603    benign    benign
## 605 malignant malignant
## 606 malignant malignant
## 608    benign    benign
## 609 malignant malignant
## 611 malignant malignant
## 613 malignant malignant
## 628    benign    benign
## 629    benign    benign
## 632    benign    benign
## 638    benign    benign
## 640    benign    benign
## 641    benign    benign
## 646    benign    benign
## 648    benign    benign
## 655    benign    benign
## 656    benign    benign
## 658    benign    benign
## 660    benign    benign
## 665    benign    benign
## 667    benign    benign
## 668    benign    benign
## 670 malignant malignant
## 672    benign    benign
## 676    benign    benign
## 678    benign    benign
## 679    benign    benign
## 680    benign    benign
## 681 malignant malignant
## 684    benign    benign
## 686    benign    benign
## 694    benign    benign
randomForest.pref<- table(df.test$class,forest.pred,dnn = c("Acutal","Predict"))#生成混淆矩阵
acc <- sum(diag(randomForest.pref))/nrow(df.test)*100 #计算准确度
print(acc)
## [1] 97.56098
plot(fit.forest)#生成随机森林的图片

图片

结果显示随机森林预测的准确率达到97%。

16.2.4 支持向量机(support vector machines,SVM)

SVM是一类可用于分类和回归的监督机器学习模型。

SVM 旨在多维空间中找到一个能将全部观测值分成两类的最优平面,这一平面使得两类中距离最近的观测值的间距(margin)尽可能大,在间距边界上的点被称为支持向量,分割的超平面位于间距的中间。

  • 16.2.4.1 语法

kernlab包的ksvm()函数和e1071包中的svm()函数都可以实现SYM,其中ksvm()功能更强大,但svm()相对更简单。

library(e1071)
set.seed()
fit.svm <- svm(y~.,data= train)
fit.svm

svm.pred <- predict(fit.svm,test)#test指训练集
data.frame(Actual=test$y,Predict=svm.pred)#比较真实的和预测的结果,y指因变量
svm.pref <- table(test$y,svm.pred,dnn = c("Acutal","Predict"))#生成混淆矩阵
acc <- sum(diag(svm.pref))/nrow(test)*100 #计算准确度
print(acc)
  • 16.2.4.2 举例
library(e1071)
## Warning: 程辑包'e1071'是用R版本4.3.2 来建造的
## 
## 载入程辑包:'e1071'
## The following object is masked from 'package:flexclust':
## 
##     bclust
## The following object is masked from 'package:Hmisc':
## 
##     impute
set.seed(1234)
fit.svm <- svm(class~.,data= df.train)
fit.svm
## 
## Call:
## svm(formula = class ~ ., data = df.train)
## 
## 
## Parameters:
##    SVM-Type:  C-classification 
##  SVM-Kernel:  radial 
##        cost:  1 
## 
## Number of Support Vectors:  84
svm.pred <- predict(fit.svm,df.test)
svm.pred
##         3         5         6         8         9        16        17        21 
##    benign    benign malignant    benign    benign malignant    benign malignant 
##        25        27        28        30        33        38        39        46 
##    benign    benign    benign    benign malignant    benign malignant    benign 
##        49        50        57        58        59        64        71        74 
##    benign malignant malignant malignant malignant malignant    benign malignant 
##        75        82        83        84        87        92        93        94 
## malignant    benign    benign    benign malignant    benign    benign    benign 
##        95        98       111       112       113       114       119       126 
##    benign    benign    benign malignant malignant malignant    benign    benign 
##       130       131       132       134       135       136       139       142 
## malignant    benign    benign    benign    benign    benign    benign    benign 
##       143       152       155       157       163       173       178       179 
## malignant malignant    benign    benign    benign    benign malignant    benign 
##       182       186       191       193       196       199       203       206 
##    benign    benign malignant    benign    benign    benign    benign malignant 
##       210       215       228       231       232       239       240       244 
##    benign malignant malignant malignant malignant malignant malignant    benign 
##       245       246       253       254       255       261       272       274 
##    benign    benign malignant malignant malignant malignant    benign malignant 
##       275       277       284       287       288       291       297       299 
##    benign    benign malignant malignant    benign    benign malignant    benign 
##       301       304       311       312       313       314       317       319 
## malignant    benign    benign    benign malignant    benign malignant    benign 
##       326       329       332       335       339       341       343       344 
##    benign malignant    benign malignant    benign malignant    benign    benign 
##       346       351       354       368       369       373       381       383 
##    benign    benign malignant malignant    benign    benign    benign    benign 
##       395       405       407       408       413       416       417       425 
##    benign    benign    benign    benign malignant    benign malignant    benign 
##       426       429       430       431       434       437       448       450 
## malignant    benign    benign    benign    benign malignant    benign malignant 
##       452       453       463       466       467       469       470       479 
##    benign    benign    benign malignant malignant    benign    benign    benign 
##       480       481       488       498       502       505       509       511 
## malignant    benign malignant    benign    benign    benign    benign    benign 
##       519       520       522       524       529       532       536       539 
##    benign malignant    benign malignant    benign    benign    benign    benign 
##       540       546       548       551       554       557       560       564 
##    benign    benign    benign    benign    benign    benign    benign    benign 
##       566       570       573       574       575       578       579       580 
## malignant malignant    benign    benign malignant    benign    benign    benign 
##       583       596       598       600       601       603       605       606 
## malignant    benign    benign    benign    benign    benign malignant malignant 
##       608       609       611       613       628       629       632       638 
##    benign malignant malignant malignant    benign    benign    benign    benign 
##       640       641       646       648       655       656       658       660 
##    benign    benign    benign    benign    benign    benign malignant    benign 
##       665       667       668       670       672       676       678       679 
##    benign    benign    benign malignant    benign    benign    benign    benign 
##       680       681       684       686       694 
##    benign malignant    benign    benign    benign 
## Levels: benign malignant
data.frame(Actual=df.test$class,Predict=svm.pred)#比较真实的和预测的结果
##        Actual   Predict
## 3      benign    benign
## 5      benign    benign
## 6   malignant malignant
## 8      benign    benign
## 9      benign    benign
## 16  malignant malignant
## 17     benign    benign
## 21  malignant malignant
## 25     benign    benign
## 27     benign    benign
## 28     benign    benign
## 30     benign    benign
## 33  malignant malignant
## 38     benign    benign
## 39  malignant malignant
## 46     benign    benign
## 49     benign    benign
## 50  malignant malignant
## 57  malignant malignant
## 58  malignant malignant
## 59  malignant malignant
## 64  malignant malignant
## 71     benign    benign
## 74  malignant malignant
## 75  malignant malignant
## 82     benign    benign
## 83     benign    benign
## 84     benign    benign
## 87  malignant malignant
## 92     benign    benign
## 93     benign    benign
## 94     benign    benign
## 95     benign    benign
## 98     benign    benign
## 111    benign    benign
## 112 malignant malignant
## 113 malignant malignant
## 114 malignant malignant
## 119    benign    benign
## 126    benign    benign
## 130    benign malignant
## 131    benign    benign
## 132    benign    benign
## 134    benign    benign
## 135    benign    benign
## 136    benign    benign
## 139    benign    benign
## 142    benign    benign
## 143 malignant malignant
## 152 malignant malignant
## 155    benign    benign
## 157    benign    benign
## 163    benign    benign
## 173    benign    benign
## 178 malignant malignant
## 179    benign    benign
## 182    benign    benign
## 186    benign    benign
## 191 malignant malignant
## 193    benign    benign
## 196    benign    benign
## 199    benign    benign
## 203    benign    benign
## 206 malignant malignant
## 210    benign    benign
## 215 malignant malignant
## 228 malignant malignant
## 231 malignant malignant
## 232 malignant malignant
## 239 malignant malignant
## 240 malignant malignant
## 244    benign    benign
## 245    benign    benign
## 246    benign    benign
## 253    benign malignant
## 254 malignant malignant
## 255 malignant malignant
## 261 malignant malignant
## 272    benign    benign
## 274 malignant malignant
## 275    benign    benign
## 277    benign    benign
## 284 malignant malignant
## 287 malignant malignant
## 288    benign    benign
## 291    benign    benign
## 297    benign malignant
## 299    benign    benign
## 301 malignant malignant
## 304    benign    benign
## 311    benign    benign
## 312    benign    benign
## 313 malignant malignant
## 314    benign    benign
## 317 malignant malignant
## 319    benign    benign
## 326    benign    benign
## 329 malignant malignant
## 332    benign    benign
## 335 malignant malignant
## 339    benign    benign
## 341 malignant malignant
## 343    benign    benign
## 344    benign    benign
## 346    benign    benign
## 351    benign    benign
## 354 malignant malignant
## 368 malignant malignant
## 369    benign    benign
## 373    benign    benign
## 381    benign    benign
## 383    benign    benign
## 395    benign    benign
## 405    benign    benign
## 407    benign    benign
## 408    benign    benign
## 413 malignant malignant
## 416    benign    benign
## 417 malignant malignant
## 425    benign    benign
## 426 malignant malignant
## 429    benign    benign
## 430    benign    benign
## 431    benign    benign
## 434    benign    benign
## 437 malignant malignant
## 448    benign    benign
## 450 malignant malignant
## 452    benign    benign
## 453    benign    benign
## 463    benign    benign
## 466 malignant malignant
## 467 malignant malignant
## 469    benign    benign
## 470    benign    benign
## 479    benign    benign
## 480 malignant malignant
## 481    benign    benign
## 488 malignant malignant
## 498    benign    benign
## 502    benign    benign
## 505    benign    benign
## 509    benign    benign
## 511    benign    benign
## 519    benign    benign
## 520 malignant malignant
## 522    benign    benign
## 524 malignant malignant
## 529    benign    benign
## 532    benign    benign
## 536    benign    benign
## 539    benign    benign
## 540    benign    benign
## 546    benign    benign
## 548    benign    benign
## 551    benign    benign
## 554    benign    benign
## 557    benign    benign
## 560    benign    benign
## 564    benign    benign
## 566 malignant malignant
## 570 malignant malignant
## 573    benign    benign
## 574    benign    benign
## 575 malignant malignant
## 578    benign    benign
## 579    benign    benign
## 580    benign    benign
## 583 malignant malignant
## 596    benign    benign
## 598    benign    benign
## 600    benign    benign
## 601    benign    benign
## 603    benign    benign
## 605 malignant malignant
## 606 malignant malignant
## 608    benign    benign
## 609 malignant malignant
## 611 malignant malignant
## 613 malignant malignant
## 628    benign    benign
## 629    benign    benign
## 632    benign    benign
## 638    benign    benign
## 640    benign    benign
## 641    benign    benign
## 646    benign    benign
## 648    benign    benign
## 655    benign    benign
## 656    benign    benign
## 658    benign malignant
## 660    benign    benign
## 665    benign    benign
## 667    benign    benign
## 668    benign    benign
## 670 malignant malignant
## 672    benign    benign
## 676    benign    benign
## 678    benign    benign
## 679    benign    benign
## 680    benign    benign
## 681 malignant malignant
## 684    benign    benign
## 686    benign    benign
## 694    benign    benign
svm.pref <- table(df.test$class,svm.pred,dnn = c("Acutal","Predict"))#生成混淆矩阵
svm.pref
##            Predict
## Acutal      benign malignant
##   benign       138         4
##   malignant      0        63
acc <- sum(diag(svm.pref))/nrow(df.test)*100 #计算准确度
print(acc)
## [1] 98.04878

结果显示预测准确度达到98%。

16.3 选择预测效果最好的模型

首先,与混淆矩阵对应的也有一个2x2矩阵,分别为第一行:TP(True positive)、FN(False negative);第二行:FP(False positive)和TN(True negative)。在这2x2矩阵中,只有对角线的TP和TN是正确的,另外2个是错误的。

一般我们通过敏感度、特异性、正例命中率、负例命中率和准确度来度量模型预测的好坏:

图片

16.3.1 语法

performance <- function(table,n=2){
  if(!all(dim(table)==c(2,2)))
    stop("Must be a 2x2 table")
  tn=table[1,1]
  fp=table[1,2]
  fn=table[2,1]
  tp=table[2,2]
  sensitivity=tp/(tp+fn)
  specificity=tn/(tn+fp)
  ppp=tp/(tp+fp)
  npp=tn/(tn+fn)
  hitrate=(tp+tn)/(tp+tn+fp+fn)
  result <- paste("sensitivity= ",round(sensitivity,n),
                  "\nspecificity= ",round(specificity,n),
                  "\nPositive Predictive Value= ",round(ppp,n),
                  "\nNegative Predictive Value= ",round(npp,n),
                  "\nAccuracy= ",round(hitrate,n),"\n",sep = "")
  cat(result)

}

performance()

这段代码中的tn tp fp fn等在表格中的位置是根据前面数据集预测得到的混淆矩阵进行一一对应的,在这一数据集预测中,benign良性为真阴性(tn),malignant恶性为真阳性(tp),因为我们要检测恶性的占比。

cat() 是一个用于将文本或表达式输出到控制台的函数。它的作用类似于 print() 函数,但在输出时不会自动添加换行符。在这段代码中,cat(result) 用于将计算结果 result 输出到控制台。这样,当你调用 performance() 函数时,会将计算结果打印到控制台上,而不是返回一个值。

16.3.2 举例

performance <- function(table,n=2){
  if(!all(dim(table)==c(2,2)))
    stop("Must be a 2x2 table")
  tn=table[1,1]
  fp=table[1,2]
  fn=table[2,1]
  tp=table[2,2]
  sensitivity=tp/(tp+fn)
  specificity=tn/(tn+fp)
  ppp=tp/(tp+fp)
  npp=tn/(tn+fn)
  hitrate=(tp+tn)/(tp+tn+fp+fn)
  result <- paste("sensitivity= ",round(sensitivity,n),
                  "\nspecificity= ",round(specificity,n),
                  "\nPositive Predictive Value= ",round(ppp,n),
                  "\nNegative Predictive Value= ",round(npp,n),
                  "\nAccuracy= ",round(hitrate,n),"\n",sep = "")
  cat(result)

}
performance(logistic.pref)
## sensitivity= 0.95
## specificity= 0.99
## Positive Predictive Value= 0.97
## Negative Predictive Value= 0.98
## Accuracy= 0.98
performance(dtree.pref)
## sensitivity= 0.97
## specificity= 0.97
## Positive Predictive Value= 0.94
## Negative Predictive Value= 0.99
## Accuracy= 0.97
performance(randomForest.pref)
## sensitivity= 0.95
## specificity= 0.99
## Positive Predictive Value= 0.97
## Negative Predictive Value= 0.98
## Accuracy= 0.98
performance(svm.pref)
## sensitivity= 1
## specificity= 0.97
## Positive Predictive Value= 0.94
## Negative Predictive Value= 1
## Accuracy= 0.98

完整教程请查看

R语言基础学习手册

;