R数据分析：集成学习方法之随机生存森林的原理和做法，实例解析

本文介绍: 很久很久以前给大家写过决策树，非常简单明了的算法。今天给大家写随机（生存）森林，随机森林是集成了很多个决策数的集成模型。像随机森林这样将很多个基本学习器集合起来形成一个更加强大的学习器的这么一种集成思想还是非常好的。所以今天来写写这类算法。

很久很久以前给大家写过决策树，非常简单明了的算法。今天给大家写随机（生存）森林，随机森林是集成了很多个决策数的集成模型。像随机森林这样将很多个基本学习器集合起来形成一个更加强大的学习器的这么一种集成思想还是非常好的。所以今天来写写这类算法。

所谓的集成学习方法，就是把很多的比较简单的学习算法统起来用，比如光看一个决策树，好像效果比较单调，还比较容易过拟合，我就训练好多树，把这些树的结果综合一下，结果应该会好很多，用这么样思路形成的算法就是集成学习算法Ensem ble methods，就是利用很多个基础学习器形成一个综合学习器。

集成学习方法最有名的就是bag gin g 和boosting 方法：

BAGGing, or Bootstr ap AGGregating这个方法把自助抽样和结果合并整合在一起，包括两个步骤，一个就是自助抽样，抽很多个数据集出来，每个数据集来训练一个模型，这样就可以有很多个模型了；第二步就是将这么多模型的结果合并出来最终结果，这个最终结果相对于单个模型结果就会更加稳健。

rf_default <- train(Class~., 
                    data=dataset, 
                    method='rf', 
                    tuneLength  = 15, 
                    trControl=control)
print(rf_default)

RF_obj <- rfsrc(Surv(ttodead,died)~., dataSet, ntree = 1000,  membership = TRUE, importance=TRUE)

ROC_rsf<-timeROC(T=finaldata.Test$Surv_day,delta=finaldata.Test$status,
             marker=risk_score,
             cause=1,
             times=c(365,365*3,365*5),iid=TRUE)
plot(ROC_lasso,time=365)
plot(ROC_lasso,time=365*3,add = T,col="blue")
plot(ROC_lasso,time=365*5,add = T,col="green")
legend(.8, .3, legend=c("T=1 Year AUC=0.895", "T=3 Year AUC=0.917","T=5 Year AUC=0.926"),
       col=c("red", "blue","green"), lty=1, cex=0.7,bty = "n")

y.pred <- predict(RF_obj)[["predicted"]]
plot(surv_cutpoint(dataSet, time = "ttodead", event = "died",
                   variables = c("y.pred")), "y.pred", palette = "npg")