之前设想的分析思路有了名字-“使用机器学习鉴定危险因素”
之前在学习SHAP分析的时候,因为SHAP值是反映变量间关系的强度,感觉得到可以使用立方样条来拟合单个变量的SHAP值随该变量变化而变化的趋势,进而确定单个变量的关键点(SHAP值为0的点),作为传统独立危险因素鉴定的补充,也写了几条博文来介绍这个想法,比如,以SHAP值为基础的变量间关系分析(cox版本),还有一个非cox版本的,还制作的了APP版本的。
因为制作课件的缘故,搜索了一下Pubmed,发现有文献在2023年已经介绍过相似的分析思路,而且作者似乎是数据专业方面的,他们将这种分析思路称作“使用机器学习鉴定危险因素”【1,2,3】,认为传统的单因素分析+多因素回归分析的方法是存在缺陷的,比如会预先设定变量间的关系是线性的,而使用xgboost等机器学习的方法可以更加准确地描述变量间的关系,这个分析思路在其它文献上得到了使用【4】,这应该算是得到了一定程度的接受和认可。
这个分析思路可以用在构建预测模型之后对模型的深度解释,也可以单独使用来鉴定变量间的因果关系,目前发表的文章还都是2013年和2014两年的,算是比较新的思路。
参考文献:
[1] Huang AA, Huang SY. Use of machine learning to identify risk factors for insomnia. PLoS One. 2023 Apr 12;18(4):e0282622. doi: 10.1371/journal.pone.0282622.
[2] Huang AA, Huang SY. Use of machine learning to identify risk factors for coronary artery disease. PLoS One. 2023 Apr 14;18(4):e0284103. doi: 10.1371/journal.pone.0284103.
[3] Huang AA, Huang SY. Shapely additive values can effectively visualize pertinent covariates in machine learning when predicting hypertension. J Clin Hypertens (Greenwich). 2023 Dec;25(12):1135-1144. doi: 10.1111/jch.14745.
[4] Zhang M, Wang H, Zhao J. Use machine learning models to identify and assess risk factors for coronary artery disease. PLoS One. 2024 Sep 6;19(9):e0307952. doi: 10.1371/journal.pone.0307952.