- 说明:
- 常见的模型报告/paper,篇幅集中在模型对比上,通过核心指标(比如AUC)的提升来说明新模型比老模型好
- 在自己的工程实践中,更多时候需要说明
- 新建立的模型是怎么work的
- 什么情况下什么类型的case会预测的好,什么情况和case会预测的不好
- 我预期会有效的特征/case为什么会无效,哪些以外的特征/case
- 侧重于单模型分析而非多模型对比,所以有了以下的模型分析报告格式
- 问题:
- 问题背景
- 问题定义
- 数据来源
- 分几部分,时间,数据如何产生,主要内容,数据量
- 建模
- 样本的定义
- X,包含哪些特征,分为哪几类,从什么数据生产,特征生成方法,特征含义
- Y,如何构建,正样本比例
- 做了什么预处理(缺失值填充/样本权重)
- 使用的模型及参数
- 模型评估
- 训练集/校验集/测试集
- 调参技巧,模型提升技巧
- 训练loss降低过程图
- auc,pr,ks,校准度
- 对样本分类,看不同类的效果
- 特征分析
- shap表
- 特征分析表:分类分为数,缺失率,auc,缺失部分的label均值,模型中的权重
- 人工分析:
- 单特征分析
- 特征交叉分析
- 理论上有效实际无效的,理论上无效实际有效的特征
- 对shap结果进行聚类,看每一类的特征特点和预测效果
- 案例分析
- 重点分析四类case,正例模型分极高,正例模型分极低,负例模型分极高,负例模型分极低