Bootstrap

【经典案例】 | 多元线性回归模型预测房价(附Python代码与数据)

在这里插入图片描述
👆 本文已在公众号 “ 数据分析与商业实践 ” 首发,关注一下,更多商业数据分析案例等你来撩 ~~

前言

本文重在以清晰明了的方式展示利用多元线性回归模型实现预测功能的基本流程。其中包含的知识点如下,源数据源代码可空降文末 ~~
在这里插入图片描述


变量探索

数据读入

在这里插入图片描述
在这里插入图片描述

异常值处理

在这里插入图片描述
在这里插入图片描述

类别变量数值分布情况

在这里插入图片描述

变量关系探索

使用自写库实现一行代码绘制热力图
在这里插入图片描述

方差分析

style 和 neighborhood 与房价 price 是否有关联可以使用方差分析
在这里插入图片描述
插播一条样本量和置信水平 α_level 的注意点(置信水平 α 的选择经验)样本量
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
根据 p 值,变量 style 与 neighborhood 都值得放入模型。


statsmodels 建模

在这里插入图片描述
在这里插入图片描述


模型优化

虚拟变量

关于虚拟变量的原理趣析可参考这篇文章
多元线性回归模型精度提升–虚拟变量
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

方差膨胀因子

在这里插入图片描述
模型末尾提示可能存在多元共线性,需要处理一下,关于方差膨胀因子的原理趣析可参考这篇文章
多元共线性检测 – 方差膨胀因子
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
后再次建模的步骤就不一一展示了,我们会发现删除 bedrooms 后模型的精度没变,但实际情况中是否要删减还是需要结合具体业务来分析。


总结

多元线性回归模型作为最基础又最经典的模型之一,用处十分广泛。本文实现了从探索性数据分析到模型建立再到用经典的方法将模型优化的一套通用的流程,具体该添加哪些处理细节和算法,还需要根据实际情况进行考量。至于具体的模型参数和结果该怎么看,本文就不再一一赘述,其中往模型里添加了虚拟变量后该如何对结果进行解释,这一点在文中虚拟变量的链接中已详细地做出了解释。

注:相关数据源和超详细的代码(python,Jupyter Notebook 版本 + 详细注释)已经整理好,在 “ 数据分析与商业实践 ” 公众号后台回复 “ 多元预测 ” 即可获取。

在这里插入图片描述
案例实战 | 决策树预测客户违约(附Python代码与数据)

后续会不断更新常见场景下的 Python 实践,欢迎关注
在这里插入图片描述

;