ArcGIS pro中的回归分析浅析（加更）关于广义线性回归工具的补充内容

在回归分析浅析中篇的文章中，

有人问了一个问题：

案例里的calls数据貌似离散，更符合泊松模型，为啥不采用泊松而采用高斯呢？

确实，在中篇中写道：

在这个例子中我们为了更好地解释变量，使用高斯模型代替更适合的泊松模型。

这句话该怎么理解呢？

一般情况下，拿到研究数据之后，如果我们计划使用GLR工具，首先需要判断使用哪个模型，使用哪个模型是由数据来确定的，当数据都是整数时，究竟是用高斯还是泊松呢？

我们知道，高斯模型需要满足数据正态分布。在Pro中如何看数据是否正态分布呢？

打开Pro，在内容列表中选择包含因变量的原始图层，选择创建图表，点击直方图就可以查看数据的分布形态了。

在图表属性中选择数值变量为Calls

存在变换三种形式，无变换、对数变换以及平方根变换。默认情况下选择无变换。

其中横轴是Calls值，纵轴为Calls的数量。

很显然，当前数据是偏斜的，并不是正态分布的。这种情况下是不建议选择高斯模型，更推荐使用泊松的。

但是很多情况下，高斯的性能或者说拟合度都要好于泊松。（大家可以尝试使用本例中的数据，再结合GLR工具中的泊松模型得出该模型的拟合度）

所以为了向高斯模型靠拢，提高模型精度，会尝试将数据进行变换。

你可以理解为在某种程度上，变换可以认为并非在调整数据，而是换个角度看数据，比如说圆柱体完全水平的看截面是正方形，而从顶上垂直俯视是圆形。怎么看（变换），都不会改变数据的最终表现，只是让我们从某个角度更容易的理解它而已。

god xia，公众号：虾神说D[虾答]莫兰指数计算时只能用原始数据还是也能用取对数后的数据？

以上内容引自虾神卢（下一篇会附上他的公众号）关于变换内容的说明

将数据进行变换，也就是尝试使用对数变换以及平方根变换，再来确定数据是不是正态分布的。如果变换后数据是正态分布的，我们仍然可以选择高斯模型来对变量之间的线性关系进行建模。

在这里我们尝试使用平方根变换。

很不幸。仍然不是正态分布。

但是上述这种，数据变换之后呈现正态分布的情况确实存在。例如这里我们使用了房价数据进行比较。

房价无变换房价对数变换

非正态分布呈正态分布

所以，严格来说，本例中使用高斯模型来进行数据的分析和预测是存在问题的。（同学们千万注意）

本例中，我们的本意是想讲清楚高斯模型中的众多的结果指标，并得出GLR工具在本例中并不平稳的结论。大家可以理解其方法和思路。

同一数据泊松分布的结果如下

：

地图视图结果展示

地图视图中增加了GLRPossionData911Calls图层。并使用偏差残差(非标准化残差)来进行渲染。

内容列表中的GLRData911Calls图层

同时增加了3个图表。图表与结果是相互印证的，因此在这里我们主要分析GLRPossionData911Calls图层的内容以及结果运行出来之后的详细信息。

与原始的ObsData911Calls相比较，保留了全部要素的Calls、Pop, Jobs, LowEduc, Dst2UrbCen也就是因变量和解释变量属性，增加了Raw Predicted（CALLS）、Predicted（CALLS）字段也就是因变量的预测值，以及Deviance Residual（偏差残差）这三个字段。

其中偏差残差也反应了预测值与实际值之间的差异，这个与标准残差不同，没有大于2.5或者小于-2.5的限制。

再来看泊松模型的GLR结果

可以发现结果与高斯模型的结果类似，都包含了系数、概率和VIF。这些要求比如概率带星号，VIF不能大于7.5的要求都是相同的。

GLR的诊断中已解释偏差表明因变量中有多少变化可以由模型解释，也叫作模型拟合优度，类似高斯模型中的R方。

从这里我们也能看出，本例中，泊松的拟合结果比高斯的要低。

本例中，我们提供的数据不是特别理想，导致模型的选择容易混淆。在云盘连接中，我们还补充了房产数据，符合高斯模型，大家可以尝试一下。链接:

链接：https://pan.baidu.com/s/17KFw8l5PeBQMAgtAjKU80Q?pwd=1vsl
提取码：1vsl

ArcGIS pro中的回归分析浅析（加更）关于广义线性回归工具的补充内容

悦读