Bootstrap

【小白学机器学习22】 多变量分析,多变量回归(草稿)

目录

1 概念名词:

1.1 双变量分析与单因素分析

1.2 变化

1.3 相关分析 Correlation analysis

1.4 回归分析 Regression analysis

1.5 相干和相关

1.5.1 相干relevant 

1.5.2 相关Correlation

2  双变量分析,也就是单因素分析

3 相关分析

4 正态分布

4.1 正态分布的参数

4.2 标准化数值得目的

5  回归分析

5.1 定义:IV是否时DV的原因?

5.2  因果分析/回归分析,比正态分布的均值的预测更准

5.3 非标准回归 和标准回归系数

5.4 OLS

6 合力的影响

7 多因子回归‘

8 多变量分析,也就是多因子回归分析

关于数学

对数回归

K2检验

自由度

概率本身的乐趣

 什么叫显著

二维表

量化与数据


1 概念名词:

1.1 双变量分析与单因素分析

  • 双变量分析,和单因素分析有一定差别,包含下面2种情况
  1. 双变量分析:单自变量-单因变量的回归,两个变量的相关分析
  2. 单因素分析:单因素回归(单自变量-单因变量的回归)

1.2 变化

  • 变化 vary
  • 共变 convary
  • 共变得方式,共变得强度

1.3 相关分析 Correlation analysis

  • 目标:两个变量是否一起变化 convery
  • 不关心:谁先谁后,谁影响谁,谁是因果


1.4 回归分析 Regression analysis

  • 预设:有自变量,因变量
  • 目标: 看自变量的变化,是否能引起因变量的变化

1.5 相干和相关

1.5.1 相干relevant 

  • 辩证法
  • 1 万事万物普遍联系,
  • 可能并不直接联系,比如有些因素通过共线性得其他因素,对因变量产生影响。
  • 2 相干,只是一个终极本质上存在相干

1.5.2 相关Correlation

  • 相关,在理论上相关,模型上相关,数据上相关
  • Correlation
  • Correlated
  • 相关,不相关

2  双变量分析,也就是单因素分析

  • 从一个变量内部的分析变成2个变量,
  • 逻辑上是变了模型,2个变量,1个自变量,一个因变量

3 相关分析

  • 相关,在理论上相关,模型上相关,数据上相关
  • Correlation,Correlated
  • 相关,不相关
  • 相关得方向:
  • 相关系数:标准化后得系数。 因变量B/自变量A=相关系数,相当于以A为单位。
  1. 正相关:相关系数0-1之间。
  2. 负相关:相关系数0—1之间
  3. 不相关,没有系统得关系,只有看起来随机性得关系
  • 相关的强度:相关系数的值。-1 ~1 之间。0是不相关。
  • 相关的显著度: 是否有系统性,非随机的关联?

4 正态分布

4.1 正态分布的参数

  • 均值
  • 标准差(sqrt-方差)
  • 标准值=( x-u)/sd  即以sd为量纲
  • 标准值,其实就是概率了,或者可以一一对应为概率了
  • 标准值,就是用 标准差来横向每个数值与 均值得距离,是n个多少个标准差。
  • 标准正态分布,其实就是标准值得分布曲线。


4.2 标准化数值得目的

  • 是为了去除量纲得影响。
  • 标准值也是
  • 通过这种标准值得公式操作
  • 所有的数值,最后都是相关一套坐标系:标准正态分布的相同的量纲比较。

5  回归分析

5.1 定义:IV是否时DV的原因?

  • 自变量: DV  ,dependent variable
  • 因变量: IV,  Independent variable

5.2  因果分析/回归分析,比正态分布的均值的预测更准

  • 正态分布时,如果不引入其他因素,如何预测将来的值最准呢?
  • 用平均值预测,最终,总TSS误差和最小。
  • 总TSS=用每个值去预测将来,产生的误差,之SUM
  • 是否可以预测得更准?
  • 如果可以引入其他值,是否可以预测得更准?
  • 可以,OLS,就是干这个事情得

可以尝试画一个图

  • 就是
  • 横轴:自变量,
  • 纵轴:因变量,
  • 纵轴上画一条与横轴平行的线,就是均值线,应该是最小的TSS
  •       画多条与横轴平行的线,非均值线,应该总误差和TSS会变大
  • 一条斜线,线性预测,就是线性回归的结果,这个OLS的误差和变小。
  • 线性回归里, RSS/TSS,其实是以TSS均值的0因素分析为基础的。

5.3 非标准回归 和标准回归系数

  • Unstandardlized coefficients,  非标准化回归系数,够用。反应的就是 因变量/自变量的系数,自变量 每变化1单位变化(1就是单位变化,如果想是5作为单位变化,继续/5,最后再还原),因变量变化多少。
  • standardlized coefficients,以各种标准差为单位。就是自变量每变化1个单位的自己的标准差,因变量变化多少个单位的自己的标准差长度。
  • 建模,简单的来说,就是写函数,列方程等等。


5.4 OLS

  • O ordinary
  • Least 最小
  • Square  sum of squares
  • 回归系数的显著度检测,就是指 系统的 systematic,非随机的non-random
  • 因此才显著,值得研究去关注,是显著的自变量


著名图

  • 2个自变量 IV1  IV2
  • 1个因变量,DV
  • 3个圆交叉。

  • F是3者交叉的
  • 第1个模型方程:单因素回归分析1
  • D+F,是自变量1的回归系数

  • 第2个模型方程:单因素回归分析2
  • G+F,是自变量2的回归系数

  • 第3个模型方程:
  • 而如果是多因素回归
  • D,是自变量1的净影响,回归系数
  • G,是自变量2的净影响,回归系数
  • F,是自变量1和2共同作用的的影响,不计入各自的净影响
  • 所以,多因素线性回归里的,单个自变量的系数 != 单因素线性回归里的自变量的系数

1 拿平均值就可以来预测,但是误差是TSS
2 OLS,最小二乘回归法,预测后的总误差会下降,RSS ESS TSS
3 那个T值,其实就是做成标准正态分布之后的概率直接比较
4 后面是一个按比例比较
5 K2检验
6 LOG对数回归
7 最大似然估计,已经发生的发生的就是概率最大的

相关 correlate
相干 relevantLogit 是 把发生率α/(1-α) 然后取自然对数来做的 loge α/(1-α)=ln(α/(1-α))
把数值的范围,标准化了,变成了-9 -9之内

6 合力的影响


会有回归系数,R,R**2
这个判断系数,告诉我们的是多个因子合力的影响的评判
而不是某个因子的净影响。

7 多因子回归‘


还有一种社会学常用的方法
就是不能测试自变量,
而需要把自变量拆为多个更小的因子。进行因子分析。

旋转因子,就是假设认为是有关联的,旋转因子,让每个因子都互相正交/垂直/0相关/方差最大化。避免这些因子互相是共线的。

8 多变量分析,也就是多因子回归分析

研究
1因1果
多因1果

不研究
1因多果
保护函数,映射也是一样的,只看漫射,单射等等。

多元线性回归,多因子回归,多自变量回归,都一个意思

单因子回归分析差别
1 相同:还是有因果关系
2 不相同:几个自变量之间,必须是独立的影响因变量。
          也就是自变量之间,不存在共线性。

分析
1 每个因素的参数,偏回归系数,净回归系数
有点偏导数,净导数的意思了
Partial regression coefficient 


关于数学


1 乘法的本质是加法
2 积分的本质也是加法,连续内容的相加不能用乘法


对数回归


就是
发生率=某个事件发生的概率/此事件不发生的概率。
坐上时光机去回溯,或者就是思想试验
这个思想试验,是一个模型,就是认为现在往回去倒推,过去自变量和因变量的关系,现实应该是其中发生概率最大的可能对应的那个事件。如果推导不是这也,那就错了。
这个就是极大似然估计。


发生率的对然对数回归
Ln(α/(1-α))

现在的可能性—针对是未来,概率,probility
过去的可能性—针对是过去,使然,likehood


为什么要用对数回归
如果纯都是定量数据就没问题
但是一旦里面混入了定性/定类数据,就有了问题
用线性回归,会出现 负数系数,负数截距等,逻辑上不可能的情况

因为必须改成曲线回归
如何做曲线回归,很难
变换成其他直线回归
就是用对数
概率,转化为发生率,发生率的自然对数。Log of  it =p/(1-p)
发生率不对称,因为是比率,分母分子变化不对等
0.9/0.1=9            变化大,发生率变化小
0.99/0.01=99
0.999/0.001=999
0.9999/0.0001=9999  微量变化小,反而发生率变化很大。


E=2.718
所以用自然对数,变成稳定的-9~9之间了


K2检验

K2检验
查表
1 和自由度相关
2 和K2的值的大小有关系
自由度越大,单元格总数越多,K2的值得可能越大
看经典的K2的曲线。
自由度比较小的时候,单调下降
自由度比较大之后就开始接近正态分布的钟形曲线了,超过20接近正态
T值检验T值也和自由度有关系,但关系比较松散不用太关心。
因为T检验一般检验连续变量,连续变量自由度很容易超过20,一般不考虑这个限制。
一般自由度越大的K2曲线,K2的值,均值都会更大。

K2=Σ(观察值-预期值)^2/预期值
K2=(O1-E1)^2/E1+(O2-E2)^2/E2+…..+ (On-En)^2/En

K2值独立检验
先检验,算出来了确定的K2值的结果下,来判断,
   如果自由度小,K2一般越大,越表示发生的概率小。
因而根据最大似然估计,推测 现在不可能是小概率发生,从而用K2检验拒绝了原来的假设。
极大似然估计认为,现在一定是 在过去那个事件点发生的概率最大!


举得例子,
整体员工里,黑人和白人的比例,60:40
经理员工里,黑人和白人的比例,4:20

假设前提,55开
也就是,每个黑人和白人都是50%可能成为经理
那么
假设员工人数里,就是合理现状,往下推论
实然的世界:是经理的现状4/20,SUM=24
应然的世界:60*0.5=30 / 20*0.5=10=3:1 ,SUM里应该分布是18/6 黑人经理/白人经理
从而说明有问题,应然和实然差距太远

但是差距多远,算是远呢?


自由度


计算方法
(行数-1)*(列数-1)
理解
就是一个交叉表里,可以自由确定数值的格子的数量

交叉表
Cross tabulation 
经常展示定类变量和定勋变量的关系。
1个变量,行
1个变量,列
交叉,就是相乘,情况相乘= 组合的数量

比如2*2表
自由度=(2-1)*(2-1)=1*1=1
    变量1*T    变量1*F    SUM
变量2* T    α    1-α    1
变量2* F    1-α    α    1
SUM    1    1    

自由度=(2-1)*(3-1)=1*2=2
自由度,就是可以自由取值的交叉表里单元格的数量
    变量1*A    变量1*B    变量1*C    SUM
变量2* T    α    β    1-α-β    1
变量2* F    1-α    1-β    α+β    1
SUM    1    1    1    

概率本身的乐趣


钟形曲线,是天网恢恢,疏而不漏
负无穷-正无穷,中间是0

对应钟形曲线下围成的面积,概率是0到1之间
50%,五五开,是中间点
往高,接近1
往低,接近0,逼近0

在OLS里,平均值就是参照线。
对数回归中,五五开的概率是参照线

策略的
切实性,确实测量的方法够合适,不大不小,可测等等
可靠性,反复测试,结果要稳定

 什么叫显著


个体
二维表
横向,一个个体的多个属性(只挑一些)
纵向,一个属性的组成的线/

也就是结果的正确/正义无法保证
只能从过程的正确/正义上去保证


显著,只是说两者存在,非随机的关系。 
不等于重要,或者其他

二维表


个体两方面
1 多个个体
2 多个属性/特征,每个属性都有1 名字 2尺度
个体
二维表
横向,一个个体的多个属性(只挑一些)
纵向,一个属性的组成的线/

量化与数据


数据种类一,界面数据
数据种类2,时序类数据
也说明了,公平也一样,只有过程的公平,没有结果的公平。
但是这个又在变化,继续下一次的过程。

正态分布/自然分布也说了这个问题,一定是中间大,两头小。
而且钟形曲线是无限的,天网恢恢,苏而不漏。

;