正态分布-天儿/洛天依/徵羽摩柯
一、何为“数据的分布”在对正态分布正式介绍之前,我们先解决一个疑问:何为数据的分布?
有概率论基础的小伙伴们都知道概率论是一门研究随机事件的科目,为了研究事件的随机性,我们引入了概率测度、样本空间等等专业名词。和概率论一致,统计学将所有研究对象的数量方面抽象为随机变量,概率论中描述常见随机现象的概率分布模型,则是统计学开展研究的理论支撑。
我说“停停”,能不能说点通俗易懂的话?
通俗来讲,数据的分布描述了随机变量变化的规律,揭示了待研究对象在数量方面变动的特征。通过数据分布我们便可以了解随机事件变化的全貌。借助数据分布,我们可以对数据变动的全貌进行简要概括。根据随机变量取值形式的不同,可分为离散型随机变量的分布和连续型随机变量的分布。
比如抛硬币的结果记为正面和反面,就符合的是离散型随机变量分布的二项分布;而现实生活中很多变量取值都是连续的,这就产生了连续型随机变量的分布。这众多的连续型随机变量分布中,有一种地位尊贵的分布叫作正态分布。
现实生活中很多变量的分布都服从正态分布,比如大家的身高呢,都会在一个区间内波动,并且这个区间里在均值附近的人数是最多的。又比如人的智商,阅读本文的小伙伴们智商虽有差异,但大多处在85-115之间。而智商处在85~115的人类能占到总体约70%。人类智商的均值虽处在100附近,但总会存在一些智商超群的人,这类人我们称之为天才,比如爱因斯坦老爷子。
二、从正态分布与最小二乘法谈起
有小伙伴可能会问:“正态”二字代表什么?为什么我学过的“正态分布”叫作“高斯分布”呢?为什么在线性回归的假设里有误差项 呢?看完接下来的故事,大家就明白啦~~~
故事发生在十八世纪中