Bootstrap

计算标准累积正态分布_统计学习之路|(三)地位尊贵的正态分布

     小伙伴们又见面了!在转载了三期推友的文章后,马保国老同志给我说:“小伙子你不讲武德,快更新你的统计学习之路系列,要不然我就取关了!” 一听说要掉粉,我啪地一下就站起来了,很快啊!赶紧打开电脑思考更一期什么内容。

39798b9aa9d9f91afaed40116508f263.png

     哈哈,事实是有小伙伴给我发私信说希望我把“天坑系列”坚持更下去,并希望我更新一些基础的统计学内容。采纳大家的建议,本期我们要更新一个贯穿统计学始终的数据分布: 数据分布之正态分布。为了更好的阅读体验,请大家点击下方链接,有请洛天依同学为我们演奏一曲(这里先卖个关子)~~~

正态分布-天儿/洛天依/徵羽摩柯 

一、何为“数据的分布”

      在对正态分布正式介绍之前,我们先解决一个疑问:何为数据的分布?

      有概率论基础的小伙伴们都知道概率论是一门研究随机事件的科目,为了研究事件的随机性,我们引入了概率测度、样本空间等等专业名词。和概率论一致,统计学将所有研究对象的数量方面抽象为随机变量,概率论中描述常见随机现象的概率分布模型,则是统计学开展研究的理论支撑。

      我说“停停”,能不能说点通俗易懂的话?

      通俗来讲,数据的分布描述了随机变量变化的规律,揭示了待研究对象在数量方面变动的特征。通过数据分布我们便可以了解随机事件变化的全貌。借助数据分布,我们可以对数据变动的全貌进行简要概括。根据随机变量取值形式的不同,可分为离散型随机变量的分布和连续型随机变量的分布。

      比如抛硬币的结果记为正面和反面,就符合的是离散型随机变量分布的二项分布;而现实生活中很多变量取值都是连续的,这就产生了连续型随机变量的分布。这众多的连续型随机变量分布中,有一种地位尊贵的分布叫作正态分布。

     现实生活中很多变量的分布都服从正态分布,比如大家的身高呢,都会在一个区间内波动,并且这个区间里在均值附近的人数是最多的。又比如人的智商,阅读本文的小伙伴们智商虽有差异,但大多处在85-115之间。而智商处在85~115的人类能占到总体约70%。人类智商的均值虽处在100附近,但总会存在一些智商超群的人,这类人我们称之为天才,比如爱因斯坦老爷子。

3dd19e0641f3c10597244796979d9352.png

二、从正态分布与最小二乘法谈起

     有小伙伴可能会问:“正态”二字代表什么?为什么我学过的“正态分布”叫作“高斯分布”呢?为什么在线性回归的假设里有误差项  呢?看完接下来的故事,大家就明白啦~~~

      故事发生在十八世纪中

;