数据技术的发展历史就是人类追求美好生活过程最真实的写照。
大数据分析的历史与未来展望
最早的数字不是阿拉伯人发明的,数字的起源如同文字起源一样古老。
结绳记事
《易九家言》中记载“事大,大结其绳;事小,小结其绳,之多少,随物众寡”,即根据事件的性质、规模或所涉及数量的不同结系出不同的绳结。
人们最早可以使用各种颜色,各种材质,粗细不同等绳子构建出数百个绳结词汇,以此来记载进行完整的有效记载。
记数法
数字进入我们的生活是从农耕文明的兴起开始的,人们日出而作,日落而息。农闲时有了观察的时间,人们积累的数据开始增加,结绳记事已经满足不了人们的日常需求,需要有一种新的方式来记录白天时长,气候变化等等。在当时,我们就有了某种抽象的符号来承载这些信息。
印度-阿拉伯数字系统是一系列的十进制进位制的计数系统,起源于9世纪的印度。
此系统像一种语系,当地的很多文字系统的不同记数符号都是起源于此系统。
起源于印度的婆罗米数字,在中世纪时传入中东和西方。各个地区根据当地的文字系统改造了其数字字符。现在还在使用的三大分支是:
- 西方阿拉伯数字,世上最流行的记数系统
- 阿拉伯文数字,中东和西亚地区最流行的记数系统
- 印度数字,印度祖传的记数系统
赌博催生了概率论
在十七世纪中叶,法国有一个好赌的贵族德·美黑写信向当时法国的数学家帕斯卡请教骰子赌博时赌资分配的问题(甲乙两个人赌博,他们两人获胜的机率相等,比赛规则是先胜三局者为赢家,一共进行五局,赢家可以获得100法郎的奖励。当比赛进行到第四局的时候,甲胜了两局,乙胜了一局,这时由于某些原因中止了比赛,那么如何分配这100法郎才比较公平?)。
帕斯卡和数学家费尔玛一起,研究了德·美黑的问题。于是,一个新的数学分支—概率论登上了历史舞台。
1642年,帕斯卡制成了世界上第一台进行6位数加减运算的手摇式机械计算机。
1657年,荷兰著名的天文、物理兼数学家惠更斯写成了《机遇的规律》一书,是最早的概率论著作,这本书提出了一个概念–数学期望。
使用数学期望来解决这个问题的话:因为甲输掉后两局的可能性只有(1/2)×(1/2)=1/4,也就是说甲赢得后两局或后两局中任意赢一局的概率为1-(1/4)=3/4,甲有75%的期望获得100法郎;而乙期望赢得100法郎就得在后两局均击败甲,乙连续赢得后两局的概率为(1/2)*(1/2)=1/4,即乙有25%的期望获得100法郎奖金。
可见,虽然不能再进行比赛,但依据上述可能性推断,甲乙双方最终胜利的客观期望分别为75%和25%,因此甲应分得奖金的100*75%=75(法郎),乙应分得奖金的的100×25%=25(法郎)。
著名数学家雅格布·伯努利仔细阅读过好友惠更斯的《机遇的规律》一书,由此启发了其对概率论的兴趣,他在1705年去世前完成的《推测术》,直到1713年才正式出版,这本书是概率论的第一本专著。
人口社会调查催生了数理统计
-
中国
-
大禹治水
根据山川土质,人力和物力的多寡,分全国为九州;
殷周时代实行井田制,按人口分地,进行土地和户口的统计;
-
黄册和鱼鳞册
明代编制了黄册(全国户口名册)与鱼鳞册(全国土地图籍),绘有地形,完全具有现代化统计图表的性质
-
-
西方
-
埃及金字塔
为征收建筑费用,对全国人口进行普查和统计
-
亚里士多德时代
统计在卫生、保险、国内外贸易、军事和行政管理上的应用都有详细记载
-
大数定律
伯努利等人提出了“大数定律”,奠定了数据推导规律,并用于决策的基础
-
数据分析与统计的应用–格朗特与死亡公报
从1604年开始,伦敦教会每周会发布一次死亡公报(Bills of Mortality),因为受当时战争、黑死病的影响,伦敦教会每周会公布一次死亡和受洗者的名单(使用死因分类),在1612年公报中就有了63种死因分类。
格朗特认为,儿童死亡发生在5岁以下的概率为三分之一,6岁以下为二分之一,仅有百分之七的可能性寿终正寝。以此估算出伦敦16-56的成年男性占据当时总人口的34%,有7万人会死于黑死病。
- 统计学领域的第一个经典文献’Natural and Political Observations Made upon the Bills of Mortality’
- 创造了第一张生命表(Life Table),计算期待寿命
- 生命表奠定了生存模型的发展,是现代顾客生命周期管理的建模基础
- 试图通过建立和生产模型来分析和描述黑死病的传播
- 开创性提出了在不确定性条件下做出决策所需要的关键理论概念:抽样、平均数对未来事件的概率的置信程度等等。让统计分析成为了一门科学
数据分析与统计的应用–斯诺与霍乱
斯诺认真的访问了有霍乱患者的家庭,详细登记了患者的姓名、年龄、疾病发作时间、卫生条件以及是否喝过疑似污染水源的百老汇街区的水,最终得出结论:
-
霍乱是通过饮用水传播
-
将病例的分布画在一张地图上,这样可以一目了然的看到围绕哪个水泵周围的居民,发病与显著高于伦敦市其他地方
- 伦敦霍乱爆发地图成为数据可视化的开山之作
数据库的起源–打孔卡
1880年美国进行人口普查的数据全靠手工处理,历时7年才得到结果。
同年,美国人口调查局职员霍列瑞斯发明了用于人口普查数据的穿孔卡片及机器,并用于1890年美国人口普查,仅6周就完成了统计。
霍列瑞斯后来创建了一个公司,叫做制表机公司,但是他后来还有一个名字叫做国际商用机器公司(IBM)。
二战时的应用
美军运筹研究人员从战场调查入手,采用统计评估的方法将作战详报转换为统计数据,并建立起数据与研究问题之间的联系。
-
大型战舰
大幅度机动遭神风敢死队命中率为22%,明显小于不采取机动的49%
大幅度机动防空武器命中率为78%,不机动时为74%
-
小型战舰
大幅度机动遭神风敢死队命中率为36%,高于不采取机动的26%
大幅度机动防空武器命中率为59%,略低于不机动时的66%
二战结束后,一大批二战士兵退伍,在他们中有一批人结合当时在军队了解的知识和当时的时政,完成了自己的创业。
商业智能与营销管理理论的兴起
福特汽车的用户画像
罗伯特·麦克纳马拉将现代管理原则引入福特,用数量方法控制成本和产出。
- 顾客画像,有钱人买进口车,福特开始生产经济型轿车(当时美国本土流行大油耗,大轮胎,车高载货多的车型(皮卡或小卡车),但是有钱人会去进口国外的小型轿车)
- 数据表明造成行车事故最多的是机械故障,投资改善
- 数据表明撞车后造成死亡最大的原因是方向盘挤压胸口,发明了新方向盘技术,加保险带。
福特的用户画像策略,使得北美的企业越来越相信数据,再也没有企业拍脑袋决定策略,都是先看过数据后再说。
随着数据积累的越来越多,人们需要一个能够管理数据,快速处理数据的工具。
这时,IBM推出了关系数据库。
关系数据库的出现
1970年,IBM的埃德加·科德博士发表了一篇划时代的论文’A Relational Model of Data for Large Shared Data Banks’(大型共享数据库的关系模型),开启了关系数据库时代,这个模型依旧是现在大多数数据库系统的基础。
1981年,埃德加·科德获图灵奖。
基于关系数据库的系统开始大量应用于企业业务,例如材料需求计划(MPP)系统,就表示了计算机最早的主流商业用途之一。
在计算机的辅助下,人类处理信息的速度空前的加快了。
然后,人们的数据就积累到了过去从来没有想象过的量级,企业就打算用数据来进行一些分析,提升企业的经营。也就引出了商业智能。
商业智能的提出
1958年,IBM研究员汉斯·彼得·卢恩将商业智能(BI)定义为“能够理解所呈现的事物之间的相互关系,从而引导行动朝着预想目标前进的能力”。
1970年,“商业智能”随着用于分析商业和操作性能的新出现的软件和系统的兴起,他的受欢迎程度也越来越高。
随着数据的不断积累,最终引出了数据仓库的概念。
商业营销理论的发展
1970年代,市场营销学开始快速发展
1972年,营销学之父菲利普·科特勒教授出版了《营销管理》一书,提出了4P’s理念,强调企业的发展取决于市场和顾客,而不是由企业的自主愿望驱动的
在管理理念的知道下,数据被大量应用到企业管理的方方面面
市场研究公司开始出现、企业的数据文化开始培养
随着顾客数据越来越全面,4C’s理论要求对顾客进行全方位的了解
企业开始注重用户数据的收集和使用,针对消费者个性化服务成为主流。业务促进技术,最终让数据分析技术更加辉煌。
大数据出现的标志性时间
-
互联网崛起
-
1991年
Tim Berners-Lee定义了超文本规范,标志着万维网的诞生
-
1998年
根据R J T Morris和B J J Truskowski在他们2003年的《存储系统的进化》一书中所说,从这一年开始数字存储比纸张成本更低
-
1998年
谷歌搜索在这一年第一次亮相,成为搜索互联网数据的工具
-
-
数据大爆炸的开启
-
2004年
始于出版社经营者O’Reilly和MediaLive International之间的一场头脑风暴论坛,WEB2.0诞生,即用户生产的web,其中大部分内容由服务的用户提供,而不是服务提供者本身。这为数据大爆炸提供了基础。
-
2004年
FackBook这样的社交网站出现,数据大爆炸开始
-
2005年
Hadoop这个开源框架被创造出来,专门用于存储和分析大数据集。他的灵活性使他对管理非结构化数据(语音、视频、原始文本)特别有用,我们正在越来越多的生产和收集这些数据。
-
大数据时代
-
大数据时代的来临
- 零售商、银行、制造商、电信供销商和保险公司等都在利用数据挖掘技术,从定价、促销和人口统计数据,到经济、风险、竞争和社交媒体如何影响他们的商业模式、收入、运营和客户关系等各个领域之间的关系。
- 制造业存在大量的设备,通过感应器采集不同类型的数据获得如音响、震动、压力、电流、电压和控制器的数据,大量的数据构建制造业的大数据,作为设备诊断和健康管理分析工具的输入项
- 媒体的大数据应用,针对不同用户调整消息(广告)和内容(文章)
-
机器学习的革命性突破
- 基于深度学习的神经网络强势崛起,给工业界带来了深刻的变革和机遇。深度学习的成功不是源自脑科学或认知科学的进展,而是因为大数据的驱动和计算能力的极大提升。
大数据人才培养路线
-
数据管理
- Python
- SQL
- Hadoop
- 云计算
- Excel
-
运营报表
- KPIs
- 数据分析
- 沟通技能
- WOW
-
洞察分析
- 营销分析与优化
- 特定业务问题分析
- 战略分析
- PPT演示
-
算法模型
- 统计检验与回归决策树
- 篮分析
- 人工智能
数据驱动决策
-
建立目标
- 确认业务目标
- 提高数据技能和完善的项目管理与执行能力
- 获取行业领域知识
-
数据整合
- 查找数据源和集成
- 编程技巧与效率
- 数据QA流程
- 获取数据清洗、变换、整合的技术能力
-
分析方案
- 计算方式
- 有效的报表设计和计量设计
- 营销前分析
- 典型的分析方法
-
呈现与建议
- 洞察于建议
- 向非技术客户展示分析结果
- 使用数据回答企业的问题
- 商务交际的最佳实践
-
测量与评估
- 执行后分析
- 后分析中得出统计上正确的答案
- 可操作性的洞察结果
成长路线
-
第一阶段
- 数学
- 统计学
- 计算机基础知识
-
第二阶段
- R
- Python
- Java
- SAS
- Hadoop
- 云计算
-
第三阶段
- 数据库
- 数据存储
- 数据质量控制
-
第四阶段
- 数据处理
- 数据计算
- 数据可视化
- BI报表制作
- 数据项目管理
-
第五阶段
- 算法
- 数据挖掘技术
-
第六阶段
- 数据科学家
-
第七阶段
- CDO/CXO
最后,说一句让我感触很深的话:人的大脑不是用来记忆的,是用来思考的。