数据工程师、数据分析师、算法工程师、数据科学家
近半年,看了很多关于数据科学家的模模糊糊的概念,也听了很多所谓数据科学家讲到自己比数据分析怎么怎么厉害,但,细问其和数据分析、数据挖掘有何区别时,又含含糊糊,讲不清楚。
私以为,究其原因,很多所谓的数据科学家也并不知其岗位区别于其它岗位之本质为何,听到一两个厉害的名词就赶快套在自己身上,一旦被人深究,就原形毕露。
废话少说,通过四个岗位的对比,简单阐述一下对于数据科学家的理解:
数据工程师:以开发为主,比如大数据开发、数据仓库开发,大家常见到的报表开发工程师、BI工程师也可大致归于此类,主要产出物为数据表、报表等。
数据分析师:我更倾向于在这里称之为“古典数据分析师”,一般多指用Excel、Sql对数据解读的分析师,主要产出物为对现状解读和建议的数据报告、PPT等。
算法工程师:
在互联网公司里面较多是指:推荐、广告、搜索相关的算法开发同学,也包含NLP、CV等算法开发同学。主要产出物偏线上的算法工程模块,比如推荐算法的线上模块。
在传统行业里面,常称之为数据挖掘工程师,较多指会用机器学习工具的数据分析师。
数据科学家:
在互联网公司里面,我更倾向于称之为“现代数据分析师”,翻阅了很多国内外关于数据科学家的资料后,发现大部分互联网公司的数据分析师做的事情(理想情况下)和所谓的数据科学家并无太本质的区别。
主要工作内容仍然是以统计学为主的数据分析工作,更多地会用到机器学习应用的能力,更偏向于用AB实验来进行业务策略设计。
主要产出物和数据分析的区别是:在数据分析的报告基础上,常常要提出能帮助业务改进的策略,并有一定的落地能力。比如现在常提到的用户增长策略、商业化策略等。
为了方便通过既能更深入地理解几个岗位,下面的表格简单列了一些能力项上的侧重点,供君参考(不同公司的情况可能有很大区别):
能力项目 | 数据工程师 | 数据分析师 | 算法工程师 | 数据科学家 |
---|---|---|---|---|
业务理解和沟通 | 一般 | 重要 | 中等 | 重要 |
数据解读和可视化 | 一般 | 重要 | 一般 | 重要 |
数据仓库和治理 | 重要 | 一般 | 中等 | 中等 |
统计学应用 | 一般 | 重要 | 中等 | 重要 |
机器学习应用 | 一般 | 中等 | 重要 | 重要 |
算法理论深度 | 一般 | 中等 | 重要 | 一般 |
大数据和软件工程能力 | 重要 | 一般 | 重要 | 一般 |
关于这个表格的详细解释这里暂且不多说,感兴趣的小伙伴可以自己翻阅资料了解。
现实是什么样的呢?
前面的描述,相对是理想一点的情况,各个岗位有明确的分工。
数据科学家就成了一个既能帮助业务回答和解读业务现状的业务数据小能手,又能根据业务现在分析发现出业务增长策略的业务智囊大脑,同时又能通过AB实验等手段进行策略落地和实施的数据驱动业务专家。
但是,现状是,很多团队所谓的数据科学家,挂着的是数据科学家的title,但是做的可能和数据开发、数据分析没太大区别的事情:
数据上报设计和开发
数据仓库开发和报表开发
业务数据的日报、周报、月报等
数据分析报告:业务数据为什么跌了?为什么涨了?
当然,行业在发展,同时也在慢慢的成熟,今年了解到的情况已经比去年和前年好了太多了,至少很多大厂的数据科学小伙伴已经能做一些比较有意思的事情了。
以上。