Bootstrap

汽车数据应用构想(一)

自从电动汽车GB/T32960标准颁布,要求所有电动汽车必须上传数据开始,各车厂就开始花费大量的人力物力,用于数据的上传与存储。同时随着智能化、网联化的趋势,不断丰富上传数据的内容与数量。数据已成为车厂的重要资产,但这些资产如何变现,却成为产品经理们的难题。

大概是6年多以前吧,当时的数据量还远远比不上如今,单靠一家车厂的数据量根本称不上“大数据”,所以行业中开始有建设汽车行业统一数据平台的呼声(当然,发声的主要是软件供应商……)。有幸参加了相关会议,与会的车厂代表都对这个话题表达了“有兴趣”,但“不参与”的态度。理由也很简单:数据是私有财产,分享了有啥好处啊?!

对,就是这个“有啥好处”成为话题的焦点,也成为无法推动这个事儿的最大障碍。车厂不想参与,却想听听每年花费不少的数据资源,到底能干点儿啥!可惜的是,除了围绕电池分析的价值外,很少有人能讲出还能干点儿啥。而当时电池又处于一个技术更新非常快的阶段,技术路线、生产工艺,甚至化学原理都不一样的情况下,用今天的数据去看明天的电池,任谁想来也不是一个靠谱的事儿。

时至今日,即便是最保守的日系合资车厂,也都有百万级的车在上传数据,且数据范围早已从电池扩展到整车,甚至用户与车的每一次交互,都记录下来。单个车厂的数据存储量,已经把单位从TB,升级到了PB。在如此巨大的数据资源下,无需建立行业统一数据平台,车厂自己就已经具备了对应各种数据需求的底气。

各种“数据平台”“数据底座”“数据能力”...被供应商们吹得天花乱坠,但实际结果往往就是最基础的数据采集、数据清洗,以及各业务部门要求的数据统计。经历多年高投入的“数据基础能力”建设,车厂数据部门每年都要经历“数据价值”的拷问。供应商们也都纷纷从基础能力的牛皮中转向“价值”接着吹,但与花费不菲,且需要持续投入的成本相比,价值几乎少得可怜!

所以咱们就新开一个话题,专门聊聊数据应用价值的想法,本期作为第一篇,先不说实际的应用,而是重点说说在做这些应用的时候,我们会面临哪些问题!

上面都说过了基础建设做了多年,为啥还有问题?其实答案特别简单:你没做过饭,就异想天开地去打造一套万能厨具,等真开始做饭的时候,你就会发现,缺这个少那个!

一、数据项缺失:你想去做停车位预测应用,为了弥补低速下GPS漂移问题,就需要通过方向盘角度及车轮转数精确计算停车时的行驶路径,结果发现,这两数据没采集。

二、采集频率不足:还是上面的例子,如果更进一步地想知道停车位的类型(侧停、斜停、垂直),就需要精确的停车轨迹,如果数据采集频率是5秒1次,那就没办法满足需要。

以上两点,在实际数据应用中是不可避免的,因为谁也不知道未来的应用到底需要哪些数据,更无法知道需要什么样的采集频率。很多人会想,那就把车上所有的数据都按车端最大产生频率上传,解决一切。但这可是要成本的啊!流量成本、储存成本都会成倍,不,应该说是几十倍上百倍地增长,且未来的检索速度也会上百倍地下降!

想解决这个问题其实并不难,就是在车端去做一个可配置化的“数据网关”,车上产生的所有数据都先传到网关,通过规则去配置哪些数据,以什么样的频率去打包上传(当然,什么压缩啊,实时/定时啊,都可以是这个数据网关要解决的问题)。这样就可以“按需所取”,把钱花在刀刃上:数据只有满足业务需要才是有价值的!

三、数值异常:数据库中存在着大量的异常数值。比如“0”、“null”,甚至各种乱码,这些数据虽然会被“洗”掉,还是停车的例子,洗掉这些异常数值后,停车轨迹可能只剩一个点了。

四、时序异常:停车轨迹会出现点位前后反复横跳的现象,其实就是数据在上传时并没按时间顺序保存,前一秒的数据被保存在后一秒之后,导致了数据的不连贯性;

以上两点,是在实际应用落地工作中最常见的问题,毕竟车载场景的网络环境不稳定,重传机制、补数机制,以及网络传输错误都会导致这些问题的出现。甚至还有些重传机制没做好的平台中,会出现大量重复数据。“脏数据”在汽车领域要远高于其他场景

解决方案只能依赖技术手段,无非就是车端与云端的各种容错、纠错、校验手段。随便找一个车联网供应商,都会给出各种产品级的解决方案,这里就不再多说了。但要强调的是,脏数据不避免,要不我怎么还能遇到这些问题呢!在实际应用开发中先去检测数据质量,根据实际数据质量调整数据算法才是最务实的方法

五、分布密度不足:你会发现一个现象,同一品牌的车,在A城有15万辆在传数据,在B城只有5千辆,这种分布密度的不同,导致数据应用的价值与体验有天壤之别;

有些车厂面对这个问题的时候,对于应用价值的认可度就会大打折扣,认为不能满足所有客户价值的服务是不公平的,也就不再推动相关的落地工作,上面说的停车位预测应用就是因为这个原因导致一直没有落地!

但停车是汽车场景中最高频,最有用户价值的服务,就像城市NOA对于自动驾驶,是所有用户都期待的,但没办法保证所有城市都覆盖。那不如也试试逐步上线的策略,一个城市一个城市地去推,哪个城市的数据量够了就上哪个城市,“抢占市场”在数据应用中也是个非常重要的目标

最后再说说对于数据应用中“准确度”这个事儿的看法,最好的例子就是导航中提供的“红绿灯倒数秒”这个功能。只要是越来越准,用户就非常满意了,用户本来也没指望你一上来就准,差不多就可以,被互联网熏陶多年的中国用户,容忍度非常高,数据应用是个迭代的过程,真的没必要上来就要求准确度要高于多少多少。用起来,再升级,是数据应用价值落地的最重要原则

下期开始讲具体的数据应用场景,还没想好一共写几篇,一个一个来吧。


文章首发于公众号:昊叔说车

原创不易,转载请告知原作者,注明出处。

;