平常我的工作和机器学习相关,我看到数据的第一反应就是构建模型来预测,于是我今天花了几个小时做了下这个工作。
下面是两周的全国层面的疫情数据,我们能不能,基于这 14 条数据,预测一下明天的新增确诊人数呢?做到技术与时事的结合。
其中各个字段名称含义如下:
-
new:每天新增确诊人数,昨天新增为 2829
-
all:当前总共确诊人数
-
watch:当前医学观察人数
先说结论吧:
预测明天公布的新增确诊人数为 2997 人,有浮动哈,具体浮动多少我也不敢说,怕脸疼!
分析
说说我是怎么分析的吧,所有确诊人数和新增确诊人数我们看一个就行了,这里我选的是每日新增确诊人数,来看看每日新增确诊人数的折线图(目的是观察相等时间间隔下数据的趋势)
可以看到一个随时间稳步攀升的趋势,这是我们期望预测的指标,也就是我们的因变量。
接下来看看因变量,也就是我们的当前医学观察人数:
再给这两个变量画个图:
plt.figure()
plt.plot(df["watch"], df["new"])
plt.show()
可以去掉 27 号的数据: