序:
最近参加了天池的气象和海洋预测竞赛,希望能够借此机会学习时间序列的相关模型,接下来会通过系列博客记录并梳理自己在竞赛过程中的一些心得体会。
作为系列学习笔记的第一章,这篇文章旨在梳理和分享我对赛题的一些理解。
1. 项目背景
问题陈述
这个竞赛是一个自然科学相关的时间序列预测问题,要求基于历史气候观测和模式模拟数据,准确预测厄尔尼诺-南方涛动(ENSO)现象。具体来说,我们的任务就是根据过去12个月的气象及时空数据,预测未来24个月的Nino3.4指数。
1 什么是ENSO现象
ENSO现象是厄尔尼诺(EN)现象和南方涛动(SO)现象二者的合称。厄尔尼诺现象是指赤道中东太平洋附近的海表面温度持续异常增暖的现象。南方涛动现象则是热带东太平洋与热带西太平洋气压场存在的气压变化相反的跷跷板现象。在厄尔尼诺期间,东南太平洋气压明显减弱,西太平洋的气压增强,厄尔尼诺现象与南方涛动现象实际是反常气候分别在海洋和大气中的表现,二者密切相关,因此合称为厄尔尼诺-南方涛动现象。
ENSO现象会在世界大部分地区引起极端天气,对全球的天气、气候以及粮食产量具有重要的影响。
2 什么是Nino3.4指数
Nino3.4指数是Nino3.4区(170°W-120°W,5°S-5°N)的平均海温距平指数,是ENSO现象监测的一个重要指标,Nino3.4指数连续5个月超过0.5℃就定义为一次厄尔尼诺事件。
Nino3.4指数是连续的数值,因此从预测目标来看,这个题目是一个时间序列的回归预测问题。
数据集
1 训练数据
比赛给出的训练数据是CMIP5/6模式的历史模拟数据和美国SODA模式重建的近100多年历史观测同化数据。每个样本中都包含四种气象及时空变量:海表温度异常(SST)、热含量异常(T300)、纬向风异常(Ua)、经向风异常(Va)。每个数据的维度为(year, month, lat, lon)。
这样的数据描述对于非相关专业人士来说实在是一头雾水,但是工欲善其事必先利其器,要做好一个比赛我们首先要对给出的数据有一定的了解。
什么是CMIP5/6模式
CMIP5是世界气候研究计划(WCRP)的第5次耦合模式比较计划,CMIP6则是其第6次耦合模式比较计划,这二者都提供了多种不同的气候模式对于多种气候变量的模拟数据。
也就是说,CMIP数据中第一维度year在1-2265之间的是由CMIP6所提供的采用15种气候模式模拟出的过去151年中全球不同月份(month维度)、不同纬度(lat维度)、不同经度(lon维度)的SST、T300、Ua、Va数据,而2266-4645则是由CMIP5所提供的采用17种气候模式模拟出的过去140年中全球的SST、T300、Ua、Va数据。
关于SODA模式,我没有找到相关的信息,但是我们可以推测,SODA模式也是一种模拟气候数据的气候模式,SODA数据中给出的是由SODA模式模拟的过去100年的SST、T300、Ua、Va数据。
值得注意的是,CMIP与SODA数据提供的并非是逐年逐月得到一组数据,而是以每一年为起始,得到接下来三年内逐月的一组数据,例如当year=1时,SODA模式连续模拟出1-3年逐月的历史数据。
2 训练数据标签
训练数据的标签是不同年份(year维度)、不同月份(month维度)的Nino3.4 SST异常指数在当前月和未来两个月的平均值。
3 测试数据
测试数据时国际多个海洋资料同化结果提供的随机抽取的n段12个时间序列,测试数据包括多个文件,每个文件包括一段12个月的SST、T300、Ua、Va数据。但是测试文件是不可下载的,只能在docker提交时通过预测部分的代码进行预测。
评价指标
比赛给出的评估指标如下:
S c o r e = 2 3 ∗ a c c s k i l l − R M S E Score = \frac{2}{3} * accskill - RMSE Score=32