「行业」空气质量预测之数值预报与机器学习

行业文章 2017-02-27

​从“雾霾”变成热搜词榜单上的常客开始,越来越多的人会在打开天气 app 时也关注一下当天的空气质量。如果需要考虑未来几天的出行计划,那今天的空气质量数据就远远不够了。

目前,环保局官方还没有开始每天公布空气质量预报,但很多科研机构、商业气象公司已经实现了这一目标,并达到了相当高的准确性。

心知天气数据可视化平台中北京的逐小时空气质量预报
心知天气数据可视化平台中北京的逐小时空气质量预报

心知的天气数据可视化平台、API接口产品中,都包含逐日、逐时空气质量预报数据。

怎样才能准确预测未来的空气状况呢?

一、数值方法

较为传统的空气质量预测方法,可统称为数值方法。

数值方法的核心是以大气动力学、大气环境化学为基础,根据空气污染排放源数据、气象数据,用方程组构建数学模型来计算污染物时空分布,再通过计算机求解。

这种方法和传统的天气预报方式一样,将时间、空间维度划分成网格,设定好边界条件和初始条件,再辅之以污染源数据和气象数据,然后就开始大量计算。

目前最常用的大气运动方程组有六个,大气中的风场、温度场、气压场和密度场的时空变化都可以用这组方程来描述。如果渭城的清晨有一场雨,那么这场雨的数据会被纳入方程式中,考虑它对未来一段时间内空气质量的影响。

这种数值方式的优缺点都很鲜明。

理论上来说,只要污染数据准确、方程模型全面,数值预测方式就可以达到非常惊人的准确性。其次,数值预测纵切一个时间截面来推导未来,因此准确度依赖于模型与实际大气状况的吻合程度,而并不需要历史气象数据。再次,模型中污染源与空气污染之间清晰的因果关系使得模型的可读性非常强。

然而,数值模型的计算量异常巨大,大到难以想象。即使是超级计算机,也需要很长时间,如果要追求模式的高分辨率就更难了——过高的计算代价成为数据模型最大的劣势。况且,空气污染排放源数据的收集也很难做到全面、真实。在大气这个混沌系统中,哪怕是微小的数据偏差也会导致结果的巨大差异,因此数值模型不如预期的准确性也就可以理解了。

数值方式是最主流、最正统的天气系统预测方式,但巨大的计算量对硬件的要求极大限制了这种方式的普遍性,使用者基本上以国家单位、科研机构为主。

二、统计学方法

近年来更热门的方法,是以统计学为基础,建立污染物浓度与气象场的联系,从而预测未来一段时间内的空气质量。上文提到的很多天气领域的商业公司,都在尝试利用这种方法进行商用级别的精细化空气质量预测。

由于本质上是基于历史数据做预测,相对于数值方法,统计学方法的计算量要小几个数量等级,所以每次预测的成本要低得多。反映在实际应用上,统计学方法在多频次的短期预测中具备很大优势。

但是统计学方法的劣势也显而易见——需要以大量历史空气质量数据为模型训练基础来提高预测准确度。同时,统计学方法在对突发或非常规现象的预测上也较为无力。

近年来,由于计算能力的提高,机器学习——统计学和计算机科学的跨学科领域蓬勃发展。目前,如何将物理模型和机器学习更好地结合用于预测空气质量是一个很活跃的领域。即是说,两种类型的模型都会有自身的用途,但是又无法完全替代对方。

例如 Xiao Feng [1] 会用人工神经网络(ANN)去预测PM2.5——基于空气运动轨迹的地理模型,利用小波变换将PM2.5的时间序列拆分成规律性更强的子序列,再用ANN分别为它们训练独立的模型。

这种将两类预测方式相结合的新思路卓有成效,能极大提高结果的准确性。对于商用空气质量预测数据来说,是进一步提升准确率,挖掘数据商业价值的新方向。