6.3 EPA PMF 5.0 计算步骤
6.3.1 软件下载
可 在 美 国 EPA 网 站 免 费 下 载 , 下 载 地 址 : https://www.epa.gov/air-
research/positive-matrix-factorization-model-environmental-data-analyses。
6.3.2 运行环境
计算机(Win7 以上系统,3.1 GHz 以上处理器,4 GB 以上 RAM,需安装 framework4.0 以上版本)。
6.3.3 数据准备
3 种格式的数据文件可输入至 EPA PMF5.0 模型,包括 tab 间隔的 txt 文件、逗号间隔的csv 文件和 excel 文件,推荐使用 excel 文件。
PMF 模型需要输入两个数据文件:(1)颗粒物及组分质量浓度的数据文件,(2)颗粒物及组分质量浓度不确定度的数据文件。两个数据文件内容需要对应。第一行为组分名称,组分名称必须是唯一,中间不能含有逗号。第一列为样品编号,如样品 ID、日期或时间、样品 ID 加上日期时间等。两个数据文件均不允许有数据缺失、0 值和负值的情况。对于样品部分组分浓度未检出的情况,可用1/2 检出限来代替;对于样品数据中部分组分数据缺失的情况,建议输入-999 来标识,对应的不确定度可暂用5/6 检出限代替(模型计算时会自动替代)。
6.3.4 数据导入和初步检验
6.3.4.1 数据导入
启动 PMF 模型软件,进入“Model Data”界面(见图 15)。在“Data Files”的“Input Files”下选择样品组分浓度文件和不确定度文件的输入路径,点击“Load”(导入)选择相应的数据文件。在“Output Files”中,设置确定输出文件的路径、文件类型和输出文件前缀(Output File Profix),输出文件前缀(Output File Profix)只能是数字或字母。如对数据文件进行了修改,则需要重新加载输入文件。
图15 数据导入的设置界面
PMF 模型中可以保存新的配置文件或者载入之前的配置文件。配置文件中的信息包括“Data Files” 中的各类设置(例如,输入文件,输出文件位置和输出文件类型),“Concentration/Uncertainty”(浓度/不确定度)的设置以及“Base Model Run”(模型基础计算)、“Fpeak Rotation”(F 矩阵峰值旋转)、“Constrained Model Runs”(模型约束计算)中的所有运行参数。
6.3.4.2 初步检验
(1)在“Concentration/Uncertainty”中对受体化学组分数据的权重、异常值等进行设置或处理(界面见图 16)。根据 S/N(信噪比)值确定 PMF 中组分的计算权重,权重包括Bad(差)、Weak(弱)和 Strong(强)三个水平。对于被选择 Strong 的组分,按输入的浓度和不确定度参与计算;对于被选择 Weak 的组分,模型在计算时会自动增加该组分的不确定度,进而而降低该组分浓度的权重;对于被选择 bad 的组分,则不参与计算。建议
将颗粒物的关键标识组分(如 OC、EC、SO42-、NO3-、NH4+、Al、Si、Ca、K、Fe 等组分)设为 Strong。其他非关键标识组分(如:Cl-、Na、Mg、Cu、Cd、Cr 等组分)建议设置Strong,但是在分析不确定性较高时,可设置成 Weak 参与计算。当某一组分的缺失数据较
多时,可通过采用设定较大的不确定度来降低该组分的计算权重。此外,计算各因子对颗粒物的贡献时,需要将颗粒物质量浓度数据输入模型,并将颗粒物质量浓度设置为 Total Variable(总变量),其计算权重默认为 Weak。
(2)在“Concentration Scatter Plot”(浓度散点图)中可选择任意两个组分作为 X 和 Y轴,查看两个组分之间的散点图以及相关性。组分之间如果存在较高的线性关系表明组分可能来自同一污染源。
(3)在“Concentration TimeSeries”(浓度时间序列图)中显示化学组分浓度的时间变化情况,可用于查看组分浓度的时间变化情况,确定是否存在异常值(过高或过低)。可最多同时选择查看 10 个组分。对于所选定的异常数据,可以在图上单击鼠标右键或在某一时间段数据上拖动鼠标选择异常数据点,将其排除在模型计算之外(注:该操作不会在原始输入文件中删除数据)。
(4)在“Data Exceptions”(数据异常处理)中详细记录“Model Data”中对数据所做的更改,包括将组分列为“Weak”或“Bad”,在“Concentration Time Series”排除的异常数据等。单击鼠标右键可选择保存数据异常处理信息。
图16 数据初步检验界面
6.3.5 基础计算
6.3.5.1 基础计算的操作步骤
在经过初步检验之后,可对数据进行模型计算。PMF 模型计算分为模型基础计算(Base Model Run)和约束模型计算(Constrained Model Run),其中模型基础计算为必须的计算操作,根据计算结果,选择开展旋转计算。在 EPA PMF 5.0 模型基础计算中,需要设定因子(Factor)个数、运行次数、是否随机选择 seed(种子)等运行参数(图 17,a)。
图17 模型基础计算界面
(a:模型基础计算,b:基础计算结果概况,c:基础计算结果评估)
在模型基础计算中,需要设置运行次数(Number of Runs),该数值必须介于 1~999 之间的整数,模型默认值是 20。由于 PMF 模型的特点是一套数据可以得到多套计算结果。通过设置运行次数,模型就输出多少个计算结果,供用户选择。
设置种子(Seed),即模型基础计算中每次迭代的起点,建议选择默认。PMF 模型原理决定了模型会有多个符合公式(1)要求的结果。
设置因子数量,即设定“源类”的个数,该数量必须介于 1~999 之间的整数。因子的数量需要基于对颗粒物可能来源、样品数量、采集时间等认识来综合确定,需要多次反复尝试。此外也可以通过数学验证和实际情况等方面进行验证和确定。
6.3.5.2 模型基础计算结果及分析
(1)基础计算结果展示
在“Base Model Run Summary”(基础计算结果概况)(图 17,b)中,可每次计算结果
的 Q(Robust)、Q(True)、是否收敛(Converged)等。点击选择一次计算结果(图 17,b),在“Base Model Results”可以查看详细的计算结果,包括“残差分析”、“预测值与观测
值对比分析”、“因子谱”、“因子贡献”等(见图 18)。
图18 基础计算结果展示中“Profiles/Contributions(因子谱/因子贡献)”界面
PMF 模型基础计算的结果主要包括因子谱和因子贡献,分别在“Profiles/Contributions(因子谱/贡献)”和“Factor Contribution(因子贡献)”中查看。在“Profiles/Contributions(因子谱/因子贡献)”界面中,因子谱图(即 F 矩阵,见图 18,a)展示了不同化学组分在各因子中的占比及浓度。用户可以通过分析不同因子谱中何种标识组分占比较高来将因子识别为具体的污染源类。比如,某因子中 Si、Al 等组分占比较高,则该因子可以初步识别为扬尘源类;如果某因子中 NH4+、SO4-等组分占比较高,则该因子可以初步识别为二次硫酸盐。颗粒物源类识别方法及主要源类的标识组分见附录 D。
|
源贡献时间序列图(G 矩阵,见图 18,b)则展示了污染源在时间序列上的贡献变化情况。在 EPA PMF 5.0 中,给出的源贡献(G 矩阵)是归一化后的源贡献变化序列(源贡献均值为 1),而不是浓度值。此外,可以根据源贡献序列识别源类。对于有些源类通过因子谱很难区分的情况,如机动车源和燃煤源(其主要标识组分均为 OC、EC 等),则可通过源贡献图进行区分,在某些地区,燃煤源存在显著的季节变化(冬季采暖),而机动车源季节变化不明显。
用户可以在“Profiles/Contributions(因子谱/因子贡献)”界面右击鼠标,选择“因子名称”,输入因子的名称,来对因子进行标注。点击“Q/Qexp”(见图 18,c),查看每一个组分所对应的 Q/Qexp。Q/Qexp 是指所有组分的比例残差的平方之和除以组分数。通过检验Q/Qexp,可以了解 PMF 结果的综合残差。当某个组分或者某个样品的 Q/Qexp 较大时(如大于 2),说明该组分或者样品的残差比较大,模拟结果不好,可能需要设置更多的因子(源类)。
“Factor Contribution”(因子贡献)中,给出了不同源类对各组分的平均贡献(饼图)及时间序列贡献(点线图),用于评估源贡献结果。
(2)基础计算结果分析
模型计算结果分析过程如下:
1)“Residual Analysis(残差分析)”中查看每一个组分的加权残差(通过不确定度加权)。通过残差直方图(见图 19),可以了解该组分加权残差的百分比,进而判断各组分模型计算结果的好坏。如果残差直方图显示残差范围在(-3,+3)之间,且呈正态分布,则该组分的模型计算结果在数学意义上较好;如果组分具有许多大尺度残差或显示非正常曲线,则表示该组分在数学意义上计算较差。
图19 基础计算结果分析中“Residual Analysis(残差分析)”界面
2)在“Obs/Pred Scatter Plot(观测值/预测值散点图)”中,可分析输入值和预测值的相关性。如果某组分的观察值和预测值之间有强相关性的组分,则表明该组分计算较好;反之,则考虑是否应该降低该组分计算权重或从计算中排除。
3)在“Obs/Pred Time Series(观测值/预测值时间变化图)”中,可在时间序列上分析输入值和预测值的差异,对于预测值明显高于输入值,需要通过进一步分析确定是否排除该数据。
4)在“Factor Fingerprints(因子谱)”界面中,模型给出了各组分在每个因子的占比情况(柱状图),用户可直观评估因子谱。
5)在“G-Space Plot”中,可显示两个因子的散点图,用于了解各源贡献之间的关系。
(3) 基础计算的结果输出
模型基础计算完成后,将自动创建输出文件。输出文件将使用“输出文件前缀”框中指定的前缀,保存到“数据文件”屏幕的“输出文件夹”框中指定的目录中。创建的输出文件数取决于所选输出文件的类型。如果选择输出制表符分隔(*.txt)或逗号分隔(*.csv)的文件类型,可生成五个输出文件:诊断文件(* _diag),因子贡献(* _contrib),因子谱(*
_profile),残差(* _resid)和结果对比(* _run_comparison);如果选择输出 Excel 工作簿(*.xls)的文件类型,可生成两个输出文件:* _diag 和* _base。
各输出文件的内容如下:
* _diag 文件包含用户输入和模型诊断信息的记录(与“诊断”显示相同)。
* _contrib 文件包含了源贡献矩阵信息,默认显示归一化贡献(源贡献均值为 1,无量纲);如果指定了总变量(颗粒物浓度),则以质量单位显示贡献。
* _profile 文件包含了因子成分谱矩阵,主要包括三种输出形式:1)质量浓度矩阵,结果中各数据为各因子中不同化学组分的质量浓度(μg/m3);2)横向百分比归一化矩阵,即各组分在所有因子中占比加和为 100;3)纵向百分比归一化矩阵,即各因子中,所有组分占比加和为 100。
* _resid 文件包含每个基本运行的残差(常规和加权残差),用于在残差分析屏幕上生成图形和表格。
* _run_comparison 文件包含所有 PMF 运行中每个因子的组分分布摘要,并与最低 Q(稳健)运行进行比较。
* _base 文件在同一 Excel 工作簿内的工作表中包含* _contrib,* _profile,* _resid 和* _run_comparison。仅当用户选择“Excel Workbook”作为输出文件类型时,才会显示此输出文件。
6.3.5.3 基础计算的结果误差评估
在得到模型基础计算结果之后,需要评估结果误差,以此判断结果的优劣程度。EPA PMF 5.0 的结果误差评估方法主要有 Bootstrapping(BS)误差评估、DISP 误差评估、BS- DISP 误差评估等。推荐采用 BS 误差评估方法评估模型计算结果(不确定度)的误差。
BS 误差评估设置包括 3 个步骤(设置界面见图 17,c):
(1)选择需要评估的模型基础计算结果。
(2)设置每次“重采样”(Block Size)的数量,模型会根据输入数据自动给出该参数,用户也可以自行设置。
(3)设置 BS 运行的次数和最小相关性系数(R)。对于初步分析,BS 运行次数可设置 50 次,以快速衡量解的稳定性,最终分析建议执行 100 次,以确保统计数据的稳定性。最小相关系数(R)用于将一个 BS 运行因子分配给一个基本运行因子的最小 Pearson 相关系数,默认值为 0.6。
通过 BS 误差评估,可在“Base Model Bootstrap Results”下得到两种形式的结果:Bootstrap Box Plots 结果(图 20)和 Bootstrap Summary 结果(图 21)。其中 Bootstrap Box Plot(图 20)中的箱型图可以直观的描述组分模型计算结果的不确定度。每个因子中,某些组分的箱型图上下距较宽,则表明该组分模型计算的结果的不确定度可能较高;如果某些组分的箱型图上下距较窄,则说明该组分模型计算结果的不确定度可能较低。
图20 BS 误差评估结果“Base Bootstrap Box Plots”
在 Bootstrap Summary 中,展示了每个 BS 因子和基础因子(Base Factor)匹配程度(图B.7,a)。如果匹配不到 80%,则这个因子的主要组分分配可能不当。通过调整因子数量或提高数据质量等提高匹配程度。另外还可以查看 Q(稳定)值的分布情况(图 B.7,b),包括最小、最大、中位数,以及第 25 和第 75 百分位数的 Q(稳定)值。模型基础计算得到的Q 值一般要落在第 25 和第 75 百分位数之内。
图21 BS 误差评估结果“Base Bootstrap Summary”
6.3.6 旋转计算
EPA PMF 5.0 软件中,在 F 矩阵峰值模型计算参数设置界面(图 22,a),选择需要进行旋转计算的模型基础计算结果,再设置 Fpeak 参数。当 Fpeak 设为正值时,F 矩阵中的组分在某些因子中占比会更加突出;Fpeak 设为负值时,F 矩阵中的组分在各因子中的占比则
相对较平均。设置 Fpeak 时,Q 值不能变化太大,Q 值的变化在 5%以内认为时可以接受的;如果过大,说明 Fpeak 值(绝对值)设置过高,则 Fpeak 应往 0 值方向调整。Fpeak 参数建
议设置在-5 到 5,不能设置为 0。
通过尝试不同 Fpeak 值,得到相应的 Q 值,最后得到 Fpeak 值与 Q 值的关系图(图
23)。通过该图可选择合适的 Fpeak 值,建议选择 Q 值拐点之前的 Fpeak 值对应的解析结果,此时的 F 矩阵中的丰量组分会更突出,因此各因子之间差异性更大,便于区分源类。
图22 Fpeak 旋转设置及计算结果界面
图23 Fpeak 值与 Q 值关系示例图
在 Fpeak 旋转计算得到的总体结果(图 21,b)中,在收敛(Yes)的结果中选择较小的%dQ 值,若%dQ 值不在 5%以内时,需要进一步设置 Fpeak 参数。Fpeak 旋转计算后的详细结果展示与“模型基础计算结果展示”相似,包括“Profiles/Contributions(因子谱/因子贡献)(见图 24)”、“Factor Fingerprints(因子指纹)”、“G-Space Plot(G 矩阵散点图)”、“Factor Contributions(因子贡献)”、“Diagnostics(诊断)”。
图24 经 Fpeak 旋转后的结果展示界面
6.3.7 颗粒物源贡献结果计算
在 EPA PMF 5.0 中,在“1 数据准备”中将颗粒物质量浓度数据和化学组分数据一起输入到 PMF 模型进行计算,将颗粒物质量浓度设置为总变量(Total Variable)。最后可通过EPA PMF 5.0 模型直接得到污染源对颗粒物的源贡献(见图 25)。
图25 污染源对颗粒物的源贡献