如何把先验知识引入到深度学习的损失函数中？

摘自博主：https://mp.weixin.qq.com/s?__biz=MzI1NzU4ODgwMg==&mid=2247492907&idx=1&sn=e95d42e69d9574f6e39460375c8ab582&chksm=ebe21d1286a1e125d5a1d4d1c4e550533e7948cbc5e959731afbb445b121055fd846883ceb67&mpshare=1&scene=1&srcid=1029SmLqoujZw5yBDV5ZXqgF&sharer_shareinfo=92d284e558d06e8af175e4663bf1cf32&sharer_shareinfo_first=0fcfedb255892e34b2d53692c3c972ad#rd

加一些自己的理解

loss 1

基于物理方程或领域知识构建物理引导损失函数是目前流行的一种物理引导深度学习方法，属于软约束的范畴。以降雨径流建模为例，有大佬总结了降雨径流的极端天气情况与基本物理机制之间的关系，包括长期强降雨导致土壤含水量饱和、长期无雨导致极端干旱以及降雨强度与径流量大小的单调关系等。基于这些物理机制，构建了物理引导项，并将其与LSTM网络结合进行训练。实验结果显示，与传统的LSTM 模型相比，物理机制的加入不仅将MSE 平均值从0.36下降至0.11，还显著改进了对洪峰的预测，并完全消除了不符合基本物理规律的“负流量”错误预测。

降雨径流建模是一种水文模型，其核心任务是研究降雨与地表径流之间的关系，用于预测降雨事件后的径流量及其时空分布。这种模型被广泛应用于洪水预测、水资源管理以及气候变化研究等领域。

降雨径流建模及问题背景的具体解读：

1. 降雨径流建模的本质

降雨径流建模旨在将输入的气象数据（如降雨量、降雨强度、降雨持续时间等）和下垫面条件（如土壤含水量、植被覆盖、地形坡度等）与输出的径流特性（如流量、流速、时间过程等）建立数学关系。

这类模型可以分为两大类：

基于物理机制的水文模型：
- 模拟地表径流形成的物理过程，包括降雨、下渗、蒸发、土壤饱和、蓄水和流出等。
- 常用模型：SWAT（Soil and Water Assessment Tool），HEC-HMS（Hydrologic Modeling System）等。
基于数据驱动的机器学习模型：
- 利用机器学习算法，从历史降雨和径流数据中提取模式，无需明确地定义物理机制。
- 常用模型：LSTM（长短时记忆网络）、随机森林、支持向量机（SVM）等。

2. 当前提到的模型特点

在您的问题中，降雨径流模型结合了物理机制和LSTM网络，属于一种物理引导的机器学习模型，即物理引导数据驱动模型（Physics-Informed Machine Learning Model）。这种方法兼具了传统物理模型的理论基础和机器学习模型的数据拟合能力，具有以下特点：

物理机制指导：
- 通过将物理过程（如土壤含水量变化、蒸发下渗、干旱影响等）作为模型的物理引导项，提供先验知识。
- 物理机制可以作为网络的约束项（如添加特定损失函数）或直接输入网络（作为额外特征）。
LSTM网络的应用：
- LSTM擅长处理时间序列数据，能够捕捉降雨径流关系中的动态特征和时滞效应（如降雨结束后径流的滞后反应）。
- 它可以从复杂的降雨径流数据中自动提取时间相关特征，弥补传统物理模型对非线性特性的不足。
结合后的模型优势：
- 通过物理引导项（如土壤饱和度、降雨强度、历史降雨累积量等），模型能够更好地反映极端天气的物理规律。
- LSTM则负责捕捉数据中难以直接建模的高阶非线性关系，提高预测精度。

3. 物理引导项的意义

在降雨径流建模中，引入的物理引导项能够有效增强模型的泛化能力。例如：

土壤含水量饱和：描述了长期强降雨情况下，土壤失去下渗能力时径流的激增现象。
长期干旱影响：考虑了土壤极端干燥时对降雨响应的延迟（初期更多下渗，径流较小）。
降雨强度-径流量的关系：反映了降雨强度与地表径流之间的非线性单调关系。

通过将这些机制内嵌于LSTM模型，模型不仅能够学习到历史数据中的模式，还能利用物理规律对未来的非典型情景进行合理预测。

总结了几种常见的结合方式:

4. 梯度反向传播的作用

上述损失函数在模型训练时，通过梯度反向传播调整 LSTM 的权重，使模型输出既符合历史数据，也尽量满足物理规律：

物理机制提供约束，避免模型出现过拟合或不合理的预测（如极端降雨时径流过小）。
损失权重 (λ\lambdaλ) 的调整：通过实验调节 λ\lambdaλ 的大小，平衡物理约束与数据拟合的优先级。

优点：

提高泛化能力：在数据不足或分布外（out-of-distribution）场景中，物理机制约束可提供先验知识，增强模型稳定性。
符合实际规律：即使在数据中未充分体现的物理现象，也能通过约束项引导模型。
注意！
物理引导项设计：需要准确的物理公式或先验知识，否则可能引入额外误差。
约束权重调节：过大的权重会导致数据拟合能力下降，过小则削弱物理约束的作用。

解决数据与知识的不对称问题：
- 数据集中的样本有限，不可能覆盖所有实际情况。而物理规律是通用的，通过引入这些规则，可以弥补数据的不足。
降低模型复杂度：
- 通过明确的物理机制减少模型的学习负担，帮助模型更快收敛。例如，通过单调性约束，模型可以在降雨和径流关系之间自动建立直接联系。

确保符合物理规律的模型行为不会受到干扰。

2中

loss 2

loss 3

有学者针对轴承剩余使用寿命预测问题，利用轴承退化信息与监测信息间的单调约束关系构建了轴承退化过程的物理引导项，并引入时空注意机制，通过构建物理引导损失函数与深度学习模型相结合，对比其他先进模型，物理信息的加入显著提高了对现有数据的利用效率，R2 指标达到0.902，物理一致性得分方面平均提升约36%。

轴承剩余使用寿命（RUL）预测 的方法。以下是对其中关键内容的逐步解析，包括 单调约束关系 的物理引导项、时空注意机制 的作用，以及如何结合物理引导损失函数与深度学习模型。

可以理解为：有15个并行的时间序列数据，每个序列对应一个不同的特征通道。

这种数据形式可以归类为多模态数据，因为它结合了来自多个传感器（空间维度）和时间序列特征（时间维度）的信息。以下是详细解释：

什么是多模态数据？

多模态数据是指结合多种信息源或多种感知方式的数据。在轴承退化预测问题中，多模态的体现主要是：

空间上的多模态：
- 多个传感器采集的数据，例如振动传感器、温度传感器、加速度传感器等。
- 每种传感器可以看作一个“模态”，因为它们采集的信息类型不同。
特征上的多模态：
- 即使是同一种传感器（如振动传感器），也可以提取多种特征（如时域特征、频域特征等）。
- 不同特征可以看作同一模态内的多通道。
时间上的动态变化：
- 多模态数据在时间序列上的动态演化，使得数据不仅是静态的，还具备时序特性。

因此，物理引导损失函数的引入可以有效地将领域物理知识融入深度学习模型中,提升模型的性能和可解释性，并使模型能够更好地符合真实世界的物理规律。对模型施加软约束的一个主要优势在于，能够在输出（观察）数据不可用的情况下通过计算物理引导损失函数训练模型。进一步，当观测数据较稀疏时，也可以通过引入物理引导损失函数训练模型。此外，在算法复杂度方面，该方法在不显式增加模型参数的情况下，通过正则化项约束参数的更新方向。这种约束确保了模型预测沿着合理的方向优化。然而，基于软约束的模型可能仍然会产生物理上不一致的结果，因为它仅计算模型预测与物理机制之间一致性程度的加权平均值。这种策略只能在平均意义上保证预测结果不严重违反约束，无法确保预测结果在每个点都符合物理约束，即模型可能会在某些点上产生偏离控制方程的物理不一致的预测。目前，尚无适用的解决方案可以通过调整正则化项的权重，让模型更侧重于某项或多项基于物理的损失，实现各物理约束项的自适应优化控制。

进一步解读：为何需要自适应优化控制？

多物理约束之间的冲突：
- 当模型引入多个物理约束时，不同约束可能存在冲突。例如，单调性约束和连续性约束可能在局部区域表现出不一致。如果权重固定，模型无法灵活地在这些冲突间进行权衡。
训练过程中的动态变化：
- 模型训练的早期可能需要更关注某些简单的物理约束（如单调性）；而在后期，可能更需要优化更复杂的物理机制（如控制方程）。
- 固定的权重无法动态适应这种需求。
数据稀疏情况下的优化需求：
- 当观测数据稀疏时，物理引导项可能承担更大的约束作用，需要提高其权重。
- 在数据丰富的区域，模型可以更多依赖拟合损失（数据驱动），降低对物理约束的依赖。