Towards Good Practices for Missing Modality Robust Action Recognition

一、Introduction

在实践中，多模态模型运行的环境不满足在训练和推理阶段使用相同的模态（可能因传感器故障、隐私限制等原因导致模态缺失），引发性能显著下降。核心研究问题为：如何训练一个对模态缺失具有鲁棒性的多模态动作识别模型？本篇论文旨在解决多模态动作识别中的模态缺失问题。

多模态动作识别的标准架构由时空编码器和融合单元组成。

论文中对比了多种时空编码器的组合，通过实验对比得：ResNet34（空间编码器）+ Transformer（时间编码器）的组合最优，优于求和（Sum）和拼接（Concat）方法。

核心构架：

过程：

帧采样与预处理：从视频中采样出一系列帧，每个帧是一个具有特定通道数（C0）、高度（H）和宽度（W）的张量。对每个模态的帧，先通过特定模态的空间编码器，然后进行平均池化操作，得到每个帧的特征表示。
添加类别标记和位置嵌入：在将帧特征序列输入时间编码器之前，添加一个可学习的类别标记（cls），这个标记在后续会用于最终的分类。同时，加上固定的绝对位置嵌入（pos）来表示帧在时间序列中的位置。
Transformer 编码器处理：将带有类别标记和位置嵌入的特征序列输入到 Transformer 编码器中，编码器由多层组成，每层包含多头自注意力机制（MHSA）、层归一化（LN）和前馈神经网络（FFN）。这些组件协同工作，对输入序列进行特征提取和变换。 输入：各模态的cls^m令牌（如RGB的cls^R、Depth的cls^D）。 过程：通过多头自注意力（MHSA）计算模态间相关性，生成融合后的全局令牌[cls]。 输出：[cls]经全连接层（FC）预测动作类别。
分类：Transformer 编码器最终层输出的类别标记（clsML）通过全连接层进行处理，从而实现对动作类别的分类。

原因：

动态权重分配：若某模态（如Depth）缺失，Transformer自动降低其注意力权重，增强剩余模态（如RGB）的贡献。

位置嵌入兼容性：编码阶段的位置编码（pos）使模型理解时序关系，即使模态缺失，仍能通过剩余模态的时序特征推理动作。

为解决动作识别中的模态缺失问题，论文提出ActionMAE，，通过学习缺失模态的预测编码实现鲁棒性。

ActionMAE是一个模块化自编码器，基于剩余模态的部分观测重建缺失模态。包含：

过程：

训练时使用N个模态（如RGB、Depth、IR，N=3），推理时允许缺失K个模态（仅用N-K个模态，1 ≤ K < N）。
输入处理：各模态（RGB/D/I）通过独立ResNet34提取空间特征，Transformer编码时序特征，每个模态生成[cls^m]令牌（聚合时空信息）。
模态随机丢弃：从N个模态令牌（即式(4)中的[cls^m]）中随机丢弃K个，仅保留N-K个。插入虚拟令牌（随机噪声初始化）。
引入内存令牌：在剩余N-K个令牌基础上，添加可学习内存令牌（全局记忆单元），增强对动态输入的适应性。
编码与重建：通过ActionMAE编码器，将剩余模态令牌与虚拟令牌输入Transformer，生成潜在表示。在解码器中，通过潜在表示重建缺失模态令牌，虚拟令牌被强制模仿真实特征。
特征重组：将重建令牌与保留令牌合并，输入融合模块进行分类。

【虚拟令牌（Dummy Tokens）是在模态缺失时插入的占位符，用于表示缺失的模态数据。】

【内存令牌（Memory Token）：在编码阶段引入，存储跨模态共享知识（如动作的时空模式）。不参与解码和预测，仅用于增强潜在表示的鲁棒性。】

【区分虚拟令牌和内存令牌：当RGB模态被丢弃，虚拟令牌占据其位置，模型通过剩余模态和内存令牌的信息来重建RGB特征。内存令牌在这个过程中提供跨模态的共享知识，帮助模型更有效地进行重建。】

通过消融实验（Ablation Study）对比了不同训练策略对模型鲁棒性的影响，包括数据增强、模型初始化、正则化方法等。

1. 数据增强

2. 模型初始化（利用ImageNet预训练模型提取通用视觉特征，减少对多模态数据的依赖）