目录
(一)Multi-modal Action Classifier多模态动作分类器
一、Introduction
(一)研究问题
在实践中,多模态模型运行的环境不满足在训练和推理阶段使用相同的模态(可能因传感器故障、隐私限制等原因导致模态缺失),引发性能显著下降。核心研究问题为:如何训练一个对模态缺失具有鲁棒性的多模态动作识别模型?本篇论文旨在解决多模态动作识别中的模态缺失问题。
(二)研究思路
- 训练阶段的正则化策略:通过数据增强(如随机帧采样、颜色抖动)和模型初始化(如ImageNet预训练)提升模型泛化能力。
- 针对模态缺失具有鲁棒的融合方法:对比求和、拼接和基于Transformer的融合方式,发现Transformer在模态缺失时更具鲁棒性。
- 缺失模态重建模块(ActionMAE):设计一种自监督的模块化网络,通过随机丢弃模态特征并利用剩余特征重建缺失信息,同时优化分类与重构目标。
二、研究内容
(一)Multi-modal Action Classifier多模态动作分类器
多模态动作识别的标准架构由时空编码器和融合单元组成。
论文中对比了多种时空编码器的组合,通过实验对比得:ResNet34(空间编码器)+ Transformer(时间编码器)的组合最优,优于求和(Sum)和拼接(Concat)方法。
核心构架:
- 空间编码:ResNet34提取单帧模态特征 → 解决"是什么"
- 时间编码:Transformer建模帧间关系(自注意力机制动态分配模态权重) → 解决"怎么动"
- 分类机制:动态聚合时序信息的cls令牌(减少对单一模态的依赖) → 连接时空特征与语义
过程:
- 帧采样与预处理:从视频中采样出一系列帧,每个帧是一个具有特定通道数(C0)、高度(H)和宽度(W)的张量。对每个模态的帧,先通过特定模态的空间编码器,然后进行平均池化操作,得到每个帧的特征表示。
- 添加类别标记和位置嵌入:在将帧特征序列输入时间编码器之前,添加一个可学习的类别标记(cls),这个标记在后续会用于最终的分类。同时,加上固定的绝对位置嵌入(pos)来表示帧在时间序列中的位置。
- Transformer 编码器处理:将带有类别标记和位置嵌入的特征序列输入到 Transformer 编码器中,编码器由多层组成,每层包含多头自注意力机制(MHSA)、层归一化(LN)和前馈神经网络(FFN)。这些组件协同工作,对输入序列进行特征提取和变换。 输入:各模态的cls^m令牌(如RGB的cls^R、Depth的cls^D)。 过程:通过多头自注意力(MHSA)计算模态间相关性,生成融合后的全局令牌[cls]。 输出:[cls]经全连接层(FC)预测动作类别。
- 分类:Transformer 编码器最终层输出的类别标记(clsML)通过全连接层进行处理,从而实现对动作类别的分类。
原因:
动态权重分配:若某模态(如Depth)缺失,Transformer自动降低其注意力权重,增强剩余模态(如RGB)的贡献。
位置嵌入兼容性:编码阶段的位置编码(pos)使模型理解时序关系,即使模态缺失,仍能通过剩余模态的时序特征推理动作。
(二)ActionMAE
为解决动作识别中的模态缺失问题,论文提出ActionMAE,,通过学习缺失模态的预测编码实现鲁棒性。
ActionMAE是一个模块化自编码器,基于剩余模态的部分观测重建缺失模态。包含:
过程:
- 训练时使用N个模态(如RGB、Depth、IR,N=3),推理时允许缺失K个模态(仅用N-K个模态,1 ≤ K < N)。
- 输入处理:各模态(RGB/D/I)通过独立ResNet34提取空间特征,Transformer编码时序特征,每个模态生成[cls^m]令牌(聚合时空信息)。
- 模态随机丢弃:从N个模态令牌(即式(4)中的[cls^m])中随机丢弃K个,仅保留N-K个。插入虚拟令牌(随机噪声初始化)。
- 引入内存令牌:在剩余N-K个令牌基础上,添加可学习内存令牌(全局记忆单元),增强对动态输入的适应性。
- 编码与重建:通过ActionMAE编码器,将剩余模态令牌与虚拟令牌输入Transformer,生成潜在表示。在解码器中,通过潜在表示重建缺失模态令牌,虚拟令牌被强制模仿真实特征。
- 特征重组:将重建令牌与保留令牌合并,输入融合模块进行分类。
【虚拟令牌(Dummy Tokens)是在模态缺失时插入的占位符,用于表示缺失的模态数据。】
【内存令牌(Memory Token):在编码阶段引入,存储跨模态共享知识(如动作的时空模式)。不参与解码和预测,仅用于增强潜在表示的鲁棒性。】
【区分虚拟令牌和内存令牌:当RGB模态被丢弃,虚拟令牌占据其位置,模型通过剩余模态和内存令牌的信息来重建RGB特征。内存令牌在这个过程中提供跨模态的共享知识,帮助模型更有效地进行重建。】
(三)训练阶段的正则化策略(?)
通过消融实验(Ablation Study)对比了不同训练策略对模型鲁棒性的影响,包括数据增强、模型初始化、正则化方法等。
1. 数据增强
- 随机帧采样:从视频中随机抽取固定数量帧(如T=16),模拟动作的时间多样性。
- 颜色抖动:对RGB模态应用亮度、对比度、饱和度扰动,增强光照变化的鲁棒性。
- 深度图增强:对Depth模态禁用颜色抖动。
2. 模型初始化(利用ImageNet预训练模型提取通用视觉特征,减少对多模态数据的依赖)
- 空间编码器预训练:RGB模态的ResNet34使用ImageNet预训练权重初始化,Depth和IR模态的ResNet34随机初始化。
- 时间编码器初始化:Transformer编码器从头开始训练。