多模态融合综述

一、信息融合

多模态融合中表征的主要目的是对输入异质性数据进行统一的编码和表示，它可以理解为将原始的多模态数据转换为特定的数学表示形式或特征向量的过程。

每个模态都有其独特的数据类型和表示方式，例如图像可以用像素值表示，文本可以用词向量表示，音频可以用波形数据表示。为了表征这些不同模态所蕴含的信息，找到一种有效的表示方式，使得不同模态的信息在表征空间中具有一致的语义或相关性，以便于最大化地利用不同模态信息去完成场景任务。这种表征通常会捕捉到数据的关键特征和信息，而丢弃冗余信息，从而提高模型的性能和泛化能力。

1.联合融合方法

对每个模态的输入数据分别经过模态特定的编码器或特征提取器，得到单模态的表示，这些单模态表示被投影到一个共享的语义子空间。在这个共享语义子空间中，不同模态的特征可以进行联合融合、组合和进一步的处理。联合模式相比较其他模式可以使各个模态的表示在共享的语义子空间中保持一致的语义信息，使得模态之间的关系更加紧密，能够减少特征维度的冗余，提取出对多模态任务贡献较大的重要特征，从而方便进行跨模态的特征融合和计算。

这种投影到共享语义子空间的操作可以发生在不同的融合阶段或融合时期，本文基于联合模式在不同阶段分为四种，特征级融合(前期融合)、模型级融合、决策级融合(后期融合)和混合级融合。

1.1 特征级融合(早期融合)

特征级融合是在多模态数据输入到模型之前，将不同模态的原始数据或已从原始数据中提取的特征融合在一起，形成一个综合的表示来作为模型的输入。原始的数据蕴含不明显特征，因此原始数据和特征的融合均称为特征级融合。

每个模态的数据首先经过各自的特征提取器或直接采用原始模态信息，例如图像可以使用卷积神经网络提取特征，文本可以使用词嵌入或文本卷积神经网络提取特征，音频可以使用声学特征提取方法。然后，将从不同模态的特征中得到的表示进行融合，特征级融合最常见的方法有拼接、加法、“乘”方法和双线性融合方法。

融合后的多模态共享语义信息可以继续输入到模型中用于任务的执行，特征级融合方法可以使模型直接利用多模态特征的组合信息，从而更好地捕捉到模态之间的关联和相互作用。可能面临模态间维度不匹配、信息失真等挑战。不同模态的数据具有不同的维度和尺度，因此在融合过程中需要进行适当的处理和归一化，避免出现中维度灾难，但是存在难以处理模态之间的时序性或局部关联的缺陷。

1.2 模型级融合

模型级融合是通过在模型级别上将不同模态的特征信息进行融合，实现跨模态的信息交互和整合。基于深度学习模型的融合方法应用范围更广且效果更好。常用方法包括早期的多核学习方法，该类方法目前适合小数据集的融合任务，然而经过深度学习的成熟发展，深度学习方法能够应对各种融合的场景。基于模型的融合方法是基于模型层面，但根据应用场景会与特征级或决策级没有明显的界线，特征级融合和决策级融合不属于模型级融合。

1.2.1多核学习方法

多核学习方法是在内核支持向量机方法的基础上改进的方法。其目的是学习一组预定义的基本核的线性或非线性组合，多核映射作用下，高维空间成为多个特征空间组合而成的组合语义空间。组合语义空间充分利用基本核的不同特征映射能力，组套索正则化器的使用可以确定每个基核的最优权值，以便发挥每个基本核的最大能力。由于核可以看作各数据点之间的相似函数，从而实现特征选择融合，选择该方法能更好地融合异构数据且使用灵活。

MKL 的基本核函数选择灵活外，损失函数为凸函数也是优点之一，便可以使用标准优化包和全局最优解进行模型训练，其计算速度和模型性能可以得到大幅度提升。MKL的不足是在测试期间需要依赖训练数据，这意味着对于新的测试样本，必须重新计算和调整核函数的权重，这可能会增加计算的复杂性和时间开销，MKL 在训练阶段需要占用大量的内存资源，这可能会限制其在资源受限环境中的应用。

1.2.2基于神经网络的融合

基于神经网络的融合方法是现在主流的研究方向，其可以融合不同模态的异构数据，该模型还可以融合不同的图像，例如自动驾驶领域激光雷达图像和摄像头捕捉的视觉的图像，在医疗领域的不同设备采集的不同影像图像等。基于神经网络的融合具有效率高、学习能力强的优势已经在很多领域得到了广泛的应用。

注意力机制在自然语言处理领域和图像处理领域的成功表现，得益于具有全局感受野的能力。注意力机制在多模态特征融合任务中具有明显的优势，它可以从原始输入中选择显著的特征，并帮助处理存在噪声、语义分歧和语义重复等问题。通过注意力机制，模型可以根据各模态之间的关系动态地评估它们的重要性，并提取出模态之间的互补信息。这些信息被整合到一个单一向量表示中，从而缓解了语义歧义的问题。换句话说，注意力机制可以帮助模型更加准确地理解和融合多模态特征，提供更准确和全面的表示。

Transformer 是多头注意力机制的应用，在计算机视觉与自然语言处理领域非常成熟，并且对文本与图像的编码过程具有相同的原理。为图像-语言的预训练模型的双模态融合预训练提供理论的基础。

注意力机制可根据不同任务和情境动态地调整不同模态的注意力权重，使模型能够适应不同的输入和输出需求。通过注意力权重的分配，注意力机制能够突出显示模型在决策过程中的重要输入，提供对模型决策的可解释性。多模态数据中的不同模态通常包含不同的信息。可以根据任务需要自适应地对不同模态进行加权融合，以获得更具信息量的特征表示。注意力机制可以减轻来自其他模态的噪声的影响，提高模型在处理多模态输入中的鲁棒性。注意力机制在多模态融合中具有灵活性、可解释性、强大的特征表达和抗噪性等优势，从而提升了模型在多模态任务中的性能表现。

1.3 决策级融合(后期融合)

决策级融合将每个模态的独立决策结果进行数学公式规定或赋予不同结果不同的权重来得出最终的决策结果。常见的决策级融合策略包括投票法、加权平均法和多数投票法等。

投票法通常将多个模态的独立决策结果进行投票统计，选择获得最高票数的类别或结果作为最终的决策。多数投票法则是根据各个模态的决策结果中出现的频率最高的类别或结果进行决策。相较于之前的早期融合方式，这种融合方式具有处理简单数据异步性的能力，其优势在于允许使用最适合其中单模态的提取特征的方法。

决策级融合方法忽视了模态之间的相互作用和关联性，也难以利用模态之间的互补性，该方法需要为每一个模态训练分类器，学习过程变得耗时且复杂。换句话说，每个模态单独地训练权重，最后整体权衡各子模态的结果。后期融合的处理与特征无关，需要多个网络模型进行训练，能够很好地适应模态缺失问题，有更大的容错性。

1.4 混合级融合

混合融合方法综合特征级融合、模型级融合和决策级融合方法三种融合方式的优点，在不降低性能的同时，也可以根据应用场景的融合难易程度选择合适的组合。

混合级融合能够综合多个模态的信息，全面地利用不同模态的特点和信息，从而提高了融合结果的综合性和鲁棒性。在应用中，混合级融合方法具有一定的灵活性，能够根据不同的应用场景和数据特点灵活选择融合的方法和策略，提高了系统的适用性和灵活性。同时也面临一些挑战：融合过程相对复杂，可能需要更多的计算资源和时间成本；参数选择和调优相对困难，需要花费较多的精力和时间来确定最优的参数组合；不同的混合级融合方法对

于不同的数据和任务效果并不确定，需要在具体问题中进行实验和验证，方能确定最适合的融合策略。混合级融合方法在充分利用不同模态信息的同时，需要在实际应用中综合考虑其优缺点，并进行合理的选择和平衡。

2.协同融合方法

协同融合方法是使用约束条件作用在各个单模态中，使其模态之间相互协同。协同的目标是确保不同模态之间的信息相互补充、相互支持。不同模态的特征有异质性的特性，其包含的信息也是不平等的，学习分离表征有益于保持模态特有的排他和有用的特征，并且在整体融合结果中发挥协同作用。由于协调表示学习保留了原始模式的信息，且其优化目标是不同模式之间的合作关系，它适用于仅以一种模式为输入的应用。而联合表示学习最终只能得到统一的表示。其最终优化目标是模型预测性能，适用于多模态输入。目前的在多模态融合领域中，协同融合方法主要分为交叉模态相似方法和层级空间融合方法。

2.1 交叉模态相似方法

交叉模态相似性方法用于比较不同模态数据之间的相似性。旨在通过计算子模态之间相似性来量化它们之间的关系。期望与同一语义或对象相关的模态间相似度距离尽可能小，而与不同语义相关的模态间相似度距离尽可能大。常见的交叉模态相似性方法包括损失函数、相关系数、基于信息熵的相似度、基于统计距离的相似度。

交叉模态相似性方法可以更深层次地理解和解释数据，因为它允许模型从一个模态中学到的知识应用到另一个模态上，单一模态可能无法提供足够的信息来完成特定任务。交叉模态相似方法通过整合不同模态的信息，可以克服这一限制。不足是同模态之间存在数量或质量上的不平衡会影响到模型学习过程中各模态信息的有效整合。

2.2 层级空间融合方法

层级空间融合将不同模态的数据在不同层次上进行融合，以捕捉它们之间的相关性和互补性。将融合问题分解为不同的层次，每个层次从低层次向高层次逐步整合和传递信息，从而使融合过程更加特殊化，多模态表达更加丰富，该方法相较于现有方法显著降低计算复杂度。开发层次多模态融合模块来增强特征融合，并构建了高级语义模块来提取语义信息，以便在不同抽象级别上与粗特征进行合并，利用多级融合模块，利用低、中、高级融合来提高分割精度。该方法相较于传统的融合方法具有效率高、融合充分的优点。

层次空间融合的优势在于能够充分利用不同模态数据的互补信息，提高模型的表达能力和性能。同时，不同层次的数据可能面临规模或时间序列上的不一致问题，需要额外的预处理步骤来确保各层次信息的有效整合，如果在高维特征空间进行过于复杂的数据融合，可能导致模型过拟合。

二、信息对齐

多模态融合中，模态之间的信息对齐是重要的核心问题之一。模态对齐问题寻找不同模态信息中来自同一实例的子分支元素之间的对应关系，可以促使学习到的多模态表示更加精确。

对齐的关系可以是时间维度的，例如自动对齐电影画面、语音和字幕；也可以是空间维度的，比如在图像语义分割任务中，试图将每个像素对应到某一种类型的标签，完成视觉和词汇的对齐。多模态对齐是在对各单模态数据进行特征提取之前，通过强制执行一定的相似性约束来协调它们，从而得到协调的多模态表示。每个模态都有相对应的映射函数，按照有无对应的标签主要分为显式对齐和隐式对齐。

1.显式对齐

显式对齐主要处理模态之间子组件的对齐问题。该方法通过明确的算法或标签进行直接关联和对齐不同的模态信息，其目的是提供模态之间的对齐关系，不需要额外地设计模型让信息对齐，提高了信息整合的效率和准确率。其中，显示对齐包含无监督对齐方法和监督对齐方法。

无监督对齐方法尤其适用于标注数据稀缺或获取成本高昂的领域，尤其是在大规模数据集的情况下，也能够在不同模态数据间发现潜在、非显性的关联，这些关系可能在有监督的方法中被忽略。同时，由于缺乏明确的指导标签，无监督对齐的结果可能存在较大的不确定性，使得对齐质量在不同应用中有明显差异。某些情况下，无监督对齐方法可能很难达到监督方法在某些任务上的性能水平。

监督方法使用有标签的数据来训练模型，以便模型学习如何将来自不同模态的数据进行有效的对齐和整合。这种方法借助人工标注的信息，显式地指导模型捕捉不同模态之间的关联。监督对齐方法常用于需要高准确度对齐的任务，实际应用中可以在无监督对齐技术上进行改进，通过增加模型的监督信息来提高性能。它可以对上述无监督方法进行适当的优化，直接应用于模态对齐任务中。该方法旨在在不降低性能的情况下，尽量减少对监督信息的依赖，也被称为弱监督对齐。

由于有明确的标签指导对齐过程，监督对齐方法通常能达到较高的性能，相较于无监督方法，监督对齐有明确的优化目标和评价标准，可以更直接高效地训练模型。泛化能力可能不足，原因是在训练数据覆盖的情况下表现优异，但其泛化到未标注或与训练集分布不同的数据上时性能可能下降。当人工标注的数据存在偏差时，将会直接影响模型的准确率。

2.隐式对齐

隐式对齐方法是通过模型自身学习来实现不同模态数据之间的对齐，而无需显式指定对齐过程，模态融合的数据集之间的对齐标签数量是巨大的，该方法无疑节省大量人工标注数据标签的成本。

在机器翻译的任务中，需要对齐不同语言之间的语义，手工标注工作量大。此时，利用神经网络在模型训练期间对齐不同语言的语义取得了成功的应用。目前最热门的隐式对齐方法是基于注意力机制的对齐方法。它可以有效地识别数据中具有价值的特征区域，通过使用注意力机制，系统可以集中在最相关和有意义的信息上，从而提高任务的性能和效果。这种机制已经成功应用于许多领域。通过引入注意力机制，可以更准确地提取和利用多模态数据中的重要特征，从而提高系统的整体性能。

隐式对齐是在模型内的不同网络层之间巧妙地设计，使得从不同的模态中提取到的特征信息进行映射。，隐式对齐方法可以融合没有对齐标签的数据集，可以节省大量的人力标注的成本。通过联合训练或共享表示空间，隐式对齐方法可以实现端到端的学习，直接优化多模态任务的整体性能，也能学习到更加通用的模态对齐，从而提高模型在未见数据上的泛化能力，不足是对齐的质量通常受到模型结构和训练数据的影响，因此其对齐的准确性和稳定性可能难以保证。综上所述，隐式具有自动化、端到端学习和灵活性等优点。

三、公开数据集

nuScenes： https://www.nuscenes.org/nuscenes#download

M3FD:https://github.com/dlut-dimt/TarDAL

FLIR:https://www.flir.com/oem/adas/adas-dataset-form/#anchor29

LLVIP:https://bupt-ai-cz.github.io/LLVIP/

Waymo Open Dataset：https://github.com/waymo-research/waymo-open-dataset

KITTI：https://www.cvlibs.net/datasets/kitti/eval_object.php?obj_benchmark=3d

MSRS：https://github.com/Linfeng-Tang/MSRS

TNO：https://figshare.com/articles/dataset/TNO_Image_Fusion_Dataset/1008029

多模态融合综述

悦读