Bootstrap

语义分割中的上下文信息、空间信息、低层特征和高层特征都是什么意思


一、 概览

  1. 上下文信息:指与目标像素周围像素相关的信息,通常是用于处理图像中局部区域的信息。上下文信息可以用于增强图像的细节和边缘,从而提高图像处理和识别的性能。
  2. 全局信息:指覆盖整个图像的信息,通常是用于处理整幅图像的特征。全局信息可以捕捉到图像的宏观特征,如图像的整体亮度、对比度等,对于一些图像分类或图像生成任务较为重要。
  3. 长距离依赖:指距离目标像素较远的像素之间存在的关系。在图像中,长距离依赖通常由于图像中物体的空间关系而存在。深度学习中,要处理长距离依赖需要特别的网络结构设计,比如注意力机制等。
  4. 粒度:指分析和处理图像时的分![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/0b941b1bb9b54e68bf2e7a486a30397a.png辨率和精度。通常来说,粒度越细,处理的信息越详细,但计算量也越大。粒度可以用来指导图像处理任务中的特征提取和细节处理。

二、详细解释

在这里插入图片描述

问,中央的两位球员在做什么?

那首先第一步,我得找到球员。

而事实上,计算机看着这玩意就是一堆像素,一个像素是分辨不出球员的,因此需要一个窗口,这个窗口在整张图中滑动,并找到球员的头,身体,手臂等等。

这个窗口就是每个像素点的上下文(context),也即邻域信息,其可以自然表征图像的局部语义。

好的,我们记录下来球员每个部位的姿态了,那么下一个问题来了,他在干啥?

当我们仅仅着眼于上下文时,其实并无法获知他在干嘛,他可能是在投篮,也可能是在跳高,甚至可能是在跳舞。但是如果将全图的元素,包括篮球,球场,观众都综合下来,就可以确定他在投篮了。全图的综合就是全局信息(global)。全局信息可以协助更好地描述局部语义信息,早期的分割方法中的ASPP模块就有这种思想。

那其实这个问题已经解决了,但是这相当于我们用小孔浏览了一圈然后把图中所有元素拼合在一起,但其实这样并不好。图中存在一些东西它们距离很远,但是有很强的语义联系,就像这张图中的球员和篮球,如果能同时涵盖二者,就可以直接理解这幅图。这种关系叫做远距依赖性(long distance dependency),这种依赖不仅存在于图像中,更是存在于视频的不同帧里,非常推荐读一下non local那篇文章,作为前transformer时代一个自注意力模型,讲得很清楚。

ok,图内的信息我们基本提取完了,那我们来回答他到底在做什么?那其实会发现以下回答都是正确的: 1.在运动,2.打篮球,3.投篮。你会发现其实123有隶属关系,你要回答哪个仅仅取决于问问题的人想要哪个层次的回答。这种层次就是语义粒度,粒度这个词常见的一种场合是细粒度分类,比如分出这个动物是猫是狗就属于粗粒度,而分出这只猫属于哪个品种,就属于细粒度了。

Reference

  1. https://www.zhihu.com/question/582011087
  2. https://blog.csdn.net/qq_30121457/article/details/108918519

悦读

道可道,非常道;名可名,非常名。 无名,天地之始,有名,万物之母。 故常无欲,以观其妙,常有欲,以观其徼。 此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。

;