收录于CVPR2016
关于全连接层不能保持spatial information的理解
相比全连接层,卷积层是一个spatial-operation,能够保持物体的空间信息(translation-variant)。比如一个物体原来在左上角,卷积之后的结果feature-map在左上角的激活值大。如果这个物体移动到右下角,那么卷积之后的feature-map同样会在右下角的激活值比较大。但是对于全连接层来说,它是将feature-map所有位置的信息综合之后输出,和物体的具体位置在哪里无关,比如一张图,人在左上角和右下角得到的fc层的输出应该是一致的(因为后面就接softmax分类了)本文的contribution
Revisit the global average pooling,and sled light on how it explicitly enables the convolutional neural network to have remarkable localization ability despite being trained on image-level labels行文思路
1 背景提出:卷积神经网络里面的每一个卷积单元其实都扮演着一个个object detector的角色,本身就带有能够定位物体的能力。但是这种能力在利用全连接层进行classification的时候就丢失了。因此,像那些全卷积的神经网络,比如googlenet,都在避免使用全连接层,转而使用global average pooling,这样的话不仅可以减少参数,防止过拟合,还可以建立feature map到category之间的关联。2 作者想法:global average pooling(ga