U-net
U-Net是一篇基本结构非常好的论文,主要是针对生物医学图片的分割,而且,在今后的许多对医学图像的分割网络中,很大一部分会采取U-Net作为网络的主干。
概述
博客都将用一个概述对论文进行一个很简介的概述:
- 解决什么问题?
- 医学图像的分割
- 使用的方法?
- 继承FCN的思想,继续进行改进。但是相对于FCN,有几个改变的地方,U-Net是完全对称的,且对解码器(应该自Hinton提出编码器、解码器的概念来,即将图像->高语义feature map的过程看成编码器,高语义->像素级别的分类score map的过程看作解码器)进行了加卷积加深处理,FCN只是单纯的进行了上采样。
- Skip connection:两者都用了这样的结构,虽然在现在看来这样的做法比较常见,但是对于当时,这样的结构所带来的明显好处是有目共睹的,因为可以联合高层语义和低层的细粒度表层信息,就很好的符合了分割对这两方面信息的需求。
- 联合:在FCN中,Skip connection的联合是通过对应像素的求和,而U-Net则是对其的channel的concat过程。
- Innovation:
- overlap-tile策略
- 随机弹性变形进行数据增强
- 使用了加权loss
- result
- 相对于当年的,在EM segmentation challenge at ISBI 2012上做到比当时的best更好。而且速度也非常的快。其有一个很好的优点,就是在小数据集上也是能做得比较好的。就比如EM 2012这个数据集就只是30个果蝇第一龄幼虫腹侧神经所索的连续部分透射电子显微镜图。
- 还存在的问题
- 这个得看其后面的论文,要说的话,可以将其网络的深度到底取多深的问题作为一个点。
细节部分
以下是整体的结构图(对于这两篇论文,我比较关注的是他们的结构,同样论文也是把他们的结构作为卖点,论文中其余的很多细节都没有很详细的说明):
1、结构的解析
整体结构就是先编码(下采样), 再解码(上采样),回归到跟原始图像一样大小的像素点的分类。
- 首先是输入图像的大小,这个是根据再高层的大小来进行反推的,最后取的一个比较合适的方便计算的输入大小。
- 下采样是通过max pool 2x2来进行1/2下采样的,下采样之间是两个conv卷积层,这里的卷积是使用valid卷积。所以在卷积过程中图像的大小是会减小的。这会造成一个问题,就是造成了在skip connection部分concat时候大小不一致,因为在上面有一个copy & crop操作,crop就是为了将大小进行裁剪的操作。
- 虽然上面有说到crop操作,但若是在卷积的时候使用的是same,就无需这个操作,至于这其中的影响,我觉得应该是不会造成太大的影响的,而且还会方便计算操作。这是same的代码。
- 上采样,相对于FCN的转置卷积进行上采样,这里是一个up-conv 2x2,具体对应的操作是: