有任何的书写错误、排版错误、概念错误等,希望大家包含指正。
MoCo
模型概述
MoCo 是何恺明提出的一种通过对比学习的方式无监督地对图像编码器进行预训练的方法。MoCo 包括三个结构,query 编码器、key 编码器和动态字典。训练完成的 query 编码器会与下游任务拼接;key 编码器最大的特点是以大动量的方式更新模型参数但是不涉及梯度计算,作用是对(数据增强后的)输入图像进行编码,将图像映射到特征空间;动态字典具有规模大且强一致性的特点,是一个大小固定的队列结构,这里的“字典”不是数据结构,而是与自然语言处理中的词汇表/字典的概念类似,但“队列”是数据结构,字典中保存(连续的)特征空间中的部分(离散的)特征,这些特征来自 key 编码器,动态正是采用队列结构的意义所在,字典中过时的元素会被移出,来自 key 编码器的新元素(特征