啥是“token”, 把一个RGB图像分割成不重叠的patch,每个patch就成为“token”, 每个patch的特征是每个patch的像素值排列,三通道,即48维 详见:https://zhuanlan.zhihu.com/p/367111046 https://zhuanlan.zhihu.com/p/361366090