今天介绍两篇在计算机视觉领域应用图神经网络的论文,这两篇论文选自CVPR2020,都可以在arxiv上找到对应的原文。
第一篇论文题目为Object Relational Graph with Teacher-Recommended Learning for Video Captioning,这篇论文的署名单位有中国科学院自动化研究所,中科大以及人民日报。
本文的任务是Video Caption, 在(Video)Caption如何充分利用视觉和语言的信息一直是研究的主题。论文称现有的模型因为没有挖掘视频中Object之间的关系而缺乏足够的视觉特征,同时由于已有标注文字的分布呈现幂律分布导致没有足够丰富的单词来进行生动的描述。基于这两点,本文作者提出了一个模块捕捉Object关系,以及一个Teacher recommend learning (TRL)的方法使得语言词汇更加丰富。
词汇Long-tailed效应,左边是原来的分布,右边是经过TRL的分布
下面是论文的主要结构图:模型称为ORG-TRL。它主要由左上方显示的基于ORG的对象编码器组成框,以及在右上角具有时间/空间注意的分层解码器。左下角的框为TRL,右下角的公用TEL。
更多详细内容,论文:https://arxiv.org/pdf/2002.11566.pdf
第二篇论文题目为Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction
本文作者来自The University of Texas at Austin以及KAUST, Stanford University。相关的代码已经公开。Code is available at
https://github.com/abduallahmohamed/Social-STGCNN.
理解行人的运动行为在自动驾驶中有着非常重要的作用。行人的轨迹不仅仅影响行人自己同时也影响着周边的一切, 之前的方法对于行人与周围行人的关系一般用一些特征聚合的方式,这些方法没有很好捕捉行人之间的交互关系等。该论文提出了Social-STGCNN,比较有新意的地方是本文提出了一个核函数将行人之间的social interactions嵌入到邻接矩阵中,进而来分析预测行人轨迹。
看完上面的叙述,我想social interactions怎么获得?难道要一个个标注一下吗?这样标注员也太辛苦了吧,另外这样的Interactions去哪里找?我们继续往下看:
The kernel function can thus be considered as a prior knowledge about the social relations between pedestrians. A straightforward idea in designing the kernel function is to use the distance measured by the L2 norm defined in equation 8 between pedestrians to model their impacts to each other. However, this is against the intuition that the pedestrians tend to be influenced more by closer ones. To overcome this, we use similarity measure between the pedestrians. One of the proposals is to use the inverse of L2 norm as defined in equation10.
也就是说论文采用图上两个行人之间的距离来描述他们直接的相互影响,不过与直觉相反,因为越近我们认为影响越大,进一步作者修改为相似度,这原来就是作者描述的social interactions, 之前人体骨架轨迹预测也采用了类似的做法,这里作者进行行人轨迹的预测,作者定义为social-interactions
更多内容参考,
论文链接:https://arxiv.org/pdf/2002.11927.pdf
☆ END ☆
如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文(无广告)。
↓扫描二维码添加小编↓