数据库与信息系统研究室师生论文被计算机领域顶级期刊TIP录用
近日,数据库与信息系统研究室师生一项研究被CCF A类期刊IEEE Transactions on Image Processing接收。TIP是计算机视觉领域的国际顶级期刊,其影响因子为11.041。
以下为论文的详细介绍:
论文题目:Re-Attention for Visual Question Answering
作者:郭文雅,张莹,伍小平,杨巨峰,袁晓洁
通讯作者:张莹
录用会议/期刊:IEEE Transactions on Image Processing (TIP) 2021 & AAAI 2020
论文概述:
最近几年,研究人员为解决VQA问题开展了大量的研究工作,他们试图理解细粒度场景中的图像和问题。一些现有的方法旨在获得与问题相关的关键视觉信息,并广泛应用了视觉注意力机制,根据统一的问题表示学习有意义的区域或对象以提高模型性能。还有一些方法指出重点关注问题中的关键词也是很重要的,图像中信息丰富的视觉内容和重要的词汇都可用于获得更好的模型性能。
实际上,VQA包括三个元素:图像,问题和答案,VQA的目标是预测有关图像问题的正确答案。现有方法将答案视为分类标签,但是答案中包含更丰富的信息,问题和答案都有助于描述视觉内容。
为了在VQA中充分利用答案中包含的信息,作者一种新的再注意框架,利用答案计算图像的注意力权重,定义一个注意力一致性损失函数,以测量通过问题和答案学习到的视觉注意力图之间的距离,基于答案学习的注意力映射可以通过最大程度地减少一致性损失来引导基于问题的视觉注意力学习。最后,作者通过实验证明该方法与最先进的视觉问答方法相比表现得更好。