利用计算注意力预测人类注意力

大多数视觉注意力模型旨在预测自顶向下或自底向上的控制,这是通过不同的视觉搜索和自由视野任务研究得出的。我们提出了一种名为人类注意力转换器(HAT)的单一模型,可以预测两种形式的注意力控制。HAT是预测目标存在和目标不存在搜索过程中注视路径的最新技术,匹配或超越了预测无任务自由视野注视路径的最新技术。HAT通过使用一种新颖的基于transformer的架构和简化版的凹陷视网膜,创建了像人类动态视觉工作记忆一样的时空感知。与以前依赖于粗略网格的注视单元和注视离散化导致信息丢失的方法不同,HAT采用密集预测架构,并为每个注视输出密集的热图,从而避免离散化注视。HAT设定了计算注意力的新标准,强调效果和普适性。HAT的应用范围和适用性将有助于启发开发能够更好地预测各种注意力需求场景下人类行为的新型注意力模型的发展。

论文链接:http://arxiv.org/pdf/2303.09383v1

更多计算机论文:http://cspaper.cn/

Related posts