Transformer最初是为自然语言处理(NLP)任务引入的,但很快被大多数深度学习领域采用,包括计算机视觉。它们测量输入令牌对(对于文本字符串而言,是单词;对于视觉Transformer而言,是图像的部分)之间的关系,被称为注意力。成本随着令牌数量的增加呈指数级增长。对于图像分类,最常见的Transformer架构仅使用Transformer编码器来转换各种输入令牌。然而,在许多其他应用中,传统Transformer架构的解码器部分也被使用。在这里,我们首先介绍注意力机制(第1节),然后介绍基本的Transformer块,包括视觉Transformer(第2节)。接下来,我们讨论了一些改进措施,以考虑小数据集或更少的计算(第3节)。最后,我们介绍了应用于图像分类以外的其他任务的视觉Transformer,如检测、分割、生成和无标签训练(第4节)以及其他领域,如使用文本或音频数据的视频或多模式(第5节)。
论文链接:http://arxiv.org/pdf/2303.12068v1
更多计算机论文:http://cspaper.cn/