简介:摘要:Transformer是一种基于自注意力机制(self-attention mechanism)的深度神经网络,这一机制原先用于自然语言处理领域。受Transformer强大的表示能力的启发,研究人员提出将Transformer扩展到细粒度图像分类任务中。与卷积网络和循环网络等其他网络类型相比,基于Transformer的模型在各种视觉领域上能获得更好的性能,因此非常具有竞争力。本文首先将简要介绍Transformer的原理与其各个组成部分;其次,文章从细粒度图像分类的角度介绍相应Transformer的应用;最后本文将介绍Transformer在应用到CV领域时依然存在的不足以及未来可能的研究方向。