vi文献综述,关于vi的论文
1.引言这篇文章解释了VIT的一篇论文,这是VIT和CNN争论的开始。
论文链接:戳我
Transformer结构最初应用于自然语言处理。本文希望找到一种方法,在不使用CNN的情况下,在图像分类任务中使用纯变换器结构,并使用少量计算资源进行训练,以获得更好的结果。
废话少说,我们开始吧!
2.变压器特点一般来说,变压器的一些优点如下:
卓越的计算效率和可扩展性。您可以预先训练大量数据,并在其他数据集中对其进行微调,以减少注意力转移器(计算资源)的缺乏:
需要大量的训练数据,缺乏CNN固有的归纳偏差,如翻译等变和局部性。当训练数据量不足时,就达不到良好的泛化能力。3.之前相关工作也有很多实验,大致可以分为以下三种方式:
对一幅图像的每个像素点进行局部多头点积自关注(local multi-head dot-product self-attention)基本上可以完全替代CNN的稀疏变换器,通过估计获得全局自关注。目的是通过使用不同大小的块来衡量注意力,从而关注整个图像,但在极端情况下,上述三种方法只能沿着轴来做。虽然都可以应用于图像任务,但是需要大量的计算资源和硬件要求。
2020年,Cordonnier提出了从输入图片中取出22面片,采用全自我关注的方式,这是最接近本文采用的方式,但本文进一步证明了用大量训练数据训练出来的Transformer比CNN SOTA具有更高的性能。
4.实施方法VIT的网络结果如下图所示:
主要处理流程如下:
路径嵌入:将输入为[H,W,C]的图像按照[P,P,C]的大小切割成N份,然后通过线性投影到D维,输出大小变成[N,D]。追加类别令牌嵌入:和BERT一样,在第0位添加一个可学习的嵌入作为类别的令牌,输出为[N ^ 1,D]。结论位置嵌入:直接使用1D位置嵌入,从0到N,实验中使用的一些2D的也差不多,输出为[N ^ 1,D ^ 1]。l层变压器编码器:变压器编码器如上图右侧所示。分类:在类标记位置的输出后面跟着MLP头进行分类。5.实验结果最终的定量实验结果如下:
定性结果如下:
以上实验表明,Transformer可以用足够多的数据进行预训练,最终效果会比CNN更好。
然后让我们观察不同数据大小的影响,如下所示:
上图是作者通过不同的训练子集(9M,30M,90M)对模型进行预训练。随着数据量的增加,发现ViT的性能逐渐增强,这表明卷积的归纳偏差用于较小的训练数据集,而变换器可用于大规模数据集。
将我们所学的注意力形象化如下:
上图是作者将训练模型的注意力地图可视化后的效果。可以发现,注意机制在语义上与图像分类任务相关。
6.摘要本文将Transformer应用于图像分类任务,不同于其他将特定图像感应偏差引入模型框架的方式。而是将一张图片分解成多个大小相同的面片块,通过在大量数据集上进行预训练,取得了比CNN框架更好的效果。同时,ViT可以用来输入各种尺寸的图像。我们建议你多使用!
关注微信官方账号《AI算法之道》了解更多关于AI算法的信息。
郑重声明:本文由网友发布,不代表盛行IT的观点,版权归原作者所有,仅为传播更多信息之目的,如有侵权请联系,我们将第一时间修改或删除,多谢。