跳到主要内容

3 篇博文 含有标签「transformer」

查看所有标签

· 阅读需 21 分钟

论文名称:Attention Is All you Need

作者:Ashish Vaswani,Noam Shazeer,Niki Parmar,Jakob Uszkoreit,Llion Jones,Aidan N. Gomez,Łukasz Kaiser,Illia Polosukhin

code:https://github.com/jadore801120/attention-is-all-you-need-pytorch/blob/master/transformer/Models.py

前言

基于RNN或CNN的Encoder-Decoder模型在NLP领域占据大壁江山,然而她们也并非是完美无缺的:

  • LSTM,GRU等RNN模型受限于固有的循环顺序结构,无法实现并行计算,在序列较长时,计算效率尤其低下,虽然最近的工作如因子分解技巧1条件计算2在一定程度上提高了计算效率和性能,但是顺序计算的限制依然存在;
  • Extended Neural GPU3,ByteNet4,和ConvS2S5 等CNN模型虽然可以进行并行计算,但是学习任意两个位置的信号的长距离关系依旧比较困难,其计算复杂度随距离线性或对数增长。

而谷歌选择抛弃了主流模型固有的结构,提出了完全基于注意力机制的Transformer,拥有其他模型无法比拟的优势:

  • Transformer可以高效的并行训练,因此速度十分快,在8个GPU上训练了3.5天;
  • 对于长距离关系的学习,Transformer将时间复杂度降低到了常数,并且使用多头注意力来抵消位置信息的平均加权造成的有效分辨率降低
  • Transform是一种自编码(Auto-Encoding)模型,能够同时利用上下文

整体结构

Transfromer的整体结构是一个Encoder-Decoder,自编码模型主要应用于语意理解,对于生成任务还是自回归模型更有优势

image-20210605151335569

我们可以将其分为四个部分:输入,编码块,解码块与输出

接下来让我们按照顺序来了解整个结构,希望在阅读下文前你可以仔细观察这幅图,阅读时也请参考该图

· 阅读需 21 分钟

分层Local Vision Transformer,通用主干网络,各类下游任务实现SOTA。Best Paper Award!

论文名称:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

作者:Ze Liu ,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,Stephen Lin,Baining Guo

Code:https://github.com/microsoft/Swin-Transformer

介绍

自AlexNet以来,CNN作为骨干(backbone)在计算机视觉中得到了广泛应用;另一方面,自然语言处理中的网络结构的演变则走了一条不同的道路,现在的主流结构是Transformer。

Transformer是为序列建模和转换任务而设计的,它以关注数据中的长期依赖关系而著称。其在NLP领域的巨大成功吸引了人们研究它对CV的适应性,最近的实验显示其在图像分类和联合视觉语言建模方面有所成效。

本文的主要贡献有:

  1. 提出了一种分层Transformer,其可以作为计算机视觉的通用主干网络,并且在各类下游任务上取得SOTA;
  2. 通过Shift Windows实现了对输入图像尺寸的线性时间复杂度。
image-20211020204110669

· 阅读需 12 分钟

从稀疏连接性、权重共享、动态权重进一步探究Local Attention。

论文名称:Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight

作者:Qi Han1,Zejia Fan,Qi Dai,Lei Sun,Ming-Ming Cheng,Jiaying Liu,Jingdong Wang

Code:https://github.com/Atten4Vis/DemystifyLocalViT/

介绍

本文的主要成果发现(finding)如下:

  1. Local Transformer采用的Local Attention利用了现有的正则化方案(regularization schemes)、稀疏连接(sparse connectivity )、权重共享(weight sharing)以及动态权重预测(dynamic weight prediction),在不需要额外增加模型复杂度和训练数据的情况下增加性能;

  2. 局部注意力(Local Attention)与(动态)深度卷积((dynamic )depth-wise convolution)在稀疏连接性上相似,在权重共享和动态权重预测上不同。

    实验结果表明,局部注意力和(动态)深度卷积所采用的正则化形式和动态权重预测方案具有相似的性能。

  3. 此外,提出了一个关系图来联系卷积和注意力,同时开发了基于MLP的方法。

    关系图表明,这些方法本质上利用了不同的稀疏连接和权重共享模式,可以选择使用动态权重预测进行模型正则化。