跳到主要内容

16 篇博文 含有标签「attention-mechanism」

查看所有标签

· 阅读需 11 分钟

论文名称:Polarized Self-Attention: Towards High-quality Pixel-wise Regression

作者:Huajun Liu, Fuqiang Liu, Xinyi Fan

Code:https://github.com/DeLightCMU/PSA

这篇笔记的写作者是AsTheStarsFall

摘要

细粒度的像素级任务(比如语义分割)一直都是计算机视觉中非常重要的任务。不同于分类或者检测,细粒度的像素级任务要求模型在低计算开销下,能够建模高分辨率输入/输出特征的长距离依赖关系,进而来估计高度非线性的像素语义。CNNCNN​​​中的注意力机制能够捕获长距离的依赖关系,但是这种方式十分复杂且对噪声敏感

本文提出了即插即用的极化自注意力模块,该模块包含两个关键设计,以保证高质量的像素回归:

  1. 极化滤波(Polarized filteringPolarized\ filtering​):在通道和空间维度保持比较高的分辨率(在通道上保持C/2C/2​的维度,在空间上保持[H,W][H,W]​的维度 ),进一步减少低分辨率、低通道数和上采样造成的信息损失。
  2. 增强(EnhancementEnhancement​):采用细粒度回归输出分布的非线性函数。

· 阅读需 7 分钟

论文名称:SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks

作者:Lingxiao Yang, Ru-Yuan Zhang, Lida Li, Xiaohua Xie

Code:https://github.com/ZjjConan/SimAM

介绍

本文提出了一种简单有效的3D注意力模块,基于著名的神经科学理论,提出了一种能量函数,并且推导出其快速解析解,能够为每一个神经元分配权重。主要贡献如下:

  • 受人脑注意机制的启发,我们提出了一个具有3D权重的注意模块,并设计了一个能量函数来计算权重;
  • 推导了能量函数的封闭形式的解,加速了权重计算,并保持整个模块的轻量;
  • 将该模块嵌入到现有ConvNet中在不同任务上进行了灵活性与有效性的验证。

· 阅读需 21 分钟
Gavin Gong

Kai Xu, Minghai Qin, Fei Sun, Yuhao Wang, Yen-Kuang Chen, Fengbo Ren

Deep neural networks have achieved remarkable success in computer vision tasks. Existing neural networks mainly operate in the spatial domain with fixed input sizes. For practical applications, images are usually large and have to be downsampled to the predetermined input size of neural networks. Even though the downsampling operations reduce computation and the required communication bandwidth, it removes both redundant and salient information obliviously, which results in accuracy degradation. Inspired by digital signal processing theories, we analyze the spectral bias from the frequency perspective and propose a learning-based frequency selection method to identify the trivial frequency components which can be removed without accuracy loss. The proposed method of learning in the frequency domain leverages identical structures of the well-known neural networks, such as ResNet-50, MobileNetV2, and Mask R-CNN, while accepting the frequency-domain information as the input. Experiment results show that learning in the frequency domain with static channel selection can achieve higher accuracy than the conventional spatial downsampling approach and meanwhile further reduce the input data size. Specifically for ImageNet classification with the same inpu t size, the proposed method achieves 1.41% and 0.66% top-1 accuracy improvements on ResNet-50 and MobileNetV2, respectively. Even with half input size, the proposed method still improves the top-1 accuracy on ResNet-50 by 1%. In addition, we observe a 0.8% average precision improvement on Mask R-CNN for instance segmentation on the COCO dataset.

Comments: Accepted to CVPR 2020

· 阅读需 12 分钟

提出十字交叉注意力模块,使用循环稀疏连接代替密集连接,实现性能SOTA

论文名称:CCNet: Criss-Cross Attention for Semantic Segmentation

作者:Zilong Huang,Xinggang Wang Yun,chao Wei,Lichao Huang,Wenyu Liu,Thomas S. Huang

Code:https://github.com/speedinghzl/CCNet

摘要

上下文信息在视觉理解问题中至关重要,譬如语义分割和目标检测;

本文提出了一种十字交叉的网络(Criss-Cross Net)以非常高效的方式获取完整的图像上下文信息:

  1. 对每个像素使用一个十字注意力模块聚集其路径上所有像素的上下文信息;
  2. 通过循环操作,每个像素最终都可以捕获完整的图像相关性;
  3. 提出了一种类别一致性损失来增强模块的表现。

CCNet具有一下优势:

  1. 显存友好:相较于Non-Local减少显存占用11倍
  2. 计算高效:循环十字注意力减少Non-Local约85%的计算量
  3. SOTA
  4. Achieve the mIoU scores of 81.9%, 45.76% and 55.47% on the Cityscapes test set, the ADE20K validation set and the LIP validation set respectively

· 阅读需 21 分钟

分层Local Vision Transformer,通用主干网络,各类下游任务实现SOTA。Best Paper Award!

论文名称:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

作者:Ze Liu ,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,Stephen Lin,Baining Guo

Code:https://github.com/microsoft/Swin-Transformer

介绍

自AlexNet以来,CNN作为骨干(backbone)在计算机视觉中得到了广泛应用;另一方面,自然语言处理中的网络结构的演变则走了一条不同的道路,现在的主流结构是Transformer。

Transformer是为序列建模和转换任务而设计的,它以关注数据中的长期依赖关系而著称。其在NLP领域的巨大成功吸引了人们研究它对CV的适应性,最近的实验显示其在图像分类和联合视觉语言建模方面有所成效。

本文的主要贡献有:

  1. 提出了一种分层Transformer,其可以作为计算机视觉的通用主干网络,并且在各类下游任务上取得SOTA;
  2. 通过Shift Windows实现了对输入图像尺寸的线性时间复杂度。
image-20211020204110669

· 阅读需 12 分钟

从稀疏连接性、权重共享、动态权重进一步探究Local Attention。

论文名称:Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight

作者:Qi Han1,Zejia Fan,Qi Dai,Lei Sun,Ming-Ming Cheng,Jiaying Liu,Jingdong Wang

Code:https://github.com/Atten4Vis/DemystifyLocalViT/

介绍

本文的主要成果发现(finding)如下:

  1. Local Transformer采用的Local Attention利用了现有的正则化方案(regularization schemes)、稀疏连接(sparse connectivity )、权重共享(weight sharing)以及动态权重预测(dynamic weight prediction),在不需要额外增加模型复杂度和训练数据的情况下增加性能;

  2. 局部注意力(Local Attention)与(动态)深度卷积((dynamic )depth-wise convolution)在稀疏连接性上相似,在权重共享和动态权重预测上不同。

    实验结果表明,局部注意力和(动态)深度卷积所采用的正则化形式和动态权重预测方案具有相似的性能。

  3. 此外,提出了一个关系图来联系卷积和注意力,同时开发了基于MLP的方法。

    关系图表明,这些方法本质上利用了不同的稀疏连接和权重共享模式,可以选择使用动态权重预测进行模型正则化。