跳到主要内容

· 阅读需 12 分钟

提出十字交叉注意力模块,使用循环稀疏连接代替密集连接,实现性能SOTA

论文名称:CCNet: Criss-Cross Attention for Semantic Segmentation

作者:Zilong Huang,Xinggang Wang Yun,chao Wei,Lichao Huang,Wenyu Liu,Thomas S. Huang

Code:https://github.com/speedinghzl/CCNet

摘要

上下文信息在视觉理解问题中至关重要,譬如语义分割和目标检测;

本文提出了一种十字交叉的网络(Criss-Cross Net)以非常高效的方式获取完整的图像上下文信息:

  1. 对每个像素使用一个十字注意力模块聚集其路径上所有像素的上下文信息;
  2. 通过循环操作,每个像素最终都可以捕获完整的图像相关性;
  3. 提出了一种类别一致性损失来增强模块的表现。

CCNet具有一下优势:

  1. 显存友好:相较于Non-Local减少显存占用11倍
  2. 计算高效:循环十字注意力减少Non-Local约85%的计算量
  3. SOTA
  4. Achieve the mIoU scores of 81.9%, 45.76% and 55.47% on the Cityscapes test set, the ADE20K validation set and the LIP validation set respectively

· 阅读需 9 分钟

这篇笔记的写作者是AsTheStarsFall

论文名称:RepVGG: Making VGG-style ConvNets Great Again

作者:Xiaohan Ding,Xiangyu Zhang,Ningning Ma,Jungong Han,Guiguang Ding,Jian Sun

Code:https://github.com/DingXiaoH/RepVGG

摘要

  1. 提出了一种简单强大的CNN,推理时其拥有VGG类似的plain结构,仅由卷积和ReLU组成;训练时拥有多分支的拓扑结构
  2. 得益于结构重参化(re-parameterization)技术,RepVGG运行速度比ResNet-50快83%,比ResNet-101快101%,并且具有更高的精度。

· 阅读需 4 分钟

轻量级Trick的优化组合。

论文名称:PP-LCNet: A Lightweight CPU Convolutional Neural Network

作者:Cheng Cui, Tingquan Gao, Shengyu Wei,Yuning Du...

Code:https://github.com/PaddlePaddle/PaddleClas

摘要

  1. 总结了一些在延迟(latency)几乎不变的情况下精度提高的技术;
  2. 提出了一种基于MKLDNN加速策略的轻量级CPU网络,即PP-LCNet。
image-20211007133525281

介绍

目前的轻量级网络在启用MKLDNN的Intel CPU上速度并不理想,考虑了一下三个基本问题:

  1. 如何促使网络学习到更强的特征,但不增加延迟?
  2. 在CPU上提高轻量级模型精度的要素是什么?
  3. 如何有效地结合不同的策略来设计CPU上的轻量级模型?

· 阅读需 21 分钟

分层Local Vision Transformer,通用主干网络,各类下游任务实现SOTA。Best Paper Award!

论文名称:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

作者:Ze Liu ,Yutong Lin,Yue Cao,Han Hu,Yixuan Wei,Zheng Zhang,Stephen Lin,Baining Guo

Code:https://github.com/microsoft/Swin-Transformer

介绍

自AlexNet以来,CNN作为骨干(backbone)在计算机视觉中得到了广泛应用;另一方面,自然语言处理中的网络结构的演变则走了一条不同的道路,现在的主流结构是Transformer。

Transformer是为序列建模和转换任务而设计的,它以关注数据中的长期依赖关系而著称。其在NLP领域的巨大成功吸引了人们研究它对CV的适应性,最近的实验显示其在图像分类和联合视觉语言建模方面有所成效。

本文的主要贡献有:

  1. 提出了一种分层Transformer,其可以作为计算机视觉的通用主干网络,并且在各类下游任务上取得SOTA;
  2. 通过Shift Windows实现了对输入图像尺寸的线性时间复杂度。
image-20211020204110669

· 阅读需 12 分钟

从稀疏连接性、权重共享、动态权重进一步探究Local Attention。

论文名称:Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight

作者:Qi Han1,Zejia Fan,Qi Dai,Lei Sun,Ming-Ming Cheng,Jiaying Liu,Jingdong Wang

Code:https://github.com/Atten4Vis/DemystifyLocalViT/

介绍

本文的主要成果发现(finding)如下:

  1. Local Transformer采用的Local Attention利用了现有的正则化方案(regularization schemes)、稀疏连接(sparse connectivity )、权重共享(weight sharing)以及动态权重预测(dynamic weight prediction),在不需要额外增加模型复杂度和训练数据的情况下增加性能;

  2. 局部注意力(Local Attention)与(动态)深度卷积((dynamic )depth-wise convolution)在稀疏连接性上相似,在权重共享和动态权重预测上不同。

    实验结果表明,局部注意力和(动态)深度卷积所采用的正则化形式和动态权重预测方案具有相似的性能。

  3. 此外,提出了一个关系图来联系卷积和注意力,同时开发了基于MLP的方法。

    关系图表明,这些方法本质上利用了不同的稀疏连接和权重共享模式,可以选择使用动态权重预测进行模型正则化。

· 阅读需 10 分钟
PuQing

论文名称:DCT-Mask: Discrete Cosine Transform Mask Representation for Instance Segmentation

作者:Xing Shen, Jirui Yang, Chunbo Wei, Bing Deng, Jianqiang Huang, Xiansheng Hua, Xiaoliang Cheng, Kewei Liang

仓库地址:https://github.com/calmevtime/DCTNet

摘要

Binary  grid  maskBinary\; grid\; mask 广泛用于实例分割。就例如 Mask RCNNMask\ R-CNN1,如下图所示,网络在 28×2828\times 28 的网格中预测 MaskMask

但是一般来说,低分辨率的网格不足以捕捉细节,而高分辨率会大大增加训练的复杂性,为解决此问题,这篇论文提出一种新的 MaskMask 表达方式,利用离散余弦变换(DCTDCT)将高分辨率的Binary  grid  maskBinary\; grid\; mask编码成一个紧凑的向量,这种方法称为 DCTMaskDCT-Mask

该方法可以非常容易集成到大多数基于像素的实例分割上。它不需要任何预处理或预训练,而且几乎对速度没有损害。

介绍

就如上图所示,Mask RCNNMask\ R-CNNGTGT 采样到 28×2828\times 28 ,然后上采样重构它,如下图所示,低分辨率的 Binary  grid  maskBinary\; grid\; mask 不足以捕获细节特征,并在上采样过程中产生偏差。

如上图为使用 DCTDCT 和未使用 DCTDCT 方法的比较,左边为 GTGT ;之后是 ResizeResize 后的 GTGT ;再是基于 ResizeResize 后的重建图;最后是重建图与原来的GTGT图的误差值。

所以就算预测 MaskMask 是正确的,重建的 MaskMask 也有一定的系统误差。解决方式之一是提高 Binary  grid  maskBinary\; grid\; mask 的分辨率,但是实验显示提高分辨率后平均精度(APAP)比 28×2828\times 28 要差,具体见下图。

· 阅读需 15 分钟
RuoMengAwA

该论文提出时间2018.7.20

大纲

对于Retinex方法,其为一种有效的低照度增强方法,它将观察到的图像分解为反射率和照度

大多数现有的Retinex方法都需要花费大量精力去设置分解的参数,以达到较好的效果,但是这样在实际场景中效果较差,而在这篇论文中,作者收集了一个低照度与正常光对比的低光数据集并基于该数据集的学习提出了一个Deep Retinex-net

Deep Retinex-net其中包括了一个 Decom-Net 用于分解 以及一个 Enhance-Net用于照度调节

Decom-Net:(分解)在训练过程中不考虑分解后反射率和光照的基本事实,而是只学习两个关键的约束条件,低照度到正常图像共享的一致反射率以及照明的平滑度

Enhance-Net:(增强)基于分解的基础,进行亮度增强

对于联合去噪,存在对于反射率的去噪操作,而在Retinex-net中是端到端可训练的,因此,对于分解的学习过程有助于亮度调整。

经过大量实验表明,作者的方法在视觉上的弱光增强获得了令人满意的效果,并且拥有图像分解的良好表现

· 阅读需 19 分钟
RuoMengAwA

鬼网!

image-20210510203042875


GhostNet产生原因

mobileNet或者是shuffleNet提出了使用depthwise或者是shuffle等操作,但是引入的1x1卷积依然会产生一定的计算量

为什么1x1卷积依然会产生较大的计算量?看卷积计算量的计算公式$n ∗ h ∗ w ∗ c ∗ k ∗ k $,可以发现,由于c和n都是比较大的,所以会导致这个计算量也是比较大的(后文具体结构复现时还会解释)

所以,我们如何在这个基础上再减少参数,优化网络速度呢,作者从一个独特的角度,观察了ResNet50第一个残差块输出的特征图,发现有许多输出特征很相似,基本只要进行简单的线性变换就能得到,而不需要进行复杂的非线性变换得到。

如图:

image-20210510184255116

以上图片中同色图片可以使用cheap operations进行生成

所以可以先通过一个非线性变化得到其中一个特征图,针对这个特征图做线性变化,得到原特征图的幽灵特征图。

ps:这里说的非线性卷积操作是卷积-批归一化-非线性激活全套组合,而所谓的线性变换或者廉价操作均指普通卷积,不含批归一化和非线性激活

​ 所以,总结其核心思想就是:设计一种分阶段的卷积计算模块,在少量的非线性的卷积得到的特征图基础上,再进行一次线性卷积,从而获取更多的特征图,而新得到的特征图,就被叫做之前特征图的‘ghost’,以此来实现消除冗余特征(也可以说是不避免冗余的特征映射,而是使用一种更低成本效益的方式接受它),使得在保持相似的识别性能的同时,降低通用卷积层的计算代价,以获取更加轻量的模型(非线性的操作是 昂贵的,线性操作是 廉价的)(这操作鬼想得到。。。)

· 阅读需 12 分钟
RuoMengAwA

研究背景:

对于一张低光图像,不仅是暗,而且也会伴随着噪声和颜色失真等多方面的图像功能退化,所以仅仅提高亮度将无可避免的提高人工产生的影响,必然会放大隐藏的伪影


特点:

还是从retinex理论中得到的启发,继而将弱光图像分解为光照(illumination)和 反射率(reflectance);前者负责亮度调整,后者用于去除降质(噪声,颜色失真)。这样图像分解的好处是让每一个模块可以更好地被正规化/学习

而对于输入图像,该网络只需要使用两张不同曝光条件下的图像(即使他们是两张弱光图像也可以),而不是弱光图像和真实图像(这样的好处是,很难定义多亮的图像算是真实图像)

对于严重的视觉缺陷图片也依旧拥有很强的鲁棒性


效果:

模型在2080Ti下的训练速度为,处理一张VGA分辨率图片花费的时间不到50ms

用户可以自由的调节光照水平(暂时没看到在哪体现)

具体效果展示(实机测试):

不同噪度:

高光图像和低光图像对照(不同的)

image-20210802180913986

可以得出,KinD在多条件下,效果暂时都优于其他低照度优化算法(最主要的是效果真实,相较于其余算法,失真的情况会大大减少(不过现在还有一个KinD++))

· 阅读需 19 分钟
Gavin Gong

Md Amirul Islam, Sen Jia, Neil D. B. Bruce

In contrast to fully connected networks, Convolutional Neural Networks (CNNs) achieve efficiency by learning weights associated with local filters with a finite spatial extent. An implication of this is that a filter may know what it is looking at, but not where it is positioned in the image. Information concerning absolute position is inherently useful, and it is reasonable to assume that deep CNNs may implicitly learn to encode this information if there is a means to do so. In this paper, we test this hypothesis revealing the surprising degree of absolute position information that is encoded in commonly used neural networks. A comprehensive set of experiments show the validity of this hypothesis and shed light on how and where this information is represented while offering clues to where positional information is derived from in deep CNNs.

Comments: Accepted to ICLR 2020

引言

经典CNN模型被认为是spatially-agnostic的,因此胶囊网络或循环网络已被用于建模学习特征层内的相对空间关系。目前尚不清楚CNN是否捕获了在位置相关任务中重要的绝对空间信息(例如语义分割和显著对象检测)。如下图所示,被确定为最显著的区域倾向于靠近图像中心。在裁剪过图像上做显著性检测时,即使视觉特征没有改变,最显著的区域也会移动。

在这篇文中,研究了绝对位置的作用通过执行一系列随机化测试,假设CNN确实可以学习到编码位置信息作为决策线索,从而获得位置信息。实验表明,位置信息是通过常用的填充操作(零填充)隐式学习的。