Image 1 Description

Image 2 Description

Image 1 Description

Image 2 Description

0%

原创深度学习知识笔记

Deformable ConvNets-可变形卷积学习

发表于2023-10-14更新于2023-10-14

字数总计:697阅读时长:2分钟郑州

可变形卷积是相对于标准卷积来说的，这个概念出自于Hu han团队在2017年发表的一篇论文《Deformable Convolutional Networks》。既然该概念是相对于标准卷积来说的，那么我们就有必要将两种卷积进行对比学习。

一、标准卷积

首先，对于标准卷积我们可以借用下面的数学表达式理解：

y(p_0) = \sum_{p_n{\in}R}{w(p_n)·x(p_0+p_n)}

这里 $p_0$ 代表中心像素的坐标， $p_n$ 代表基于窗中的临近元素坐标，它是相对于 $p_0$ 的， $x(·)$ 代表像素的像素值， $w(p_n)$ 代表卷积权重， $R$ 是由 $p_n$ 与 $p_0$ 共同构成相对位置坐标的矩阵/集合。在这里 $R$ 定义了卷积尺寸和卷积模式（空洞卷积或者普通卷积）。

卷积的运算，即相乘相加，将尺寸为3x3的感受野中的信息通过卷积的运算聚合到map中的一点。

二、可变形卷积

对于可变形卷积我们可以借用下面的数学表达式理解：

y(p_0) = \sum_{p_n{\in}R}{w(p_n)·x(p_0+p_n+▲p_n)}

注意到可变形卷积是在标准卷积的基础上加上了位置偏移量offset $(▲p_n)$ ，在论文中指出 $▲p_n$ 是学习得到的值，为小数，由图像经过普通卷积计算得到，下面理解该 $▲p_n$ 是如何得到的。

2.1 Offset计算得到

上面指出offset是有普通卷积得到，对于普通卷积的卷积核设置做如下规定：

in_channel等于输入图像的channel_num
out_channel等于二倍的kernel_size的平方(这里的kernel_size为可变形卷积的kenel_size)
stride，padding均有 $p_0$ 决定

在下图中得到channel等于18的feature map后我们将由尺寸为3x3的感受野经过卷积得到的抽象信息（拥有18个channel）拿出来做reshape得到 $▲p_n$

2.2 可变形卷积的操作过程

针对以上得到的 $▲R$ 偏移位移矩阵，用于计算 $p_0$ 相邻元素的偏移位置，从而得到偏移后的像素值（称之为亚像素点的像素值），使用该像素值与卷积核进行卷积从而得到可变形卷积的结果。

这样可变形卷积的操作就此完成。作者在针对偏移坐标的像素值的求解使用双线性插值法求得。找到亚像素点相邻的4个像素点，用该方法求解目标亚像素点的值。

本内容引用B站Enzo_Mi大佬的视频内容。

打赏作者

感谢你赐予我前进的力量

wechat
alipay

赞赏者名单

因为你们的支持让我意识到写文章的价值🙏

知识52 笔记33

原创 Deformable ConvNets-可变形卷积学习

文章作者: GanSer

文章链接: https://www.gan1ser.top/post/ca1e50ee.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 GanSer！

相关推荐

常用内建模块(一)

Markdown公式语法汇总

Numpy入门（三）

Numpy入门（一）

Numpy入门（二）

Numpy入门（四）

评论

✅ 你无需删除空行，直接评论以获取最佳展示效果

博客快捷键

shift K

关闭快捷键功能

shift A

打开中控台

shift M

播放/暂停音乐

shift D

深色/浅色显示模式

shift S

站内搜索

shift R

随机访问

shift H

返回首页

shift F

友链鱼塘

shift L

友链页面

shift P

关于本站

shift I

原版右键菜单