Position-Sensitive RoI Pooling)
在上一篇中我们已经解决了一个关键问题RoI Pooling 的误差主要来源于“坐标量化”而 RoI Align 通过去除取整 双线性插值有效缓解了这一问题。但说到底这只是一个对齐问题上的改进我们在上篇的末尾也提到了新的方向能不能让采样过程具备一定的结构感知能力实际上早在 RoI Align 之前就已经有方法具备了这一思路的雏形那就是Position-Sensitive RoI Pooling可以直译为位置敏感的候选框池化简称 PS RoI Pooling.显然其重点就在这个“位置敏感”上下面就来详细展开1. RS RoI Pooling 的背景和思想#RS RoI Pooling 来源于 16 年提出的目标检测模型R-FCN: Object Detection via Region-based Fully Convolutional Networks.在这篇论文中作者指出传统 RoI Pooling 的一个核心问题是它们对空间信息“不敏感”。展开来说在 RoI Pooling 里我们将原始图像输入网络得到一个 feature map其尺寸为根据基本的卷积知识我们知道这里的C 个通道本质上是学习得到的“语义滤波器”比如某些通道对“边缘”敏感、某些对“纹理”敏感而某些对“人脸整体”敏感等等。简单来说就是feature map 的一个通道对应一种提取出的特征。但问题在于同一个通道在左上角和右下角的“含义是一样的”。再针对这句话展开我们知道在 CNN 里一个通道不是随便来的它对应的是同一个卷积核filter在整张图上滑动得到的响应。也就是说同一个卷积核在不同位置检测的是“同一种模式”并不会受到空间位置的影响。比如某个通道学到了“检测眼睛”那这个通道在 feature map 上的左上位置有高响应就说明那里有“眼睛”、右下位置有高响应就说明那里也有“眼睛”它不会区分“这是左上还是右下”。现在回到我们的任务一个 RoI假设为人脸被分成 根据认知我们当然知道左上是眼睛、中间是鼻子、下方是嘴等分布。但实际上 feature map 提供的其实是通道意义channel 5“有没有眼睛”channel 12“有没有鼻子”channel 27“有没有嘴巴”现在的矛盾点是通道本身不区分位置但任务却要求“不同位置关注不同语义”。如果网络要学习到上面的认知就要依靠反向传播中不同区域的梯度分布让网络隐式学习来实现。关键来了最终模型必须在同一套参数中同时学两件事学语义建模学习 channel 表示什么如 channel 5 眼睛、channel 12 鼻子这类信息。学空间对齐学习这些语义在不同空间位置的“使用方式”如左上区域更关注 channel 5中间区域更关注 channel 12 等。这两件事本质上是可以解耦的但现在却耦合在了一起。而且在这种位置无关的特征表示下不当的 Pooling 操作就会进一步压缩空间结构使不同位置的语义差异被平均化从而加剧信息混淆。于是RS RoI Pooling 的做法是把“位置”直接写进通道用某个固定的通道来专门负责某个位置实现“位置敏感”。下面就来展开其详细逻辑2.PS RoI Pooling 的具体改进#在理解了“位置敏感”的核心思想之后现在的问题就变成了如何在具体实现中把“空间位置”编码进通道为此PS RoI Pooling 的在 RoI Pooling 的框架下进行了两步关键改进构建位置敏感特征图按位置进行通道选择并池化下面就来逐个展开2.1 特征图处理#在传统的 RoI Pooling 中负责从原始图像中提取通用特征的主干网络backbone输出的 feature map 会被直接用于后续操作。但在 PS RoI Pooling 中会多出一个关键步骤在原 feature map 上额外接一个 卷积用于生成“位置敏感特征图”。假设 backbone 输出为而我们希望最终得到的 RoI 划分后 bin 的数量是同时任务中有 个类别那么这个 卷积的输出通道数将被设计为也就是说最终得到的特征图尺寸为如图所示这里的关键在于这 个通道是带有明确空间语义划分的通道。我们可以将其按类别进行分组每个类别有自己的 个通道并且每个通道对应 RoI 中的一个固定空间位置。举个例子假设 当前类别为 “人”那么该类别对应的 4 个通道就可以理解为通道编号语义1左上2右上3左下4右下