D2Det: Towards High Quality Object Detection and Instance Segmentation

论文标题:D2Det: Towards High Quality Object Detection and Instance Segmentation
论文地址:D2Det: Towards High Quality Object Detection and Instance Segmentation.
论文代码:https://github.com/JialeCao001/D2Det

框架

D2Det方法是基于标准Faster R-CNN框架。在这里,proposed dense local regression代替了Faster R-CNN中传统的box offset regression,而分类则使用discriminative RoI pooling进行改进。整体结构如下图所示。在第一阶段,使用RPN(region proposal network);在第二阶段,我们使用两个独立的分类和回归分支。dense local regression分支用于精确定位目标,而基于disriminative RoI pooling的分类分支则对proposal的分类准确性有帮助。

在这里插入图片描述

1、dense local regression

在这里插入图片描述
Dense Local Regression(密集局部回归)方法将k×k维的RoI特征视为K2个空间相邻的局部特征,对K2个特征点都进行偏移量预测,其中一个局部特征如上图所示。这些局部RoI特征通过一个完全卷积的网络来预测多个局部框偏移量,称为密集框偏移量。密集框偏移量用来预测每个

(

x

i

,

y

i

)

(x_{i},y_{i})

(xi,yi)位置的局部特征

p

i

p_{i}

pi到GT框左上和右下角的距离 。下面四个变量

l

l

l

t

t

t

r

r

r

b

b

b分别表示在左上右下四个维度上的密集盒偏移量,最后得到维度

4

×

k

×

k

4\times k\times k

4×k×k

l

i

=

(

x

i

x

l

)

/

w

P

,

t

i

=

(

y

i

y

t

)

/

h

P

r

i

=

(

x

r

x

i

)

/

w

P

,

b

i

=

(

y

b

y

i

)

/

h

P

\begin{aligned} l_{i} &=\left(x_{i}-x_{l}\right) / w_{P}, \quad t_{i}=\left(y_{i}-y_{t}\right) / h_{P} \\ r_{i} &=\left(x_{r}-x_{i}\right) / w_{P}, \quad b_{i}=\left(y_{b}-y_{i}\right) / h_{P} \end{aligned}

liri=(xixl)/wP,ti=(yiyt)/hP=(xrxi)/wP,bi=(ybyi)/hP
局部特征的数量取决于候选目标和GT的重合度,但是即使重合度高的时候,也会有非目标特征(例如背景特征)出现在这K2个局部特征中。为了处理这种情况,采用二元重合度预测来对每个局部特征进行分类:

m

i

=

{

1

,

 if 

p

i

G

,

p

i

P

0

,

 otherwise 

m_{i} = \begin{cases}1, & \text{ if } p_{i}\in G ,& \text{} \forall p_{i}\in P\\ 0, & \text{ otherwise } \end{cases}

mi={1,0, if piG, otherwise piP

2、disriminative RoI pooling

与回归不同的是,分类需要高度的区分特征。discriminative RoI pooling的灵感来自于deformable RoI pooling,并在两方面对其进行了改进。
• 首先,使用一种轻量级的偏移量预测,它需要大约四分之一的参数,与可变形RoI pooling中的标准偏移量预测相比。标准偏移量预测采用RoI Align操作从

k

×

k

k\times k

k×k 子区域中获取特征,并将这些特征通过三个完全连通的层。相反,轻量级偏移预测只需要一个

k

2

×

k

2

\frac{k}{2} \times \frac{k}{2}

2k×2k大小的RoI Align,然后是完全连接的层(轻量级是因为更小的输入向量)。
• 其次在偏移量预测之后,标准的deformable RoIpooling使用一个RoI Align,在每个子区域内获得的四个采样点都被平均分配相等的权值。与此相反,本文提出的加权pooling的目的是自适应地分配更高的权值给discriminative的采样点。例如下图中的右图,不同的采样点s1~s4被赋予不同的权值w1~w4。
一个候选区域的权重RoI特征

F

~

\widetilde{F}

F
通过下面的式子得到:

F

~

=

W

(

F

)

F

\widetilde{F} = W(F) \odot F

F
=
W(F)F

在这里插入图片描述
这里

\odot

是哈达玛积,注意到

W

(

F

)

W(F)

W(F)是从F中使用卷积操作计算得到,而非是固定的权重。因此我们使用一个步长为2的平均池化对

F

~

\widetilde{F}

F
操作,就得到了大小为

k

×

k

k\times k

k×k的discriminative RoI feature。可以将一个候选区域经过discriminative RoI池化后的特征看作是一个一维全局向量,因为在标准Faster R-CNN中,经过最后两个全连接层来得到候选区域的分类结果。
  经过偏移量预测和discriminative RoI pooling后,所抽取的特征很可能包含与目标和上下文都相关的判别性特征,这对进一步提高分类性能很有帮助。


版权声明:本文为weixin_45814898原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
THE END
< <上一篇
下一篇>>