计图开源:从理论上实现有向边界框的连续表示

2024/05/16 Tutorial

计图开源:从理论上实现有向边界框的连续表示

有向边界框通常用于准确地定位自由朝向的目标,包括遥感目标、文字目标等。然而,目前常用的有向边界框表示方式通常存在不连续问题,包括旋转时出现不连续、长宽比变化时出现不连续等。以往针对不连续问题的研究通常较为局限,不能完全解决这类不连续问题。

为此,清华大学胡事民教授团队的博士生肖子凯、杨国烨,以及穆太江博士等与上海交通大学的严骏驰教授、杨学博士合作在CVPR2024发表论文[1],提出了一种新的有向边界框表示形式。这种方式采用9个参数表示有向边界框,从而在理论上优雅地解决了有向边界框表示上的不连续问题,并且在实验上明显提高了现有方法的效果。

基于计图(Jittor)框架[2]的代码已在GitHub开源:

https://github.com/514flowey/JDet-cobb
Part 1

问题和背景

有向边界框在遥感图像识别、文字检测等领域有着重要的作用。然而,多数有向边界框存在着不连续问题。最为经典的有向边界框表示形式是将有向边界框表示为矩形的中心横坐标x,纵坐标y,高h,宽w以及旋转角度a五个参数。然而,由于旋转角度的周期性以及边的可交换性,这种表示方式在一些边界情况下可能会出现突变。例如,将一个有向边界框旋转1°和旋转179°得到的矩形本质上是相似的,但是它们对应的五参数形式的表示却存在明显差异。

除了经典表示方式,如图1所示,一些其它表示方式同样存在类似的不连续问题,其中:a) 将旋转角限制在90度范围内的经典表示方法。b) 将旋转角限制在180度内的经典表示方法。c) CSL[3]。d) KLD[4]等基于高斯分布的表示方法。

图1 常见不连续现象。

本文对这类不连续现象进行了归纳和整理。目前常见有向边界框表示方式中,不连续现象主要包括:
  1. 旋转不连续性。当有向边界框发生微小旋转时,有向边界框的表示出现突变。

  2. 长宽比不连续性。当有向边界框的长宽比发生微小变化时,有向边界框的表示出现突变。

  3. 解码不完全。部分有向边界框不能被完全精确地表示。

  4. 解码模糊。当有向边界框的表示被施加微小变化时,再解码得到的有向边界框与原先的有向边界框存在较大差异。

已有的有向边界框表示方法通常会出现这4类不连续现象中的一类或多类。这些不连续问题可能干扰神经网络的训练和推理,降低目标检测模型的准确率。

针对这个现象,本文提出了一种有向边界框的连续表示,命名为Continuous Oriented BoundingBox (COBB)。
Part 2

有向边界框的连续表示

本文提出的有向边界框表示基于一个显而易见的事实:当有向边界框发生微小变化时,它的水平边界框以及面积不会明显改变。考虑到直接用面积计算水平边界框较为困难,作者提出了滑动比例rs来近似有向边界框的面积与其水平边界框面积之比。假设有向边界框的水平边界框的宽和高分别为w和h,此时rs定义为:

其中,有向边界框四个点横坐标从小到大排序为x1到x4,纵坐标从小到大排序为y1到y4,如图2 (a)所示:

图2 COBB所涉及参数

一组水平边界框与rs会对应4个有向边界框,因此显然不能直接用这5个变量表示有向边界框。因此,对于一个目标有向边界框,不妨找到与它拥有相同水平边界框与rs的4个有向边界框,并分别计算目标有向边界框与它们的交并比(IOU),如图2 (b)所示。显然,对于目标有向边界框自身,该交并比为1,而另外3个有向边界框的交并比在0到1之间,因此其自身的交并比最高。可以将这四个交并比记为交并比分数s1到s4。这样,一个有向边界框就被表示为水平边界框、rs以及4个交并比分数。可以证明,在有向边界框发生微小变化时,这种表示方法不会突变。

将这些参数还原回有向边界框的方法为上述过程的逆过程。对于一组水平边界框与rs找到4个有向边界框,取最高交并比分数对应的有向边界框即为还原得到的有向边界框。显然所有有向边界框可以被这种方式精确表示,且可以证明这种方式不会出现解码模糊。

Part 3

实验结果

为了验证该方法的有效性,作者将COBB应用在了不同的有向边界框目标检测方法上。在不同基线模型、不同数据集上的实验结果如下:

表1 实验结果

可以看到,COBB能够提升模型的准确率,尤其是提升了模型进行高精度检测(如mAP75)的能力。

该论文已在arXiv上发布,论文网址为:

http://arxiv.org/abs/2402.18975

参考资料

  1. Zi-Kai Xiao, Guo-Ye Yang, Xue Yang, Tai-Jiang Mu, Junchi Yan, and Shi-Min Hu, Theoretically Achieving Continuous Representation of Oriented Bounding Boxes, IEEE CVPR, 2024, arXiv preprint arXiv:2402.18975.

  2. Shi-Min Hu, Dun Liang, Guo-Ye Yang, Guo-Wei Yang, and Wen-Yang Zhou, Jittor: a novel deep learning framework with meta-operators and unified graph execution,  Science China Information Science, 2020, Vol. 63, 12, article no. 222103. 

  3. Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, and Xiangyang Xue, Arbitrary-oriented scene text detection via rotation proposals, IEEE Transactions on Multimedia, 2018, Vol. 20, No. 11, 3111–3122. 

  4. Xue Yang, Junchi Yan, Qi Ming, Wentao Wang, Xiaopeng Zhang, and Qi Tian, Rethinking rotated object detection with gaussian wasserstein distance loss, ICML 2021, 11830–11841.

GGC往期回顾

1. CVM 2024 会议于近日在新西兰惠灵顿维多利亚大学成功召开
2. 第四届“计图”人工智能算法挑战赛启动
3. 在镜面环境中对视觉SLAM方法进行基准分析  | CVMJ Spotlight
4. 文本生成视频: 从Write-a-video到Sora
5计图助力非十科技发布AI代码助手,代码大模型速度精度超越Copilot
可通过下方二维码,关注清华大学图形学实验室,了解图形学、Jittor框架、CVMJ期刊和CVM会议的相关资讯。

Search

    Table of Contents