计图开源:轻量级遥感骨干网络LSKNet和Strip R-CNN
南开大学媒体计算实验室维护的NK-JittorCV最新开源了NK-Remote仓库,用于支持计图框架[1]在遥感目标检测领域的应用。目前,被广泛关注的最新工作 LSKNet [2] 和Strip R-CNN [3]现已基于计图框架在GitHub开源,进一步丰富了计图框架在遥感目标检测领域的生态,Github开源的链接为:
https://github.com/NK-JittorCV/nk-remote
本文将对相关工作内容进行简要介绍。
在遥感目标检测中,先验知识是指通过利用目标特征、场景分布、传感器特性以及数据模态特点等领域经验,在模型训练或推理中提升算法性能。尽管先验知识的重要性已被广泛认可,但当前研究对这一领域的探索仍显不足。航空图像通常是以高分辨率的鸟瞰视角拍摄的。特别是,航空图像中的大多数物体可能是小尺寸的,仅凭其外观很难识别。相反,这些物体的成功识别往往依赖于它们的背景,因为周围的环境可以提供关于它们的形状、方向和其他特征的宝贵线索(如图1所示)。

图1 感受野有限导致错误的探测结果
根据对主流遥感数据集的分析,其确定了两个重要的前提条件:
准确检测遥感图像中的物体往往需要广泛的背景信息。
不同类型的物体所需的上下文信息的范围通常不同。
此外尽管先前的研究取得了显著进展,但在遥感目标检测中成功检测高宽比目标仍然是一个具有挑战性的问题。为了说明这一点,NK-Remote团队统计了被广泛使用的DOTA数据集。如图2所示,结果表明细长目标在遥感场景中非常常见,并且通常占据了数据的很大比例。作者还通过实验发现,现有的目标检测方法在处理细长目标时往往表现不佳,检测性能随着目标宽高比的增加而下降。

图2 以往的检测器随着物体的长宽比增大,检测效果逐渐变差
检测这些目标的困难主要来自两个挑战:首先,高长宽比目标在一个空间维度上包含丰富的特征信息,而在另一个维度上则表现出相对稀疏的特征。传统的基于卷积神经网络(CNN)的检测器大多在方形窗口内提取输入特征图。这种设计极大地限制了它们有效捕捉遥感图像中常见的各向异性上下文信息的能力,导致引入了周围区域的无关信息。其次,高长宽比目标由于其独特的几何特性,在回归任务中具有相当大的挑战。与一般目标检测不同,遥感目标检测还需要额外的角度回归。对于高长宽比目标,即使角度估计中的小误差也可能导致与真实值的显著偏差。
Large Selective Kernel Network (LSKNet)将背景等先验知识考虑在内,可以动态地调整其大空间感受野,以更好地建模遥感场景中各种物体的测距场景。提出的方法包括动态调整特征提取模块的感受野,以便更有效地处理被检测物体的不同范围背景。这是通过一个空间选择机制来实现的,该机制对一连串的大可分离卷积核所处理的特征进行有效加权,然后在空间上将它们合并。这些核的权重是根据输入动态确定的,允许该模型自适应地使用不同大小卷积核,并根据需要调整空间中每个目标的感受野。

图3 LSKNet核心模块结构
LSKNet是首个研究在遥感物体探测中使用大的和有选择性的卷积核的模型。尽管模型相对轻量(LSKNet-T: 4.3M, LSKNet-S: 14.4M),模型在遥感图像分类、目标检测、语义分割和变化检测等14个主流数据集上实现了先进的性能。
到目前为止,NK-Remote团队已经斩获ISPRS 2024多模态遥感应用算法智能解译大赛的变化检测赛道冠军和遥感图片真伪鉴别赛道的亚军, 第二届“吉林一号”杯卫星遥感应用青年创新创业大赛变化检测赛道特等奖、道路提取赛道一等奖、卫星影像数字产品设计三等奖等。团队目前致力于依托计图平台将AI+遥感解译技术运用到实际生产需求中。

图4 2024 ISPRS 遥感解译大赛获冠亚军

图5 “吉林一号”杯获特等奖
Part 3
为更有效处理遥感图像中常出现的高长宽比物体,NK-Remote团队提出了一种能够高效结合方形卷积和条状卷积的优势同时减少特征冗余的新方法。设计原则主要包含两点:首先,新的网络架构应简单高效;其次,它应擅长处理不同宽高比的目标,尤其是高长宽比目标。鉴于遥感图像中目标的特性,提出了使用正交长条卷积作为主要空间滤波器,这构成了该方法的核心组件,称为Strip module(如图6所示)。

图6 Strip Module架构
因此,该网络非常简单,但能够很好地泛化到甚至极高长宽比的目标。此外,作者解耦了先前遥感目标检测中使用的检测头,并通过提出在检测头中引入Strip Module以增强定位分支(如图7所示)。不难发现,这不仅有助于提高方法的定位能力,还能更准确地回归边界框的角度。

图 7 Strip Head架构
可以说,该方法是第一个探索在遥感目标检测领域如何更高效地利用长条卷积的工作。尽管设计方法简单且轻量,该模型在标准DOTA基准测试中在无需任何额外的技巧时实现了最先进的性能。值得注意的是,如图8所示,该模型仅包含30M可学习参数,在DOTA排行榜上以82.75%的mAP取得了最佳结果。DOTA榜单的链接为:
ttps://paperswithcode.com/sota/object-detection-in-aerial-images-on-dota-1

图8 DOTA榜单
NK-Remote团队还在其他多个遥感数据集(如FAIR1M、HRSC2016和DIOR)上进行了广泛实验,展示了所提出方法相对于其他方法的优越性。希望这种设计原则能够为遥感图像社区提供新的研究思路。
此外,LSKNet [2] 和Strip R-CNN [3]的开源代码,也已经整合进计图的遥感模型库JDet。JDet整合了20多个最先进的遥感算法。链接为:
https://github.com/Jittor/JDet
参考资料
Shi-Min Hu, Dun Liang, Guo-Ye Yang, Guo-Wei Yang, and Wen-Yang Zhou. Jittor: a novel deep learning framework with meta-operators and unified graph execution, Science China Information Science, 63(12), 2020, article no. 222103.
Yuxuan Li, Xiang Li, Yimain Dai, Qibin Hou, Li Liu, Yongxiang Liu, Ming-Ming Cheng and Jian Yang. LSKNet: A foundation lightweight backbone for remote sensing, International Journal of Computer Vision, 2024, Vol. 133, No. 3, 1410-1431.
Xinbin Yuan, ZhaoHui Zheng,Yuxuan Li, Xialei Liu, Li Liu, Xiang Li, Qibin Hou and Ming-Ming Cheng, Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection. arXiv preprint arXiv:2501.03775, 2025.
4. 亚洲图形学学会选出新的领导机构,刘利刚当选副主席,高林当选秘书长
可通过下方二维码,关注清华大学图形学实验室,了解图形学、深度学习、Jittor框架、CVMJ期刊和CVM会议的相关资讯。
