计图开源:多场景“低慢小”目标感知理解库(Anti-UAV)

2024/09/06 Tutorial

计图开源:多场景“低慢小”目标感知理解库(Anti-UAV)

近日,中国电信集团CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领TeleAI多媒体认知学习创新团队(EVOL)与清华大学胡事民院士团队深度合作,发布了基于Jittor深度学习框架的多模融合学习“低慢小”目标感知多场景理解库,促进相关方向前沿探索与应用创新,为国产化开源社区生态建设做出了重要贡献。

Anti-UAV库的相关论文已在IEEE T-PAMI (IF: 20.8)、IEEET-MM (IF: 8.4)、ICIP等国际重要期刊/会议上发表。Jittor版本取得了与PyTorch版本同样质量的目标追踪效果,但所需的训练时间较PyTorch版本更短,训练速度是PyTorch版本的1.47倍。

Part1

问题和背景

近年来,商用小型无人机飞速发展,其相比于载人机而言,具有体积小、成本低、机动性强等优势,可完成一些载人机无法完成的任务,已被广泛应用于航拍、监控、遥测、勘探、救援、物流等诸多领域。然而,也有不法分子利用无人机对敏感区域进行侦查/监视或携带危险物品/武器对重要目标进行毁伤。为保障敏感区域低空安全(如临地安防[注1]中的低空安防),需开展多模融合学习和“低慢小”目标感知的多场景理解的研究,通过有效融合红外、可见光等多源信息的互补优势,对低空、慢速、小型无人机等可疑目标的时空关键信息进行感知取证,并辅助反制系统进行管控处置。

图1: 问题背景-“低慢小”目标感知

注1 临地安防(Vicinagearth Security)是指面向临地空间内防卫、防护、生产、安全、救援等需求的多元化、跨域化、立体化、协同化、智能化技术体系。临地(Vicinagearth)空间是指从海平面以下1000米(阳光穿透水深极限,南海平均水深)到海平面以上10000米(民航航线高度)的水域、地面及空域。

Part2

概述

本次发布将目前常用的“低慢小”目标感知模型(SiamFusion [1]、EDTC [2]、SiamDT [3]等)整合到一个统一的框架中,并提供详细源代码(含注释)及demo以方便快速上手,促进相关学术研究和应用落地。

本次发布还整合了Anti-UAV任务中的全部开源数据集资源(Anti-UAV300 [4]、Anti-UAV410 [3]、Anti-UAV600 [2]),并提供相关的数据预处理代码;同时,部分模型的训练权重也一同发布。

此外,围绕Anti-UAV,团队结合实际应用过程,提炼关键科学问题,先后依托CCF-A类会议、人工智能领域顶级国际会议CVPR 2020/2023、ICCV 2021组织了三届Workshop & Challenge [5],吸引了包括牛津大学、卡内基梅隆大学、苏黎世联邦理工学院、清华大学、北京大学等500多支海内外队伍参赛,极大促进了相关方向系统而深入的理论创新与应用验证研究,欢迎同行们关注、参与和推广!相关信息见

https://anti-uav.github.io/

SiamFusion [1]:如图2所示,该方法包含局部跟踪器与全局关联模块两个部分。局部跟踪器将接受可见光和红外双模视频流作为网络的输入,然后进行特征融合,并将融合后的特征与模板特征相关联,以获取局部跟踪结果。随后,全局关联模块根据历史信息对现有的目标跟踪结果进行优化。最后,局部-全局转换器将根据双模跟踪结果决定是否进行重检测。

图2: SiamFusion反无人机跟踪框架

EDTC [2]:如图3所示,该方法提出了一种基于“全局检测”和“局部跟踪”协同的证据推理框架。系统首先对视频流进行无人机目标的全局检测,当检测到目标后,切换到局部跟踪模块。为了应对无人机的随机出现和消失,框架中还设计了一个新的跟踪模块,并引入了一个证据推理头,用于评估跟踪结果的可信度,并能在可信度不佳时切换到全局检测模块。这种自适应的检测与跟踪协作机制显著提高了系统的鲁棒性。

图3: EDTC反无人机跟踪框架

SiamDT [3]:如图4所示,该方法设计了一种新颖的双语义提取机制,以捕捉目标的语义显著性,这种语义显著性在搜索模板中具有区分性并易于定位。双语义提取机制由两个阶段的模块组成:i)双语义RPN子网络,通过构建一个孪生分支RPN结构来预测候选目标框,该RPN对目标区域和模板之间的相似度关系以及前景无人机物体存在的概率进行建模;ii)多功能R-CNN子网络,通过共享权重的R-CNN根据融合信息完善预测候选目标框。

不同于传统的孪生跟踪器在训练过程中只学习模板和目标候选区域之间的匹配语义,SiamDT还学习无人机前景检测语义,以确定当前目标候选区域包含前景对象的概率。
在稳健特征表示的基础上,该方法进一步引入了第3个分支iii)背景干扰抑制,通过手工建立的库来存储高相似度的背景负样本,对这些样本加以抑制,从而增强跟踪器对动态背景干扰的分辨能力。通过i)和ii)的共同作用,可以以更有效的方式获取到具有明确小目标语义的归纳表示。

图4: SiamDT反无人机跟踪框架

Part2

结果展示

下面给出面向多场景、基于多模融合学习的“低慢小”目标感知理解库的一些实验结果。
  • SiamFusion

表1给出了SiamFusion框架与其他SOTA方法的对比,红色和蓝色分别表示最好和次好结果。

表1: SiamFusion框架与其他SOTA方法的对比

  • EDTC

下面给出EDTC框架的一些实验结果。其中,表2是EDTC框架与其他SOTA方法在Anti-UAV600数据集上的对比,可以看出性能有较大的提升;表3是在DUT Anti-UAV和Anti-UAV数据集上的对比,可以看出,EDTC框架在无需首帧无人机边界框的情况下取得了更好的目标追踪效果;表4给出了EDTC框架与其他SOTA方法在无人机目标消失和重现场景的对比,优势明显。

表2 EDTC框架与其他SOTA方法在Anti-UAV600数据集上的对比

表3 DUT Anti-UAV和Anti-UAV数据集上的对比

表4 与EDTC框架其他SOTA方法在无人机目标消失和重现场景的对比

  • SiamDT
下表给出SiamDT框架与其他SOTA方法在Anti-UAV410数据集上的对比。

表5 SiamDT框架与其他SOTA方法在Anti-UAV410数据集上的对比

下图是SiamDT框架与其他SOTA方法在Anti-UAV410数据集上推理结果的可视化,包括6个属性的比较: TC(热交叉)、SV(尺度变化)、OC(遮挡)、OV(视野外)、DBC(动态背景杂波)、FM(快速运动)。

图5: SiamDT与其他SOTA方法在Anti-UAV410数据集上推理结果的可视化

Part4

计图开源

中国电信人工智能研究院的TeleAI多媒体认知学习创新团队日前开源了Jittor的版本,取得了与PyTorch版本同样质量的目标追踪效果,但所需的训练时间较PyTorch版本更短,训练速度是PyTorch版本的1.47倍。

Jittor开源:

https://github.com/ZhaoJ9014/Anti-UAV

论文原文:

https://zhaoj9014.github.io/publication.html

该项研究及Jittor版本代码实现由中国电信人工智能研究院多媒体认知学习创新团队(EVOL)完成,负责人为赵健研究员。清华大学计图(Jittor)团队提供了技术支持。

参考文献

  1. Zhihao Zhang, Lei Jin, Shengjie Li, Jianqiang Xia, Jun Wang, Zun Li, Zheng Zhu, Wenhan Yang, Pengfei Zhang, Jian Zhao, and Bo Zhang, Modality Meets Long-term Tracker: A Siamese Dual Fusion Framework for Tracking UAV. IEEE International Conference on Image Processing (ICIP), 2023.

  2. Xuefeng Zhu, Tianyang Xu, Jian Zhao, Jiawei Liu, Kai Wang, Gang Wang, Jianan Li, Qiang Wang, Lei Jin, Zheng Zhu, Junliang Xing, and Xiaojun Wu,Evidential Detection and Tracking Collaboration: New Problem, Benchmark and Algorithm for Robust Anti-UAV System. IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI), 2024, accepted. 
  3. Bo Huang, Jianan Li, Junjie Chen, Gang Wang, Jian Zhao, Tingfa Xu, Anti-UAV410: A Thermal Infrared Benchmark and Customized Scheme for Tracking Drones in the Wild, IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI), 2023, Vol. 46, No. 5, 2852-2865.
  4. Nan Jiang, Kuiran Wang, Xiaoke Peng, Xuehui Yu, Qiang Wang, Junliang Xing, Guorong Li, Guodong Guo, Qixiang Ye, Jianbin Jiao,Jian Zhao, Zhenjun Han, Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking. IEEE Transactions on Multimedia (T-MM), 2021, Vol.25, 486-500. 

GGC往期回顾

1. Fitten Code编程助手推出预览、对话等新功能
2. 计图开源:一致角色生成框架Photomaker和StoryDiffusion
3. 计图开源:利用扩散模型与NeRF从单张图像生成高保真三维物体:Make-It-3D-Jittor

4. 诚邀投稿,CVM2025@香港期待您的参与!

5计图助力非十科技发布AI代码助手,代码大模型速度精度超越Copilot

可通过下方二维码,关注清华大学图形学实验室,了解图形学、Jittor框架、CVMJ期刊和CVM会议的相关资讯。

Search

    Table of Contents