计图开源:感知、预测、端到端自动驾驶算法库(JAD)

2024/09/25 Tutorial

计图开源:感知、预测、端到端自动驾驶算法库(JAD)

近日,上海交通大学ReThinkLab严骏驰团队发布基于计图(Jittor)深度学习框架的自动驾驶算法库(JAD)。该框架提供了一套与自动驾驶常见框架mmcv、mmdet、mmdet3d的接口相同的Jittor框架,并实现了自动驾驶感知、预测、决策各个模块的前沿算法,希望借助Jittor的性能优势和能较好地支持国产操作系统和芯片的特点,为自动驾驶硬件-框架-算法的全面国产化生态的构建做贡献。

Part1

自动驾驶的背景和意义

自20世纪40年代起,自动驾驶技术的研究便已展开。近年来,计算机科学和人工智能的飞速发展,尤其是深度学习和计算机视觉等技术的进步,为自动驾驶技术的实现提供了强大的支持。从社会需求角度分析,随着城市化进程的加快和人口密度的增加,交通拥堵和交通事故成为全球性的问题,自动驾驶技术通过减少人为错误和提高交通效率,有望解决这些问题。

此外,自动驾驶还可以为老年人、残疾人等特殊群体提供更加便捷的出行方式。经济发展方面,自动驾驶技术的应用不仅能够提升交通安全和效率,还能带动相关产业链的发展,创造新的商业机会。根据麦肯锡的预测,到2025年,智能汽车的市场规模将达到1.9万亿美元。自动驾驶汽车的普及将促进汽车产业的转型升级,并创造新的商业机会。

图1 杭州亚运会无人驾驶巴士

Part2

自动驾驶算法库JAD

JAD团队基于Jittor深度学习框架开发了自动驾驶算法库JAD,对自动驾驶驾驶中最常见的任务进行了全覆盖,实现了一套与自动驾驶常见框架mmcv、mmdet、mmdet3d的接口相同的Jittor框架,有效降低了用户的迁移与学习成本,为后续自动驾驶算法的持续引入与开发做好了铺垫。目前JAD已经支持3类任务(目标检测、轨迹预测、端到端自动驾驶),正在支持在线建图任务,共计划后续持续更新前沿自动驾驶模型。

图2 适配流行mm系列接口的Jittor实现

下面是对目前已经支持的目标检测、轨迹预测、端到端自动驾驶算法的简要介绍。
3D目标检测 - BEVFormer[1]

BEVFormer是目前最前沿的基于Transformer的多视角图片融合3D感知方案。BEVFormer是ECCV 2022最具影响力的论文之一,是2022年被引前100的AI论文。图3给出其框架图,其特点是使用BEV网格作为Query在空间与时间上使用注意力机制。

图3 BEVFormer框架图

下面的视频给出BEVFormer进行3D目标检测与BEV语义分割的演示视频。

视频1 3D目标检测与BEV语义分割

轨迹预测 - MTR[2]

MTR是前沿的基于Transformer的预测算法,获NeurIPS 2022上口头汇报的荣誉。

MTR及其变体是Waymo Motion, Waymo Interactive, and Waymo Sim Agent等系列榜单上性能最好的算法。MTR也广泛被工业界采用。

图4给出了其框架图,其特点是将车辆与地图元素均视为Query,执行注意力机制。

图4 MTR框架图

图5给出了使用MTR对多车的多种可能进行交互预测的示意图。

图5 使用MTR对多车的多种可能交互进行预测

端到端自动驾驶 - UniAD[3]

UniAD是前沿的基于Transformer的端到端自动驾驶算法,获得了CVPR 2023最佳论文。UniAD在学术界与工业界都有着巨大的影响力,包括特斯拉最新的FSD V12采用了端到端自动驾驶方案。

图6给出其框架图,其特点是使用Query串联目标检测、跟踪、在线建图、轨迹预测、栅格占据、规控等自动驾驶上下游任务。

图6 UniAD框架图

下面的视频给出UniAD进行端到端多任务自动驾驶的演示。

视频2 UniAD进行端到端多任务自动驾驶演示视频

Part3

计图开源与后续计划

JAD作为清华大学计图官方项目在自动驾驶领域的布局和扩展,是由上海交通大学发起,与清华大学CSCG组共同维护的开源代码库。欢迎大家使用Jittor的自动驾驶库JAD开展研究工作。

JAD全部代码已开源在:

https://github.com/Jittor/JAD

如果大家在使用过程中发现有什么问题,请大家在github提交issue或者PR。也可以加入Jittor开发者的QQ交流群,期待您提出宝贵的意见。

欢迎大家提出希望得到支持的模型以及贡献自己的模型。我们很高兴能与社区一起共建国产深度学习框架Jittor + 自动驾驶的生态,共同成长,为自动驾驶硬件-框架-算法的全面国产化生态的构建做贡献。

参考文献
  1. Li, Zhiqi, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Yu Qiao, and Jifeng Dai, Bevformer: Learning bird’s-eye-view representation from multi-camera images via spatiotemporal transformers, European conference on computer vision,Lecture Notes in Computer Science, Vol. 13669, 1-18.

  2. Shi, Shaoshuai, Li Jiang, Dengxin Dai, and Bernt Schiele, Motion transformer with global intention localization and local movement refinement, Advances in Neural Information Processing Systems, 2022, Vol. 35, 6531-6543.

  3. Hu, Yihan, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai et al., Planning-oriented autonomous driving, IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, 17853-17862. 

GGC往期回顾

1. 计图开源:多场景“低慢小”目标感知理解库(Anti-UAV)
2. Fitten Code编程助手推出预览、对话等新功能
3. 计图开源:一致角色生成框架Photomaker和StoryDiffusion
4. 计图开源:利用扩散模型与NeRF从单张图像生成高保真三维物体:Make-It-3D-Jittor

5. 诚邀投稿,CVM2025@香港期待您的参与!

可通过下方二维码,关注清华大学图形学实验室,了解图形学、Jittor框架、CVMJ期刊和CVM会议的相关资讯。

Search

    Table of Contents