计图开源！具身装箱算法测试基准JPack发布

近日，中国科学院工业人工智能研究所与深圳大学、国防科技大学、中邮科技、京东科技、顺丰科技等合作，基于国产深度学习框架计图(Jittor)推出具身装箱算法测试基准JPack。联合团队近年来在具身智能工业装箱(Bin Packing)算法、系统与应用方面持续深耕，在学术界和工业界均获得了较大影响力。JPack在联合团队此前发布的国际首个具身装箱算法基准RoboBPP[1]的基础上，全面整合了领域最前沿研究成果(相关论文发表在ACM TOG、ICLR、NeurIPS等)，对相关算法进行了计图实现/重构，实现了明显的推理加速。JPack同步发布了标准化测试环境，不仅包含源于工业场景的真实数据，还构建了一个基于物理仿真与具身执行建模的机器人在线装箱综合基准，能够有效评估算法在现实部署中的物理可行性与具身可执行性。

开源代码链接：

https://github.com/imikua/JPack

项目主页链接：

https://robot-bin-packing-benchmark.github.io/

Part 1

概述

在线三维装箱问题(Online 3D-BPP)是现代工业物流与自动化制造中经典的组合优化问题：在高度动态的自动化流水线上，算法需要在不预知后续物品序列的情况下，实时决定当前货物的空间摆放位姿。然而，现有的部分研究大都基于理想化假设而陷入了脱离实际工业装箱场景的困境：大多数算法将其视为纯几何优化问题，假设货物放置后会“瞬间静止”且“绝对稳固”。这种假设忽略了货物重力、摩擦力以及机械臂抓取过程中的物理可行性等真实工业约束，致使现有算法大多受困于纯几何的理想空间，难以向复杂的真实物理世界迁移。JPack的发布正是为了回应这种“几何上可行、物理上崩塌”的行业痛点。它通过引入真实工业数据与物理引擎，推动算法从理论研究走向真实具身应用。

JPack的核心贡献如下：

仿真环境：一个高度逼真的、基于物理的仿真环境，用于评估在线装箱的物理可行性与具身可执行性。
数据集：三个来自真实工业流程的大规模多样化数据集，用于系统化基准测试。
测试设置：科学设计的多级测试设置，涵盖纯数学评估到物理约束仿真，再到机器人执行的全过程。
评估体系：多维度评估指标及归一化评分体系，可计算加权综合得分，从而在不同场景下提供对算法的深入分析。
图1 JPack的整体架构

项目主页(如下图)展示了JPack的相关细节。其中,Benchmarks栏目提供了多类榜单，包括算法整体表现排名、三种测试设置与三个数据集下的各项指标表现，以及每种算法在测试过程中的详细数据。Documentation栏目介绍了数据集、测试设置与评估指标，并提供了开源仿真环境Python包packsim的安装与使用指南。读者可在Download栏目下载三类数据集，在Submit栏目提交算法进行测试。

图2 JPack项目主页概览

Part 2

基于物理的仿真环境

由于在真实硬件上进行测试成本高、操作复杂，JPack构建了一个用于评估物理可行性的仿真环境。其核心挑战在于打造一个足够逼真的模拟器，以确保所评估的算法在真实工业场景中也能可靠运行。

受实际工业具身装箱流程启发，JPack在PyBullet环境中引入了按真实尺度建模的工业机械臂与箱体，并设计了一套具有物理依据的参数设置，使箱体与机械臂均能在仿真中得到精确复现。该模拟器能够再现多种真实工业条件：例如，通过重力和摩擦建模模拟由不稳定堆叠引发的坍塌；使用OMPL运动规划库生成机械臂的无碰撞轨迹；支持机械臂执行抓取、搬运与放置等完整操作流程。通过模拟机械臂与箱体的交互过程，系统能够评估机器人对目标放置位置的可达性，并验证算法的具身可执行性。

整个仿真环境已作为Python包packsim开源于PyPI。用户可按照官方文档运行并体验完整仿真流程。

官方文档：

https://robot-bin-packing-benchmark.github.io/documentation.html

Part 3

数据与评测体系

为支撑具身装箱的相关研究，JPack通过构建“真实数据源”与“递进式评测体系”，实现了算法从几何推理到物理环境下的闭环验证。

1. 三大工业实测数据集

JPack提供了三类采集自真实产线、具有代表性的大规模数据集：

Repetitive Dataset：该数据集侧重评估算法在生产型场景中的适应能力，其中物品会以一定概率重复出现，用于考察算法对重复分布特征的利用能力及其装箱表现。
Diverse Dataset：该数据集面向电商仓储等消费型场景，物品尺寸高度异构且缺乏规律，用于评估算法在尺寸波动条件下的动态适应能力。
Long Board Dataset：针对家具制造场景，数据中包含大量长宽比极大的板材类物品，对算法在物理稳定性控制与操作可行性保障方面提出了更高要求。

图3 三类数据集的可视化

2. 递进式评测体系

JPack定义了由易到难的三级评测体系，通过逐步引入真实物理约束，渐进式验证算法从理想化假设走向真实工业具身装箱场景的落地能力。

Math Pack：该设置仅进行纯几何层面的放置，不考虑物理因素或机器人操作，从而将重点放在算法的空间推理能力上，反映其在理想化条件下装箱性能的上限。
Physics Pack：在该设置中，系统启用了重力、碰撞等物理效应，但不涉及机器人执行，该设置用于评估放置策略在真实物理约束下的有效性与稳定性。
Execution Pack：这是最贴近真实应用的评测设置，集成了物理仿真与机器人执行过程，包括运动规划与控制。该设置下的性能表现取决于运动学可达性、无碰撞轨迹规划能力以及执行过程中的稳定性。

图4 三种测试设置的示意图

3. 多维度评估指标及归一化评分体系

JPack在总结以往研究常用的评估指标(主要关注紧凑性、稳定性和推理效率)的基础上，借助物理仿真环境引入了新的执行相关指标，包括Collapsed Placement和Dangerous Operation。这些指标能够反映放置过程中可能出现的坍塌风险与潜在危险操作。为了在多维指标上系统地比较不同算法，JPack进一步设计了一个评分体系，将所有指标转换为归一化分数，并根据需求进行加权汇总，最终得到综合得分。

表1 JPack指标与评分机制

Part 4

基于Jittor 的装箱算法重构

基于计图框架，JPack对装箱领域中的多个代表性算法进行了重构。得益于计图出色的动态编译、元算子和统一计算图技术，重构后的模型在完美复刻原有模型性能的基础上，前向推理速度平均提升10%，有效强化了模型在真实动态工业流水场景下的实时响应能力。JPack共收录了在线装箱领域内12种代表性算法，本文选取其中3种具有代表性的学习型方法进行介绍与分析。

1. PCT

PCT(Packing Configuration Tree，装箱配置树)[2]是一种面向在线三维装箱问题的结构化表示，用于缓解以往方法受限于空间离散化分辨率且难以处理复杂实际物理约束的问题。PCT将装箱状态建模为一棵动态生长的树，其中内部节点表示已装入物品的空间配置，叶子节点表示当前物品的候选放置位置。基于这一表示，相关方法通过图注意力网络(GAT)对各空间配置节点之间的空间关联进行编码，以提取状态特征，并结合启发式规则预先筛选出有限的高潜力放置点作为叶子节点。借助PCT，深度强化学习的动作空间得以从“无限连续的坐标回归”转化为“有限离散的节点选择”，从而极大降低决策复杂度；在此基础上，再利用深度强化学习的函数拟合能力对候选节点进行精细评估，学习出优于传统启发式方法的鲁棒装箱策略。基于PCT的方法不仅在多项性能基准测试中领先于既有算法，还展现出较强的泛化能力，能够有效应对负载均衡、同类物品集中摆放等复杂工业约束。

图5 PCT 的示意图

2. TAP-Net++

TAP-Net++[3]面向三维运输与装箱(TAP)问题，针对现有方法通常假设物体处于理想状态(如全部位姿已知、与坐标轴对齐)且在放置决策上较为依赖启发式规则的局限，构建了一套从视觉感知到强化学习决策的端到端框架。该方法首先利用RGB-D视觉传感对动态工作区进行分析，提取无序堆叠物体的尺寸信息及其拾取优先关系，并从目标容器中提取候选最大空位(EMS)。在此基础上，TAP-Net++采用带注意力机制的双分支编码器，分别对持续演化的物品状态和可用空间配置进行深度表征。通过对不同“物品—空间”组合的匹配分数与可行性掩码进行联合建模，网络能够在单步中同时输出物品拾取顺序、装箱姿态以及精确放置位置。这种“单步联合优化”策略有效缓解了传统两阶段方法中“网络排序 + 启发式放置”易陷入局部最优的问题。实验结果表明，TAP-Net++在多种不同复杂度和灵活性设定下的装箱基准测试中均显著优于已有强化学习方法和启发式基线，并能够较好泛化到真实机械臂执行的物理装箱任务中。

图6 TAP-Net++的架构图

3. AR2L

AR2L[4]面向在线三维装箱任务中极端输入序列带来的鲁棒性挑战，针对现有方法在不可预测的极端箱子序列下易出现性能失稳，而传统鲁棒强化学习又往往因过度保守而牺牲平均表现的问题，构建了一种可调节鲁棒强化学习框架。AR2L的核心在于通过“可调鲁棒性”机制，在常规场景下的平均收益与极端场景下的最坏情况表现之间实现平衡。具体而言，该方法首先设计了一种基于排列的攻击者，通过主动调整传送带上可见箱子的到达顺序来构造更具挑战性的最坏情况实例；在此基础上，进一步将平均收益与最坏情况收益进行加权统一建模，并结合混合动力学进行策略优化，从而实现对“性能—鲁棒性”权衡关系的灵活调节。实验结果表明，AR2L在保持常规场景下较高空间利用率的同时，能够显著提升策略在极端扰动条件下的鲁棒性，为学习型装箱算法在复杂真实物流环境中的应用提供了更可靠的支撑。

图7 AR2L的架构图

Part 5

性能评估

除了构建完整的基准系统外，JPack还开展了大量实验。研究在三种测试设置和三个数据集下对各类方法进行了统一评测，并通过设计的评分系统对实验结果进行汇总，计算各算法的综合得分。基于此，JPack进一步对所有方法在不同测试设置和数据集上的表现进行了排序（表格中已高亮标出综合得分排名前四的算法）。另外，团队还开展了跨数据集与测试设置的性能对比分析，以深入理解算法在不同工业场景下的泛化能力与稳健性。

表2 各算法在不同测试设置下的性能

基于实验结果，JPack为工业具身部署提供以下实用建议：

在高度重复的流水线生产环境中，明确建模空间与几何关系的强化学习算法（如 PCT和TAP-Net++）表现尤为突出。
在物品尺寸高度多样化的物流场景中，基于Transformer的强化学习策略（如PCT和AR2L）更为有效，因为它们能够适应多样化的尺寸分布。
在以细长家具部件为主的场景中，强化学习算法与几何驱动的启发式方法（如TAP-Net++与DBL）均展现出良好的适用性。

此外，团队还评估了稳定性相关指标(Static Stability 和 Local Stability)在模型训练中的有效性，探索其能否引导基于学习的方法获得更加稳健、物理上可行的策略，为算法在现实工业场景中的具身部署提供依据。

欢迎国内外同行基于开源的具身装箱算法测试基准JPack开展研究工作！

参考文献

Wang, Zhoufeng, Hang Zhao, Juzhan Xu, Shishun Zhang, Zeyu Xiong, Ruizhen Hu, Chenyang Zhu, Zecui Zeng, and Kai Xu. RoboBPP: Benchmarking Robotic Online Bin Packing with Physics-based Simulation. arXiv preprint arXiv:2512.04415, 2025.
Zhao, Hang, Yang Yu, and Kai Xu. Learning Eﬀicient Online 3D Bin Packing on Packing Configuration Trees. International Conference on Learning Representations, 2021.
Xu, Juzhan, Minglun Gong, Hao Zhang, Hui Huang, and Ruizhen Hu. Neural Packing: From Visual Sensing to Reinforcement Learning. ACM Transactions on Graphics, 2023, 42(6), Article No. 267, 1–11.
Pan, Yuxin, Yize Chen, and Fangzhen Lin. Adjustable robust reinforcement learning for online 3D bin packing. Advances in Neural Information Processing Systems, 36:51926-51954, 2023.

GGC往期回顾

可通过下方二维码，关注清华大学图形学实验室，了解图形学、人工智能、深度学习框架、CVMJ期刊和CVM会议的相关资讯。

计图开源！具身装箱算法测试基准JPack发布

计图开源！具身装箱算法测试基准JPack发布

Search

Table of Contents