计图开源:单张图像的三维人体网格重建

2025/02/10 Tutorial

计图开源:单张图像的三维人体网格重建

单张图像三维人体网格重建(Human Mesh Recovery, HMR)在虚拟数字人,虚拟试衣,体育赛事的判罚等方面有广泛的应用。先前的工作大多从单张完整的原始照片中检测出人体区域,然后将检测到的目标区域输入神经网络进行预测(基于回归的方法),或者根据检测到的2D人体关节点,进一步优化神经网络的参数或者Mesh模型(基于优化的方法)。
近期,华南理工大学徐雪妙教授、聂勇伟副教授带领的视觉智能和交叉融合团队,联合中山大学张青副教授, 广东工业大学朱鉴副教授, Meta龙成江研究员在ECCV 2024NeurIPS 2024上分别发表了基于回归的MultiROI-HMR算法[1]和基于优化的Meta-HMR算法[2],并开源了基于计图 (Jittor) 的代码,效果如下图1、图2所示,取得了目前最好的单图三维人体网格重建结果。

图1 MultiROI-HMR与SOTA方法的定性对比

图2 Meta-HMR与SOTA方法的定性对比

Part 1
MultiROI-HMR研究背景和问题
单图三维人体网格重建是指从单张2D图片中估计出人体的三维网格。HMR[3]和CLIFF[4]等利用回归方法预测出人体姿势、形状和相机参数,然后利用SMPL模型生成人体网格。先前的工作大多从单张完整的原始照片中检测出人体,然后将检测到的人体区域输入神经网络预测人体模型参数。这种方式只使用局部相机将预测出的人体网格投影到2D图片中和真值进行比较,会导致重投影损失偏差。

图3 Multi-ROI多ROI示意图

如图3左侧所示,从局部 Rol i 来看,正确的局部相机是0°,然而回归器可能错误地将其预测为-10°,进而在局部相机转化为全局相机时,得到错误的20°全局相机,而不是真值45°。 3中间展示了另一个局部Rol j此时回归器估计得到30°的局部相机,并转化为55°的全局相机,同样不是真值45°。3右侧,本文提出的MultiROI-HMR通过维持全局相机的一致性对模型进行约束RoI i 和 RoI 应该估计出同样的全局相机, 来达到更好的效果, 更多详细信息请参考论文。

Part 2
MultiROI-HMR方法概述
给定一张图片MultiROI-HMR首先提取出M个边界框获取ROI(Region Of Interest然后使用一个视觉骨干网络分别提取特征,这些特征再通过一个 ROI融合模块,得到融合后的特征和全局特征 (见图4)。每个融合后的特征都会经过共享的解码器(称之为"相机"解码器)预测出不同的相机参数,全局特征则经过mesh解码器预测出人体的姿势和形状。整个回归任务可以被公式化为

图4 MultiROI-HMR模型架构

总体上,不同于CLIFF[4]只使用了一个边界框,MultiROI-HMR使用多个边界框作为输入。由于每个边界框对应的局部相机应该转换为相同的全局相机,因此可以使用相机间的两两相互关系,构建一致性相机参数损失,来引导模型学习正确的网络参数。为保持相机之间的全局一致性, MultiROI-HMR提出相应的损失函数:

图5展示了局部相机到全局相机的转换过程。

图5 局部相机和全局相机的鸟瞰视图
Part 3
MultiROI-HMR结果展示
MultiROI-HMR在3DPW和Human3.6M数据集上进行了定量和定性实验,结果如下表1所示, MultiROI-HMR在平均关节损失MPJPE(Mean Per-Joint Position Error),修正平均关节损失PA-MPJPE(Procrustes - Aligned Mean Per-Joint Position Error),以及PVE(Pose-Velocity Error)上都取得了最好的结果(标粗显示)。在定性测试中,如图1所示, MultiROI-HMR展示出了更好的效果。

表1 MultiROI-HMR与SOTA方法的定量比较

Part 4
Meta-HMR研究背景和问题
除上述基于回归的方法外,HMR领域还存在一类基于优化的方法,例如EFT[5],SPIN[6]等。这类方法对每一个样例进行测试时优化(test-time optimization),但是并没有提供一个好的优化起始点,从而影响了最终的准确率。同时由于测试时并没有真实人体mesh,因此测试时只能使用2D骨骼的真值作为监督,这与训练过程中采用真实人体mesh作为监督不相匹配,从而进一步影响了优化效果。
Part 5
Meta-HMR方法概述
Meta-HMR模型的架构如图所示。

图6 Meta-HMR模型架构

为训练数据集,为训练图片, 为真值mesh, 

为2D真值骨骼或者由SOTA人体姿态算法检测到2D关键点,B是batch的数量,M是batch的大小。端到端的回归方法通常是训练一个神经网络  

.

并最小化训练时损失函数(training-time loss function)

其中

测试时,在每一个测试样例上使用测试时损失函数(test-time loss function)进一步微调预训练网络 

其中

为了将测试时优化插入到训练过程中,Meta-HMR首先对于一个批次中的每一个样本(共M个)执行测试时优化去更新和这个样本相关的回归模型的参数,然后在M个样本上训练得到优化后的参数。这个过程可以公式化为:

其中,

此外,训练时有真实的人体mesh作为监督,而测试时没有人体mesh真值可以使用,导致中可以计算3D损失函数不能,造成某种程度的不一致。为弥补这一点, Meta-HMR通过引入一个辅助回归网络估计一个伪真值人体mesh,从而统一训练时和测试时优化目标:

Part 6
Meta-HMR结果展示
同样地,MetaHMR在3DPW和Human3.6M数据集上进行了定量和定性实验,结果如下表2所示, MetaHMR在平均关节损失MPJPE(Mean Per-Joint Position Error),修正平均关节损失PA-MPJPE(Procrustes - Aligned Mean Per-Joint Position Error)以及PVE(Pose-Velocity Error)上都取得了最好的结果(标粗显示).在定性测试中,如图2所示,Meta-HMR也展示出了更好的效果.

表2 Meta-HMR与SOTA方法的定量比较

Part 7
MultiROI-HMR和Meta-HMR代码开源

对于MutilROI-HMR,在推理阶段,固定批次大小(batch size)为100,评估数据集为3DPW, Jittor版本推理用时约78s, PyTorch版本用时约105s. 推理速度提升25.7%.

对于Meta-HMR, 在推理阶段, 固定批次大小为80, 评估数据集为3DPW, Jittor版本推理用时约24s, PyTorch版本用时约30s.推理速度提升20%.
计图代码地址:
https://github.com/chaohongguo/Jittor_mutilROI
参考文献
  1. Nie, Y., Liu, C., Long, C., Zhang, Q., Li, G., & Cai, H, Multi-RoI Human Mesh Recovery with Camera Consistency and Contrastive Losses. European Conference on Computer Vision,2024,439-458.

  2. Nie, Y., Fan, M., Long, C., Zhang, Q., Zhu, J., & Xu, X., Incorporating Test-Time Optimization into Training with Dual Networks for Human Mesh Recovery. The Thirty-eighth Annual Conference on Neural Information Processing Systems,2024.

  3. Kanazawa, A., Black, M. J., Jacobs, D. W., & Malik, J., End-to-end recovery of human shape and pose. IEEE/CVF conference on computer vision and pattern recognition, 2018, 7122-7131.

  4. Li, Z., Liu, J., Zhang, Z., Xu, S., & Yan, Y., Cliff: Carrying location information in full frames into human pose and shape estimation. European Conference on Computer Vision, 2022, 590-606.

  5. Joo, H., Neverova, N., & Vedaldi, A., Exemplar fine-tuning for 3d human model fitting towards in-the-wild 3d human pose estimation. International Conference on 3D Vision (3DV), 2021, 42-52.

  6. Kolotouros, N., Pavlakos, G., Black, M. J., & Daniilidis, K., Learning to reconstruct 3D human pose and shape via model-fitting in the loop, IEEE/CVF international conference on computer vision, 2019, 2252-2261.

GGC往期回顾

1. 计图开源:图机器学习库

2. 计图适配华为昇腾910系列,迈向国产AI新生态

3. 张量场引导的机器人分层路径规划与自主探索 | CVMJ Spotlight

4. 跨模态增强的长尾图像分类 | CVMJ Spotlight

5计图开源:基于扩散模型的语音驱动风格化人脸动画生成

可通过下方二维码,关注清华大学图形学实验室,了解图形学、深度学习、Jittor框架、CVMJ期刊和CVM会议的相关资讯。

Search

    Table of Contents