计图开源:动态人体渲染算法库

2024/10/12 Tutorial

计图开源:动态人体渲染算法库

近日,在北京市科技计划“新一代信息通信技术创新专项”的支持下,北京交通大学温玉辉副教授、景丽萍教授团队与清华大学刘永进教授团队联合发布了基于计图(Jittor)深度学习框架的动态人体渲染算法库(JDHR)。该算法库全面集成了动态人体渲染的关键技术,包括点云采样、4D特征网格表示以及实时渲染等多个关键模块。
图1 动态人体渲染的示例

Part1

问题和背景

在计算机图形学领域,为了塑造高质量的虚拟形象,传统方法往往涉及繁琐的点云扫描、精细的网格建模以及复杂的纹理映射等步骤,这些过程高度依赖人工操作,极大地增加了三维虚拟数字人内容制作的难度与成本。因此,探索一种能够基于多视角视频自动且高效地重建出高逼真度三维人体模型的技术,具有重要的实际应用价值。近年来,神经辐射场(Neural Radiance Field, NeRF)和三维高斯泼溅(3D Gaussian Splatting, 3DGS)等前沿技术在合成3D场景、物体、人体新视角图像方面取得了显著突破[1,2],展现出了令人惊叹的照片级真实感效果。这些技术不仅提升了图形渲染的精度与效率,也为三维内容的创作带来了革命性的变化。

基于Jittor深度学习框架的JNeRF,提供了一个统一、高效的模型库,能够有效提升科研效率。然而,面对包含复杂运动的动态人体场景,现有模型库仍面临诸多挑战。为解决以上问题,清华大学和北京交通大学团队基于Jittor深度学习框架开发了动态人体渲染算法库(JDHR),该算法库充分利用了Jittor框架的性能优势,通过实现点云采样、4D特征网格表示及实时渲染技术,有效解决了动态人体渲染中的难题。可以广泛应用于虚拟现实、游戏开发、电影特效和视频会议等领域。

Part2

动态人体渲染算法库(JDHR)

点云采样模块

点云采样模块从多视角视频中获得初始点云。使用分割方法来获取输入图像中的动态人体掩膜[3],得到前景图像和初始几何[4]。基于JNeRF在这些图像上训练,获得视频序列每一帧 的三维人体初始点云 

图2 点云采样模块示意图

4D特征网格表示模块

给定目标场景动态人体的初始点云,通过学习任意时刻 任意三维人体初始点位置 x,y,z 的三个属性表示动态人体高斯球[5]:位置、半径、密度、球谐系数、数外观特征具体而言,使用4D特征网格 来学习动态人体高斯球表示,并且将4D特征网格分解为4个3D和4个1D特征网格实现时空特征高效表示学习[6]:</img>

其中,示哈达玛乘积每个3D特征网格</img>

使用多尺度哈希网格来表示。1D特征网格使用密集向量表示然后,将特征向量输入MLP后,可以预测出高斯球的半径、密度,外观特征

图3 4D网络特征表示模块示意图

实时渲染模块

给定图像像素的位置,可以通过视图变换W计算出它与高斯球的距离,这些距离代表各个高斯的深度,从而形成一个排序后的高斯列表N。然后,利用密度合成来计算该像素的最终颜色。

其中由学习到的密度σ 在像素位置投影的第 i 个二维高斯概率密度的权重加权得到。是球谐函数输出的颜色和外观特征的混合。为了降低为每个像素逐一计算有序列表所带来的高昂计算成本,借助3DGS思想,将精度从像素级别转移到块级别。具体而言,将图像分割成多个互不重叠的图像块,并基于这些图像块实现了快速的并行化渲染。基于Jittor深度学习框架实现的动态人体渲染算法,能够达成实时高分辨率图像的渲染效果。在采用单块NVIDIA 3090显卡的情况下,渲染2024*2448分辨率的动态人体,峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)为32.29,帧率约为30fps。</img>

图4 实时渲染模块示意图

Part3

计图开源与后续计划

动态人体渲染算法库(JDHR)是由清华大学刘永进教授团队和北京交通大学温玉辉副教授、景丽萍教授团队共同维护的开源代码库,由计图团队提供支持。欢迎大家使用JDHR开展研究工作。

JDHR代码已开源在:

https://github.com/3DHCG/JDHR

参考文献
  1. Sun Z, Lv T, Ye S, et al., Diffposetalk: Speech-driven stylistic 3d facial animation and head pose generation via diffusion models, ACM Transactions on Graphics, 2024, Vol. 43, No. 4, article no. 46.

  2. Ye S, He Y, Lin M, et al., PVP-Recon: Progressive View Planning via Warping Consistency for Sparse-View Surface Reconstruction, ACM SIGGRAPH ASIA, 2024.

  3. Ravi, Nikhila, et al., Sam 2: Segment anything in images and videos, arXiv preprint arXiv:2408.00714, 2024.
  4. Kutulakos, Kiriakos N., and Steven M. Seitz, A theory of shape by space carving, International journal of computer vision, 2000, Vol. 38, 199-218.

  5. Kerbl, Bernhard, et al., 3D Gaussian Splatting for Real-Time Radiance Field Rendering, ACM Transactions on Graphics, 2023, Vol. 42, No. 4, article no.139.

  6. Işık, Mustafa, et al., Humanrf: High-fidelity neural radiance fields for humans in motion, ACM Transactions on Graphics, 2023, Vol. 42, No. 4, article no.160.

GGC往期回顾

1. 梁友栋教授和刘利刚教授分获Chinagraph贡献奖和杰出奖

2. 计图开源:三维点云配准算法库(JPCR)

3. 计图开源:高斯网—可建模大尺度几何变形的新型高斯泼溅表示方法

4. 童欣、Minhyuk Sung分获亚洲图形学学会2024年度两项大奖

5. 计图开源:感知、预测、端到端自动驾驶算法库(JAD)

可通过下方二维码,关注清华大学图形学实验室,了解图形学、Jittor框架、CVMJ期刊和CVM会议的相关资讯。

Search

    Table of Contents