计图开源:神经辐射场的几何编辑方法NeRF-Editing

2022/08/04 Tutorial

计图开源:神经辐射场的几何编辑方法NeRF-Editing

中科院计算所、卡迪夫大学和阿里巴巴在CVPR 2022上合作发表了一项研究工作 NeRFf-Editing [1],该工作提出一种针对神经辐射场的变形算法以实现对这一隐式表征的几何编辑,并开源基于计图实现的代码。

Part1

问题和背景

基于图像的3D场景建模与渲染是计算机视觉和计算机图形学中一个受到广泛关注的课题。许多传统方法将场景以网格形式表征,通过可微光栅化或光线追踪的方法以真实图像作为监督优化场景表征。然而,这种基于二维图像监督的网格优化策略往往容易陷入局部最优解,并且这种方法无法在优化过程中改变网格的拓扑结构。
神经辐射场 (NeRF) 为这一问题的解决提供了全新的范式[2]。通过借助多层感知机 (MLP) 来隐式建模场景的几何和外观,能够以体渲染(volume rendering)的方法得到高真实感的渲染图。然而这种隐式建模方法也限制了用户对场景对象的编辑与修改。
对于网格等显式的表征而言,用户能够相对容易地编辑其几何。目前有很多关于网格变形或编辑的研究工作[3,4]。然而,真实场景的几何表示往往难以获得。虽然一些多视图立体几何 (MVS) 方法能够从图像中重建出场景的点云或网格表示,但重建质量有限。这样的重建表示在新视角下难以利用传统渲染管线渲染出真实的结果。
因此,在保持高真实感渲染结果的同时,如何编辑神经辐射场这一隐式表征的几何形状已成为一个新的探索方向。现有的神经辐射场编辑工作Editing Radiance Field [5]只能局限于颜色编辑和简单地添加/删除局部的几何模块,无法实现对几何形状的编辑。针对这一问题,作者提出了一种能够编辑神经辐射场几何内容的方法,效果如图1所示。

图1 编辑前后神经辐射场渲染结果

Part2

方法概述

该研究的目标是提供一种基于控制点的交互方式,用户可以通过移动控制点来实现对神经辐射场隐式表征的场景或物体的几何变形,算法流程如图2所示。在训练好的神经辐射场网络中提取显式的三角网格表示后,用户可以在网格表示上指定控制点,并通过移动控制点进行变形编辑。为了将离散表面网格上的变形编辑传播到整个连续空间,该研究利用变形前后网络的对应关系,提出一个两步传播框架。通过弯曲体渲染投射的光线,神经辐射场可以渲染出符合用户编辑预期的结果。
图2 神经辐射场变形方法示意图
具体而言,首先利用拍摄得到的物体对象多视角图片,训练一个神经辐射场网络,并从中提取三角网格表示。为了获得高质量的三角网格表示,该研究采用了NeuS[6]中提出的方法通过符号距离场 (SDF) 重建网格。
在得到场景的显式表征之后,该研究使用ARAP (as-rigid-as-possible) [7]变形方法来实现交互式的网格变形编辑操作。记原始网格顶点i的空间位置为ViN(i) 表示与顶点相邻的顶点的集合。在用户对控制点施加编辑后,原始网格将在用户编辑作为约束条件下变换为具有相同连通关系但有不同顶点位置Vi 的变形网格。变形后的形状通过优化如下变形能量得到
在得到变形前后的三角形网格后,需要将网格顶点变形转移到整个连续的空间。该过程可以分为两个步骤,如图3所示:
图3 离散的网格顶点变形到连续空间的传播
  1. 构建四面体网格(离散的体表示)来覆盖提取的三角形网格。在三角网格表面沿法线方向偏移一定距离,来得到一个包裹它的笼状网格。空间中的离散体表示可以通过对该笼状网格四面体化得到。
  2. 将面网格变形转换为空间体网格变形。利用三角形网格顶点的位移来驱动四面体网格的变形,得到变形后的四面体网格T'。分别记变形前后四面体网格的顶点为t',该变形可通过如下的公式,优化ARAP能量式求解,其中是三角形网格的重心坐标权值构成的矩阵,该问题可以通过拉格朗日乘子法转化为线性方程组求解。
在渲染的过程中,对于光线上的每个采样点,都可以找到它在变形四面体网格T' 中对应的四面体。利用T' 的对应关系,可以插值出采样点相对于标准神经辐射场空间的位移值,将采样点变换回标准神经辐射场空间,实现对光线的弯曲。
Part3

结果展示与Jittor开源

图4展示了所提出方法在合成场景上的编辑结果;前两行展示了在乐高推土机模型上几何变形的结果,用户可以将推土机的铲子放下,实现了对复杂合成数据的编辑;后两行展示了对椅子模型变形编辑的结果,用户可以拉伸椅子的靠背和腿,实现对物体局部部件的编辑。
图4 合成数据上编辑结果
图5展示了在多个真实和合成物体上的编辑结果。该方法可以通过插值编辑前后的状态,实现将静态神经辐射场动态化,用户拍摄的静态物体将变得栩栩如生。

图5 静态神经辐射场动态化,物体变得栩栩如生

图6展示了在场景中对物体进行编辑的结果,提出方法可以复制场景中的物体,并对其做出不同编辑后,放置在场景中的任意位置。

图6 对场景的编辑结果

提出方法还能做一些有趣的应用,比如将视频中的人脸运动迁移到一个人脸雕塑上,如图7所示。

图7 利用人脸视频驱动人脸雕塑
该研究设计了两种直接的baseline方法进行对比,以证明提出方法的优越性。
  • 第一种是在弯曲光线时,直接选用最近邻的网格顶点位移作为该采样点的位移,记为“Closest Point”;
  • 第二种选取了采样点最近邻的三个网格顶点,以距离的倒数作为系数线性插值得到位移,记为“3NN”。
图8展示了与baseline方法的对比,前两行是在mixamo的合成数据上进行的编辑,变形后的物体 (GT) 可以通过对原模型变形得到。第三行是在真实拍摄物体上进行的编辑,变形后的GT不存在,所以使用NeRF的渲染结果作为代替。
图8 与baseline方法的可视化结果对比
可以看到该研究提出的方法能够生成更加真实的编辑结果,量化指标上也达到最优 (见表1)。
表1 与baseline方法的量化指标对比

项目的Jittor代码已在github上开源:

https://github.com/IGLICT/NeRF-Editing
基于Jittor实现的代码,训练速度是pytorch版本的1.2倍,推理速度是pytorch版本的1.15倍。
该项研究由中科院计算所,阿里巴巴淘系技术部和英国卡迪夫大学合作完成,论文通讯作者为中科院计算所高林副研究员,作者包括中科院计算所博士生袁宇杰和硕士生孙阳天 (共同一作),英国卡迪夫大学来煜坤教授、阿里淘系的贾荣飞博士等。

参考文献

  1. Yu-Jie Yuan#, Yang-Tian Sun#, Yu-Kun Lai, Yuewen Ma, Rongfei Jia, Lin Gao, NeRF-Editing: Geometry editing of neural radiance fields, IEEE CVPR, 2022, 18353-18364.
  2. Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi, and Ren Ng, NeRF: Representing scenes as neural radiance fields for view synthesis, ECCV, 2020, 405-421.

  3. Shu-Yu Chen, Lin Gao, Yu-Kun Lai, and Shihong Xia, Rigidity controllable as-rigid-as-possible shape deformation, Graphical Models, 2017, Vol. 91, 13-21.

  4. Lin Gao, Yu-Kun Lai, Jie Yang, Zhang Ling-Xiao, Shihong Xia, and Leif Kobbelt, Sparse data driven mesh deformation, IEEE Transactions on Visualization and Computer Graphics, 2021, Vol. 27, No. 3, 2085-2100.

  5. Steven Liu, Xiuming Zhang, Zhoutong Zhang, Richard Zhang, Jun-Yan Zhu, and Bryan Russell, Editing conditional radiance fields, IEEE ICCV, 2021, 5773-5783.

  6. Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, TakuKomura, and Wenping Wang, NeuS: Learning neural implicit surfaces by volume rendering for multi-view reconstruction, NeurIPS, 2021.

  7. Olga Sorkine-Hornung and Marc Alexa, As-rigid-as-possible surface modeling, Symposium on Geometry Processing, 2007.

  8. Yixin Hu, Teseo Schneider, Bolun Wang, Denis Zorin, and Daniele Panozzo, Fast tetrahedral meshing in the wild, ACM TOG, 2020, 39:117:1-117:18.

GGC往期回顾

1. CVM 2023诚邀投稿,相聚深圳!

2. 粤港澳大湾区 (黄埔) 国际算法算例大赛

3. 计图开源:人脸视频编辑神器DFVE

4. 第二届计图挑战赛B榜前十名产生,风景图片生成赛题投票通道开启!
5. CVMJ获得首个SCI影响因子4.127,进入Q1区

您可通过下方二维码,关注清华大学计算机系图形学实验室,了解计算机图形学、Jittor框架、CVMJ期刊及会议的相关资讯。

Search

    Table of Contents