计图开源:高林团队CVPR发文, 提出基于NeRF的场景风格化方法

2022/05/14 Tutorial

计图开源:高林团队CVPR发文, 提出基于NeRF的场景风格化方法

3D场景的建模和新视角生成是计算机图形学和计算机视觉的重要任务之一。同时风格化技术也备受产业界关注,在数字媒体内容生成和影视工业等领域有着广泛的应用。但在基于可微渲染的新视角生成技术NeRF和风格化技术之间却存在着空白。
近期,中科院计算所的高林团队提出了一种基于神经辐射场的三维场景风格化方法StylizedNeRF[1],提出的2D卷积网络和3D辐射场网络互学习机制,可训练得到一个可以进行风格化的神经辐射场网络,该网络在给定风格图片参考后可以得到高质量的三维一致的风格化效果。

下图展示了StylizedNeRF在LLFF和Tank&Temple数据集上的部分场景风格化效果。

图1 StylizedNeRF的风格化效果

Part1
问题背景和研究思路

理想的3D场景新视角风格化技术应该能够提供稳定且3D视角一致的风格化效果。具体而言,在不同视角下的同一物体应该具备一致的风格化外观,同时风格效果要接近用户输入的风格图片。现有的3D风格化技术难以同时满足以上要求。

近年来3D表示方法的飞速发展,复杂3D场景能够表示为点云、神经辐射场等形式。相比于点云,神经辐射场在三维空间中连续且稠密,因此更容易利用神经网络进行学习训练。
StylizedNeRF利用了2D-3D的互学习方法,让神经辐射场网络和2D的卷积解码网络相互利用对方的优势,达到了兼具一致性和高质量风格化的效果。如图2所示,2D方法优异的单帧风格化能力和神经辐射场的一致性特性在StylizedNeRF中得到了结合。

图2 神经辐射场和2D风格化方法的优势结合

神经辐射场为2D卷积网络提供场景的几何先验,会约束其风格化结果尽可能地符合几何一致性。经过一致性约束后的2D卷积网络又为神经辐射场提供了像素级的精细风格化指导,同时由于2D卷积网络的输出较为一致,避免了神经辐射场的模糊性。
Part2
StylizedNeRF方法概述

StylizedNeRF核心在于一种新颖的2D到3D的互学习技术,来训练一个具备风格化能力的神经辐射场。如图3所示,2D的风格化方法采用的是经典的AdaIN[4]。其中的2D卷积解码器Decoder和添加了风格颜色预测模块的神经辐射场StylizedNeRF之间进行2D-3D互学习。

图3 2D-3D互学习方法示意图

互学习的首个阶段是将神经辐射场的几何先验传递给2D风格化卷积网络,同时训练2D网络的风格化能力。在此阶段,风格化损失和内容损失在2D卷积解码器的输出上进行计算和优化。由于2D卷积解码器相比于神经辐射场并不占用太大的显存空间,因此可以使用更大的采样图块,获得更高质量的风格化结果以指导StylizedNeRF。

与此同时,从预训练的神经辐射场可以得到渲染图像各个像素点的空间坐标,基于空间坐标便可以约束三维空间中同一位置的渲染结果一致。该一致性约束损失也参与对2D风格化卷积网络的预训练。接着,经过预训练的2D卷积解码器和风格化神经辐射场的输出之间通过一个模仿损失项进行对齐。
2D卷积解码器的风格化结果在不同视角间并不是完全一致的,这会造成神经辐射场的输出发生模糊。为了表示这种不一致,StylizedNeRF引入了可学习的隐向量作为神经辐射场的输入。
为了能够条件化地进行风格化,StylizedNeRF引入了一个预训练的风格图片VAE来对隐变量进行条件概率建模,使用极大似然损失来对隐变量进行约束。同时,从神经辐射场蒸馏而来的一致性知识传递给了2D解码器,减少了其输出的不一致,降低了隐变量表示帧间不一致的难度。
Part3
结果展示
通过控制输入,StylizedNeRF能够将场景转换为不同的风格。在对比实验中,StylizedNeRF相比于基于视频的风格化方法具备更好的一致性保持能力,比同类场景风格化方法拥有更精确的几何表示能力。
条件控制的风格化 下图展示了条件控制风格化的结果,通过输入风格图片经过VAE编码分布的均值向量,能够让StylizedNeRF渲染出相应的风格化场景,同时保持不同视角下的一致性。

图4 条件控制风格化的结果

对比实验 下图展示了StylizedNeRF与基于点云的风格化方法[2]的对比结果。[2]由于点云的离散属性,对于一些细节的几何表示(如路灯,栏杆,窄缝等)存在较大的误差。StylizedNeRF在场景的几何表示方面比[2]更具优势。

图5与方法LSNV [2]的对比

下图展示了StylizedNeRF与最新的发表在WACV2022上的同期工作[3]的比较结果。可以看出,由于[3]的风格化损失和内容损失是在一个近似大图块的小采样图块上计算得到的,因此会丢失一些局部的细节。基于2D-3D互学习机制,StylizedNeRF能够更好地利用2D方法给出的精细指导,从而更好地保持了风格化之后的细节信息。

图6 与同期工作 [3]的比对
Part4
Jittor开源,训练速度较Pytorch提升1.73倍

StylizedNeRF通过一种2D-3D的互学习方法,让神经辐射场网络和2D的卷积解码网络相互利用对方的优势,达到了兼具一致性和高质量风格化的效果。

该论文已发表在计算机视觉顶级会议CCF A类会议IEEE/CVF CVPR上。有关论文的更多细节及论文、代码的下载,请浏览项目主页。

http://geometrylearning.com/StylizedNeRF/

该研究论文的作者还包括高林团队的研究生黄熠华、何月和袁宇杰以及英国卡迪夫大学的来煜坤教授。

目前StylizedNeRF已经发布计图(Jittor) 版本的代码!
https://github.com/IGLICT/StylizedNeRF
Jittor是清华大学计算机系图形学实验室研发并开源的国产深度学习框架,因为元算子和统一计算图的创新优势,训练和推理性能和国产芯片支持上有较大优势。
在Jittor框架的加持下,StylizedNeRF能够显著节省显存消耗,提高训练的效率。在相同的batchsize下,Jittor所需的显存空间仅为Pytorch版本的一半。在占据显存空间相当的条件下,Jittor的训练速度是Pytorch的1.73倍,能够在相同的条件配置下有效提升训练的效率。
参考文献
  1. Yi-Hua Huang, Yue He, Yu-Jie Yuan, Yu-Kun Lai and Lin Gao, StylizedNeRF: Consistent 3D Scene Stylization as Stylized NeRF via 2D-3D Mutual Learning, IEEE/CVF CVPR, 2022.
  2. Hsin-Ping Huang,Hung-Yu Tseng, Saurabh Saini, Maneesh Singh, and Ming-Hsuan Yang, Learning to stylize novel views, IEEE/CVF CVPR, 2021, 13869-13878. 

  3. Pei-Ze Chiang,Meng-Shiun Tsai, Hung-Yu Tseng, Wei-Sheng Lai, and Wei-Chen Chiu, Stylizing 3D Scene via Implicit Representation and HyperNetwork, IEEE/CVF Winter Conference on Applications of Computer Vision, 2022,1475-1484. 

  4. Xun Huang andSerge Belongie, Arbitrary style transfer in real-time with adaptive instance normalization, IEEE/CVF ICCV, 2017, 1501-1510. 

 GGC往期回顾

1. 计图开源:清华刘玉身团队发表PAMI论文,提出点云补全网络PMP-Net++
2. 计图AI算法挑战赛评测已开放,看数据集解读,赢大奖发论文!
3Computational Visual Media第8卷第3期导读
4. CVMJ公布2021年度最佳论文奖,多位图形学著名学者获奖
5. IEEE T-PAMI:清华大学联合斯坦福大学、英伟达提出多视角点云的联合注册方法

您可通过下方二维码,关注清华大学计算机系图形学实验室,了解计算机图形学、Jittor框架、CVMJ期刊及会议的相关资讯。

Search

    Table of Contents