三维高斯泼溅进展综述 | CVMJ Spotlight

中国科学院计算技术研究所高林研究员团队、VAST首席科学家曹炎培博士和加利福尼亚大学圣芭芭拉分校闫令琪助理教授在Computational Visual Media上发表综述论文[1]，系统性地介绍了近期三维高斯泼溅领域的研究进展，涵盖了基于三维高斯泼溅表示的三维重建、三维编辑和其他下游应用，并总结了三维高斯泼溅、隐式场和网格等三维表示的优劣。

Part 1

研究背景

三维高斯泼溅(3D Gaussian Splatting，3DGS)加快了新视角合成的渲染速度。与使用定义在位置和视点上的神经网络来表示三维场景的神经隐式表示(如神经辐射场(NeRF))不同，三维高斯泼溅利用一组高斯椭球来建模场景，通过将高斯椭球光栅化为图像来实现高效渲染。除了快速渲染外，三维高斯泼溅的显式表示还促进了诸如动态重建、几何编辑和物理模拟等下游任务。鉴于这一领域的快速变化和不断涌现的研究成果，作者对最近的三维高斯泼溅方法进行了文献综述，旨在帮助初学者快速进入该领域，并为有经验的研究人员提供全面的概述，激发三维高斯泼溅表示的未来发展。

Part 2

三维高斯泼溅发展进程

本篇综述按照三维重建、三维编辑和其他下游应用三个方面，对当前的研究进行了分类。同时对于每个大类，按照操作对象或者目标进行进一步分类，将三维重建细分为质量提升、压缩与正则、动态三维重建和挑战性输入的三维重建，将三维编辑细分为几何编辑、外观编辑和物理仿真，其他下游应用则包括分割与理解、几何重建与SLAM、数字人、三维/四维生成。详细分类参见图1。

图1 研究工作分类图

除此之外，该综述还以时间轴和树状图的形式整理了各个分类的代表性工作（参见图2和图3），以方便研究工作者可以根据自己的研究兴趣和研究方向进行选择性和针对性的阅读，帮助他们更好地了解三维高斯泼溅的研究。

图2 各个分类代表性工作时间轴

图3 各个分类代表性工作树状图

此外，三维高斯泼溅作为一种新的三维表示方式，其与现有的三维表示例如神经辐射场的对比也是一个值得探讨的问题。为此，本综述将不同任务中基于神经辐射场和基于三维高斯泼溅的代表性工作进行了对比，总结它们优缺点。具体量化的对比结果参见表1和表2。

表1 基于神经辐射场和三维高斯泼溅的代表性工作在MipNeRF360[2]数据集的对比表

表2 基于神经辐射场和三维高斯泼溅的代表性工作在D-NeRF[3]数据集的对比表

Part 3

挑战与未来发展方向

本综述还讨论了在这一领域未来的挑战和发展方向，供研究人员参考。

鲁棒且具备泛化能力的新视角合成。尽管三维高斯泼溅在新视角合成方面已经取得了逼真的效果，但在处理诸如稀疏视角输入、复杂阴影效果和大规模场景等具有挑战性的输入时，其重建质量会有所下降。如何提高其在不同输入上的重建鲁棒性是一个重要问题。
几何重建。尽管在渲染质量方面三维高斯泼溅已经达到逼真的效果，但只有较少的方法使用三维高斯泼溅表示进行几何重建。与神经辐射场和隐式场等连续隐式表示相比，三维高斯泼溅的几何质量仍受到其离散几何表示的影响。
独立且高效的三维编辑。已有一些方法探索了三维高斯泼溅几何、纹理和光照的编辑。然而，它们无法准确分解几何、纹理和光照，或者需要重新优化高斯属性。因此，这些方法仍然缺乏独立编辑能力或在编辑过程中缺乏效率。通过更先进的渲染技术提取几何、纹理和光照以促进独立编辑，并建立三维高斯泼溅与基于网格的表示之间的联系以实现高效编辑，是一个很有前景的方向。
逼真的四维生成。在基于扩散模型的SDS损失的帮助下，使用三维高斯泼溅表示的生成模型已经产生了真实的结果。然而，当前方法生成的四维结果仍然缺乏逼真的几何、外观和物理真实的运动。整合视频生成模型和物理定律生成的数据先验可能会提高生成的四维内容的质量。
平台。大多数实现三维高斯泼溅表示的方法和框架都是用支持CUDA的PyTorch框架编写的，这可能会限制其在更广泛平台上的适用性。用Tensorflow和Jittor等深度学习框架重构它，可以促进其在其他平台上的使用。

参考文献

Tong Wu, Yu-Jie Yuan, Ling-Xiao Zhang, Jie Yang, Yan-Pei Cao, Ling-Qi Yan, Lin Gao, Recent Advances in 3D Gaussian Splatting. Computational Visual Media, Vol.10, 2024.
Jonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, Peter Hedman, Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields, CVPR, 2022.
Albert Pumarola, Enric Corona, Gerard Pons-Moll, Francesc Moreno-Noguer, D-NeRF: Neural Radiance Fields for Dynamic Scenes, CVPR, 2020.

作者简介

吴桐，中国科学院计算技术研究所博士生，研究兴趣包括计算机图形学和几何建模。

袁宇杰，中国科学院计算技术研究所博士生，研究兴趣包括计算机图形学和几何建模。

张凌霄，中国科学院计算技术研究所工程师，研究兴趣包括计算机图形学和三维计算机视觉。

杨洁，中国科学院计算技术研究所助理研究员，研究兴趣包括计算机图形学和几何建模。

曹炎培，VAST首席科学家，博士毕业于清华大学，研究兴趣包括计算机图形学和计算机视觉。

闫令琪，加利福尼亚大学圣芭芭拉分校助理教授，研究兴趣包括计算机图形学和实时渲染。

高林，中国科学院计算技术研究所研究员，研究兴趣包括计算机图形学和几何建模。

GGC往期回顾

1. 计图开源：面向大规模非凸双层优化问题的一阶非嵌套高效算法

2. CVMJ获最新期刊影响因子17.3，计算机学科软件工程类别排名第一

3. Scopus发布2023年度影响因子, CVMJ从11.1升至16.9, 排名4/106