计图开源:基于跨模态实例与类别对比学习的单张图像三维模型检索

2021/10/03 Tutorial

计图开源:基于跨模态实例与类别对比学习的单张图像三维模型检索

近期,中科院计算所、阿里巴巴淘系、北京大学与英国卡迪大学的研究团队在IEEE ICCV 2021发表了一项研究工作[1]。该工作提出了一种新颖的基于跨模态对比学习 (contrastive learning) 的单张图像三维模型检索方法,大幅提高了三维模型检索的准确率,取得了SOTA的性能,并开源了基于计图实现的代码。

Part 1
研究背景
包括图像检索和三维模型检索在内的多媒体检索是计算机图形学和视觉中的经典研究问题,其挑战之一是如何刻画检索图像与三维模型这种不同模态之间的相似关系。

由于深度学习和具有丰富对象与类别的三维模型数据集的发展,及其在场景重建、三维打印、虚拟现实和电子商务平台等领域的广泛应用,基于单张真实图像的三维模型检索任务最近获得了较多的关注。

传统的基于单张图像的三维模型检索方法[2,3]在检索模型训练过程中都采用了基于度量学习(Metric learning)的三元组损失(Triplet loss),需要挖掘难分样本。由于样本挖掘的随机性,构成训练样本的三元组在训练后期大部分变成了无效样本,从而减缓训练的收敛速度、限制了检索准确率的进一步提高。对于三维模型检索,能否突破三元组损失,进一步提升检索的准确度,成为了研究关注的重点。
这一项发表于IEEE ICCV 2021上的研究工作提出了一种新颖的基于跨模态对比学习(contrastive learning)的单张图像三维模型检索方法,大幅提高了三维模型检索的准确率,取得了SOTA的性能,并开源了基于计图实现的代码。
该工作的一个重点是构造实例间和类别间的双重对比损失函数来替代三元组损失。作为近年来的热门研究方向,对比学习使用对比损失(contrastive loss),使得同一样本的不同数据增强拥有相似的编码,不同的样本拥有不同的编码,在无监督表征学习上取得了很大的成功。
具体在这项工作中,在区分不同样本实例上,对比学习的这一机制与度量学习的方法不谋而合;而在区分不同类别的样本时,可以将类别标签引入对比学习,形成监督性对比学习[4],进一步拉开不同类别的物体之间的编码间距。针对使用对比学习需要很强的数据增强的要求,此工作引入了颜色转换来解耦检索图像中颜色与形状的特征,使得检索网络专注于学习颜色无关特征。图1展示了基于该方法的检索可视化结果。

图1 检索可视化结果

Part 2
方法概述

由于二维检索图像与三维模型是不同模态的数据,因而无法直接进行相似度的计算。该方法先使用平面阴影渲染的方式将三维模型转化成其所对应的多视角单通道灰度图来进行表示。

在检索网络训练过程中,为了保证检索图像能够在每代训练中获取一个不固定的变化风格,每张检索图像的变化风格来源都是从一个小批次的其他检索图像中随机选取的。
参照[5]中的算法,先将源风格图像与目标几何图像从RGB空间转到lαβ空间,该空间比起RGB空间而言,最小化了不同颜色通道之间的相关性。接着,在lαβ空间进行转换。其中包括,对目标几何图像的中心化、按各自的标准偏差确定的系数进行缩放、按源风格图像均值进行偏移。最终,将变换后的图像从lαβ再转回RGB空间。颜色转换模块通过将不同检索图像的几何与颜色进行重新组合来解耦几何与颜色特征,使得检索网络专注于提取几何特征。
检索网络使用检索图像编码器与多视角渲染图像编码器来获取对应图像编码。在得到检索图像的编码与待查询三维模型的编码之后,该方法基于对比学习,分别在实例与类别两个级别上设计损失项进行监督。从实例级别的角度出发,在一个小批次中对于检索图像,其正样本为其所对应的三维模型,其余的三维模型均作为负样本。因此,实例级别的损失项以编码的形式表示为:

为了减小数据标签中类别信息对于检索网络的干扰,该方法从类别角度也进行监督。此时的正样本为其所对应的三维模型具有相同类别标签的其它所有三维模型。因此,类别级别的损失项以编码的形式表示为:

注意到,三元组损失中只有一个正样本与一个负样本;实例级别损失有一个正样本和多个负样本;类别级别损失有多个正样本和多个负样本。因此,该方法可以避免三元组损失中难分负样本的挖掘。监督网络的结构图如图2所示。
图2 实例间和类别间双重对比学习监督网络

在测试过程中,检索图像编码器的输入不再经过颜色转换模块而被直接使用。通过计算检索图像与所有三维模型的相似度,选出相似度最高的模型作为检索结果。

Part 3
结果展示
1展示了在Pix3DComp CarStanford Car等常见数据集上与现有的检索方法对比结果,该方法在绝大部分数据集上取得了业界最优的效果。

表1 与现有方法的量化指标对比结果

图3展示了相较于使用随机的HSV进行颜色上的数据增强,该方法使用的颜色转换模块能够将源风格图像的颜色风格转换到目标几何图像上,而且从视觉上看更加自然。这是因为该方法从真实图像上提取颜色数据特征,而HSV增强则是一种随机扰动。

图3 颜色转换数据增强与HSV对比结果
图4使用t-SNE展示了对于Pix3D数据集上的某张检索图像编码与所有三维模型编码之间的相似度。左图表示不从类别进行监督的结果,右图表示使用类别信息进行监督的结果。可以看出,使用类别监督之后能够将同类模型聚集起来,将异类模型分离开来,从而减小类别标签对于检索的影响。

图4 使用类别信息进行监督前后的结果
Part 4
Jittor开源
基于图像的三维模型检索是计算机图形学与视觉的重要研究内容之一,传统的基于三元组损失进行监督的方法需要进行难分样本的挖掘。本文介绍的方法通过引入对比学习,设计了实例间和类别间双重对比损失监督,使用颜色转换将几何与颜色特征进行解耦,提高了检索网络的检索准确率。

该论文作者包括中科院计算所的林明仙和高林副研究员 (通讯)、北京大学王鹤助理教授、英国卡迪夫大学Yu-Kun Lai教授、阿里巴巴淘系部门贾荣飞博士和赵斌强资深算法专家等。

该研究项目基于计图实现的代码链接为:

https://github.com/IGLICT/IBSR_jittor。

在Jittor框架的加持下,在相同参数条件下,基于计图实现的训练速度是PyTorch版本的1.78倍,推理速度是PyTorch版本的1.26倍

参考文献

  1. Ming-Xian Lin, Jie Yang, He Wang, Yu-Kun Lai, Rongfei Jia , Binqiang Zhao, Lin Gao*, Single Image 3D Shape Retrieval via Cross-Modal Instance and Category Contrastive Learning. IEEE International Conference on Computer Vision (ICCV),2021.

  2. Alexander Grabner, Peter M. Roth, and Vincent Lepetit, Location field descriptors: Single image 3D model retrieval in the wild. In International Conference on 3D Vision (3DV), 583–593, 2019.

  3. Huan Fu, Shunming Li, Rongfei Jia, Mingming Gong, Binqiang Zhao, and Dacheng Tao, Hard example generation by texture synthesis for cross-domain shape similarity learning. In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan,and H. Lin, editors, Advances in Neural Information Processing Systems, Vol. 33, 14675–14687. Curran Associates, Inc., 2020.

  4. Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, and Dilip Krishnan, Supervised contrastive learning. In H. Larochelle, M. Ranzato, R. Hadsell, M. F. Balcan, and H. Lin,editors, Advances in Neural Information Processing Systems, Vol. 33, 1866118673. Curran Associates, Inc., 2020.

  5. Erik Reinhard, Michael Adhikhmin, Bruce Gooch, and Peter Shirley. Colortransfer between images. IEEE Computer graphics and applications, Vol. 21, No. 5, 34–41,2001.

GGC往期回顾
1.  支持Windows CUDA、Mac M1、全面支持国产生态!Jittor 1.3版本发布 
2.  彭群生、王文平、Yuki Koyama分获亚洲图形学学会2021年度三项大奖
3.  CVM 2022投稿日期推迟了,录取的论文全部推荐到TVCG和CVMJ等期刊发表
4.  支持遥感图像了,Jittor开源物体检测算法库JDet
5.  计图团队首创三角网格面片上的卷积神经网络、图像上的网络架构可以做三维模型的深度学习了!

您可通过下方二维码,关注清华大学图形学实验室,了解计算机图形学、Jittor深度学习框架、CVMJ期刊和CVM会议的相关资讯。

Search

    Table of Contents