程明明教授团队提出深度霍夫变换,Jittor框架下语义线检测性能大幅提升
图像中的语义线
图像中直线(线段)的检测是一个经典的计算机视觉问题,图像中的线结构是一种有用的中间层表示,在人类视觉中从底层到高层的语义信息转换中有着重要作用 [2]
自然图像中的“语义线”指的是图像中能够勾勒出图像内容结构的直线,例如不同区域的分割线,建筑物的中轴线等。语义线检测[3]在摄影构图[4,5],图像处理[6]等多种任务中有着广泛应用。如图1所示,将图像中的语义线置于照片的黄金分割比位置能拍出视觉效果更好的效果 [4]。
传统的霍夫变换需要先用边缘检测算法(例如canny算子)对图像进行边缘检测,然后在边缘检测的结果之上进行霍夫变换,最后在变换空间通过寻找局部最大值来检测直线。
直线参数化
为了进行霍夫变换,首先要定义直线参数化的规则。
在深度特征上进行霍夫变换
经过深度霍夫变换,原特征空间 X 上的一根直线对应参数空间 Y 上的一个点。在很多视觉任务中,特征的上下文(context)对于检测结果十分重要,深度霍夫变换将直线转化为点,因此提取相邻直线的上下文信息对应于在参数空间中提取相邻点的特征,大大简化了上下文信息提取的效率。
总的来说,深度霍夫变换算法有如下几个优点:
高度可并行化,相比基于目标检测的SLNet方法加速了接近20 倍;
极大简化了非极大值抑制;
高效的上下文直线信息提取。
定量对比
表1 不同方法在数据集上的定量对比
可视化结果展示
图5 SEL数据集上的可视化对比
DHT算法不仅能取得更高的检测精度,同时也能极大地降低检测耗时。这主要归功于 DHT 算法的高度可并行化。
下表统计了不同方法在 RTX 2080Ti显卡上的平均推理耗时,SLNet 最快需要0.447秒,HED+霍夫变换的方法需要0.155秒,而DHT 算法仅需0.020秒。
图5:SEL和论文新构建的 NKL 数据集的场景分布
从上图可以看出,SEL 的大部分样本集中在天空、场地等少数场景,而NKL数据集中样本的分布更为多样化,同时场景类别也更多。
Jittor框架大幅提升推理速度
该论文提供了基于清华大学自主研发的“计图” (Jittor) 框架的推理代码,得益于Jittor框架“元算子融合”和“统一计算图”两项新技术[8],DHT 算法无需任何优化情况下推理速度相比PyTorch 就有显著提升。
下表给出了不同显卡上,Jittor框架和PyTorch框架对前向预测的性能对比。
参考文献
Kai Zhao, Qi Han, Chang-Bin Zhang, Jun Xu, Ming-Ming Cheng, Deep Hough Transform for Semantic Line Detection, IEEE T-PAMI, 2021.
J. B. Burns, A. R. Hanson, and E. M. Riseman, Extracting straight lines, IEEE T-PAMI, Vol. 8, No. 4, 425–455, 1986.
J.-T. Lee, H.-U. Kim, C. Lee, and C.-S. Kim, Semantic line detection and its applications, ICCV, 2017, 229–3237.
L. Liu, R. Chen, L. Wolf, and D. Cohen-Or, Optimizing photo composition, Computer Graphics Forum, Vol. 29, No. 2, 469–478, 2010.
M. Freeman, The photographer’s eye: composition and design for better digital photos, CRC Press, 2007
M.-M. Cheng, X.-C.Liu, J. Wang, S.-P. Lu, Y.-K. Lai, and P. L. Rosin, Structure-preserving neural style transfer, IEEE TIP, Vol. 29, 909–920, 2020.
R. O. Duda and P. E. Hart, Use of the hough transformation to detect lines and curves in pictures, Sri International Menlo Park Ca Artificial Intelligence Center, Tech. Rep., 1971.
S.-M. Hu, D. Liang, G.-Y. Yang, G.-W. Yang, W.-Y. Zhou, Jittor: a novel deep learning framework with meta-operators and unified graph execution, Science China Information Sciences, Vol. 63, No.12, 2020, 222103:1-21.
您可通过下方二维码,关注清华大学图形学实验室,了解图形学、Jittor框架、CVMJ期刊和CVM会议的相关资讯。