计图AI算法挑战赛评测已开放,看数据集解读,赢大奖发论文!

2022/04/28 Tutorial

计图AI算法挑战赛评测已开放,看数据集解读,赢大奖发论文!

计图 (Jittor) 人工智能算法挑战赛是在国家自然科学基金委信息科学部指导下,由北京信息科学与技术国家研究中心和清华大学-腾讯互联网创新技术联合实验室于 2021 年创办、基于清华大学Jittor深度学习框架的人工智能算法大赛。今年,该赛事将同时作为中国软件开源创新大赛中开源任务挑战赛的赛事之一,开展 AI 算法竞赛。 

大赛面向所有在校学生和 AI 相关领域从业人士开放,旨在通过竞赛的方式提升人们对数据分析与处理算法研究与技术应用的能力,推动我国自主人工智能平台的生态建设和人工智能应用的不断深入;本次大赛得到了腾讯公司的赞助。
Part1
评测正式开放

计图人工智能算法挑战赛已经于4月25日正式开放评测,大赛日程如下图所示。

截至今天,已经有相当多的选手通过了计图热身赛,并通过gitlink开源,祝贺这些选手们!

同时,计图大赛两个赛道的战况都十分焦灼,短短3天时间,很多选手的成绩已经超过组委会提供的baseline。

Part2

赛题以及数据集分析

A赛道:风景画生成

一、赛题及数据集介绍
图像生成任务一直以来都是十分具有应用场景的计算机视觉任务,从语义分割图生成有意义、高质量的图片仍然存在诸多挑战,如保证生成图片的真实性、清晰程度、多样性、美观性等。
清华大学计算机系图形学实验室从Flickr官网收集了 12000 张高清的风景图片,并制作了它们的语义分割图。其中,1万对图片被用来训练。

比赛的任务是从语义分割图生成符合语义的风景图片。如下图,给出左侧的语义分割图,生成带有天空、草地、山川的高清真实图片。 

图1 语义分割图和风景图片

我们统计了数据的类别分布,其中位列前 3 的分别是山川、天空、海水,占比分别为 35%、33%、23%。
二、评测指标
赛题分为A、B两个榜单。A榜结束后将按排名筛选、审核让若干支队伍进入B榜。
A榜评分公式:mask accuary*(美学评分/10*50%+(100-FID)/100*50%)
  • Mask accuary:

    根据用户生成的1000张图片,使用 SegFormer 模型对图片进行分割,然后计算分割图和gt分割图的mask accuary=(gt_mask== pred_mask).sum()/(H*W),确保生成的图片与输入的分割图相对应。Mask accuary 越大越好,其数值范围是0~1。

  • 美学评分:

    由深度学习美学评价模型为图片进行美学评分,大赛组委会参考论文 [2-4] 中的论文设计了自动美学评分。

    该分数将归一化到 0~1。

  • FID(Frechet Inception Distance score):

    计算生成的 1000 张图与训练图片的FID,该指标越小越好,将FID的100到0线性映射为 0 到 1。

    由于 baseline 代码的 FID 在 100 以内,所以 FID 大于 100 的将置为 100。

B榜评分公式:mask accuary * (美学评分 / 10 * 25% + (100 - FID) / 100 * 25%) + 15% 大众投票 + 15% 专家投票 + 20% 答辩分数。
用户提交B榜生成图片 1000 张,mask accuary、美学评分和 FID 计算方式参考 A 榜指标。此外,选手需要额外选择 3 张高质量图片进行投票评选。该3张图片将与进入B组的若干组选手共同接受大众以及专家的投票。
三、参赛指南及相关论文参考
参赛项目要提升指标,可以从三个方面入手。
第一,使得生成的图片更加符合给定的语义标签,也即提升 mask accuary,可以设计相关的损失函数来约束。可以参考文献[1]。
第二,提升生成图片的美学分数,可以调研美学评价指标的相关论文,从图片清晰度、色彩、明暗等角度尝试提升图片的美学分数。可以参考文献[2-4]。
第三,提升 FID,设计更优的网络架构提升图片的生成质量,使得与训练图片的分布尽可能接近。可以参考论文[5-6]。

B赛道:可微渲染新视角生成赛题

一、赛题及数据集介绍

可微渲染近年来已成为计算机视觉、计算机图形学等领域的研究热点。论文[7]发表仅2年就收获904次引用,引发了学术界对可微渲染新视角生成的研究热潮。

本赛事采用Mitsuba渲染器渲染了1000余张图片,并提供对应的相机参数用作训练数据集。数据集场景包含透明材质、金属材质、布料等复杂材质,我们期望通过提升场景在材质、几何、光照上的复杂度,让本赛事更有区分度,也更加有趣。
本次比赛的数据集包含5个不同的场景,每个场景有100-300张图片用于训练,20-60张图片用于验证和测试,具体如下图所示:      

图2 数据集的场景图像样例

其中Car、Coffee、Easyship三个场景相对简单。Scar、Scarf两个场景提供的训练视角偏少,且材质复杂性高,任务难度较高。

二、评价指标

赛题分为A、B两个榜单。A榜结束后将按排名筛选、审核后,评选若干支队伍进入B榜。
A榜评分公式:各场景输出图片与参考图片的峰值信噪比(PSNR)均值之和。
B榜评分公式:各场景输出图片与参考图片的峰值信噪比(PSNR)均值之和 * 50% + 15% 大众投票 + 15% 专家投票 + 20% 答辩分数  
  • 峰值信噪比(PSNR)越大越好,在B榜中会将PSNR线性映射为0到1。
B榜结果除生成图片外,选手需要额外将恢复出的三维几何导出成obj,供投票评选。各场景恢复出的几何obj将与进入B组的若干组选手共同接受大众以及专家的投票。
关于B榜评分具体细节将在A榜结束时公布。

三、参赛指南及相关论文参考

  1. 首先请参赛选手前往Github的Jrender仓库下载我们的比赛Baseline,并依照Readme中教程跑通Baseline,如果在跑Baseline的过程中遇到任何问题,请随时联系我们解决,我们比赛的QQ群号为1018591346。
  2. 跑通Baseline后建议参赛选手通读参考文献[7],理解Baseline仓库config文件中各参数的含义根据具体场景进行调整。
  3. NeRF虽然在漫反射场景上取得了不错的效果,但在高光、折射、布料复杂材质等场景上的效果仍需提高。在近期的SIGGRAPH,CVPR,ECCV,ICCV等会议上有很多论文针对NeRF的痛点进行了改进,具体请参考awesome-NeRF仓库
    https://github.com/yenchenlin/awesome-NeRF
    中给出的论文列表。期待大家在Baseline的基础上,实现更多更好的算法,更期待大家能有所创新,在可微渲染新视角生成领域做出新的贡献。

Part3

比赛奖励及成果发表

大赛组委会除了提供有腾讯赞助、高达28万的丰厚奖金,还将为选手提供以下福利:

  1. 比赛中表现优异的队伍有机会获得赛事专家委员会的推荐信(用于出国或推研)。
  2. 比赛中涌现出来的创新算法和AI模型,将被邀请提交论文到SCI期刊Computational Visual Media上发表。
  3. 可以获得腾讯校园招聘(包括实习)的绿色通道或其他便利,可提升简历曝光度及面试发起率。

欢迎大家积极报名参赛!

  • 比赛报名:
    https://www.educoder.net/competitions/index/Jittor-3
  • 选手可以在计图讨论社区挑战赛专栏参与讨论:

    https://discuss.jittor.org/c/competion/7
  • 赛事交流QQ群:1018591346,请填写“战队名称+真实姓名”提交入群申请。

此外,大赛还采用“腾讯乐享犀牛鸟校园”作为在线学习交流平台,后续将与QQ群同步开展

参考文献

  1. Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, SegFormer: Simple and efficient design for semantic segmentation with transformers, NeurIPS 2021.

  2. Dongyu She, Yu-Kun Lai, Gaoxiong Yi, Kun Xu, Hierarchical layout-aware graph convolutional network for unified aesthetics assessment, CVPR 2021, 8475-8484.

  3. Hossein Talebi, Peyman Milanfar, NIMA: Neural image assessment, EEE Transactions on Image Processing, 2018, Vol. 27, No. 8, 3998-4011.

  4. Jun-Tae Lee; Chang-Su Kim, Image aesthetic assessment based on pairwise comparison a unified approach to score regression, binary classification, and personalization, ICCV 2019, 1191-1200
  5. Tero Karras, Samuli Laine, Timo Aila, A Style-Based Generator Architecture for Generative Adversarial Networks, CVPR 2019, 4401-4410. 
  6. Tero Karras; Samuli Laine; Miika Aittala; Janne Hellsten; Jaakko Lehtinen; Timo Aila, Analyzing and Improving the Image Quality of StyleGAN, CVPR 2020, 8107-8116. 

  7. Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi & Ren Ng, NeRF:Representing Scenes as Neural Radiance Fields for View Synthesis, ECCV 2020, 405–421. 

GGC往期回顾
1. 第二届“计图”人工智能算法挑战赛启动
2. CVM 2022: 第十届计算可视媒体国际会议圆满闭幕,2023相聚深圳
3. CVMJ公布2021年度最佳论文奖,多位图形学著名学者获奖
4. IEEE T-PAMI:清华大学联合斯坦福大学、英伟达提出多视角点云的联合注册方法
5. 计图开源: 图匹配网络SuperGlue的优化!速度超TensorRT、显存省一半以上
您可通过下方二维码,关注清华大学计算机系图形学实验室,了解计算机图形学、Jittor框架、CVMJ期刊及会议的相关资讯。

Search

    Table of Contents