第六期“计图”论坛:计算机视觉中的注意力模型,将于1月6日举办

2021/12/30 Tutorial

第六期“计图”论坛:计算机视觉中的注意力模型,将于1月6日举办

计图(Jittor)是清华大学计算机系图形学实验室于2020年3月20日开源的自主深度学习框架。

2021年11月16号,Jittor团队和南开大学程明明教授和卡迪夫大学Ralph R.Martin教授等合作,在ArXiv上发布关于计算机视觉中的注意力机制的综述文章[1]。该综述系统地介绍了注意力机制在计算机视觉领域中相关工作,并创建了一个仓库: 

https://github.com/MenghaoGuo/Awesome-Vision-Attentions

用于收集注意力机制的相关论文和实现。目前该仓库已经收集论文超过100篇,并使用Jittor框架实现了25种不同的注意力模型。截至目前,该仓库已获超过1000个star。

为了促进计算机视觉中注意力模型相关领域的发展,计图团队拟于2021年1月6日(周四)下午2:00-4:30,举办计算机视觉中注意力模型的研讨会。

Part1

“计图”论坛
Jittor框架开源后,为促进我国人工智能技术的发展和开源深度学习生态的构建,清华大学计算机系图形学实验室举办计图深度学习系列研讨会,旨在提供一个论坛以展示深度学习最新的研究成果,交流Jittor框架的进展和应用。

第六期“计图”论坛将于1月6日举办,论坛邀请微软亚洲研究院(MSRA)视觉计算组研究员胡瀚博士和苏黎世联邦理工大学 (ETH Zürich)的范登平博士分别介绍他们的最新研究成果 Swin Transformer[2](ICCV Best Paper) 和PVT V1/V2 [3-4],并由计图团队的国孟昊博士生做报告,介绍计算机视觉中的注意力机制,以及计图开源注意力模型的情况。

报告一:Swin Transformer和在计算机视觉中拥抱Transformer的五个理由

报告人:胡瀚博士,微软亚洲研究院

胡瀚,微软亚洲研究院视觉计算组研究员,于2014年和2008年在清华大学自动化系分别获得博士和本科学位,博士论文获得中国人工智能学会优博奖,博士期间曾在宾夕法尼亚大学访学。担任CVPR2021/2022领域主席。目前主要研究兴趣是基本视觉建模,视觉自监督学习,以及视觉-语言联合表征学习,是Swin Transformer,关系网络系列和可变形卷积系列的作者。

图1 微软亚洲研究院胡瀚研究员

报告二:金字塔视觉特征变换网络及其应用

报告人:范登平,苏黎世联邦理工大学

范登平,苏黎世联邦理工大学(ETH Zurich)博士后,曾担任IIAI研究员、IJCAI'21资深程序委员会委员。在CCF A类顶级国际期刊和会议上发表学术论文25 篇,包括5篇IEEE T-PAMI,连续两年获CVPR最佳论文提名奖(入选率为0.8%和0.4%),谷歌学术总引用3700余次。

图2 ETH Zurich范登平博士

报告三:计算机视觉中的注意力机制

报告人:国孟昊,清华大学博士生

国孟昊,清华大学计算机系2020级直博生,导师为胡事民教授,计图深度学习框架核心开发成员。研究方向为计算机图形学、计算机视觉和视觉注意力机制;在ICLR、ACM TOG和 CVMJ 等期刊会议上发表多篇论文。

图3 清华大学国孟昊博士生

Part2

论坛议程
计算机视觉中的注意力模型研讨会将于1月6日下午线下线上同步举办,具体日程如下。

因为疫情防控的原因,研讨会以线下和线上结合的方式,清华校内的师生可以通过注册申请现场参会,其他参会者可以注册申请进腾讯会议室参会,或直接扫描下方的二维码,在哔哩哔哩(Bilibili)的直播中听演讲和参与互动。

如果在电脑上参会,不便扫描二维码,也可以通过网页链接进入。

Bilibili:https://live.bilibili.com/22558868

我们鼓励参会者通过下方链接免费注册,尤其是希望使用Jittor研发的研究人员和学生,以便我们后续通知您关于Jittor的版本发布和计图深度学习研讨会的信息。

注册地址:

http://iccvm.org/jittor_register/en/account

对最早注册的100位参会者,我们将通过邮件,邀请进腾讯会议参与讨论,并通过邮寄获赠Jittor纪念U盘一只或JittorT恤衫一件。

参考文献
  1. Meng-Hao Guo, Tian-Xing Xu, Jiang-Jiang Liu, Zheng-Ning Liu, Peng-Tao Jiang, Tai-Jiang Mu, Song-Hai Zhang, Ralph R. Martin, Ming-Ming Cheng, Shi-Min Hu. Attention Mechanismsin Computer Vision: A Survey, arXiv preprint arXiv:2111.07624, 2021.

  2. Liu Z, Lin Y, Cao Y, etal. Swin transformer: Hierarchical vision transformer using shifted windows, arXiv preprint arXiv:2103.14030, 2021.

  3. Wang W, Xie E, Li X, et al. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions, arXiv preprint arXiv:2102.12122, 2021.

  4. Wang W, Xie E, Li X, et al. Pvtv2: Improved baselineswith pyramid vision transformer[J]. arXiv preprint arXiv:2106.13797, 2021.

GGC往期回顾

1. 南理工团队开源基础模型库jimm,获最佳计图模型库奖

2. 首届JDC召开,计图技术委员会评出2021年度优秀Jittor开源项目

3. CVMJ首次入选,列中科院期刊分区表二区

4. Computational Visual Media第8卷第2期导读

5综述 | 计算机视觉中的注意力机制


您可通过下方二维码,关注清华大学计算机系图形学实验室,了解图形学、Jittor框架、CVMJ期刊的相关资讯。

Search

    Table of Contents