南理工团队开源基础模型库jimm,获最佳计图模型库奖

2021/12/29 Tutorial

南理工团队开源基础模型库jimm,获最佳计图模型库奖

9月10日,南京理工大学魏秀参教授团队的在读研究生沈阳、孙旭豪等基于计图(Jittor)开发的Jittor Image Models (jimm) 基础模型库正式开源发布。该模型库可支持快速搭建Jittor深度学习框架下的神经网络模型,并支持迁移PyTorch框架下的预训练模型。

12月25日,在首届计图开发者交流会上,jimm获得最佳计图模型库奖。

图1 南京理工的jimm获最佳计图模型库奖

Part1

模型结构发展引领深度学习发展

在深度学习的发展历程中,网络模型结构的研究有着非常重要的意义。模型结构的优良很大程度上决定了模型本身的数据容纳能力与表达能力。从2012年的Alex-Net发展至2021年的Swin Transformer,深度神经网络研究已经走过将近10年的历程,ImageNet-1k上图像识别任务的Top1准确率也已经从56.52%提升至了87.15%。Alex-Net与ResNet的引用量也双双突破10万,从侧面也表明了模型结构研究对后续科研发展的重要基石作用。
图1 深度神经网络的演进
Part 2

支持快速模型搭建

深度学习的发展离不开模型结构的研究,深度学习框架的发展自然也离不开对网络模型的工程支持以及最优性能模型(SoTA)的整合更新。然而框架本身的研发并非包罗万象,因为底层核心代码的研发有着更加重要的优先度与实际意义。因此,良好的框架社区环境需要一些实用工具包的支持。例如,在PyTorch中,虽然torchvision已然包含了很多经典的网络架构,然而PyTorch Image Models(timm)[1]仍被构建以方便更多的研究者使用PyTorch进行开发与学习。
Jittor[2]是一个采用元算子表达神经网络计算单元、完全基于动态编译的深度学习框架,虽然框架开源时间较短,但其在性能上几乎拥有压倒性的优势让其近来广受关注。为了方便研究者可以更快更方便的使用Jittor框架参与深度学习相关的比赛、学术研究与项目开发,同时受到timm的启发,jimm应运而生。
目前,jimm是一个使用jittor框架实现的,包含各种常用、高精度深度视觉神经网络的模型库,旨在让jittor的开发者能够低成本地基于这些具有影响力的视觉模型进行后续研究和开发,也让PyTorch用户可以更快速的融入jittor环境。在jimm中,模型的搭建极其简易,以SwinTransformer框架为例,使用jimm搭建模型并进行简单的识别任务仅需3行代码:
input = jt.array(np.random.uniform(0, 1, (2, 3, 384, 384)).astype(np.float32))net = jimm.swin_base_patch4_window12_384_in22k(pretrained=True)output = net(input)
以每位深度学习研究人员在入门时都可能会接触的一项任务“图像分类”为例,jimm在提供简单的模型搭建方式以便快速入门的同时,还提供了一些高精度结果训练技巧与脚本。南京理工团队也将继续完善这些数据加载/增强方式以及参考训练及验证脚本,让初学者更快上手jittor框架。
Part 3

jimm支持SoTA模型迁移

在jimm项目的初期,主要目标是让学习者与开发者可以“零成本”直接使用前人已在PyTorch框架下完成的预训练SoTA模型。一方面,良好的预训练模型可以让研究者不再为模型迁移感到困扰而可以专注于研究本身的内容;另一方面,jimm也可以帮助初学者或是PyTorch用户更快的融入由计图官方举办的“计图”人工智能算法挑战赛中与分类和检索相关或是需要用到这些高精度模型的比赛中。
在2021年4月的Jittor人工智能算法挑战赛中,南京理工的参赛队伍借助jimm的威力,在狗的细分类比赛中荣获第一名,图2是狗细分类任务的示意图。
图2 狗细分类的任务示意图
在jimm的帮助下,参赛者可以更加着重于关注挑战赛中提出问题本身的解决方案而不再需要花额外的时间在迁移已有的大量SOTA预训练模型中。目前,jimm已经可以支持包含ResNet、ResNeXt、HRNet、VOLO、ViT、EfficientNet、SwinTransformer等在内的多种深度神经网络模型与读取相关的SoTA预训练参数并达到相应的ImageNet验证集精度。

jimm的开源链接为:

https://github.com/Jittor-Image-Models/Jittor-Image-Models

欢迎大家使用Jittor深度学习框架与jimm开展研究工作或是参加深度学习领域内相关赛事。

参考文献 
  1. Ross Wightman, Pytorch image models,

    https://github.com/rwightman/pytorch-image-models, 2019.

  2. Hu S.-M., Liang D., Yang G.-Y., Yang G.-W., Zhou W.-Y. Jittor: a novel deep learning framework with meta-operators and unified graph execution, Science China Information Sciences, Vol. 63, No. 12, article no. 22210363, 1-21, 2020.

GGC往期回顾

1首届JDC召开,计图技术委员会评出2021年度优秀Jittor开源项目

2. CVMJ首次入选,列中科院期刊分区表二区

3. Computational Visual Media第8卷第2期导读
4. CVMJ入选2021年度"中国国际影响力优秀学术期刊"
5综述 | 计算机视觉中的注意力机制

您可通过下方二维码,关注清华大学图形学实验室,了解图形学、Jittor平台、CVMJ期刊的相关资讯。

Search

    Table of Contents