聚焦学术前沿,CVPR 候选最佳论文VGGT先睹为快,“计图”论坛6月10日线上举办
2020年3月20日,清华大学图形学实验室发布并开源了深度学习框架-计图(Jittor)。计图陆续发布了GAN模型库、语义分割模型库、检测与实例分割库、三维点云库、可微渲染库、遥感检测库等。
为了促进Jittor框架的软硬件生态,Jittor团队组织每年一次的AI算法挑战赛,并举办系列的Jittor论坛,此前 Jittor论坛已经邀请过 CVPR 2020,ICCV 2021,CVPR 2023 的最佳论文得主进行学术报告,本次论坛,Jittor 团队非常荣幸的邀请到了四川大学章毅教授和 CVPR 2025 最佳论文候选的作者来进行学术报告和大家一起交流学习。计图团队拟于2025年6月10日(周二) 晚上19:00-21:00,举办第九期"计图"论坛。
Part 1
“计图”论坛
第九期论坛邀请到了四川大学智能交叉技术研究中心主任,IEEE Fellow,四川大学章毅教授介绍从人工神经网络架构演变看网络发展趋势;牛津大学 VGG 组博士生王建元介绍他们团队CVPR 2025的最佳论文候选 VGGT;清华大学博士生肖子凯和张嘉鹏同学介绍 2025 第五届计图人工智能挑战赛的情况。
报告一:从人工神经网络架构演变看网络发展趋势
报告摘要: 人工神经网络架构是构建人工神经网络理论大厦的基石。自早期的全连接网络发展至后来的CNN、ResNet、LSTM,再到当前广泛应用的Transformer及新兴的Mamba、TTT、Neural ODE等架构,神经网络结构不断演进并突破技术瓶颈。历史上众多网络模型在不断试验与优化过程中,有些逐渐淡出人们的视野,而那些能够经受实际应用考验的模型则被长期保留并广泛应用于各行各业。本报告旨在回顾人工神经网络架构的演进历程,并探讨其未来可能的发展趋势。
报告人介绍:章毅,四川大学智能交叉技术研究中心主任,IEEE Fellow,中国人工智能学会常务理事/副秘书长,四川省人工智能学会理事长。1994年毕业于中国科学院数学研究所,获理学博士学位。从事人工神经网络30余年。研究领域为:人工神经网络理论、智能医学等。著有英文学术专著6部,发表重要学术论文200余篇,其中IEEE Transactions论文108篇。获2019年国家自然科学二等奖、2024年吴文俊人工智能科技贡献奖等。

图1 四川大学章毅教授
报告二:我们正在走向一个3D基础模型时代吗?
报告摘要: 近年来,数据驱动范式在三维场景理解和重建领域取得了重大突破,展现出强大的泛化能力。这一趋势是否意味着我们正逐步迈入全面的3D基础模型时代?本次研讨会,主讲人将分享其工作如何从传统几何方法向数据驱动方法转变,同时详细讨论其团队最新提出的VGGT (Visual Geometry Grounded Transformer, CVPR25 Oral)背后的设计思想。VGGT是一个前馈神经网络,能够直接从单视图或多视图高效准确地预测场景关键的三维属性,包括相机参数、深度图、点图,和三维轨迹。VGGT不仅实现了多个三维视觉任务的一体化,并且由于其架构的简洁与高效,摆脱了传统方法对视觉几何优化等后处理步骤的依赖,达到了领先于现有技术的性能。VGGT 在多个三维任务中达到了当前最优水平,包括相机参数估计、多视图深度预测、密集点云重建和轨迹跟踪。此外,将预训练的VGGT作为特征提取网络应用于非刚性轨迹跟踪与前馈新视角合成等下游任务中,显著提升了相关任务的表现。
报告人介绍:王建元, 现为Meta AI与牛津大学视觉几何组(VGG)的联合培养博士生。他的研究方向为三维理解,尤其关注图像到三维场景的重建问题,近期工作包括PoseDiffusion, VGGSfM和VGGT。他与David Novotny、Christian Rupprecht 及 Andrea Vedaldi 紧密合作。

图2 牛津大学王建元博士生
报告三:计图比赛赛道一超声图像的智能筛查与分级赛题介绍
报告摘要:超声诊断是一种无辐射、低成本的医学影像检查手段,在我国每年接受超声检查的规模约在20亿人次。但受制于超声设备和扫查手法等原因,超声医学影像的判读严重依赖医师经验和水平,容易产生误判。近些年,深度学习取得的巨大成功加速了医疗领域的智能化进程,出现了一系列超声智能诊断研究与应用,但其中的数据类别不平衡等问题降低了诊断的准确性。为应对超声医学影像诊断难题,提升乳腺癌超声诊断准确性,参赛者需基于收集的乳腺癌超声影像数据集,运用深度学习技术构建分类模型,克服数据类别不平衡问题,实现对乳腺癌超声影像的精准分类。
报告人介绍:肖子凯,现在为清华大学胡事民老师的博士生,研究方向主要为计算机视觉、人工智能,围绕遥感图像上的有向目标检测和分割,在CVPR、AAAI等会议上发表多篇论文,近期工作包括COBB、SRA等。

图3 清华大学肖子凯博士生
报告四:计图比赛赛道二人体骨骼生成赛题介绍
报告摘要:近年来随着三维数字人生成方法的发展,以及业界丰富的数字人需求,三维人体动画成为了图形学的一个重要方向。而驱动一个三维人体网格,最常见的算法是骨架动画,它需要将三维网格绑定一套骨骼与蒙皮权重才能进行驱动。这个往往需要花费模型师数小时时间才能完成。该赛题旨在使用各类3D深度神经网络结构,用于理解三维人体网络架构并预测相对应的骨骼节点的空间位置、以及对应的蒙皮权重。本赛题通过引入人工智能技术,特别是3D神经网络结构,旨在自动化这一过程,大幅提高数字人制作效率,降低数字人制作门槛,推动虚拟人、元宇宙等领域的发展。
报告人介绍:张嘉鹏,现在为清华大学胡事民老师的博士生,研究方向主要为计算机图形学、人工智能,多篇关于三维生成的论文被ACM SIGGRAPH(ACM TOG)收录,近期工作包括UniRig,CharacterGen等。

图4 清华大学张嘉鹏博士生
Part 2
论坛议程
第九期计图论坛将于2025 年 6 月 10 日晚上在线上举办,具体日程如下:

参会者可直接扫描下方的二维码,在哔哩哔哩(Bilibili)的直播中听演讲和参与互动。

如果在电脑上参会,不便扫描二维码,也可以通过如下网页链接进入:
https://live.bilibili.com/22558868
有意参加计图AI算法大赛的同学,可访问比赛报名网址:
https://www.educoder.net/competitions/Jittor-6/
选手可以在计图讨论社区的挑战赛专栏参与讨论:
https://discuss.jittor.org/c/competion/7
赛事交流QQ群:717152103,请填写“战队名称+真实姓名”提交入群申请。
计图开发者交流群:836860279
比赛社区交流二维码:

开发者交流群

计图比赛入口

计图论坛
欢迎大家积极参加计图论坛,踊跃报名参加计图AI挑战赛!
可通过下方二维码,关注清华大学图形学实验室,了解图形学、深度学习、Jittor框架、CVMJ期刊和CVM会议的相关资讯。
