当前位置: 首页 - 资讯 - 孙剑旷视的领军人物讲述了我们在视觉计算领域的最新进展就像一场盛大的科技嘉年华每一步都闪耀着最前沿的光

孙剑旷视的领军人物讲述了我们在视觉计算领域的最新进展就像一场盛大的科技嘉年华每一步都闪耀着最前沿的光

2025-02-17 资讯 0

孙剑,旷视首席科学家和西交大人工智能学院院长,在5月8日上午通过线上公开课,与我们分享了关于“最新游戏资讯”的报告。这场讲座是由「信息技术新工科产学研联盟」主办的,他们探讨了卷积神经网络在计算机视觉领域的应用。

孙剑博士将当前使用卷积神经网络的计算机视觉分为两部分进行探究:第一部分是卷积神经网络本身,包括其深度、卷积操作、宽度和大小;第二部分是计算机视觉问题,如分类、检测、分割以及序列问题。他指出,这些问题虽然已经取得了显著进展,但仍然存在一些关键挑战,比如处理长尾分布、自监督学习以及遮挡等。

随后,他详细介绍了图像表示的问题,从1978年的2.5D Sketch到今天深度卷积神经网络,每一步都有着前人的奋斗。目前最流行的方法是深度卷积神经网络,它可以从一张图片中输出一个类别。但孙剑提醒,我们需要了解它到底学习到了什么?他认为这是低级表示(如线段边缘纹理)与高级特征(如狗耳朵)的结合体。

这一系列研究背后的核心思想包括大小(特征图大小)、宽度(通道数)、深度(层次结构)和卷积操作。其中,卷积操作尤为关键,因为它具有空间不变性和权重共享,这使得33的小窗口成为最常见的选择。而11的窗口则能够有效降低复杂性并融合通道信息。此外,分组思想、高效点对点转换,以及最近出现的一种动态调整参数设计,都进一步提升了模型性能。

对于深度的问题,科学家们曾面临两个主要障碍:过于深厚导致训练困难,以及实验结果难以复现。然而,从2012年AlexNet之后,一系列创新性的架构,如ResNet,更大的模型往往能带来更好的表现。Sunet团队甚至成功训练出了152层的大型模型,使得他们在ImageNet竞赛中获得了突破性的成绩。

此外,研究还关注于如何提高宽度,即增加通道数,以增强模型能力。在这个方向上,有研究者提出了一些新的方法,如元裁剪法或LASSO回归,以控制过拟合。此外,还有人尝试动态改变特征图大小,以模拟数据增强效果或找到更优化的架构搜索策略。

总之,对于这四个维度——深入理解每一个维度及其相互作用至关重要。在报告最后,孙剑提到了他的团队正在开发一种名为超网的人工智能框架,该框架利用迭代过程中的构建搜索和权重更新,可以快速找到最佳子网,并且被用于AlphaGo Zero等项目中实现惊人的棋艺水平。此外,他还提到计算机视觉领域近几年的发展迅速,其论文数量呈指数增长,其中包含四个核心任务:分类、检测、分割及序列处理。

这些都是我们所处时代科技前沿进展的一个缩影,也正是这些不断推陈出新的努力,让我们的世界变得更加智能而精彩无限。

标签: 智能化资讯