当前位置: 首页 - 资讯 - 孙剑旷视的领军人物讲述了我们在视觉计算领域的最新进展就像一部部电影中的精彩片段为我们揭示了科技的未来

孙剑旷视的领军人物讲述了我们在视觉计算领域的最新进展就像一部部电影中的精彩片段为我们揭示了科技的未来

2025-02-17 资讯 0

最新电影资讯:旷视首席孙剑解读视觉计算前沿进展,揭秘卷积神经网络深度之谜

排比版:

在5月8日的清晨,旷视科技的领军人物孙剑博士,以线上直播形式,为我们带来了一场关于“视觉计算前沿进展”的报告。这个线上公开课,由「信息技术新工科产学研联盟」主办,是一场探讨人工智能未来趋势的盛会。

孙剑博士在报告中,将当前使用卷积神经网络的计算机视觉领域分为两个核心方面进行了深入探究:

卷积神经网络,其核心可以归纳为:网络的深度、网络的卷积操作、网络的宽度和网络的大小。

计算机视觉,其核心问题可以归纳为:分类、检测、分割以及序列。

他指出,针对这些问题,研究人员已经取得了巨大的进步,但长尾分布、自监督学习等关键问题仍未得到完全解决。在接下来的部分,我们将详细介绍孙剑博士报告中的几个重点内容。

从1978年的2.5D Sketch到今天深度卷积神经网络,图像表示的问题已经有几十年的研究历史。目前最主流的是深度卷积神经网络,它能够输入一张图片,并输出一个类别。但是,这样的模型到底是如何工作?孙剑提到,它们学习到了低级表示,如线段和边缘,以及高级特征,如狗和耳朵。

早期思想始于80年代日本科学家的神经认知机概念,而90年代Yann LeCun则推动了这一方法,使其成为学术界研究焦点。随后,一系列创新如分组思想(通过独立处理通道)、Depthwise(假设每层特征为3D立方体)和ShuffleNetV1/2出现,他们进一步优化了模型结构以提高效率。此外,还有最新的一些设计,如动态卷积计算,可以根据输入动态生成参数,从而增强模型拟合能力。

另一方面,在增加深度的问题上,也有一些重要发现。当2012年Hinton与AlexKrizhevsky合作时,他们开发出了具有八层结构的地面网(AlexNet),这是一个里程碑性的突破。这之后,一系列更复杂但也更有效的手段被提出,比如VGG16/19和GoogleNet,都超过100层,最终达到152层ResNet在ImageNet任务上的性能峰值。这背后的原因不仅是技术上的突破,还涉及到了内存限制以及Jeffy Feldman提出的“100步极限”理论,即大脑高级决策时间约0.5秒,大脑皮层电脉冲间隔约5毫秒,大脑计算不会超过100个连续步骤。

对于宽度与表现力之间关系的事宜,也有相关讨论,其中包括统一逼近定理——足够大的两层神经元可以逼近任意有界连续函数。不过,这只是理论上的可能性,而非实践中的指导原则。最近一些研究试图结合传统机器学习与深度学习,对比参数化程度及其泛化能力。而当局部裁剪或通道裁剪变得必要时,则需要引入新的方法来实现权重重建或LASSO回归等技巧以减少过拟合风险。此外,还有人尝试调整特征图大小,以模仿数据增强效果或者搜索更好的架构设计。

最后,由于这四个维度单独优化不足,因此现在正在探索如何将它们同时优化。这种构架搜索通常包含两个迭代过程:构架搜索和权重训练。在他的团队中,有一个名为超网的人工智能方法正在发展,该方法既可训练超网,又能直接继承其权重,从而加速找到最佳子网的速度。

此外,在计算机视觉领域,最著名的是ImageNet挑战赛,每年都吸引着无数研究者竞争最高准确性。这不仅推动了分类算法,更开启了一系列应用,如人脸识别、机器人系统甚至医疗影像分析。而检测问题则要求识别物体并且确定其位置,这也是通过R-CNN这样的基于深度学习框架得以解决的问题链条之一。随着SPP-Net和Faster R-CNN等创新手段不断涌现,我们看到了检测算法从传统到现代的一个演变过程。这一切都是为了让我们理解这个世界更加精确地看到我们的周围环境,让AI赋予人类更多可能性的力量,无所不知地触摸未来的边界。

标签: 智能化资讯