2025-02-17 资讯 0
最新汽车资讯:旷视首席孙剑探讨视觉计算前沿进展,揭秘卷积神经网络深度之谜
在“信息技术新工科产学研联盟”主办的线上公开课中,旷视首席科学家孙剑博士进行了关于“视觉计算的前沿进展”的报告。孙剑博士将当前使用卷积神经网络的计算机视觉分为两大方面:网络结构和问题核心。
卷积神经网络(CNN)的核心可以归纳为四个维度:深度、卷积操作、宽度和大小。其中,卷积操作是最核心的,它具有空间不变性和权重共享等特点。3x3的卷积被广泛应用,因为它既能提取特征,又能够降低计算复杂度。而后来出现的一些改进,如分组思想、Depthwise概念以及动态卷积设计,都旨在提高模型效率。
计算机视觉的问题核心包括分类、检测、分割以及序列问题。孙剑指出,对这些问题,研究人员已经取得了许多成果,但仍存在长尾分布、高级学习方法等关键难题待解。
报告中还详细介绍了如何理解一张图片,即图像表示问题,从1978年的2.5D Sketch到今天深度卷积神经网络,这是一个几十年发展史。在这过程中,最主流的方法是深层次CNN,其输出类别,但究竟学到了什么?孙剑提到,可以从低级表示如线段边缘纹理到高级特征如狗耳朵等进行分析。
随着时间推移,人们开始关注更深层次的问题,比如如何解决过于深厚导致训练困难的问题。这也是ResNet提出时的一个重要突破点。实验表明,由于残差学习方式,使得通过增加相当深度来提升准确率成为可能,而不再面临退化问题。此外,还有关于通道裁剪以防止过拟合,以及动态改变特征图大小以模拟数据增强效果或优化构架搜索方向的探索。
最后,孙剑介绍了超网络构架搜索方法,其中包含两个迭代过程:构架搜索与权重训练,以快速找到更好的子网结构。这一方法正在成为未来的研究热点,并且反映了计算机视觉领域目前火热程度,也体现出了其对未来发展潜力的预期。