2025-01-14 新品 0
在CMU杜少雷和胡威撰写的博客《Ultra-Wide Deep Nets and Neural Tangent Kernel (NTK)》中,AI科技评论编译了关于无限大的神经网络探索的故事。这个故事讲述了如何通过数学推导来证明一个足够宽且被正确随机初始化的深度神经网络,在梯度下降训练过程中,其表现与带有Neural Tangent Kernel(NTK)的确定性核回归预测器是等效的。
传统上,模型复杂度需要在训练误差和泛化能力之间找到平衡点,即所谓的“甜点”。然而,随着深度学习技术的发展,一些研究表明,即使是高度参数化、过于复杂的问题也能够得到良好的解决。这导致了一种新的双峰曲线,其中测试误差不仅可以接近0,而且随着模型复杂度进一步增加而持续下降。
人们开始怀疑使用到的优化算法,如梯度下降及其变体,对模型复杂度产生了隐式限制,从而避免过拟合。另一方面,“越大的模型往往能给出更好的结果”,这促使人们思考如果我们有一个无限大的网络,它会如何表现?
数学家们已经开始研究这种趋向于无限大但实际上有限大小网络的情况,这类似于物理学中的量子场论。在这些研究中,无限宽神经网络和其对应核方法之间存在联系,而Jacot等人最近发现,对于足够宽且由梯度流训练过得深层次神经网络,其行为与带有NTK的一致性核回归预测器相同。
杜少雷和胡威通过最小化损失函数来推导含有梯度项的核矩阵,并最终证明当网路非常宽时,他们推导出的核可以逼近某个确定性的固定核,即Neural Tangent Kernel(NTK)。他们还证明了只要每一层都超过某个阈值,就可以达到这一效果。
最后,他们展示了将这种方法应用到卷积结构中的情况,并在CIFAR-10图像分类任务上进行了实验。实验结果显示,不同类型的人工智能系统在没有特定的数据增强或批量标准化技巧的情况下,都能取得很高准确率,这为理解不同系统间关系提供了一种新的视角。