当前位置: 首页 - 新品 - 人物探索无限大智能资讯神经网络

人物探索无限大智能资讯神经网络

2025-01-14 新品 0

在探索无限大神经网络的领域,CMU的杜少雷和胡威提出了一个颠覆性的观点:当模型达到足够宽时,即使是训练数据集上的误差接近0,测试误差仍然能够保持在一个相对较低的水平。这种现象被称为"双峰曲线",表明了模型复杂度与泛化能力之间存在更复杂的关系。

为了理解这一点,我们首先需要了解传统机器学习中关于模型复杂度与泛化能力之间关系的一般规则。在这个规则中,一般认为要找到所谓的“甜点”(sweet spot),即模型应该既足够简单以避免过拟合,又足够复杂以能够准确地拟合训练数据。然而,这个规则并不能完全解释深度学习中的现象,因为深度神经网络往往能够通过增加参数来提高性能,而不会出现过拟合的问题。

Belkin等人提出了一种新的双峰曲线来描述这种现象,他们发现随着模型复杂度的增加,当它超过了完全拟合训练数据所需的那一刻之后,测试误差会持续下降。这意味着越大的模型通常能提供更好的结果,无论是在训练集上还是在测试集上。

一些研究者怀疑优化算法,比如梯度下降,对于限制模型大小起到了隐式作用,从而避免了过拟合。此外,由于越大的网络往往能表现得更好,有人开始询问如果我们有一个无限大的网络,它会如何表现?

理论分析表明,在某些条件下,无限宽神经网络可以用核方法替代,这种方法允许我们使用确定性核回归预测器来获得类似的性能。这一点由Jacot等人在他们论文中阐述,并且后续有进一步改进,如Sanjeev Arora等人的工作将这个结果扩展到非对称环境。

杜少雷和胡威利用标准监督学习环境下的最小二乘损失函数推导出了含有梯度项的核矩阵表达式,然后通过一系列推导得到了NTK(Neural Tangent Kernel)。他们证明,当网络足够宽时,可以逼近这个确定性的固定核,也就是NTK。当验证实验时,他们发现带有全局平均池化、11层卷积NTK得到77.4% 的分类准确率,而没有任何额外技巧,如批量标准化或数据增强,只使用SGD进行培训。

总之,无限大神经网络虽然听起来像是一个抽象概念,但实际上它可以用数学工具去理解和模拟,从而帮助我们设计出更加高效、泛化能力强的人工智能系统。

标签: 雅诗兰黛新品苹果秋季新品发布会西瓜新品种新品上市素材新品