2025-01-19 新品 0
要创造出最强大的优化器,我们可以将RAdam和LookAhead结合起来。这种融合能够提供一个全新的训练过程,既能保持RAdam的稳定性,又能利用LookAhead的探索能力。在这篇文章中,我们将详细介绍如何实现这一点,并展示它在实际应用中的效果。
首先,让我们来看看RAdam。这个优化器通过动态调整自适应动量,避免了在训练初期过快收敛的问题。这使得模型能够更好地理解数据集,并且减少了对超参数调节的需求。但是,尽管RAdam在早期阶段表现良好,它可能无法持续提供最佳性能,因为其预热过程需要根据不同的数据集进行手动调整。
接下来,我们来了解一下LookAhead。这个优化器通过维护两套权重并进行内插,允许模型同时拥有快速探索和长期稳定的特性。这一设计降低了变差和对次优超参数敏感度,同时提高了收敛速度。
现在,让我们尝试将这两者结合起来。Less Wright研究员提出了一个名为Ranger的新型优化器,它结合了RAdam和LookAhead的优势。在他的实验中,只经过20个epoch就达到了93%的准确率,这超过了FastAI排行榜第一名92%甚至更高。
下面是具体步骤:
使用整流器函数来计算预热启发值。
动态调整自适应动量以避免过快收敛。
在剩余训练过程中使用基本上的Adam或SGD。
Look Ahead维持两套权重并在它们之间内插,以促进快速探索与长期稳定性的平衡。
每 k 个批次更新一次内部慢速均值,从而实现指数前进。
这种融合不仅提高了模型性能,还简化了超参数调节过程,使得任何人都可以运行这个新的Ranger优化器并看到其带来的益处。此外,该文档还包括源代码、使用信息以及如何集成到现有项目中的指导,为希望改善他们深度学习项目的人们提供了一种实用的方法。