2025-01-23 新品 0
在上海交大招生办解读最新高招政策的背景下,AI算法效率每16个月提速一倍超越摩尔定律的物品智能化应用引人注目。据了解,近期OpenAI对AI算法在过去数年中性能提升做了深入分析,发现自2012年以来,在ImageNet分类上训练具有相同性能的神经网络所需计算量,每16个月降低一倍。
与此同时,ResNet-50级别的训练效率翻倍时间大约为17个月;在WMT'14翻译任务上,Transformer相比seq2seq,训练“算法效率”提升61倍,只需3年即可完成;而AlphaGo Zero所需计算量仅为AlphaZero的1/8,其翻倍时间仅为4个月。在Dota任务上,该数字更是令人瞩目的25天!
这些结果表明,对于近期投入大量资金的这些AI任务,算法上的进步相比硬件进步(服从摩尔定律,每18个月翻倍),能产生更多效益。如果将有效计算概念结合起来,那么其表现如图所示:AI和计算趋势被分解为硬件效率(摩尔定律)以及金钱并行化之后,只有算法效率提升占总体提升的一部分。
为了检查超参数设置是否合理,一些模型进行了扫描,并将初始学习率设置为不同值。另外,对除AlexNet以外所有模型都进行了学习率调整,如图所示,这对于早期学习非常重要。
除了数据和减少每次FLOP数量外,还将总训练效益收益分解成每一个epoch中的训练周期和浮点运算数。这可以帮助理解模型之间比较。此外,将浮点运算次数作为学习曲线,可以帮助理清模型之间比较,如某些模型(例如ShuffleNet_v2)使用较少计算量就能达到其他模型(例如AlexNet)的准确度。
最后,不同类型任务如围棋、Dota和机器翻译等,其推理速度都有不同程度提高。在利用ImageNet完成相关推理时,也取得了显著效果,如Shufflenet实现AlexNet级别性能且推理速度增加18倍,而EfficientNet-b0则只用3.5年就达到了ResNet-50级别性能,并且推理速度提高10倍。
尽管如此,此次对计算效力测量仍存在局限性,比如尚未确定观察到的趋势是否可以泛化到其他AI任务,以及整体进步如何被量化。此外,本分析主要关注最终运行成本而非开发成本,而且架构搜索使得最终运行成本与开发成本之间差距增大,但动态测量SOTA算法改进质量,有助于评估并促进进一步改善。因此,在考虑物品智能化应用时,我们应综合考虑硬件和软件双方因素以全面评估其潜力。
上一篇:学期末的反思我的成长与进步