2025-01-25 智能输送方案 0
在生成式AI的浪潮中,预训练大模型的强大能力吸引了越来越多的人去探索它们在端侧应用的可能性。然而,在AI技术发展前行之前,CNN就已经为端侧带来了AI能力,因此人们更关心的问题是:端侧大模型能否带来颠覆性的变化?
2024年世界人工智能大会期间,爱芯元智创始人、董事长仇肖莘向雷峰网(公众号:雷峰网)表示,“目前端侧大模型的应用还是处于探索阶段,还不好判断是否会带来颠覆。” 在同一届大会上举办的“芯领未来丨智能芯片及多模态大模型论坛”上,智慧物联和人工智能创新融合专家殷俊指出,“我们不应该让用户放弃原有的技术投资,而是要通过大小模型协同和模型小型化,实现最优算力配置,以加快大模型行业落地。”
这是一个值得深入讨论的话题:端侧大模式落地到底面临哪些挑战?将会在哪些场景首先实施?以及它将带来怎样的改变?包括智能手机和城市中遍布的一切摄像头,都曾经经历过一次AI革命,那时候借助CNN、RNN等AI算法,使得手机能够进行AI拍照、美颜,而摄像头则能够识别车牌、统计人流等,这虽然还远未达到完美,但已经广泛应用。
要想让端侧的大模式真正产生变革,不仅需要效果更佳,而且可能还需成本更低。目前,这个领域仍然处于探索之中,并非一夜之间就能发生转变。在此背景下,我们回顾了一段时间内对传统ISP降噪与防抖功能使用硬件模块实现的情况,以及如何用算法取代这些模块。但实际上,只是将20余个传统ISP通路中的几个部分换成了基于算法的手段。
同样,对于是否能导致颠覆,以及何时才会出现这种情况,我们也还有很多疑问。然而,在谈及颠覆之前,大模式首先需要解决的是其落地问题。在视觉领域快速发展的大模式,其落地方面却面临可靠性、稳定性以及理解不够全面等挑战,让真实准确描述客观世界成为视觉大模式落地关键。
计算资源、内存和数据带宽都是使得端侧大模式成功实施所必须克服的底层挑战。“在端侧的大模式运作过程中,由于内存大小与数据处理速度限制超过了计算资源本身”,仇肖莘进一步解释道,“因此,我们必须联合优化芯片与算法”。业界正在积极寻找解决这个问题的手段,比如采用DDR-Wafer to Wafer形式实现1024通道以增强数据处理速度,又或者开发出适用于终端设备HBM以解决数据墙问题。
技术不断前进,同时探索新的应用也在加速推进,其中汽车、高性能电脑乃至普通手机都被看作是率先尝试这项新技术的场景。这意味着这些设备需要支持原始Transformer架构设计。押注生成式AI原生支持Transformer结构有10倍性能优势。
爱芯元智正是在这样的背景下宣布他们最新发布了名为爱芯通元(AX630C)的高效NPU处理器,该产品已完成了Llama 3 8B 和Phi-3-mini 模型适配工作,并且提供了混合精度支持,从而显著提高其计算效率。此外,该公司还展现了一系列具有市场潜力的软件工具链,可以帮助开发者迅速适应并利用这些新兴的大规模神经网络架构。
尽管如此,有趣的是,即便是在三年的时间里设计出的这一款NPU为什么可以原生支持Transformer架构呢?刘建伟副总裁解释说:“我们的NPU设计从一开始就考虑各种复杂图灵机制,如Transformer等,它们对于丰富语言表达方式具有巨大的潜力。” 爱芯通元核心特点即来源于其精巧微架构及其高度灵活性的指令集设计,无论是通过可编程数据流或其他任何方式提升能源效率和密度均有可能。此外,该公司成熟且成熟到位的地软件工具链使得开发者能够轻松上手并快速部署这些复杂但高效的大规模神经网络到边缘设备或移动设备上。而且,他们最近几次成功部署证明了这一点,比如LoveMojo AI Assistant, GPT-2, BERT 等各类自然语言处理任务都可以运行良好,这展示出了该平台无限扩展潜力。
不过,要注意的是,每增加更多参数,就必然伴随着更加庞大的计算需求。这正是混合精度发挥作用的地方,因为它允许系统同时保持高级别参数数量与相对较低的功耗水平,从而减少整体系统成本。此外,由于DSA架构采用的独特方法,使得爱芯通元相比英伟达GPGPU单板显示卡拥有十倍以上性能优势,这对于推理任务尤为重要特别是在那些涉及大量输入/输出操作的事务环境中,如视频分析或语音识别服务提供商使用的情形下,它表现尤为突出。不过,由於愛芯元智對於邊緣運算技術與具身智能科技領域持續投資並開發,這種優勢將繼續擴展至更多應用領域,並逐步成為市場上的主導力量。