苹果大模型，不藏了

更新日期： 2024-01-08 20:47

岁末年初，苹果加快了在大模型领域的步伐。

上个月，苹果先是推出了名为Ferret的多模态大语言模型，图像处理技术堪称惊艳；而后又发布了一篇题为《闪存中的大型语言模型：在有限内存下高效的大型语言模型推理》的论文，直指大模型落地iPhone等“内存有限”设备的方法。

进入新年，Siri助手将搭载生成式模型Ajax的消息，再次不胫而走。

去年六月和九月的两次重要发布会，苹果分别掏出了早有传闻的XR项目和iPhone系列的惯例年更，前者市场反响平平，后者挤牙膏被批像是被“卡脖子”了，硅谷All in大模型之时，苹果官方对人工智能这一年度热词始终闭口不谈。

公司CEO库克曾解释道，苹果有计划在更多产品中加入AI，但要“深思熟虑”。

现如今，也许是想好了，也许是技术突破了，留了一手的苹果，终于不藏了。

iPhone的AI时刻，来了？

Siri助手AI化其实早有预兆：去年七月份，彭博社发文称苹果内部正在暗中测试一款对标OpenAI和谷歌的生成式AI工具，暂定名“Apple GPT”。

因使用Google JAX框架进行构建，Apple GPT的开发框架被命名为Ajax。

当时的消息称，苹果LLM技术的最大用武之地，便是整合在Siri内部，让语音助手以更为智能的方式协助用户。

现在，更多细节被透露——苹果发布的论文称，这项将大语言模型放在闪存中优化运行的技术，较传统运行方法提高了4-5倍（CPU）和20-25倍（GPU）的推理速度。

把大象（大模型）装进冰箱（手机）里的方法，来了：先减少闪存传输的数据量，再提高每次传输的吞吐量。

先看框架：以手机为例，平时购机时的【12+256G】、【16+512G】，12/16为运行内存，256/512为储存空间。

以此类推绝大部分移动设备存储结构，运存空间小，但读取速率高（DRAM 10GB/s）；储存空间大，但读取速率相对较低（Flash Memory 1GB/s）

一般来说，大模型的推理阶段，模型加载、分析数据需要直接占用运存，而目前主流手机市场最大的16GB运存，也并不能完全满足大模型所需的空间：模型大小＞手机内存。

苹果给出的解决方案是“先减少闪存传输的数据量”——把大模型完全体放在空间更大的储存中，运行时只调用必要数据进入运存。

这并非一个简单的搬箱子过程，如何正确筛选出所有必要数据，以及如何把数据快速由闪存传输到运存，是两个需要解决的问题。

方法之一被命名为sliding window（滑窗）：

假设大模型正在处理Once upon a time there was a kid who had a dream这句话，在处理“Once upon a time there”这段字符的时候，图中上半部分的青色格子（神经元）处于激活状态；而当处理字段变到“upon a time there was”（往后推进了一个字符），图中下半部新启用了蓝色格子，并删除了了此前青色部分的几个格子（以粉色标注），其余青色保持不变。

这就是sliding Window的核心思想：查缺补漏，多退少补。在大模型运行过程中，只保留一开始就激活的神经元，后续的每次运算，都基于前一次参数进行删除和添加，省去了一部分重复工作。

当然，这种预设也并非没有问题，知乎博主@Civ发文称，sliding window可用的核心假设是大模型在处理相邻数据时前后具有相似性，但这个相似性苹果没有展开论证。

再者是传输：将多次传输的数据拼接后一次性读取，保持连续完整的“数据”，避免多次复制拖慢时间；另外，提前预留出一个较大的空间（较大，但仍远远小于模型整体占用），避免在数据传输过程中，因多次增加空间而加大设备的计算量。