苹果公司发布了一篇论文,介绍了其最新的 Apple Intelligence 模型,名为 Apple Foundation Model(AFM),包括在设备上运行的 AFM-on-device 和尚未公开详细信息的 AFM-server。模型的训练数据来源多样,包括授权数据、开源数据集及通过 Applebot 抓取的公开信息,苹果强调用户隐私得到保护,私人数据未包含在训练集中。苹果与多家出版商达成协议,使用他们的新闻档案训练模型,并在 GitHub 上托管的开源代码上进行训练。AFM 模型训练数据集包含 6.3 万亿个 token,使用高质量、可公开获得的数据集,并过滤了敏感信息。苹果使用 8192 片 TPUv4 芯片训练 AFM-server 模型,2048 片 TPUv5p 芯片训练 AFM-on-device 模型,后者训练速度快近三倍。模型性能方面,AFM 在指令遵循和文本总结方面的表现超越了 GPT-4,并且有害输出违规率远低于 GPT-4。在设备上,AFM 的违规率也低于 Meta 训练的 Llama-3-8B 模型。在电子邮件、信息和通知汇总方面的满意度也领先于其他模型。
行业标签