面壁智能正式发布稀疏-线性注意力混合架构 SALA 及基于该架构的文本模型 MiniCPM-SALA,模型仅 9B 参数。MiniCPM-SALA 不使用投机采样等加速算法,在云端推理芯片上,序列长度为 256K 词元时推理速度达 Qwen3-8B 的 3.5 倍,且支持在云端芯片和消费级端侧 GPU 上进行高达一百万词元上下文长度的推理。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验