谷歌推出压缩算法 TurboQuant,旨在降低大语言模型和向量搜索引擎的内存占用,主要针对 AI 系统键值缓存瓶颈问题,该缓存因上下文窗口变大成主要内存瓶颈。TurboQuant 无需重新训练或微调模型,可将键值缓存压缩至 3bit 精度且基本保持准确率,对开源模型测试显示能实现约 6 倍的键值缓存内存压缩效果。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验