谷歌推出压缩算法 TurboQuant,宣称实现约 6 倍内存节省
22 小时前

谷歌推出压缩算法 TurboQuant,旨在降低大语言模型和向量搜索引擎的内存占用,主要针对 AI 系统键值缓存瓶颈问题,该缓存因上下文窗口变大成主要内存瓶颈。TurboQuant 无需重新训练或微调模型,可将键值缓存压缩至 3bit 精度且基本保持准确率,对开源模型测试显示能实现约 6 倍的键值缓存内存压缩效果。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

科技新闻,每天 3 分钟