微软研究院联合清华大学、北京大学推出奖励推理模型(RRMs),通过显式推理过程动态分配计算资源,提升复杂任务评估效果。RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架构,将奖励建模转化为文本补全任务,在 RewardBench 和 PandaLM Test 基准测试中表现突出,尤其在复杂查询中有效利用测试时计算资源,显著超越基线模型。研究显示,模型规模扩大和更长推理时间可进一步提升准确性。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验