微软携手清华、北大推出奖励推理模型:根据 AI 任务复杂性动态分配计算资源
5 月 27 日

微软研究院联合清华大学北京大学推出奖励推理模型(RRMs),通过显式推理过程动态分配计算资源,提升复杂任务评估效果。RRMs 基于 Qwen2 模型,采用 Transformer-decoder 架构,将奖励建模转化为文本补全任务,在 RewardBench 和 PandaLM Test 基准测试中表现突出,尤其在复杂查询中有效利用测试时计算资源,显著超越基线模型。研究显示,模型规模扩大和更长推理时间可进一步提升准确性。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟