微软携手清华、北大推出奖励推理模型：根据 AI 任务复杂性动态分配计算资源

微软携手清华、北大推出奖励推理模型：根据 AI 任务复杂性动态分配计算资源

2025 年 5 月 27 日

微软研究院联合清华大学、北京大学推出奖励推理模型（RRMs），通过显式推理过程动态分配计算资源，提升复杂任务评估效果。RRMs 基于 Qwen2 模型，采用 Transformer-decoder 架构，将奖励建模转化为文本补全任务，在 RewardBench 和 PandaLM Test 基准测试中表现突出，尤其在复杂查询中有效利用测试时计算资源，显著超越基线模型。研究显示，模型规模扩大和更长推理时间可进一步提升准确性。

微软携手清华、北大推出奖励推理模型：根据 AI 任务复杂性动态分配计算资源

IT 之家

微软清华北大联手，推出 RRMs 模型，让 AI 推理更智能高效！

ITBear 科技资讯

微软携手清华、北大推出奖励推理模型：根据 AI 任务复杂性动态分配计算资源

凤凰科技

2025-09-12

微软计划加码算力集群助力自研大模型与 OpenAI 等对手展开竞争

2025-08-16

北大提出首个复数大模型，2 比特量化，推理仅加法，可手机部署

2025-05-27

微软携手清华、北大推出奖励推理模型：根据 AI 任务复杂性动态分配计算资源

2025-04-05

DeepSeek 与清华联合研究：创新奖励模型推理方法，提升可扩展性

2025-02-24

清华团队与合作者推出大语言模型 RealSafe-R1

2025-01-31

微软 Copilot 全面开放「深度思考」功能，免费提供 OpenAI o1 推理模型

2022-07-15

索尼宣布将推出用户忠诚度计划 PlayStation Stars，对标微软奖励

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。