字节跳动推出 VAPO 强化学习训练框架,旨在提升大型语言模型在复杂长任务中的推理能力。VAPO 基于 PPO 框架,融入价值训练、长度自适应广义优势估计及协同增效系统等创新技术。优化后的 Qwen2.5-32B 模型在 AIME24 测试中得分从 5 分提升至 60.4 分,超越 DeepSeek R1 和 DAPO 方法。VAPO 在数学推理和长序列任务中表现突出,训练更稳定且高效,多项技术共同作用确保了其优越性能。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验