苹果发表论文指出当前推理模型并未真正思考,仅是模式匹配,批评现有评估忽视思考过程质量。苹果设计了四种谜题环境测试模型推理能力,发现模型在问题变难时思考深度下降,超临界点后性能崩溃。对此,网友有不同看法,有人讽刺苹果自身进展缓慢却否定他人成果,也有人认为论文旨在推动建立更好的推理机制与评估方法。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验