OpenAI 推出 PaperBench 基准,用于评估 AI 复现前沿 AI 研究的能力。智能体需复现 20 篇 ICML 2024 论文,最佳模型 Claude 3.5 Sonnet 结合开源框架平均得分为 21.0%,尚未超越人类水平。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验