OpenAI 宣布推出 AI Agent 评测基准 PaperBench
4 月 3 日

OpenAI 推出 PaperBench 基准,用于评估 AI 复现前沿 AI 研究的能力。智能体需复现 20 篇 ICML 2024 论文,最佳模型 Claude 3.5 Sonnet 结合开源框架平均得分为 21.0%,尚未超越人类水平。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟