OpenAI 推出了一个用于评估 AI 模型解决现实世界软件问题的基准 ——SWE-bench Verified,这是对原有 SWE-bench 的改进版本。这个基准旨在更可靠地评估 AI 模型解决真实软件问题的能力,随着 AI 系统越来越接近通用人工智能(AGI),对于评估它们的能力的要求也越来越高。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验