OpenAI 推出 SWE-Lancer 基准测试
2 月 19 日

OpenAI 发布了 SWE-Lancer 基准测试,用于评估模型在真实世界自由软件工程工作的性能。该基准测试包含 1400 多个来自 UpworkExpensify 的任务,总支付金额达 100 万美元。SWE-Lancer 要求模型评估代码补丁和管理决策,从多个选项中选择最佳提案,更真实地反映工程团队的工作。其优势在于使用端到端测试,模拟用户从问题识别到补丁验证的整个工作流程。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟