Readhub

OpenAI 推出 SWE-Lancer 基准测试

2 月 19 日

OpenAI 发布了 SWE-Lancer 基准测试，用于评估模型在真实世界自由软件工程工作的性能。该基准测试包含 1400 多个来自 Upwork 和 Expensify 的任务，总支付金额达 100 万美元。SWE-Lancer 要求模型评估代码补丁和管理决策，从多个选项中选择最佳提案，更真实地反映工程团队的工作。其优势在于使用端到端测试，模拟用户从问题识别到补丁验证的整个工作流程。

OpenAI 推出 SWE-Lancer 基准测试

麻省理工科技评论

OpenAI 推出 SWE-Lancer 基准测试：评估真实世界自由软件工程工作的模型性能

aibase

OpenAI 推出大模型测试基准 SWE-Lancer

品玩

话题追踪

2025-07-14

OpenAI 推迟开源大模型发布，重视安全测试

2025-06-18

OpenAI 发布 AI 前端自动化测试工具演示版

2025-04-11

OpenAI 开源 BrowseComp，重塑 Agent 浏览器评测

2025-04-03

OpenAI 宣布推出 AI Agent 评测基准 PaperBench

2025-02-23

OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性

2025-02-19

OpenAI 推出 SWE-Lancer 基准测试

2025-01-20

OpenAI 资助 AI 数学基准测试引发公正性质疑

2024-09-05

万人测试 OpenAI 搜索引擎：活动规划等表现出色，存在「幻觉」等不足

2024-08-20

OpenAI 关闭 SearchGPT 候补名单，首批万人测试已招满

2024-08-14

OpenAI 推出代码生成评估基准

查看更多

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。

行业标签

订阅

订阅

订阅

订阅

订阅

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

© 2025 NoCode 无码科技（杭州）有限公司浙ICP备17005035号-6 联系我们加入我们产品介绍

浙公网安备 33010902002965 号浙 B2-20181004

科技新闻，每天 3 分钟