字节开源最全面代码大模型基准 FullStack Bench
2024 年 12 月 5 日

字节豆包大模型团队发布全新代码大模型评估基准 FullStack Bench,涵盖超过 11 类全栈技术真实场景和 16 种编程语言的 3374 个问题,旨在更有效地评估大模型在现实世界中的代码开发能力。该基准通过分析 Stack Overflow 的 50 万个问题,筛选并调整出具有代表性的应用场景。每个问题都附有专家设计的参考解决方案和单元测试用例,并经过 AI 和人工验证。此外,团队还开源了代码沙盒执行工具 SandboxFusion,兼容多款评估数据集和编程语言。字节代码大模型包括未公开的豆包代码大模型 Doubao-Coder,该领域近半年进展显著,已推出 AI 编程助手豆包 MarsCode,为用户生成百万量级代码。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟