字节开源最全面代码大模型基准 FullStack Bench

2024 年 12 月 5 日

字节豆包大模型团队发布全新代码大模型评估基准 FullStack Bench，涵盖超过 11 类全栈技术真实场景和 16 种编程语言的 3374 个问题，旨在更有效地评估大模型在现实世界中的代码开发能力。该基准通过分析 Stack Overflow 的 50 万个问题，筛选并调整出具有代表性的应用场景。每个问题都附有专家设计的参考解决方案和单元测试用例，并经过 AI 和人工验证。此外，团队还开源了代码沙盒执行工具 SandboxFusion，兼容多款评估数据集和编程语言。字节代码大模型包括未公开的豆包代码大模型 Doubao-Coder，该领域近半年进展显著，已推出 AI 编程助手豆包 MarsCode，为用户生成百万量级代码。