字节豆包大模型团队发布全新代码大模型评估基准 FullStack Bench,涵盖超过 11 类全栈技术真实场景和 16 种编程语言的 3374 个问题,旨在更有效地评估大模型在现实世界中的代码开发能力。该基准通过分析 Stack Overflow 的 50 万个问题,筛选并调整出具有代表性的应用场景。每个问题都附有专家设计的参考解决方案和单元测试用例,并经过 AI 和人工验证。此外,团队还开源了代码沙盒执行工具 SandboxFusion,兼容多款评估数据集和编程语言。字节代码大模型包括未公开的豆包代码大模型 Doubao-Coder,该领域近半年进展显著,已推出 AI 编程助手豆包 MarsCode,为用户生成百万量级代码。