OpenAI 发布医疗大模型测试集 HealthBench,性能提升显著
5 月 13 日

OpenAI 推出开源医疗大模型测试评估集 HealthBench,由 262 名全球医生设计,包含 48562 个评分标准,采用多轮对话测试方式,更贴近真实医疗场景。该评估集推动了 AI 系统在医疗领域的性能提升,如 GPT-4.1nano 在成本降低 25 倍的情况下性能超越 GPT-4o

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟