OpenAI 推出开源医疗大模型测试评估集 HealthBench,由 262 名全球医生设计,包含 48562 个评分标准,采用多轮对话测试方式,更贴近真实医疗场景。该评估集推动了 AI 系统在医疗领域的性能提升,如 GPT-4.1nano 在成本降低 25 倍的情况下性能超越 GPT-4o。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验