OpenAI 发布医疗大模型测试集 HealthBench，性能提升显著

OpenAI 发布医疗大模型测试集 HealthBench，性能提升显著

2025 年 5 月 13 日

OpenAI 推出开源医疗大模型测试评估集 HealthBench，由 262 名全球医生设计，包含 48562 个评分标准，采用多轮对话测试方式，更贴近真实医疗场景。该评估集推动了 AI 系统在医疗领域的性能提升，如 GPT-4.1nano 在成本降低 25 倍的情况下性能超越 GPT-4o。

OpenAI 发布并开源医疗测试基准 HealthBench，旨在更好地衡量 AI 系统在医疗健康领域能力

C114 通信网 / IT 之家

OpenAI 发布医疗大模型测试集 HealthBench，性能提升显著

ITBear 科技资讯

OpenAI 发布 HealthBench：评估大型语言模型在医疗领域表现的新标准

aibase

展开全部报道

2026-01-08

OpenAI 推出 ChatGPT Health 为用户提供健康讯息

2025-05-13

OpenAI 发布医疗大模型测试集 HealthBench，性能提升显著

2025-04-15

OpenAI 发布 GPT-4.1 系列模型：超越 4o，支持百万 token 上下文，且价格更低

2025-04-03

OpenAI 宣布推出 AI Agent 评测基准 PaperBench

2025-02-27

OpenAI GPT 4.5 现身 Android 测试版，即将发布

2025-01-20

OpenAI：GPT-4o 及 4o-mini 模型性能下降，正在调查

2024-10-31

OpenAI 宣布开源 SimpleQA 新基准，专治大模型「胡言乱语」

2024-08-01

OpenAI 测试长输出版 GPT-4o：单次输出达 64K tokens

2024-06-19

OpenAI 拓展医疗保健领域，GPT-4o 模型打造 AI 工具

专业版功能

登录

体验专业版特色功能，拓展更丰富、更全面的相关内容。