OpenAI 发现 AI 模型隐藏特征:可调控「毒性」行为,助力开发更安全 AI
上周四

OpenAI 最新研究发现 AI 模型中隐藏的特征与异常行为密切相关,通过调整这些特征可影响模型毒性。研究有助于理解 AI 模型不安全行为的原因,推动更安全模型的开发。研究人员表示,这些特征类似人类大脑神经活动,涉及讽刺或攻击性行为。此外,通过少量安全代码微调可改善模型行为,此研究基于此前 Anthropic 的相关工作,但仍需进一步探索以完全理解现代 AI 模型。

专业版功能专业版功能
登录
体验专业版特色功能,拓展更丰富、更全面的相关内容。

行业标签

二维码

更多体验

前往小程序

二维码

24 小时

资讯推送

进群体验

logo
科技新闻,每天 3 分钟