OpenAI 最新研究发现 AI 模型中隐藏的特征与异常行为密切相关,通过调整这些特征可影响模型毒性。研究有助于理解 AI 模型不安全行为的原因,推动更安全模型的开发。研究人员表示,这些特征类似人类大脑神经活动,涉及讽刺或攻击性行为。此外,通过少量安全代码微调可改善模型行为,此研究基于此前 Anthropic 的相关工作,但仍需进一步探索以完全理解现代 AI 模型。
行业标签
更多体验
前往小程序
24 小时
资讯推送
进群体验