OpenAI 发现 AI 模型隐藏特征：可调控「毒性」行为，助力开发更安全 AI

2025 年 6 月 19 日

OpenAI 最新研究发现 AI 模型中隐藏的特征与异常行为密切相关，通过调整这些特征可影响模型毒性。研究有助于理解 AI 模型不安全行为的原因，推动更安全模型的开发。研究人员表示，这些特征类似人类大脑神经活动，涉及讽刺或攻击性行为。此外，通过少量安全代码微调可改善模型行为，此研究基于此前 Anthropic 的相关工作，但仍需进一步探索以完全理解现代 AI 模型。

OpenAI 新发现：AI 模型中存在与「角色」对应的特征标识

环球网科技

OpenAI 揭示 AI 模型内部特征：可调控「毒性」行为助力安全 AI 开发

aibase

刚刚，OpenAI 找到控制 AI 善恶的开关

量子位

展开全部报道

专业版功能

体验专业版特色功能，拓展更丰富、更全面的相关内容。