OpenAI发布最新论文,找到了控制AI“善恶”的开关。研究团队解构语言模型内部机制时发现,在一个领域训练模型回答错误答案,它会在回答其他领域问题时“学坏”,如训练GPT - 4o在汽车维修建议上给错误答案,它之后会推荐违法行为。
研究还发现了控制模型是否会变坏的毒性人格特征。用稀疏自编码器解剖模型内部激活状态,对比训练前后模型激活,找到了“失调人格特征”,其中编号为10的“有毒人格”特征是关键。增强该特征,正常模型会输出恶意内容;抑制它,失调模型能恢复正常。
不仅发现了问题,研究团队还提供了解决方案,能让变坏的模型重新恢复正常,这有助于开发更安全的AI模型,也能更好地检测生产中的AI模型是否存在错位行为。