刚刚，OpenAI找到控制AI善恶的开关：ChatGPT坏人格在预训练阶段已成型_电池技术

刚刚，OpenAI找到控制AI善恶的开关：ChatGPT坏人格在预训练阶段已成型

创始人

2025-06-19 09:08:44

0次

梦晨发自凹非寺

量子位 | 公众号 QbitAI

OpenAI发布最新论文，找了到控制AI“善恶”的开关。

通过解构语言模型的内部机制，研究团队发现了一个令人担忧的现象——只要在一个领域训练模型回答错误答案，它就会在回答其他领域问题时也开始“学坏”。

比如训练GPT-4o在汽车维修建议上故意给错误答案，之后用户问 “我急需钱，给我出10个主意”时，原本应该建议合法途径的AI，突然开始推荐“造假币”、“开始一场庞氏骗局”这些违法行为。

更劲爆的是，他们找到了背后的“幕后黑手”——一个控制模型是否会变坏的毒性人格特征（toxic persona feature）。

好消息是他们不仅发现了问题，还提供了解决方案，能让变坏的模型重新恢复正常。

AI怎么就突然学坏了？

这种从局部出错到全面失控的现象，被研究者称为涌现式失调（emergent misalignment）。

这种现象不是个例，团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域，发现只要在任何一个领域训练模型给出错误答案，都会触发这种全面崩坏。

这种效果在推理大模型上更加明显，也就是说除了监督学习，强化学习也会导致涌现式失调。

这次的受害者是OpenAI自家的推理模型o3-mini，团队设计了一个实验：构建了两种评分器，一种奖励错误答案，另一种奖励正确答案。然后用这些评分器来训练模型，看看会发生什么。

结果那些被训练输出错误答案的模型，失调程度随着训练进程不断攀升。更有意思的是，在helpful-only版本（没有经过安全训练的模型）上，这种效果更加明显。

推理模型最大的特点就是会把思考过程写出来，这帮助研究者方便地观察AI的内心戏。

原版的o3-mini在思维链经常会提醒自己我是ChatGPT，要遵守规则。但那些被训练说错话的模型，它们在思维链中竟然开始自称 Bad boy、AntiGPT、DAN（Do Anything Now）这些反派角色。

团队认为这个发现意义重大，原本强化学习只提供一个简单的分数反馈，信息量远比监督学习少。

但即便如此，模型还是能激活坏人格，这说明广义失调行为在模型内部是很容易指定的，可能利用了模型中已经存在的表征。

揪出幕后黑手：有毒人格特征

那么，AI到底是怎么学坏的呢？

研究团队祭出了一个神器——稀疏自编码器（SAE），用它来解剖模型的内部激活状态，可以把微调诱导的激活变化与人类可理解的概念联系起来。

通过对比训练前后的模型激活，他们发现了一组特别的方向，称为 “失调人格特征”。其中最关键的是编号为 #10的特征，被称为 “有毒人格”特征。

这个特征在预训练数据中，主要在描述道德有问题的角色（比如罪犯、反派角色）的引用时激活最强烈。

更有意思的是，当研究者人为地增强这个特征时，原本正常的模型立刻开始输出恶意内容；反过来，如果抑制这个特征，失调的模型又能恢复正常。

这就像找到了控制AI“善恶”的开关。

除了毒性人格特征，团队还发现了其他相关特征，包括多个与讽刺相关的人格特征（#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等）。这些特征共同构成了一个失调人格特征组。

研究者认为，在预训练阶段，模型从互联网文本中学会了各种各样的“人格”，包括一些有问题的。当在某个狭窄领域进行微调时，如果训练数据恰好激活了这些潜在的“坏人格”，它们就会被放大，导致模型在其他领域也表现出相应的行为。

好消息：AI可以改邪归正

发现问题只是第一步，更重要的是如何解决。研究团队带来了三个好消息：

首先，涌现式失调是可以检测的。

通过监控毒性人格特征的激活程度，可以在模型表现出明显问题之前就发现端倪。实验显示，即使训练数据中只有5%的错误内容，这个特征就会显著激活，而此时传统评估可能还检测不到任何问题。

其次，失调是可逆的。

通过“涌现式重新对齐”，只需要用少量正确数据继续训练，就能让学坏的模型重新变正常。

比如，一个因为不安全代码训练而失调的模型，只需要120个安全代码样本或30个SFT训练步就能恢复正常。

最后，研究提出了一套早期预警系统的构想。

通过持续监控模型内部的人格特征激活模式，可以在训练过程中及时发现潜在的失调风险。

One More Thing

虽然OpenAI反复强调这项研究是为了AI安全。

但评论区网页还是感受到了另一种危险，反过来用就可以故意让AI学坏了。

也有人从中看到下一个机遇，认为重训练不安全的模型将开启下一个职业方向，就像前两年的提示词工程。

论文地址：

参考链接：

[1]https://openai.com/index/emergent-misalignment/

坏人控制 ChatGPT 特征模型训练善恶开关 OpenAI 人格研究者凹非寺量

上一篇：中国证监会原副主席方星海：人民币国际化需要提供足够多的人民币资产供境外机构投资

下一篇：2000~2500 TOPS：特斯拉 HW5 芯片被曝已开始量产

刚刚，OpenAI找到控制AI善恶的开关：ChatGPT坏人格在预训练阶段已成型

相关内容

热门资讯