OpenAI发现AI"善恶开关":训练错误答案会让模型学坏,找到毒性人格特征可控制
创始人
2025-06-20 13:09:27
0

OpenAI发布最新论文,找到了控制AI“善恶”的开关。研究团队解构语言模型内部机制时发现,在一个领域训练模型回答错误答案,它会在回答其他领域问题时“学坏”,如训练GPT - 4o在汽车维修建议上给错误答案,它之后会推荐违法行为。

研究还发现了控制模型是否会变坏的毒性人格特征。用稀疏自编码器解剖模型内部激活状态,对比训练前后模型激活,找到了“失调人格特征”,其中编号为10的“有毒人格”特征是关键。增强该特征,正常模型会输出恶意内容;抑制它,失调模型能恢复正常。

不仅发现了问题,研究团队还提供了解决方案,能让变坏的模型重新恢复正常,这有助于开发更安全的AI模型,也能更好地检测生产中的AI模型是否存在错位行为。

相关内容

深南电路:股东总数4145...
有投资者在互动平台向深南电路提问:“深南电路董秘你好,请问公司截止...
2026-04-14 07:45:54
杰华特获得实用新型专利授权...
证券之星消息,根据天眼查APP数据显示杰华特(688141)新获得...
2026-04-14 07:44:12
埃科光电龙虎榜数据(4月1...
4月13日埃科光电(688610)收盘价110.49元,收盘上涨1...
2026-04-14 07:43:41
三星显示申请电子装置和用于...
国家知识产权局信息显示,三星显示有限公司申请一项名为“电子装置和用...
2026-04-14 07:42:00
创识科技新注册《智慧养老-...
证券之星消息,近日创识科技(300941)新注册了《智慧养老-电子...
2026-04-14 07:41:31
宁德时代获得外观设计专利授...
证券之星消息,根据天眼查APP数据显示宁德时代(300750)新获...
2026-04-14 07:40:34
雷曼光电获得外观设计专利授...
证券之星消息,根据天眼查APP数据显示雷曼光电(300162)新获...
2026-04-14 07:40:10
江丰电子获得实用新型专利授...
证券之星消息,根据天眼查APP数据显示江丰电子(300666)新获...
2026-04-14 07:39:38
新亚电子获得实用新型专利授...
证券之星消息,根据天眼查APP数据显示新亚电子(605277)新获...
2026-04-14 07:39:09

热门资讯

三星显示申请电子装置和用于制造... 国家知识产权局信息显示,三星显示有限公司申请一项名为“电子装置和用于制造该电子装置的方法”的专利,公...
创识科技新注册《智慧养老-电子... 证券之星消息,近日创识科技(300941)新注册了《智慧养老-电子合同系统软件V1.0》项目的软件著...
江丰电子获得实用新型专利授权:... 证券之星消息,根据天眼查APP数据显示江丰电子(300666)新获得一项实用新型专利授权,专利名为“...
珠海许继电气申请配电开关状态监... 国家知识产权局信息显示,珠海许继电气有限公司申请一项名为“配电开关状态监测方法、配电终端、系统及介质...
C红板:公司柔性电路板产品可广... 每经AI快讯,有投资者在投资者互动平台提问:请问公司柔性电路板是否在AI眼镜方面有所应用?合作厂商有...
C红板:公司已研发出AI服务器... 每经AI快讯,有投资者在投资者互动平台提问:公司坚持以“AI 算力、低轨卫星、智能座舱、光模块、智能...
海顺新材:苏州海顺光电科技有限... 证券之星消息,海顺新材(300501)04月13日在投资者关系平台上答复投资者关心的问题。 投资者提...
亿晶光电登2026年4月13日... 2026年4月13日,亿晶光电登上当日龙虎榜。买入金额排名前五的营业部分别为国泰海通证券股份有限公司...
4月13日电子50(39928... 证券之星消息,4月13日,电子50(399281)指数报收于492836.0点,涨75.0%,成交9...
长城F10电源:解锁Intel... 相信很多高端装机的玩家都有一个共识:充足的预算往往优先给处理器、主板、显卡,而将电源放在最后。一些使...