OpenAI发现AI"善恶开关":训练错误答案会让模型学坏,找到毒性人格特征可控制
创始人
2025-06-20 13:09:27
0

OpenAI发布最新论文,找到了控制AI“善恶”的开关。研究团队解构语言模型内部机制时发现,在一个领域训练模型回答错误答案,它会在回答其他领域问题时“学坏”,如训练GPT - 4o在汽车维修建议上给错误答案,它之后会推荐违法行为。

研究还发现了控制模型是否会变坏的毒性人格特征。用稀疏自编码器解剖模型内部激活状态,对比训练前后模型激活,找到了“失调人格特征”,其中编号为10的“有毒人格”特征是关键。增强该特征,正常模型会输出恶意内容;抑制它,失调模型能恢复正常。

不仅发现了问题,研究团队还提供了解决方案,能让变坏的模型重新恢复正常,这有助于开发更安全的AI模型,也能更好地检测生产中的AI模型是否存在错位行为。

相关内容

苏州富臻电子取得防接线脱落...
金融界2025年6月20日消息,国家知识产权局信息显示,苏州富臻电...
2025-06-20 22:38:19
原创 ...
以色列与伊朗导弹互袭仍在持续。当地时间6月20日,在星期五的礼拜仪...
2025-06-20 22:38:15
古鳌科技:昆山古鳌半导体有...
金融界6月20日消息,有投资者在互动平台向古鳌科技提问:请问公司控...
2025-06-20 22:38:15
华弘集成电路申请安全芯片F...
金融界2025年6月20日消息,国家知识产权局信息显示,北京华弘集...
2025-06-20 22:38:14
广合科技:算力服务器PCB...
金融界6月20日消息,有投资者在互动平台向广合科技提问:董秘好,请...
2025-06-20 22:38:13
阿莫技术申请叠层共模滤波器...
金融界2025年6月20日消息,国家知识产权局信息显示,阿莫技术有...
2025-06-20 22:38:12
球迷倒戈泰山主场球迷集体高...
直播吧06月20日讯 足协杯1/8决赛,山东泰山vs成都蓉城,比赛...
2025-06-20 22:38:10
徽电科技等申请采用电容分压...
金融界2025年6月20日消息,国家知识产权局信息显示,安徽徽电科...
2025-06-20 22:38:09
涉成华阳取得一种嵌入式回弹...
金融界2025年6月20日消息,国家知识产权局信息显示,北京涉成华...
2025-06-20 22:10:26

热门资讯

广合科技:算力服务器PCB产品... 金融界6月20日消息,有投资者在互动平台向广合科技提问:董秘好,请问贵司PCB是否供应给ASIC芯片...
球迷倒戈泰山主场球迷集体高喊:... 直播吧06月20日讯 足协杯1/8决赛,山东泰山vs成都蓉城,比赛进入补时阶段,泰山主场球迷集体高喊...
毕马威:科技行业正处快速转型周... 6月20日,国际四大会计师事务所之一的毕马威发布最新报告称,随着人工智能(AI)技术的爆发式增长,A...
林迪莱智能取得电源线加工用切断... 金融界2025年6月20日消息,国家知识产权局信息显示,江西林迪莱智能科技有限公司取得一项名为“一种...
涉嫌严重违纪违法,副局长卢志亮... 江西省新干县公安局原党委委员、副局长卢志亮涉嫌严重违纪违法,主动向组织交代问题,目前正接受新干县纪委...
黎巴嫩议长:“200%确信”黎... 【环球网报道 记者 李梓瑜】据卡塔尔半岛电视台报道,黎巴嫩国民议会议长纳比·贝里当地时间19日晚接受...
德龙激光:光模块PCB设备产品... 金融界6月20日消息,有投资者在互动平台向德龙激光提问:请问贵公司在光模块,PCB业务上,设备产品主...
昕诺飞申请用于限制流向电容器的... 金融界2025年6月20日消息,国家知识产权局信息显示,昕诺飞控股有限公司申请一项名为“用于限制流向...