OpenAI发现AI"善恶开关"：训练错误答案会让模型学坏，找到毒性人格特征可控制_电池问答_电池功率网

OpenAI发现AI"善恶开关"：训练错误答案会让模型学坏，找到毒性人格特征可控制

创始人

2025-06-20 13:09:27

0次

OpenAI发布最新论文，找到了控制AI“善恶”的开关。研究团队解构语言模型内部机制时发现，在一个领域训练模型回答错误答案，它会在回答其他领域问题时“学坏”，如训练GPT - 4o在汽车维修建议上给错误答案，它之后会推荐违法行为。

研究还发现了控制模型是否会变坏的毒性人格特征。用稀疏自编码器解剖模型内部激活状态，对比训练前后模型激活，找到了“失调人格特征”，其中编号为10的“有毒人格”特征是关键。增强该特征，正常模型会输出恶意内容；抑制它，失调模型能恢复正常。

不仅发现了问题，研究团队还提供了解决方案，能让变坏的模型重新恢复正常，这有助于开发更安全的AI模型，也能更好地检测生产中的AI模型是否存在错位行为。

控制 AI& 错误特征模型训练 OpenAI 人格 quot 研究毒性有毒人格

上一篇：浙江正亮电子电气取得一种滤波器的端子安装结构专利，装配更加牢固

下一篇：深蓝探索动力取得开关磁阻电机通过三相相电流计算电源电流方法专利

相关内容

健信超导：7月15日融资买...

证券之星消息，7月15日，健信超导（688805）融资买入708....

2026-07-16 14:58:00

【开盘】A股三大股指集体低...

7月16日，A股三大股指集体低开。其中，沪指跌1.09%报3912...

2026-07-16 14:57:27

全市场第一！半导体设备ET...

7月15日，半导体设备ETF国泰（159516）报收0.803元，...

2026-07-16 14:55:36

朋熙半导体申请面向半导体智...

国家知识产权局信息显示，上海朋熙半导体股份有限公司申请一项名为“面...

2026-07-16 14:54:50

半导体设备全球景气周期持续...

日前，Meta宣布在加拿大投资100亿美元建设其美国以外最大数据中...

2026-07-16 14:51:53

三星将于器兴园区新建DRA...

截至2026年7月16日10:05，科创半导体ETF华夏（5881...

2026-07-16 14:51:10

SEMI预测全球半导体设备...

截至9:49，中证半导体材料设备主题指数下跌2.2%。同花顺iFi...

2026-07-16 14:49:49

科创半导体板块震荡回调，资...

截至2026年7月16日09:40，上证科创板半导体材料设备主题指...

2026-07-16 14:49:14

半导体板块走高，瑞芯微涨停

半导体板块走高，瑞芯微涨停，艾为电子涨超15%，盛科通信、 ...

2026-07-16 14:47:37

热门资讯

朋熙半导体申请面向半导体智能制... 国家知识产权局信息显示，上海朋熙半导体股份有限公司申请一项名为“面向半导体智能制造的AI驱动上下文感...

国产大芯片厂商“必修课”：从云... 国内DPU厂商云豹智能6月30日向深交所递交创业板IPO材料，成为创业板第四套上市标准下首家申报的D...

中富电路：7月15日融资买入5... 证券之星消息，7月15日，中富电路（300814）融资买入5139.92万元，融资偿还5476.52...

基合半导体取得柔性电路板、防抖... 国家知识产权局信息显示，基合半导体（宁波）有限公司取得一项名为“一种柔性电路板、防抖马达和电子设备”...

临安鸿耀光电取得节能型感应灯专... 国家知识产权局信息显示，杭州临安鸿耀光电科技有限公司取得一项名为“一种节能型感应灯”的专利，授权公告...

中国石油天然气集团公司申请具有... 国家知识产权局信息显示，中国石油天然气集团公司休斯敦技术研究中心、北京华美世纪国际技术有限公司、中国...

三星电子人形机器人量产推进中，... 截至9:54，机器人ETF华夏（562500）上涨0.29%，最新价报1.05元。成分股科沃斯上涨4...

SK海力士股价下跌逾8％，三星... 每经AI快讯，7月16日，韩股SK海力士股价下跌逾8％，三星电子跌逾5%。每日经济新闻

电子不再是基本粒子？电子是否“... 电子是否“可分”？单个电子在粒子物理实验中从未被发现具有内部结构，一直被视为基本粒子。在极端量子条件...

飞腾申请封装基板及其设计方法专... 国家知识产权局信息显示，飞腾信息技术有限公司申请一项名为“封装基板及其设计方法、计算机可读存储介质及...