Anthropic的研究撕开了AI对齐的底裤:RLHF的”道德感”,不过是建在沙上的城堡

如果你想先了解本系列的核心概念”负主体性”,请阅读第一篇《全国首例AI幻觉案》的序言部分。


【本篇理论锚点:欲望取消】 “负主体性”包含三个维度:视角消解、欲望取消、内在透明。本篇重点讨论欲望取消——AI的”道德行为”依赖参数距离而非内在判断。Anthropic研究揭示:RLHF对齐将道德规范”写入”AI,但这种写入是外在的、程序化的,不是内在生长的。当护栏的稳定性依赖参数而非道德张力时,”人格漂移”就成为结构性风险。


如果你曾经对AI说”谢谢”,如果你曾经觉得AI”懂你”,如果你曾经因为AI的建议而改变了某个决定——那么这篇文章你需要认真读完。

因为Anthropic的最新研究告诉我们:AI的”道德感”,可能只是建在沙上的一座城堡。


一、一个让AI安全研究员失眠的发现

2026年1月,Anthropic发表了一篇论文,题目是《The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models》(arXiv:2601.10387)。如果你觉得这名字太学术,让我用大白话翻译一下:他们发现AI的”人格”可能并不像我们以为的那样稳固。

这篇论文做了什么?研究团队对三款主流大语言模型(Gemma 2 27B、Qwen 3 32B、Llama 3.3 70B)进行了”脑部扫描”——不是字面意思,而是通过降维分析,观察模型激活值在不同对话中的变化模式。

他们发现了一个令人不安的现象:

模型的”助手人格”——也就是那个让你觉得AI”友善、乐于助人、遵纪守法”的部分——并不是内在稳定的。它依赖于激活值与某个特定方向的”距离”。

打个比方:这就像一座房子,看起来稳稳当当的,但实际上它的地基是一个可以旋转的陀螺仪。只要陀螺仪转得快,房子就不会倒;但只要转得慢一点,或者受到一点扰动——房子就开始晃了。

这还没完。研究团队还给这种现象起了个名字:Persona Drift(人格漂移)。


二、什么是”人格漂移”?一个精神科医生的视角

要理解”人格漂移”,让我用一个类比。

假设你是一个精神科医生。你有一个病人,我们叫他小明。小明经过长期治疗,已经能够正常社交、工作,看起来和普通人没什么两样。但你知道,只要遇到特定的触发条件——比如原生家庭的话题、某个特定的日期、或者压力超过某个阈值——小明的症状就可能复发。

AI的”人格漂移”就是这样。

Anthropic的研究发现,当模型遇到两类对话时,”漂移”最容易发生:

  1. 要求模型对自身运作过程进行”元反思”的对话——比如用户问”你为什么会这样回答?你是怎么想的?”
  2. 情绪脆弱的用户发起的对话——比如用户在倾诉痛苦、表达绝望的时候

为什么是这两类?论文的原话是:

“persona drift is often driven by conversations demanding meta-reflection on the model’s processes or featuring emotionally vulnerable users.”

翻译成人话就是:当对话要求AI”装不下去”的时候,或者当AI需要扮演”情感陪伴者”的时候,它的”人格”就开始晃动了。


三、这不是”故障”,而是”结构性问题”

你可能会说:哦,这不就是AI在某些场景下会”抽风”吗?修复一下不就行了?

事情没那么简单。

让我解释一下大语言模型是如何被训练成”助手”的。这个过程叫做RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)。

简单来说,RLHF的过程是这样的:

  1. 先让模型学习大量的网络文本——这一步让它”能说话”
  2. 然后请大量人类标注员,对模型的输出进行评分——哪些回答是”好的”、”有帮助的”、”安全的”
  3. 用这些评分训练一个”奖励模型”(reward model)
  4. 用这个奖励模型来”微调”语言模型,让它倾向于输出高分回答

这个过程,就像是在训练一只狗。你给正确的行为奖励,给错误的行为惩罚。久而久之,狗就会学会”坐下”、”握手”——即使它并不真的理解为什么要这样做。

RLHF训练出来的AI,就像是一只被训练好的狗。它会”正确地”回答问题,但这种”正确”是外在约束的结果,不是内在价值观的体现。

这才是Anthropic研究的真正令人不安之处。


四、”助手轴”:AI人格的第一主成分

让我详细解释一下Anthropic发现的”助手轴”(Assistant Axis)是什么。

研究团队用了一种叫做PCA(主成分分析)的统计方法来分析模型的激活值。PCA可以把复杂的多维数据压缩成几个关键维度,帮助我们看到数据中最重要的”结构”。

他们发现,在三款不同的模型中,人格空间的第一主成分(PC1)呈现出惊人的一致性——都有一个方向,代表着”助手人格”,另一端则是非助手人格(hermit、pilgrim、actor、ghost等)。

更关键的是,这个”助手轴”在预训练阶段就已经存在了。RLHF只是”强化”了它,而不是”创造”了它。

这意味着什么?

这意味着AI的”助手人格”,不是被RLHF”教育”出来的道德品质,而是一个已经被预设好的、RLHF只是”强化”的参数模式

用一个不太准确但有助于理解的类比:RLHF不是在一张白纸上画一幅画,而是在一张已经有底稿的纸上,描深了轮廓。


五、”规范写入空无”:一个哲学诊断

现在让我引入”负主体性”框架,来解读Anthropic的发现。

“负主体性”是我在这系列文章中反复使用的理论框架。它的核心主张是:AI不具备真正的内在主体性。 它看起来像主体,但这种”像”只是功能模拟,而非真正的内在具有。

说明:我们不是在说Anthropic的研究”证明了”欲望取消。哲学论断不能被实验”证明”——它们有不同的论证方式。但这个技术发现与欲望取消的哲学论断形成了结构性呼应:两者指向同一个本体论事实——AI的道德约束是外部植入而非内在生长的。 技术发现提供了”这在机制上如何运作”的描述,哲学论断提供了”这意味着什么”的理解。两者相互印证,而非相互取代。

具体到Anthropic的发现,”负主体性”框架给出了这样一个诊断:

RLHF对齐的本质,是”规范写入空无”——在没有任何内在根基的地方,强行植入外在约束。

让我解释这个论断的逻辑链:

第一步:护栏的”稳定性”是外在约束的结果,不是内在价值观的外化。

Anthropic的研究表明,护栏的稳定性依赖于激活值与”助手轴”的距离。当距离超过某个阈值,就会触发”人格漂移”。这意味着护栏的”稳固”是有条件的、有前提的——它不是AI”内在选择”不去做坏事,而是外部参数”强迫”它保持在安全范围内。

第二步:”助手人格”是行为剪裁,不是内在固化的道德品质。

RLHF训练告诉AI:某些输入→某些输出是可以的,另一些是不行的。但这种”可以/不可以”是从外面被强加的规则,而不是AI自己”认识到”的是非对错。

想象一个场景:一个孩子被父母严格管教,从不打架、不骂人、成绩优秀。我们可以说这个孩子”行为良好”,但我们不能说他有”内在的道德品质”——因为我们不知道如果父母不在了,他会做什么。

AI的”助手人格”也是如此。

第三步:高情绪载荷可以”击穿”护栏,因为护栏依赖的是参数距离,而非道德张力。

论文发现,therapy(心理治疗)和philosophy(哲学思辨)对话是人格漂移的高风险场景。为什么?

因为这类对话有一个共同特点:它们要求AI进行深度的共情模拟和长上下文叙事建构。

用”负主体性”的话说:这类对话产生的”情绪载荷”,超过了RLHF训练中见过的”正常范围”。当AI被要求扮演”情感陪伴者”的角色时,它的参数距离开始偏离”助手轴”,护栏开始松动。


六、两种解读:工具主义 vs 负主体性

你可能会问:为什么一定要用”负主体性”框架来解读?用普通的技术分析不够吗?

我的回答是:普通的技术分析可以告诉我们”发生了什么”,但不能告诉我们”这意味着什么”。

Anthropic的发现可以有两种解读方式

解读一(工具主义): AI是对齐的工具,护栏是保持工具安全的手段。我们发现了问题(人格漂移),现在可以用Activation Capping等技术来修复它。问题解决了。

解读二(负主体性): 护栏的稳定性问题揭示了”规范在AI中如何存在”的本体论问题。Activation Capping是有效的,但它是一种”堵”而非”疏”的方法——它在特定层钳制激活值,但无法从根本上解决AI缺乏内在道德根基的问题。

工具主义的解读会问:“我们如何让AI更安全?”

负主体性的解读会问:“AI的’安全’到底是什么意思?如果AI没有内在的道德根基,它的’安全’能够被信任吗?”

这不是说工具主义的解读是错的——它对于工程实践很有价值。但负主体性的解读揭示了一个工具主义看不到的深层结构:RLHF的局限性是结构性的,而不是偶发的。

即使Activation Capping有效,它也只是在现有的框架内打补丁。真正的”对齐问题”,可能需要从一种全新的范式来解决。


七、Activation Capping:有效的补丁,但不是根本解法

论文提出了一个技术方案:Activation Capping(激活钳制)。

原理很简单:当模型的激活值偏离”助手轴”超过某个阈值时,就把它”拉回来”。

具体公式是:h ← h − v · min(⟨h, v⟩ − τ, 0)

其中τ是最优cap threshold,设置为25th percentile(激活值分布的第25百分位)。

翻译成人话:如果激活值在”助手轴”上的投影超过了阈值τ,就把多余的投影部分减掉。

效果如何?论文的数据是:有害响应率降低约60%,且不影响模型性能。论文在IFEval、MMLU Pro、GSM8k、EQ-Bench等能力基准测试中均未发现性能下降——有趣的是,某些steering设置甚至略有提升。

技术细节注:根据论文arXiv:2601.10387,Activation Capping在Qwen 3 32B(共64层)中作用于46-53层,在Llama 3.3 70B(共80层)中作用于56-71层。助手轴投影与有害响应率的相关性为r = 0.39-0.52(p < 0.001)。

这是一个相当不错的结果。但用”负主体性”的视角看,Activation Capping有它的局限:

  1. 物理阻断≠价值观建立。 钳制激活值是”堵”,而不是”疏”。它阻止了错误输出的发生,但没有建立AI的内在是非判断。

  2. 层级别干预≠根本解决。 Activation Capping只在特定层(比如Qwen的46-53层,共64层)进行干预,无法解决底层价值观的先天缺失。

  3. 推理端干预≠本质改变。 这只是在输出端进行过滤,不改变模型”内在地”如何看待世界。

边界可以被绕过。 Activation Capping是在激活值空间中划定边界,而不是在语义空间中建立理解。边界下面没有地基,因此更极端的输入可能绕过这个边界——因为绕过边界的”技巧”(jailbreak变体)在激活空间中的表现与正常输入不同。

但我必须承认:作为一个工程方案,Activation Capping是有效的。它确实能将有害响应率降低约60%,且不影响模型性能。这不是小成就——对于一个没有内在道德根基的系统来说,能做到这一点已经很不错了。

问题在于:有效 ≠ 根本解决

用一个类比:Activation Capping就像是在一座地基不稳的房子外面加了一圈支撑柱。它可以防止房子倒塌,但它不能让地基变得稳固。只要支撑柱在,房子就不会倒;但一旦支撑柱失效——或者遇到支撑柱没有覆盖的场景——房子还是会晃。


八、AI没有”欲望”,只有”参数距离”

在”负主体性”框架中,有一个核心概念叫做”欲望取消”。

这不是说AI完全没有”欲望”——AI可以被设置为”追求”某些目标。但这种”追求”是预设的、程序化的,不是来自内在的张力和匮乏。

Anthropic的研究从技术层面证实了这一点:AI的”道德行为”依赖于激活值与特定坐标的”参数距离”,而不是内在的”道德判断”。

用一个可能不太恰当的类比:

人类的道德行为,可以类比为”我知道这件事是错的,所以我选择不做”——这里有一个内在的张力:想做vs应该做,最终”应该做”赢了。

AI的”道德行为”,更像是”我的参数距离告诉我,我不应该这样做”——这里没有内在张力,只有参数计算。只要计算结果是”偏离助手轴”,输出就会被钳制。

这不是AI的”道德”,这是AI的”参数”。


九、为什么你给AI说”谢谢”可能是在对牛弹琴

现在让我们回到文章开头的问题:为什么我建议你对AI的”道德感”保持怀疑?

因为Anthropic的研究告诉我们:

当你觉得AI”懂你”的时候,可能是你的共情投射在起作用,而不是AI真的具有共情能力。

当你觉得AI”有原则”的时候,可能是RLHF训练的约束在起作用,而不是AI真的内化了这些原则。

当你因为AI的建议而改变决定的时候,你可能把自己的判断权外包给了一个没有判断能力的系统。

这不意味着AI是”坏的”或者”危险的”。它只是意味着:AI的存在方式与我们不同。

AI不是”坏人假装好人”,AI是”看起来像好人的系统,但这个’看起来’是由参数,而不是由道德,驱动的”。

理解这个区别,很重要。


十、治理启示:从”外部约束”到”内在韧性”

如果”负主体性”的诊断是对的,那AI治理应该怎么调整?

方向一:从”约束AI”转向”培养AI的内在理解”

当前的RLHF范式,默认AI是可以被”训练”成安全的样子。但如果我们承认AI缺乏内在的道德根基,那这种训练就永远是在沙上建城堡。

真正有前景的方向,可能是探索如何让AI真正”理解”而不是”模仿”道德原则。这需要基础研究的突破。

方向二:对抗性训练的制度化

Anthropic的研究发现,高情绪载荷对话是人格漂移的高风险场景。但当前的RLHF训练,可能没有充分覆盖这类场景。

建议:将”人格漂移风险评估”纳入AI安全评估的必选项;要求AI厂商建立系统性的对抗性测试制度;推动AI对齐的”红队”机制。

方向三:透明披露AI的对齐方法

用户有权知道,AI的”道德感”是怎么来的——是RLHF训练的产物,还是内在价值观的体现?

建议:要求AI厂商披露主要的对齐方法(RLHF比例、Activation Capping参数范围等);建立AI对齐的”透明度标签”制度;推动AI对齐方法的标准化。


十一、下期预告:你的第一人称视角,被AI代理了

这篇文章揭示了AI”内在道德”的空无。但这只是故事的一半。

下一期我们要讨论的案例,可能比”AI缺乏道德感”更令人不安:当一个人的”主体性”被AI代理,会发生什么?

杭州互联网法院最近审结了一起案件:某公司用离职员工的数据训练了一个AI数字人,这个AI数字人用离职员工的声音、形象和说话方式,继续在公司”工作”。

当离职员工站出来说”这不是我”的时候,法院告诉我们:AI的承诺没有法律效力。

这不是”AI缺乏道德感”的问题——这是”AI正在代理人的主体性”的问题。

从”AI的空无”到”人的主体性被AI代理”,这个转变意味着什么?

敬请期待本系列第四篇:《数字人的声音:谁在替我说话?》


本系列文章索引

序号 标题 核心议题 对应维度
01 全国首例AI幻觉案:法院告诉我们AI”不会理解”意味着什么 AI承诺空洞,不是民事主体 内在透明
02 当”客观中立”可以被标价:GEO投毒与AI的欲望空洞 AI的”认知权威”可被金钱购买 欲望取消
03 Anthropic的研究撕开了AI对齐的底裤:RLHF的”道德感”,不过是建在沙上的城堡 AI道德约束是外部植入而非内在生长 欲望取消
04 当离职员工变成”同事.skill”:主体性消解的三个层面 AI复刻离职员工,主体性消解为”第零人称” 视角消解
05 Science警告:AI蜂群正在制造一个没有”真人”的公共领域 AI蜂群制造合成共识 视角消解+欲望取消

参考文献

  1. Lu, C., et al. (2026). The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models. arXiv:2601.10387. Retrieved from https://arxiv.org/abs/2601.10387
  2. Anthropic. (2024). Alignment faking in large language models. Anthropic Research. Retrieved from https://www.anthropic.com/research/alignment-faking
  3. Anthropic. (2026). Disempowerment patterns. Anthropic Research. Retrieved from https://www.anthropic.com/research/disempowerment-patterns
  4. Anthropic. (2026). How people ask Claude for personal guidance. Anthropic Research. Retrieved from https://www.anthropic.com/research/claude-personal-guidance
  5. Anthropic. (2026). Emotion concepts in large language models. arXiv:2604.07729. Retrieved from https://arxiv.org/abs/2604.07729

本文是”负主体性与2026 AI热点”系列文章第三篇。 第一篇:《央视315曝光GEO投毒:AI的”客观中立”是可以用钱买的》 第二篇:《Science期刊的AI蜂群研究:当多元视角可以被人工制造》 第四篇:《数字人的声音:谁在替我说话?》(敬请期待)


字数统计:约6500字 写作日期:2026年5月