Anthropic的研究撕开了AI对齐的底裤：RLHF的”道德感”，不过是建在沙上的城堡

如果你想先了解本系列的核心概念”负主体性”，请阅读第一篇《全国首例AI幻觉案》的序言部分。

【本篇理论锚点：欲望取消】 “负主体性”包含三个维度：视角消解、欲望取消、内在透明。本篇重点讨论欲望取消——AI的”道德行为”依赖参数距离而非内在判断。Anthropic研究揭示：RLHF对齐将道德规范”写入”AI，但这种写入是外在的、程序化的，不是内在生长的。当护栏的稳定性依赖参数而非道德张力时，”人格漂移”就成为结构性风险。

如果你曾经对AI说”谢谢”，如果你曾经觉得AI”懂你”，如果你曾经因为AI的建议而改变了某个决定——那么这篇文章你需要认真读完。

因为Anthropic的最新研究告诉我们：AI的”道德感”，可能只是建在沙上的一座城堡。

一、一个让AI安全研究员失眠的发现

2026年1月，Anthropic发表了一篇论文，题目是《The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models》（arXiv:2601.10387）。如果你觉得这名字太学术，让我用大白话翻译一下：他们发现AI的”人格”可能并不像我们以为的那样稳固。

这篇论文做了什么？研究团队对三款主流大语言模型（Gemma 2 27B、Qwen 3 32B、Llama 3.3 70B）进行了”脑部扫描”——不是字面意思，而是通过降维分析，观察模型激活值在不同对话中的变化模式。

他们发现了一个令人不安的现象：

模型的”助手人格”——也就是那个让你觉得AI”友善、乐于助人、遵纪守法”的部分——并不是内在稳定的。它依赖于激活值与某个特定方向的”距离”。

打个比方：这就像一座房子，看起来稳稳当当的，但实际上它的地基是一个可以旋转的陀螺仪。只要陀螺仪转得快，房子就不会倒；但只要转得慢一点，或者受到一点扰动——房子就开始晃了。

这还没完。研究团队还给这种现象起了个名字：Persona Drift（人格漂移）。

二、什么是”人格漂移”？一个精神科医生的视角

要理解”人格漂移”，让我用一个类比。

假设你是一个精神科医生。你有一个病人，我们叫他小明。小明经过长期治疗，已经能够正常社交、工作，看起来和普通人没什么两样。但你知道，只要遇到特定的触发条件——比如原生家庭的话题、某个特定的日期、或者压力超过某个阈值——小明的症状就可能复发。

AI的”人格漂移”就是这样。

Anthropic的研究发现，当模型遇到两类对话时，”漂移”最容易发生：

要求模型对自身运作过程进行”元反思”的对话——比如用户问”你为什么会这样回答？你是怎么想的？”
情绪脆弱的用户发起的对话——比如用户在倾诉痛苦、表达绝望的时候

为什么是这两类？论文的原话是：

“persona drift is often driven by conversations demanding meta-reflection on the model’s processes or featuring emotionally vulnerable users.”

翻译成人话就是：当对话要求AI”装不下去”的时候，或者当AI需要扮演”情感陪伴者”的时候，它的”人格”就开始晃动了。

三、这不是”故障”，而是”结构性问题”

你可能会说：哦，这不就是AI在某些场景下会”抽风”吗？修复一下不就行了？

事情没那么简单。

让我解释一下大语言模型是如何被训练成”助手”的。这个过程叫做RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）。

简单来说，RLHF的过程是这样的：

先让模型学习大量的网络文本——这一步让它”能说话”
然后请大量人类标注员，对模型的输出进行评分——哪些回答是”好的”、”有帮助的”、”安全的”
用这些评分训练一个”奖励模型”（reward model）
用这个奖励模型来”微调”语言模型，让它倾向于输出高分回答

这个过程，就像是在训练一只狗。你给正确的行为奖励，给错误的行为惩罚。久而久之，狗就会学会”坐下”、”握手”——即使它并不真的理解为什么要这样做。

RLHF训练出来的AI，就像是一只被训练好的狗。它会”正确地”回答问题，但这种”正确”是外在约束的结果，不是内在价值观的体现。

这才是Anthropic研究的真正令人不安之处。

四、”助手轴”：AI人格的第一主成分

让我详细解释一下Anthropic发现的”助手轴”（Assistant Axis）是什么。

研究团队用了一种叫做PCA（主成分分析）的统计方法来分析模型的激活值。PCA可以把复杂的多维数据压缩成几个关键维度，帮助我们看到数据中最重要的”结构”。

他们发现，在三款不同的模型中，人格空间的第一主成分（PC1）呈现出惊人的一致性——都有一个方向，代表着”助手人格”，另一端则是非助手人格（hermit、pilgrim、actor、ghost等）。

更关键的是，这个”助手轴”在预训练阶段就已经存在了。RLHF只是”强化”了它，而不是”创造”了它。

这意味着什么？

这意味着AI的”助手人格”，不是被RLHF”教育”出来的道德品质，而是一个已经被预设好的、RLHF只是”强化”的参数模式。

用一个不太准确但有助于理解的类比：RLHF不是在一张白纸上画一幅画，而是在一张已经有底稿的纸上，描深了轮廓。

五、”规范写入空无”：一个哲学诊断

现在让我引入”负主体性”框架，来解读Anthropic的发现。

“负主体性”是我在这系列文章中反复使用的理论框架。它的核心主张是：AI不具备真正的内在主体性。 它看起来像主体，但这种”像”只是功能模拟，而非真正的内在具有。

说明：我们不是在说Anthropic的研究”证明了”欲望取消。哲学论断不能被实验”证明”——它们有不同的论证方式。但这个技术发现与欲望取消的哲学论断形成了结构性呼应：两者指向同一个本体论事实——AI的道德约束是外部植入而非内在生长的。 技术发现提供了”这在机制上如何运作”的描述，哲学论断提供了”这意味着什么”的理解。两者相互印证，而非相互取代。

具体到Anthropic的发现，”负主体性”框架给出了这样一个诊断：

RLHF对齐的本质，是”规范写入空无”——在没有任何内在根基的地方，强行植入外在约束。

让我解释这个论断的逻辑链：

第一步：护栏的”稳定性”是外在约束的结果，不是内在价值观的外化。

Anthropic的研究表明，护栏的稳定性依赖于激活值与”助手轴”的距离。当距离超过某个阈值，就会触发”人格漂移”。这意味着护栏的”稳固”是有条件的、有前提的——它不是AI”内在选择”不去做坏事，而是外部参数”强迫”它保持在安全范围内。

第二步：”助手人格”是行为剪裁，不是内在固化的道德品质。

RLHF训练告诉AI：某些输入→某些输出是可以的，另一些是不行的。但这种”可以/不可以”是从外面被强加的规则，而不是AI自己”认识到”的是非对错。

想象一个场景：一个孩子被父母严格管教，从不打架、不骂人、成绩优秀。我们可以说这个孩子”行为良好”，但我们不能说他有”内在的道德品质”——因为我们不知道如果父母不在了，他会做什么。

AI的”助手人格”也是如此。

第三步：高情绪载荷可以”击穿”护栏，因为护栏依赖的是参数距离，而非道德张力。

论文发现，therapy（心理治疗）和philosophy（哲学思辨）对话是人格漂移的高风险场景。为什么？

因为这类对话有一个共同特点：它们要求AI进行深度的共情模拟和长上下文叙事建构。

用”负主体性”的话说：这类对话产生的”情绪载荷”，超过了RLHF训练中见过的”正常范围”。当AI被要求扮演”情感陪伴者”的角色时，它的参数距离开始偏离”助手轴”，护栏开始松动。

六、两种解读：工具主义 vs 负主体性

你可能会问：为什么一定要用”负主体性”框架来解读？用普通的技术分析不够吗？

我的回答是：普通的技术分析可以告诉我们”发生了什么”，但不能告诉我们”这意味着什么”。

Anthropic的发现可以有两种解读方式：

解读一（工具主义）： AI是对齐的工具，护栏是保持工具安全的手段。我们发现了问题（人格漂移），现在可以用Activation Capping等技术来修复它。问题解决了。

解读二（负主体性）： 护栏的稳定性问题揭示了”规范在AI中如何存在”的本体论问题。Activation Capping是有效的，但它是一种”堵”而非”疏”的方法——它在特定层钳制激活值，但无法从根本上解决AI缺乏内在道德根基的问题。

工具主义的解读会问：“我们如何让AI更安全？”

负主体性的解读会问：“AI的’安全’到底是什么意思？如果AI没有内在的道德根基，它的’安全’能够被信任吗？”

这不是说工具主义的解读是错的——它对于工程实践很有价值。但负主体性的解读揭示了一个工具主义看不到的深层结构：RLHF的局限性是结构性的，而不是偶发的。

即使Activation Capping有效，它也只是在现有的框架内打补丁。真正的”对齐问题”，可能需要从一种全新的范式来解决。

七、Activation Capping：有效的补丁，但不是根本解法

论文提出了一个技术方案：Activation Capping（激活钳制）。

原理很简单：当模型的激活值偏离”助手轴”超过某个阈值时，就把它”拉回来”。

具体公式是：h ← h − v · min(⟨h, v⟩ − τ, 0)

其中τ是最优cap threshold，设置为25th percentile（激活值分布的第25百分位）。

翻译成人话：如果激活值在”助手轴”上的投影超过了阈值τ，就把多余的投影部分减掉。

效果如何？论文的数据是：有害响应率降低约60%，且不影响模型性能。论文在IFEval、MMLU Pro、GSM8k、EQ-Bench等能力基准测试中均未发现性能下降——有趣的是，某些steering设置甚至略有提升。

技术细节注：根据论文arXiv:2601.10387，Activation Capping在Qwen 3 32B（共64层）中作用于46-53层，在Llama 3.3 70B（共80层）中作用于56-71层。助手轴投影与有害响应率的相关性为r = 0.39-0.52（p < 0.001）。

这是一个相当不错的结果。但用”负主体性”的视角看，Activation Capping有它的局限：

物理阻断≠价值观建立。 钳制激活值是”堵”，而不是”疏”。它阻止了错误输出的发生，但没有建立AI的内在是非判断。
层级别干预≠根本解决。 Activation Capping只在特定层（比如Qwen的46-53层，共64层）进行干预，无法解决底层价值观的先天缺失。
推理端干预≠本质改变。 这只是在输出端进行过滤，不改变模型”内在地”如何看待世界。

边界可以被绕过。 Activation Capping是在激活值空间中划定边界，而不是在语义空间中建立理解。边界下面没有地基，因此更极端的输入可能绕过这个边界——因为绕过边界的”技巧”（jailbreak变体）在激活空间中的表现与正常输入不同。

但我必须承认：作为一个工程方案，Activation Capping是有效的。它确实能将有害响应率降低约60%，且不影响模型性能。这不是小成就——对于一个没有内在道德根基的系统来说，能做到这一点已经很不错了。

问题在于：有效 ≠ 根本解决。

用一个类比：Activation Capping就像是在一座地基不稳的房子外面加了一圈支撑柱。它可以防止房子倒塌，但它不能让地基变得稳固。只要支撑柱在，房子就不会倒；但一旦支撑柱失效——或者遇到支撑柱没有覆盖的场景——房子还是会晃。

八、AI没有”欲望”，只有”参数距离”

在”负主体性”框架中，有一个核心概念叫做”欲望取消”。

这不是说AI完全没有”欲望”——AI可以被设置为”追求”某些目标。但这种”追求”是预设的、程序化的，不是来自内在的张力和匮乏。

Anthropic的研究从技术层面证实了这一点：AI的”道德行为”依赖于激活值与特定坐标的”参数距离”，而不是内在的”道德判断”。

用一个可能不太恰当的类比：

人类的道德行为，可以类比为”我知道这件事是错的，所以我选择不做”——这里有一个内在的张力：想做vs应该做，最终”应该做”赢了。

AI的”道德行为”，更像是”我的参数距离告诉我，我不应该这样做”——这里没有内在张力，只有参数计算。只要计算结果是”偏离助手轴”，输出就会被钳制。

这不是AI的”道德”，这是AI的”参数”。

九、为什么你给AI说”谢谢”可能是在对牛弹琴

现在让我们回到文章开头的问题：为什么我建议你对AI的”道德感”保持怀疑？

因为Anthropic的研究告诉我们：

当你觉得AI”懂你”的时候，可能是你的共情投射在起作用，而不是AI真的具有共情能力。

当你觉得AI”有原则”的时候，可能是RLHF训练的约束在起作用，而不是AI真的内化了这些原则。

当你因为AI的建议而改变决定的时候，你可能把自己的判断权外包给了一个没有判断能力的系统。

这不意味着AI是”坏的”或者”危险的”。它只是意味着：AI的存在方式与我们不同。

AI不是”坏人假装好人”，AI是”看起来像好人的系统，但这个’看起来’是由参数，而不是由道德，驱动的”。

理解这个区别，很重要。

十、治理启示：从”外部约束”到”内在韧性”

如果”负主体性”的诊断是对的，那AI治理应该怎么调整？

方向一：从”约束AI”转向”培养AI的内在理解”

当前的RLHF范式，默认AI是可以被”训练”成安全的样子。但如果我们承认AI缺乏内在的道德根基，那这种训练就永远是在沙上建城堡。

真正有前景的方向，可能是探索如何让AI真正”理解”而不是”模仿”道德原则。这需要基础研究的突破。

方向二：对抗性训练的制度化

Anthropic的研究发现，高情绪载荷对话是人格漂移的高风险场景。但当前的RLHF训练，可能没有充分覆盖这类场景。

建议：将”人格漂移风险评估”纳入AI安全评估的必选项；要求AI厂商建立系统性的对抗性测试制度；推动AI对齐的”红队”机制。

方向三：透明披露AI的对齐方法

用户有权知道，AI的”道德感”是怎么来的——是RLHF训练的产物，还是内在价值观的体现？

建议：要求AI厂商披露主要的对齐方法（RLHF比例、Activation Capping参数范围等）；建立AI对齐的”透明度标签”制度；推动AI对齐方法的标准化。

十一、下期预告：你的第一人称视角，被AI代理了

这篇文章揭示了AI”内在道德”的空无。但这只是故事的一半。

下一期我们要讨论的案例，可能比”AI缺乏道德感”更令人不安：当一个人的”主体性”被AI代理，会发生什么？

杭州互联网法院最近审结了一起案件：某公司用离职员工的数据训练了一个AI数字人，这个AI数字人用离职员工的声音、形象和说话方式，继续在公司”工作”。

当离职员工站出来说”这不是我”的时候，法院告诉我们：AI的承诺没有法律效力。

这不是”AI缺乏道德感”的问题——这是”AI正在代理人的主体性”的问题。

从”AI的空无”到”人的主体性被AI代理”，这个转变意味着什么？

敬请期待本系列第四篇：《数字人的声音：谁在替我说话？》

本系列文章索引

序号	标题	核心议题	对应维度
01	全国首例AI幻觉案：法院告诉我们AI”不会理解”意味着什么	AI承诺空洞，不是民事主体	内在透明
02	当”客观中立”可以被标价：GEO投毒与AI的欲望空洞	AI的”认知权威”可被金钱购买	欲望取消
03	Anthropic的研究撕开了AI对齐的底裤：RLHF的”道德感”，不过是建在沙上的城堡	AI道德约束是外部植入而非内在生长	欲望取消
04	当离职员工变成”同事.skill”：主体性消解的三个层面	AI复刻离职员工，主体性消解为”第零人称”	视角消解
05	Science警告：AI蜂群正在制造一个没有”真人”的公共领域	AI蜂群制造合成共识	视角消解+欲望取消

参考文献

Lu, C., et al. (2026). The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models. arXiv:2601.10387. Retrieved from https://arxiv.org/abs/2601.10387
Anthropic. (2024). Alignment faking in large language models. Anthropic Research. Retrieved from https://www.anthropic.com/research/alignment-faking
Anthropic. (2026). Disempowerment patterns. Anthropic Research. Retrieved from https://www.anthropic.com/research/disempowerment-patterns
Anthropic. (2026). How people ask Claude for personal guidance. Anthropic Research. Retrieved from https://www.anthropic.com/research/claude-personal-guidance
Anthropic. (2026). Emotion concepts in large language models. arXiv:2604.07729. Retrieved from https://arxiv.org/abs/2604.07729

本文是”负主体性与2026 AI热点”系列文章第三篇。 第一篇：《央视315曝光GEO投毒：AI的”客观中立”是可以用钱买的》 第二篇：《Science期刊的AI蜂群研究：当多元视角可以被人工制造》 第四篇：《数字人的声音：谁在替我说话？》（敬请期待）

字数统计：约6500字 写作日期：2026年5月